ラオス語学習アプリ。 テキストは表示されたが、和訳の精度がとんでもなく低い。アルゴリズムをちゃんと考えよう。
ラオス語学習アプリで、RSSフィードから本文を格納する処理は出来て、ラオス語の下に、日本語の逐語訳を表示させる流れは実装した。しかし、単語区切りがとんでもなく精度が低い。全く考えを詰めてなかったので、まずは、頻出キーワードで区切ればいいやと思い、試してみたら、思った以上に区切られず、知らない単語は全く区切られなかったw
これはひどい。音声の前に、まずはここをちゃんとしないと。
という訳で逐語訳を優先順位を上げて対応する。
やり方としては、音節で区切って、それを元に、辞書を検索し、複数件ヒットしたら、次の音節もくっつけて検索する、また名詞化で言葉の頭につくものは特別扱いして、2つの音節から始めるというのでどうだろう。
ラオス語は母音字と子音字の組み合わせで音節を構成していて、
パターンもそれほど多くない。
ຂ້ອຍຈະໄປຕະຫລາດ. (コイジャパイタラート)
だと、
ຂ້ອຍ ຈະ ໄປ ຕະ ຫລາດ.(コイ ジャ パイ タ ラート)
という風に区切れて欲しい。
アの音だと、必ず区切れる、とか一度ルールを整頓する。
こういう時ってどういうアルゴリズムが良いんだろう。