かざいむ日誌

IT関係で知ったことなどを記事としてあげていきます。内容に不備や質問などあればぜひコメントをよせてください。

ラオス語学習アプリ。 テキストは表示されたが、和訳の精度がとんでもなく低い。アルゴリズムをちゃんと考えよう。

ラオス語学習アプリで、RSSフィードから本文を格納する処理は出来て、ラオス語の下に、日本語の逐語訳を表示させる流れは実装した。しかし、単語区切りがとんでもなく精度が低い。全く考えを詰めてなかったので、まずは、頻出キーワードで区切ればいいやと思い、試してみたら、思った以上に区切られず、知らない単語は全く区切られなかったw

これはひどい。音声の前に、まずはここをちゃんとしないと。

という訳で逐語訳を優先順位を上げて対応する。

やり方としては、音節で区切って、それを元に、辞書を検索し、複数件ヒットしたら、次の音節もくっつけて検索する、また名詞化で言葉の頭につくものは特別扱いして、2つの音節から始めるというのでどうだろう。

ラオス語は母音字と子音字の組み合わせで音節を構成していて、

パターンもそれほど多くない。

ຂ້ອຍຈະໄປຕະຫລາດ.  (コイジャパイタラート)

だと、

ຂ້ອຍ ຈະ ໄປ ຕະ ຫລາດ.(コイ ジャ パイ タ ラート)

という風に区切れて欲しい。

アの音だと、必ず区切れる、とか一度ルールを整頓する。

こういう時ってどういうアルゴリズムが良いんだろう。

f:id:name_untitled:20150923001744p:plain