タイ語の機械翻訳について

タイ語の機械翻訳について以前から気になってました。
英語やら中国語、韓国語なんかはフリーの機械翻訳サイトがいくらでもあるのに、なぜタイ語の機械翻訳サイトってないんだろう?ってのがずっと疑問だったのです。

"Japanese2Thai.com"というサイトがありますが、これも
 ・日本語→タイ語
の翻訳のみ。しかも、機械翻訳なのでかなり怪しいタイ語が出てきます。需要があるんでしょうか?

需要が多いのはやはり

 ・タイ語→日本語

の機械翻訳だと思うのですが、これをやってくれるサイトは私の知る限り1つしかありません。

 ・thai2english.com

これです。
残念ながら日本語には翻訳してくれませんが

 ・タイ語→英語

を翻訳してくれます。
翻訳と言っても、英語っぽい文章に直してくれるわけではなく、タイ語の文章を単語に分割して各タイ語にマウスカーソルを合わせるとその単語の意味が表示される仕組みです。

それだけといえばそれだけですが、正直このサイトはかなり優秀です。
なぜならこんな優秀な点があります。

 ・登録された語彙数が多い
 ・処理が早い
 ・単語の切れ目を結構正確に見極めてくれる
 ・発音記号が表示される

そもそも、タイ語の文章を翻訳するのは英語を翻訳するよりも敷居がずっと高いのです。
英語なら単語と単語の間がスペースで切れてるのでどれが1つの単語なのか明らかですが、タイ語は単語の切れ目がありません。

タイ語の文章を機械翻訳するためには大雑把に言って2つの機能が必要です。

 1.文章の中から単語と単語の切れ目を探す
 2.大量の辞書データの中から訳を探す

タイ語の文章で特に難しのは1です。
単語と単語の切れ目を探すのが非常に難しいのです。

タイ語というのは基本的に

 ・「子音」+「母音」
 ・「子音」+「母音」+「末子音」

の組み合わせで構成されています。
この「末子音」というのが曲者で、文章になっているとその子音が「末子音」なのか、次の単語の頭の子音(「頭子音」)なのか判断に迷うこともしばしばです。
これを機械的に判断させるのはなかなか困難です。

タイ文字が最速で読める講座にも書きましたが、タイ文字というのは読み方が1つに決まらない場合も多いです。文章になっていれば尚更1つに決まらない場合が多くなります。
例外パターンもたくさんあります。

にも関わらず、このthai2english.comはかなり正確に単語を切ってくれます。
仮に辞書データに登録されていない単語でも、発音記号を表示してきます。それもかなり正確です。


そんなわけで、単語と単語の間を機械的に切るのが難しいタイ文字文章ですが、それを補ってくれるのが2の「辞書データ」です。

例えば「いつも」を意味するเสมอ(サムー)ですが、辞書データ無しで単語を区切ろうとすると2パターンあります。

 ・เส(セー)と มอ(モー)で2つの単語
 ・เสมอ(サムー) で1つの単語

たぶん機械的に切っていくと「セー」と「モー」の2つに切ってしまいます。
ここで単語を正確に切る助けをしてくれるのが「辞書データ」です。

仮に「セー」と「モー」で切ってみます。辞書データで意味を調べます。そんな単語はありません。
辞書データで「サムー」を調べます。ありました。従って「サムー」であるとわかります。

大量の辞書データがあれば、かなり正確に単語を区切れることがわかります。





ブログランキングに参加しています

にほんブログ村 外国語ブログ タイ語へ
タイ・ブログランキング
にほんブログ村 海外生活ブログ タイ情報へ

「タイリンガル」本サイトへ戻る

トラックバック(0)

このブログ記事を参照しているブログ一覧: タイ語の機械翻訳について

このブログ記事に対するトラックバックURL: http://www.tlin.jp/MT/MT-4.01-ja/mt-tb.cgi/159

コメントする


画像の中に見える文字を入力してください。

このブログ記事について

このページは、タイリンが2008年10月10日 11:46に書いたブログ記事です。

ひとつ前のブログ記事は「タイ語の学習は会話が先かタイ文字が先か」です。

次のブログ記事は「タイ語の機械翻訳について(2)」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。