タイ語の機械翻訳について(3)

タイ語→日本語

の翻訳サービスの実験です。

翻訳サービスを実現するためには2つの機能が必要です。

 1.タイ語の文章で単語と単語を正確に区切ってあげること
 2.大量の辞書データが登録されていること

はっきりいって、どっちも面倒です。
特に1の単語と単語を区切ってあげるのは、面倒なアルゴリズムをプログラミングしてやる必要があります。
それはおいおいやるとして、今回は2の辞書データだけで翻訳してみました。
理論的には完璧な辞書データがあれば、1は不要のはずです。

辞書データですが、今回はただの実験なので最大級の見出し数を誇る「PDICタイ語」を使うことにしました。
私は有料会員なので47000語が登録されています。

単語と辞書データとのマッチングですが、今回は簡単にサクッと作るために、データベースに登録してやることにしました。
で、早速翻訳してみました。

翻訳元のソースは同じく「クルンテープトゥラキット」の

 ・オイルの値段が下がったよ

の記事です。

howtouse.jpg








記事全文をコピーしてテキストエリアに貼り付け。「翻訳」クリック。

以下は翻訳結果
------------------------------------------------------------------------------------------------

ราคาน้ำมัน | ดิบ | ร่วง | 2.36$ | ต่ำสุด | ใน | รอบ | 1 | ปี |
原油価格 | 生の | 【文語】落ちる | 2.36$ | 最下位の | ~の中で | 周期 | 1 | 【類別詞】何歳 |

ราคา น้ำมัน | ดิบ | ใน | ตลาดล่วงหน้า | NYMEX | ร่วง | ลง | ต่อไป | หลังจาก | ตลาด | ปิด | ทำการ | ใน | วันพฤหัสบดี | โดย | ลงไป | แตะ | จุดต่ำสุด | ใน | รอบ | เกือบ | 12 | เดือน |
原油価格 | 生の | ~の中で | 先物市場 | NYMEX | 【文語】落ちる | 下がる | 次に | ~した後で | 市場 | 止める | 仕事をする | ~の中で | 【文語】木曜日 | ~によって | 落下する | さわる | どん底 | ~の中で | 周期 | 今にも~する | 12 | 月 |

กรุงเทพ ธุรกิจ | ออนไลน์ | : | ในขณะที่ | ตลาดหุ้น | ตรี | ทด | นักลงทุน | กังวล | ว่าการ | ร่วมมือกัน | ของ | ธนาคารกลาง | ทั่วโลก | ในการ | ปรับ | ลด | อัตราดอกเบี้ย | อาจจะ | ไม่ | สามารถ | สกัดกั้น | ภาวะเศรษฐกิจ | โลก | ถดถอย |
クルンテープトゥラキット新聞 | 【外】オンライン | : | ~の間 | 株式市場 | 【文語】数詞の三 | 堤防 | 投資家 | 心配する | 指示する | 助けあう | 物 | 中央銀行 | 全世界 | ~において | 調整する | 値引きする | 利率 | たぶん~かもしれない | ~でない | ~する能力がある | 妨げる | 経済状況 | 地球 | 後退する |

ราคาน้ำมัน | ดิบ | ส่งมอบ | เดือน | . | . | ดิ่ง | ลง | 2.36 | ดอลลาร์ | หรือ | 2.65% | มา | ปิด | ตลาด | ที่ | 86.59 | ดอลลาร์ | ต่อ | บาร์เรล | หลังจาก | เคลื่อนตัว | ในช่วง | 85.32-89.82 | ดอลลาร์ |
原油価格 | 生の | 納入する | 月 | . | . | 一直線に | 下がる | 2.36 | ドル | へえ! | 2.65% | 来る | 止める | 市場 | 場所 | 86.59 | ドル | 乗り換える | バレル(石油の量の単位) | ~した後で | 動く | 間に | 85.32-89.82 | ドル |

โดย | หลังจาก | ตลาด | ปิด | ทำการ | ราคาน้ำมัน | ดิบ | ได้ | ร่วง | ลง | แตะ | 84.19 | ดอลลาร์ | ซึ่ง | ถือ | เป็น | จุดต่ำสุด | นับตั้งแต่ | แตะ | 83.50 | ดอลลาร์ | ใน | วันที่ | 15 | . | . | ปี | 2007 | เป็นต้น | มา |
~によって | ~した後で | 市場 | 止める | 仕事をする | 原油価格 | 生の | ~できる | 【文語】落ちる | 下がる | さわる | 84.19 | ドル | ~するところのもの | 手に持つ | できる(能力的に) | どん底 | ~以来 | さわる | 83.50 | ドル | ~の中で | 日付(~月~日) | 15 | . | . | 【類別詞】何歳 | 2007 | ~など | 来る |

ราคาน้ำมัน | heatingoil | ส่งมอบ | เดือน | . | . | ดิ่ง | ลง | 7.59 | เซนต์ | หรือ | 3.04% | ปิด | 2.4186 | ดอลลาร์ | ต่อ | แก | ราคาน้ำมัน | เบนซิน | RBOB | ส่งมอบ | เดือน | . | . | ขยับ | ลง | 0.25 | เซนต์ | หรือ | 0.12% | ปิด | 2.0273 | ดอลลาร์ | ต่อ | แก |
原油価格 | heatingoil | 納入する | 月 | . | . | 一直線に | 下がる | 7.59 | 【外】セント(米国通貨) | へえ! | 3.04% | 止める | 2.4186 | ドル | 乗り換える | てめい | 原油価格 | 【外】ガソリン | RBOB | 納入する | 月 | . | . | 動かす | 下がる | 0.25 | 【外】セント(米国通貨) | へえ! | 0.12% | 止める | 2.0273 | ドル | 乗り換える | てめい |

ราคาน้ำมัน | ดิบ | รน | ส่งมอบ | เดือน | . | . | ที่ | ตลาด | กรุง | ลอนดอน | ดิ่ง | ลง | 1.70 | ดอลลาร์ | ปิด | 82.66 | ดอลลาร์ | ต่อ | บาร์เรล |
原油価格 | 生の | 静かにしていられない | 納入する | 月 | . | . | 場所 | 市場 | 首都 | 【地名】ロンドン | 一直線に | 下がる | 1.70 | ドル | 止める | 82.66 | ドル | 乗り換える | バレル(石油の量の単位) |


------------------------------------------------------------------------------------------------
翻訳結果終わり

複数の日本語訳が登録されている場合は、とりあえず1番目の訳だけ採用しました。

結論としては「PDICタイ語」大変優秀です。
何の最適化もしてないのに、何となく何が言いたいかわかります。

タイ文字のことなんて全然知らない人が見てもなんとなく意味がわかるんじゃないでしょうか。
タイ語のことをちょっとでも知っている人が見るとより理解が深まります。

タイ語というのは「後置修飾」なので、例えば「綺麗な花」と言いたい時は

「花」+「綺麗な」

と「花」に対して後ろから「綺麗な」を修飾します。

上の翻訳結果で言うと例えば「原油価格 | 生の」となっているところは、日本語の語順に直すと「生の原油価格」になります。(まぁ、何となく意味はわかりませんが・・・)


ところで、今回は作りを簡単にするために、辞書データを全部データベースに登録してみました。
この作り方の問題点は、文章が長くなると大量のSQLを発行するはめになる点です。

たぶん上の例で言うと、この文章を翻訳するのにSQLを100回以上発行しています。
これは都合が悪いです。
私の使っているレンタルサーバーに大量の負荷がかかります。
場合によっては、サーバーの会社から私が怒られてしまうかもしれません。

しかも、翻訳に時間がかかります。
上記の文章を日本語に翻訳するのに約5秒~6秒かかりました。

それに対して「thai2english.com」は同じ文章を訳すのに2秒以内で結果が返ってきました。
どうやって辞書データとマッチングしているのか不明ですが、何となくデータべースを使っているわけではないような気がします。

これがマイサーバーなら、ASP.NETやJavaのサービス起動時にメモリー上に辞書ファイルを全部常駐させて置けるのですが、レンタルサーバーではそうはいきません。
使える言語はPHPかPerlくらいです。

そんなわけで今回の結論です。

 ・PDICタイ語は非常に優秀
 ・タイ語を知らない人でも何となく意味が掴める
 ・データベースに辞書データを入れておくと作りが簡単だけど処理に時間がかかる
 ・「辞書データ」を別にしても「thai2english.com」と同レベルのものを作るのはとても疲れる

残念ながらPDICタイ語のデータを勝手に公開するわけには行かないので、自分一人でこっそり翻訳して遊ぶくらいしか使い道がないのですが・・・。







ブログランキングに参加しています

にほんブログ村 外国語ブログ タイ語へ
タイ・ブログランキング
にほんブログ村 海外生活ブログ タイ情報へ

「タイリンガル」本サイトへ戻る

トラックバック(0)

このブログ記事を参照しているブログ一覧: タイ語の機械翻訳について(3)

このブログ記事に対するトラックバックURL: http://www.tlin.jp/MT/MT-4.01-ja/mt-tb.cgi/161

コメント(8)

当店はロレックス デイトナスーパーコピー、ルイヴィトン 財布 コピー、ルイヴィトン 財布スーパーコピーをはじめブランド時計、バッグ、財布偽物の外観から細部まで本物と同様です。驚きの低価格でロレックス デイトナ コピー時計、エルメス バーキン コピーを通販します。更に2年無料保証です。ルイヴィトン 財布 スーパーコピー等の新品、高い品質、激安 、送料は無料です(日本国内)!
ガガミラノ ダイビング スーパーコピー http://www.ooobrand.com/bags/bv/index.html

2016超人気のシャネル スーパーコピー 代引き激安老舗です.高品質のシャネル コピー,シャネル 財布 コピー,シャネル バッグ コピー,シャネル 時計 コピー、シャネル 靴/スリッポン コピー品を激安価格で通販中!弊社の全ての商品は優秀な素材と抜群な作工は完璧に融合します。100%実物写真!品質が佳いです!お客様優先、良い品質、価格激安、多い選択!ご注文の方は、ご連絡下さい。お客様を期待!!
ロレックス 買取 http://www.bestevance.com/gaga/manual48/GW49COLOREPK.html

新発売のD-Star Rattrapante限定版ダブルカウントダウン追い針自動時計で、独特の黒い霧面ハイテクセラミック素材が落ち着いた腕時計質感を内に秘め。珍しいエタクロノグラフムーブメントを搭載し、着用者を開始時間は同じでも、持続時間の異なる2つの異なる2つのカウントダウン事件、秒針と同時にスタート、その一つに停止してリセットに達する「を」別の秒針の追針効果、多用途のタイマー機能レーダー表を見せて時計の高い基準を求める。D-Star Rattrapanteダブルカウントダウン追い針自動時計世界限定250だけ、すべての腕時計は独立限定番号だけ限定于板桥や新竹大远百のレーダーテーブル名品店独自の専用。絶えず革新を追求のレーダー表は皓星シリーズは専属の先端注射ダイ法を構築し、究極の滑らかなケース構造、一体成型とっさ明る目。て丸いボックス文字板の外観デザインからインスピレーションをめぐって土星の魅惑ハレーション、腕時計の愛人をつけて、いつでもお互いの幸福をめぐる雰囲気の中で。ディオールスーパーコピーこのシリーズの腕時計も搭載エタ自動ムーブメント、黒い腕時計のシンプルなデザインに汗が展示間美学、白たゆうダイヤモンドを散りばめ崁デザイン4粒のダイヤは3、6、9、12時間尺度で、優雅な女性に適して笑顔で美しい光が眩しい。
シャネル時計 ボーイフレンド mp3 http://www.fujisanbrand.com/watch/ap/offshore/24283edd644799e0.html

シードウェラー (Sea-Dweller) 1971年発売。サブマリーナーの派生モデルでヘリウムガスを抜くためのバルブがケースの9時位置につき飽和潜水に対応している。初期型は防水性能610mのRef.1665、Cal.1575。直径40mm。三針式で回転ベゼルを有する。日付はあるが破損の危険性を減らすためサイクロプスレンズはついていない。1980年に防水能力が1220mのRef.16600、Cal.3135に移行したが後述のディープシーの発売により、2008年に生産が打ち切られた。その後、2014年にニューモデル(Ref.116660)として生産再開が発表された。すべての製品がクロノメーター認定を受けている。
シャネル時計 レディース 人気 k-pop http://www.ooowatch.com/tokei/bvlgari/ergon/2e30e14bf125e937.html

最初のものは、エマニュエル・ブーシェの合併症の1つに不思議な三次元のダイヤルを除いて通知のうちの場合、サファイアクリスタル。後者はといえば、私はより多くの時計会社を使用したドーム型サファイア結晶のようなこのグレアの傾向ではないことを願います。 ブランドコピー時計 と同様に、このサファイア結晶に及ぼすarコーティングの他の通知をしなければ何か特定の形状と厚み。まだ具体的には、私はパネライ、あなたを思っています。
クロムハーツ スーパーコピー セットアップ レディース http://www.brandiwc.com/brand-29-copy-0-cheap-0-max0-attr2139.html

コメントする


画像の中に見える文字を入力してください。

このブログ記事について

このページは、タイリンが2008年10月10日 12:28に書いたブログ記事です。

ひとつ前のブログ記事は「タイ語の機械翻訳について(2)」です。

次のブログ記事は「改善要求ありがとうございます」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。