10倍速タイ文字入力の最近のブログ記事
だいぶ時間が空きましたが、


前回までのエントリー
の続きです。
前回のエントリーを書いた直後に発表されたGoogle日本語入力。
素晴らしい実力です。
発表された直後から使い続けてますが、その経験でいうと日本語入力としての実力は
MSIMEのずっと上、ただしATOKにはちょっと及ばない
といったところです。
コンセプトがATOKとはちょっと違うので、時事単語のサジェスチョン等の機能を考えると見方によってはATOKより上の部分もありますが。
で、本題のタイ語入力についてです。
まず、課題が2点あります。
1. 1つのユーザー辞書に登録できる単語数が1万語に制限されている
2. タイ語に対応する日本語訳を表示できない
1.についてですが、PDICタイ語を音リンガルコンバーターで変換したトータル単語数は17万語くらいになります。
すると、17個もユーザー辞書を作らないといけないわけで、ちょっと面倒です。
が、本当の問題は2です。
まず、Google日本語入力の辞書登録画面を見てください。

ATOKやMSIMEと同様にコメント欄に日本語訳を登録することが可能です。
で、実際にタイ語辞書を登録して使ってみました。
それがこれ。

日本語訳を表示してくれません。
いろいろオプションをみてみたのですが、残念ながらコメント欄の日本語を表示してくれる方法が用意されていないようです。
残念ながらタイ語入力ツールとしてGoogle日本語入力は現時点で対象外のようですね。
ただ、Google日本語入力はリリースされたばかりで、現在まだベータ版(のはず?)です。
これから徐々に機能を充実させてくれるはずなので、今後に期待です!
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
前回までのエントリー
の続きです。
ここまでの結論としては
・MS-IMEにタイ語辞書を突っ込んでみた
・MS-IME2002/2003に予測変換の機能はないが候補のタイ文字が見やすいし比較的使いやすい
・MS-IME2007(Office2007版)の予測変換はあまり役に立たない
というものです。
残念ながらMS-IMEではタイリンのイメージしていた機能の50%くらいしか実現できないので、今回は本丸であるATOKを攻めてみたいと思います。
今回試したのは最新版のATOK2009
非常に高機能になっていて驚きました。
ATOKって昔使ってて確かに便利だったんですが、最新版を使ってみてここまで進化しているとは知りませんでした。
今回の目的はタイ語の推測入力を試すことだったんですが、普通に日本語入力の方もMS-IMEよりかなり早く入力できそうなので、この機会にATOKに乗り換えようと思います。
で、ATOKが非常に高機能だったので、どの機能を使ってタイ語の推測入力をしたら良いのか迷いました。
試行錯誤すること丸1日。
で、できました!
さすがATOK!!
どうやら「省入力候補」という機能を使えば良いようです。
手順を書いておきます。
1.タイ語辞書取り込み手順

↑ まず、ATOKメニューから「辞書メンテナンス」を選びます。

↑ サブメニューが展開されるので「省入力データ編集ツール」を選びます。

↑ 省入力データ編集ツールの画面
「取り込むデータ」で「テキストファイル」を選びます。

↑ 「取り込みファイル」に音リンガルで生成したCSVをちょこちょこっと加工したデータを選択します。
(加工の方法は後ほど説明)
「未登録データ出力先」ってのは、インポートできなかった単語のログが出力される先みたいです。
とりあえず適当に出力先を指定。
「取り込み実行」ボタンをクリックすると辞書データの取り込みが完了します。
2.取り込みデータのフォーマット

↑ これが音リンガルで自動生成されたCSVをメモ帳とかで開いたところ。
カンマ区切りですね。
これをATOKで取り込める形に変更してやります。
タイリンは例によって秀丸の置換を使いましたが、EXCELを使っても可能です。

↑ これが、ATOKで取り込みできるフォーマット。タブ区切りになってます。
(重要!)タイ語と日本語訳の間には「タブが2つ」入ってます。この事実がATOKマニュアルのどこにも書いて無くて、ここにたどり着くのに非常に苦労しました。
3.使ってみよう!
とりあえず使ってみましょう。
ポイントは「半角英数固定」を選ぶことです。

↑「半角英字」でも良いような気がするけど違いはまだ調べてません・・・。
何しろ色々調べることがあったので・・。
3-1.ポムラックムァンタイ(ผมรักเมืองไทย)とタイ語で書いてみよう!!
簡単な文章を作ってみます。
「ポム」「ラック」「ムァンタイ」と入力してみましょう。

↑ 「pom」と入力したところ。
ここで「TAB」キーをクリックすることで「pom」から始まる単語の候補一覧を表示することができます。

↑ 候補一覧が表示されます。非常にたくさんあります。
タイリンは既に一度「ผม」を入力したことがあるので、ATOKの学習機能によって候補の一番上に来てます。
「エンター」キーを押して確定します。

↑ 続いて「ラック(rak)」、「ムアンタイ(muantai)」と入力して次々に確定してきます。
これだけ!!
なんとも非常に簡単にタイ語の文章(ผมรักเมืองไทย)が入力できてしまいました。

↑ ちなみに、ATOKはなかなか賢くて一度入力した文章を覚えてるみたいです。
「pomrakmuantai(ผมรักเมืองไทย)」と一度入力したことがあればいきなりタイ語に文章を変換してくれるという親切設計。

↑ 「Tab」キーを押すと候補が表示されます。
さすがに日本語訳は表示されませんが(登録してないし)、自分で入力した文章なので日本語訳がなくてもなんとかなると思います。

↑ 「pom」と再度入力したところ。
今度は先ほど入力した「ポムラックムァンタイ(ผมรักเมืองไทย)」が候補の一番上に来ていますね。
これがATOKの学習機能です。
「Shift」+「Enter」でいきなりタイ語に変換することもできますし、「Tab」キーで候補一覧を表示することもできます。
3-2.MS-IME2007で敗北した「インディーティーダィルージャック」に再挑戦してみよう!

↑ 「yin」とだけ入力して「Tab」キーをクリック。

↑「yin」から始まる候補一覧が表示されます。
「知り合いになれて嬉しいです」を選んで「Enter」で確定!
MS-IME2007と違い、3回も入力する必要はありません!
一度も入力したことがない用語でもちゃんと候補表示してくれます。

↑ 学習機能によって、「yi」と入力しただけで、先ほど確定した用語が候補の一番上に来ています。
非常に便利。
ふー、書くの疲れた。
とまあ、機能の差はMS-IMEとATOKでは歴然としているんですが、そこまで便利じゃなくても
MS-IMEでも疑似推測入力ができる方法をニヤーイさんが発明してくれました!
4.(おまけ)MS-IMEで疑似推測入力する方法
辞書の方を加工して、各単語の読み方を最初の3文字だけにした新しい辞書をつくり、IMEに追加します。
(元の読み方はそのままIMEに残っています)
たとえば、このように。
aro อร่อย
aro อารมณ์
aro อารมณ์ดี
aro อารมณ์เสีย
これをIMEに追加登録して、「aro」と打ち込んで変換すると、上の4行が全部表示されるので、その中から選択します。最初の2文字では候補が多すぎます。3文字ってのがポイントですね。場合によっては候補が10個以上になるので探すのが大変ですが、全文字打ち込むよりははるかに楽でしょう。
しかもIMEの学習効果で、よく使う候補はリストの上位に集まってくるので、使えば使うほど探すのが楽になってきます。
やり方は、
1.辞書の加工は、エクセルで、左3文字を取り出す関数を使えば、すぐできます。保存はUnicode textで。
(私のはエクセル2002英語版ですが、無料版辞書24000行なら読み込みはあっという間です)2.IME登録のとき失敗単語がボロボロ出ますが、これは読み方を最初の3文字にしたため、「読み方+単語」の重複が発生したからです。本家は1個だけ登録されるので、気にしなくていいです。
3文字入力すればかなり候補が絞られるのでかなり便利になるのではないでしょうか。
結論:まず、MS-IMEで疑似推測入力を試してみる。でも、もっと便利なのがいいよ!という人はATOKを導入してみてください。
ATOK 2009 for Windows 通常版
posted with amazlet at 09.11.21
ジャストシステム (2009-02-06)
売り上げランキング: 243
売り上げランキング: 243
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
さて、前回のエントリー




前回と同じように候補が表示されます。




で、IMEにタイ語辞書を突っ込んでしまうという画期的な発明をしたにも関わらず特許を取り損ねた話を書きました。
今回はその続き。
今日のテーマはずばり!
Office IME 2007の予測入力を試そう!
です。
前回試したのはOffice2003にデフォルトでくっついてくるIME2003なんですが、2003に無くて2007にだけ有る便利な機能があります。
それが、「予測変換(Microsoftは予測入力と呼んでる。)」です。
予測変換って携帯で日本語入力するときに候補を表示して選ばせてくれるあれですね。
で、早速試してみました。
あ、その前にIMEのバージョンについて軽く説明しましょう。
VistaにもIME2007と呼ばれるなんちゃって2007が付いてきますが、このIMEには「予測入力」機能はありません。
Vista IME2007とOffice2007をインストールしたときに一緒にインストールされるOffice IME 2007は別物です
で、タイリンはタイに住んでるので、Office2007も入ってるんですが、英語版のOfficeです。
これをインストールしても、Office IME2007はインストールされないみたいです。
日本語版のOffice2007をインストールしないとダメみたいですね。
が、諦めるのはまだ早い。
実はOffice IME 2007ってのは無料でインストールする方法があります。
その方法とは・・・
って説明するのはここの本題じゃないので、
この辺の説明をみてください。
Windows Live IDを取得(無料)すれば、誰でもOffiice IME2007がインストールできます。
特に有効期限もありません。
で、とりあえずOffice IMEがインストール終わったので、タイ語辞書をIMEにインポートしてみました。
・・・・。
・・・・。
・・・・。
遅い。遅いでござーる。

↑がんばってインポートしてるところ。12万件くらいあります。
IME2003の時は一瞬で終わったインポートがいつまでたっても終わらない!
なぜ性能が退化する!?
なんとあり得ないことに5分くらいかかってようやく取り込みが終わりました。
で、早速使ってみます。
ポイントは、「半角英数」じゃなくて、「全角英数」を選ぶところ。

IME2007になって、「直接入力」が無くなったみたいで、「半角英数」が「直接入力」みたいな扱いになった様です。
ちょっと見た目が不格好になりますが、仕方ありません。
気を取り直して、とりあえず前回と同じ「ran」を入力。(←後で気づきましたが前回は「ran」じゃなくて「rap」でした。ま、いーけど・・・。)

↑ 「全角英数」なので見た目がちょっと不格好。
そこは目をつぶって、「変換」ボタンをぽちっと押すと・・・

前回と同じように候補が表示されます。
・・・が、なんというか・・・
ポップアップのタイ語が小さいよ!!
見づらいじゃないか!!!
しかも余計なスペース空けすぎ!!!!
「環境依存文字」とか余計なお世話じゃ!!!!!
・・・と、なんか最初から使いづらさ満載感が漂ってるんですが、とりあえずそこにも目をつぶりましょう。
何しろ「予測入力」という画期的な機能が付与されているのですから。
で、「予測入力」の恩恵を最大限に得るためにサンプルとしてちょっと長めのタイ語を選んでみました。
それは・・・
「ยินดีที่ได้รู้จักครับ」(インディーティーダィルージャック クラップ)・・・初めまして、お知り合いになれて嬉しいです。
これです。
これを正統派方式で入力していたらちょっと大変ですね。
長い文章を打ち込むとスペルミスもあるかもしれません。
で、早速試してみました。

「yinditidairujakrap」っと
あれ?
全部打ち込んでしまったぞ。
一体いつ予測入力してくれるの?
ここにきて、初めて「予測入力」の使い方について調べてみますた。
すると・・・
・・・なんと!!!
以前に入力した文章!!!
色々調べてみると、どうやらこの「予測入力」という機能は
「以前に3回以上変換したことのある単語について」
予測入力をしてくれるそうです。
ガ━━(゚Д゚;)━━━ン!
3回って・・・
それって意味あるのか!?
仕方ないので3回入れてみました。

↑ 1回目。
無事変換できました(当たり前じゃ)。
2回目。
3回目。
そして運命の4回目!!
キタ━━━━ヽ(・∀・` )ノ━━━━!!!!
↓これです。

↑これ。
TIP UPで「TABキーを押すと予測候補を表示します」と表示されますた。
そして指示通りに「TAB」を押してみると・・・ ↓

予測変換キタ━━━━(゚∀゚)━━━━!!!!
最初の2文字「yi」を入れた時点で予測変換が来ました!
・・・って遅いよ!!!!
3回も入力さすな!!!!
まったく。
携帯電話のIMEでさえ入力してない用語の予測変換できるのに、なぜPCのIMEがその程度のことできない?
というか、予測変換とか置いておいて、IME2007って本当に変換精度が悪いですね。
IME2003もひどかったけどさらに退化してない?
と、感じているのはタイリンだけじゃなく、実はマイクロソフトの元社長、古川氏もブログで同じこと言ってます。
某MS社員に、「MS IME最近どうなっているのよ?」と先週聞いた答えが...
「IME開発の主体が、中国にシフトしまっていて我々も手を出せない......
個人的にはATOKに切り替えようと思っている」と言う現役開発系社員の発言に絶句!!!
MSの社員がATOKに乗り換えるって・・・・( ゚Д゚)ポカーン
しかし、IMEって中国で開発してたのか。
だから時々妙に難しい漢字が候補の上位に出てくるわけだ。
結論:Office IME 2007の予測変換のメリットは薄い、さらにIME2007自体の頭が悪すぎます
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
タイ文字入力ソフトの記事が続きます。







例によって以前のエントリー
で、タイ文字入力ソフトが作りたいと書きました。
いきなり作り始めず、ずっと構想を練っていました。
どんな入力方法が一番便利なのか、パフォーマンスが最適で、かつユーザーインターフェースが使いやすいこと。
どんな方法がいいのかな~って色々調べてたら1つの光明が!
なんと!
何の開発もなく、タイ文字の入力を画期的に早くする方法を発見してしまいました!
その方法とは・・・
「日本語IMEにタイ語辞書をつっこんじまえばいーんじゃない!?」
という画期的なもの!!
実際に試してみました。
百聞は一見に如かず。
下の例を見てください。
↑「rap」と入力し「変換」ボタンを押すと・・・

なんと!
該当するタイ語が候補選択できてしまう!!
という画期的なもの。
色々複雑なことを考えていたんですが、シンプル・イズ・ベストなことに気がつきました。
仕組みはいたって簡単です。
1.音リンガルコンバーターで生成したCSVファイルを秀丸でちょいっと加工
(IMEで辞書取り込みできる形式に直しました)
2.IMEで辞書取り込み
こんだけ!!
なんと2アクションでタイ文字知らない人もさくさくタイ人とチャットできてしまうという画期的な仕組みです。
(変換候補に日本語の意味が表示されるので、そこから選ぶだけ)
1を軽く説明しますと、音リンガルコンバーターで生成したCSVってメモ帳とかで開いてみると
↓こんなフォーマットになっています。

CSVっていうくらいなので、カンマ区切りですね。(Comma-Separated Values)
これをIMEでインポートできるフォーマットに直してあげます。
具体的には、カンマ区切りじゃなくて、タブ区切りにしてあとちょこちょこって修正するだけです。

なんとなく、こんな形になっていればOK。
色んな方法があると思いますが、とりあえずタイリンは秀丸で置換しただけです。
あとは、IMEの「ツール」→「辞書ツール」を開いて・・・

↓ 「テキストファイルからの登録」で、さっきタブ区切りにしたテキストファイルを選択します。

あとは、勝手にどんどん取り込んでくれるので、これで完成です。
さっき試したら13万件くらい取り込まれちゃいました。
処理はかなり早いです。
で、使い方のポイントですが・・・・

「入力モード」を「半角英数」にします!!!(重要!)
(ちなみに、Office2007をインストールしてる人はOffice IME 2007がインストールされていて、「半角英数」では変換が使えないみたいなので、「全角英数」を使ってください。)
IMEってほとんどの人は「直接入力」か「ひらがな」しか使わないと思いますが、
「半角英数」にすると、アルファベット入力にもかかわらずタイ文字に変換ができてしまうのです。
なんとシンプルで画期的!!
特許をとろうかとも思ったのですが、残念ながら誰でも真似できるほどシンプルな方法だったのでここに公開しておきます。
ちなみに秀丸で置換って、わかってる人はあっさり実現できちゃうと思いますが、知らない人には敷居が高いと思うのでそのうちツールを作っておきます。
個人的な経験では、タイ文字入力って日本語入力に比べると3倍くらい難しい気がします。
タイ語初心者が正攻法でたどたどしくタイ文字入力するスピードに比べて、上記方法だと10倍くらい早い気がします。
(上級者ともなれば、正攻法の方が早いですけどね!)
ちなみに、Office 2007を使っている人はOffice IME 2007がインストールされているので、「予測入力」が使えます。さらに便利。(重いけど)
いずれにせよこれ実現したかったでタイ文字入力ソフトの50%完成してしまいました。
(当初イメージしていた方式とはかなり違った形になっちゃいましたが)
しかし、まだこれだけでは50%、現状ではゴールまでまだまだ道半ば、かな。
もうちょっと構想を練らねば。
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
以前のエントリー

で、「タイ文字入力ソフトが作りたい」と書きました。
思ったからといってすぐに作り出さないのがタイリンの良いところ。
入力ソフトってのは使い勝手が非常に重要なので、最初の構想が非常に重要です。
適当に作り始めると結局何の使い物にもならない無駄なソフトが出来上がってしまいます。
で、構想を練るために、考えました。
他の言語の入力ソフトってどうなってるのかな~。
って思ってたら、中国語の入力ソフトがすごいことになってたみたいです。
↑この記事によるとGoogleが開発した中国語ピンイン(入力)ソフトがすごいらしい。
ローマ字を入力してさくさく中国語に変換できちゃうらしいのです。

↑中国語が読めないけど、なんかすごく簡単に変換できそう ヽ(・∀・`*)ノヤッタ━゚
そもそもマイクロソフトのIMEがあるはずだと思うんですが、なんでわざわざGoogleが入力ソフト(IME)を開発したのかって言うと、マイクロソフトのIMEには色々不満があるらしいのです。
それを解決するためにGoogle自ら開発してしまったのだとか。
Googleは世界中の優秀な技術者を集めているので、当然中国人のプログラマーも多数在籍しているのでしょう。
このIMEは彼らの努力の結晶と思われます。
タイリンはタイ語の文字入力もピンイン(変換)方式にしてしまえば良いと思っています。
こんな優秀な中国語入力ソフトを開発できるGoogleなので、タイ語の入力ソフトだってあっという間に実現してしまうことでしょう!
後はGoogle社員になれるほどの優秀なタイ人技術者が増えるのを待つだけ!!!
・・・実現は遠いなぁ・・・。
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
「思っちゃったんだからしょーがない」。


とは、私がポッドキャストで愛聴している、JUNK爆笑問題カウボーイの1コーナーのタイトルです。
ついさっき思っちゃったのです。だからしょーがない。
何の話かって?
タイ文字入力ソフトを開発してみよう、という話です。
私は一人で思索するのが好きなのでタイリンガルのコンテンツについても、あーだこーだアイディアを思いついては、その度にボツにしていきます。
タイリンガルのコンテンツはなるべくたくさんの人に使ってもらいたい。しかし、同時に自分が楽でなければならない。
最小限の労力で最大限の効果がないアイディアはだめなのです。
常にいくつかのアイディアがあるのですが、速攻でボツになるものや、なんらかの問題があって保留状態になっているアイディアも結構あります。
で、さっきぼんやりと考えていたのが「タイ文字入力ソフト」の開発についてです。
このアイディアは「あー、まあ、これならなんとかいけるかも」と思えてきました。
これは結構珍しいことです。
「いける」と思えるということは、「成功時のイメージが想像できる」ということなのです。
そういうことはなかなかあるものではありません。
で、もう何の話をしているのか全然わからないと思うので、説明すると、こんな感じでうつらうつら考えていたのです。
・タイ文字を簡単に入力するためのソフトを開発してみたらどうだろう
・タイ語上級者ではなく、タイ文字入門者~中級者を対象にするのが良い
・タイ文字がすらすら書ける人は、富士山で言えば8合目~頂上にいる人でタイ語学習者の数パーセントに過ぎない
・3合目~7合目にいるその他大勢の学習者を対象にすれば需要がある気がする
・タイ語を音でしか覚えてない学習者がタイ文字を正確に入力するのは難しいのではないか
・敷居を下げるためには、ローマ字で入力できる方がいい
・Googleなんかの検索エンジンで使われているサジェスチョン機能を使えばいいのではないか
・しかし、サジェスチョン機能を使うには辞書データが必要だなぁ
・そっか、PDICタイ語の辞書データ使えばいいじゃん
・ローマ字からタイ語を引くには「音で引く辞書」が便利だ
・タイ語の音をローマ字で入れたらタイ文字を候補入力するソフトにしたらいーのでは
・・・と、心に思いゆく由無し事を、ひぐらし硯にむかひて書き綴ってみました。
要するに現状ではタイ語レベルが頂上付近にいる人しかタイ文字入力ができないので、保管機能をつかってタイ文字入力の敷居を下げてあげるソフトを作ってみよう、と思っちゃったんだからしかたない、のです。
タイ文字を直接入力せず、ローマ字入れたらタイ文字の候補をずらずらっと出してくれれば初心者でもタイ文字が入力できてしまうぞ、というアイディアです。
ま、ちょっと考えてみただけでもいくつか課題点が思いつくのですが、別に完璧なものじゃなくてもかまわないでしょう。
ちなみに、サジェスチョン(候補選択)を使うアイディアは昔からあって、問題があったので保留になっていたものでした。
以前のアイディアでは、ブラウザ上でタイ文字の最初の2文字くらい入れた段階でサジェスチョンを表示できたらいいかな~、というアイディアだったのですが
・ネット上で自分が好きに使える辞書データがない
ということで、実現していませんでした。
以前はローマ字を入れたらタイ文字をサジェスチョンしてくれる、というアイディアは思いつかなかったので今回の方式ならなんとかなりそうです。
レスポンスの問題やら辞書データの問題やらで、ブラウザ上での実現は難しそうなので、Windowsアプリでの実現になりそうですが。

↑これは今EXCELで作った、検索イメージ。ローマ字で「pom」と入れると辞書データから候補を引っ張ってきてくれる。
思っちゃったんだから仕方がない、というどーでもいい話でした。
ちなみに、以前「音で引く辞書をパソコンで使いたい」と、ブログで書いてから、実際に作ってみるまで8ヶ月くらいかかっているようです。
(開発に8ヶ月かかっているわけではなく、開発に着手するまでに8ヶ月)
ということは、このアプリの公開は2010年の6月くらい・・・かな?
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る

