音で引くタイ語辞書の最近のブログ記事
まだ、エラー処理も全然入れてませんが例によってとりあえず動くようになったので、先に公開してみました。
従ってバージョンも、Ver0.1です。
名前も決まりました。
『音リンガルコンバーター』
と命名されました。
ここからダウンロードできます。
インストールおよび設定方法はここのページで説明しています。
このツールは発展途上です。
岡滋訓氏による明文化されたルールはほぼ網羅されていますが、明文化されていない暗黙?のルールがいくつか存在していてそれらはまだ完全に実装していません。
今後徐々に実装していく予定です。
ちなみに、現時点での制限事項も若干あります。思いつく限りここに書いておきます。
従ってバージョンも、Ver0.1です。
名前も決まりました。
『音リンガルコンバーター』
と命名されました。
ここからダウンロードできます。
インストールおよび設定方法はここのページで説明しています。
このツールは発展途上です。
岡滋訓氏による明文化されたルールはほぼ網羅されていますが、明文化されていない暗黙?のルールがいくつか存在していてそれらはまだ完全に実装していません。
今後徐々に実装していく予定です。
ちなみに、現時点での制限事項も若干あります。思いつく限りここに書いておきます。
- 音節末の末子音(「-t」「-l」「-p」)は、なくても検索できる、というルールが存在します。
これは元々の辞書ファイルであるPDICタイ語の発音記号の「-(ハイフン)」「 (半角スペース)」を見て実装しています。
原則としてPDICタイ語では、音節と音節の間は「-(ハイフン)」で繋ぎ、単語と単語の間は「 (半角スペース)」で繋いでいるようです。
この原則を元に、音節末、または単語末の「-t」「-p」「-k」を判定していますが、時々、音節と音節の間が「-(ハイフン)」で繋がれていないことがあります。
例えば「こんにちは」を意味する「サワッ(ト)ディー」は「サワット(sawat)」と「ディー(dii)」の2音節から構成されていると推測されますが、実際の辞書では「sawat-dii」と2音節で登録されておらず、「sawatdii」と1音節として登録されています。これは恐らく最初の時期に登録された単語だからかもしれません。
後の方に登録された単語は音節間は「-(ハイフン)」で繋がれています。
従って、本来のルールに従えば「sawatdi」でも検索できるし、音節末の「-t」を抜いて「sawadi」でも検索できるはずなのですが、実際には「sawatdi」でしか検索ができない状況です。 - 「ก(コーカィ)」を使用する単語は、「k(カ)」でも「g(ガ)」でも検索できるが、同じ単語内ではどちらか一方だけを使う。
これは説明が難しのですが、次の例を見て下さい。
「ゴーゴーバー(koo-koo-baa)」
タイ語で書くと「โกโก้บาร์」です。
1つの単語に
「ก(コーカィ)」が2つ入っています。
この場合厳密に処理しようとすると
「go-go-ba」
「go-ko-ba」
「ko-go-ba」
「ko-ko-ba」
とそれぞれの「ก(コーカィ)」を「k」と「g」に分けると1つの単語が4つに増殖してしまいます。
「ก(コーカィ)」が2つだから、4つの増殖で済みますが、仮に1つの単語に「ก(コーカィ)」が3つ入っていると、全パターンを網羅するために、1つの単語が8つに増殖してしまいます。
これをやってしまうと単語が際限なく増殖してしまうので、次の勝手ルールを設定しています。
・同じ単語に「ก(コーカィ)」がいくつ入っていても、1つの単語内では「k」だけ、または「g」だけを使う
例えば「koo-koo-baa」で言うと
「ko-ko-ba」
又は
「go-go-ba」
だけを採用します。
同じ単語のなかで、「ก(コーカィ)」の部分に「k」と「g」を混在させることはしません。
この勝手ルールの採用で、単語が際限なく増殖しないようにしています。
また、例として「ก(コーカィ)」を挙げましたが、他のタイ文字についても同様のルールを適用しています。
例えば「生まれる」を意味する「เกิด(グート)」は発音記号で
ですが、この「k」と「t」に挟まれた「e」を逆にしたような文字は「a(ア)」と「u(ウ)」と中間の発音です。
従って、「เกิด(グート)」はルールに従って
「gut」
「gat」
の2つの単語に増殖します。
この「a」と「u」の中間の発音記号についても、同じ勝手ルールが適用されます。
仮に元の単語の中にこの「a」と「u」の中間の発音記号がいくつ存在しても、分裂後の単語内では「a」だけ、または「u」だけを含めます。
単語が分裂するときは、すべてこの勝手ルールを適用しています。
(補足事項)これはルールではありませんが、PDICタイ語内には、単語の他に用例が登録されています。
例えば次のような用例です。
เกิดวันพุธ เป็นมิตรกับอาทิตย์ และศุกร์ เป็นกลางกับอังคาร พฤหัสบดี และเสาร์
(【用例】水曜日生まれは日曜日と金曜日生まれと相性がよく、火曜日、木曜日、土曜日生まれとは中間です。)
これらの用例を削除してやれば、増殖する単語数を減らせるかと思っていましたが、実際にはそれほど減らなかったので、用例もそのまま、音で引くタイ日辞書化しています。
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
続いて使ってみました編です。
働く日本人の味方「秘書」です。
はい、「レーカー(leekhaa)」ですね。
タイ語には、英語と同じく「l(エル)」のラ行と「r(アール)」のラ行がありますが、日本人には区別が難しいかもしれません。
従って、ラ行に聞こえる音は全部「r」で検索できます。

欲しいものランキング第一のお金です。
しかも、現金です。
「(ン)グンソット(ngun-sot)」ですね。
この「ง(ンゴーングー)」から始まるタイ語は発音が難しいのですが、この辞書では全部「g」で済ませます。
「g」で引いてください。「g」です。

お仕事されてる人は夕方になるとこう思ってると思います。
「早く帰りたい」。
はい、「グラップバーン(klap-baan)」です。
この「kl」は少し説明が必要かもしれません。
二重子音です。
普通は「子音」+「母音」のパターンなのですが、一部
「子音」+「子音」+「母音」のパターンがあります。
それが二重子音です。
この二重子音は聞こえないことも多いです。
ひどいのは、特にイサーン出身のタイ人は二重子音を発音してない時があります。
例えば、魚はタイ語で「プラー(plaa)」です。
二重子音ですね。
でも、一部のタイ人は最初から「パー(paa)」と発音しています。
これでは二重子音を正確に聞こえるはずがありません。最初から言ってないんだから。
でも、安心して下さい。
そんな時もちゃんと引けるのがこの「音で引くタイ語辞書」の良いところです。
下の写真は「ガッバーン(kaban)」で引いています。「l(エル)」はどこかへ行ってしまいました。でも、ちゃんと引けますね。
(ちなみに、ここではさらに末子音「-p」も省略して引いています。)

もちろん、「グラッバーン」とちゃんと入れても引けます。
「kraban」です。

グラッバーンなので、「graban」でも「gaban」でもOKです。

ちなみに、タイ語にはこの二重子音のパターンがいくつかあります。
でも、この辞書で使うのは↓これくらいです。
・kr
・kw
・tr
・pr
・gr
・gw
↑最後の2つ「gr」「gw」は本当のタイ語の発音記号には存在しません。この辞書だけです。
本当のタイ語の発音記号で言うと
「kr」「kl」「kw」「khr」「khl」「khw」「tr」「thr」「pr」「pl」「phr」「phl」
こんな感じでいっぱいあります。
でも、そんなこと覚えなくても引けてしまうのがこの辞書の良いところです。
下の例は、二重子音の中でも「kw」の代表格「クワーム+〇〇」です。
ここでは、幸せ「クワームスック」を例にあげています。
ここでは
「クワームスック(kwamsuk)」と正確に引いています。

こちらの例は二重子音がうまく、聞き取れなかった場合。
「カームスック」に聞こえてしまった場合です。
「kamsuk」でちゃんと引けています。

働く日本人の味方「秘書」です。
はい、「レーカー(leekhaa)」ですね。
タイ語には、英語と同じく「l(エル)」のラ行と「r(アール)」のラ行がありますが、日本人には区別が難しいかもしれません。
従って、ラ行に聞こえる音は全部「r」で検索できます。

欲しいものランキング第一のお金です。
しかも、現金です。
「(ン)グンソット(ngun-sot)」ですね。
この「ง(ンゴーングー)」から始まるタイ語は発音が難しいのですが、この辞書では全部「g」で済ませます。
「g」で引いてください。「g」です。

お仕事されてる人は夕方になるとこう思ってると思います。
「早く帰りたい」。
はい、「グラップバーン(klap-baan)」です。
この「kl」は少し説明が必要かもしれません。
二重子音です。
普通は「子音」+「母音」のパターンなのですが、一部
「子音」+「子音」+「母音」のパターンがあります。
それが二重子音です。
この二重子音は聞こえないことも多いです。
ひどいのは、特にイサーン出身のタイ人は二重子音を発音してない時があります。
例えば、魚はタイ語で「プラー(plaa)」です。
二重子音ですね。
でも、一部のタイ人は最初から「パー(paa)」と発音しています。
これでは二重子音を正確に聞こえるはずがありません。最初から言ってないんだから。
でも、安心して下さい。
そんな時もちゃんと引けるのがこの「音で引くタイ語辞書」の良いところです。
下の写真は「ガッバーン(kaban)」で引いています。「l(エル)」はどこかへ行ってしまいました。でも、ちゃんと引けますね。
(ちなみに、ここではさらに末子音「-p」も省略して引いています。)

もちろん、「グラッバーン」とちゃんと入れても引けます。
「kraban」です。

グラッバーンなので、「graban」でも「gaban」でもOKです。

ちなみに、タイ語にはこの二重子音のパターンがいくつかあります。
でも、この辞書で使うのは↓これくらいです。
・kr
・kw
・tr
・pr
・gr
・gw
↑最後の2つ「gr」「gw」は本当のタイ語の発音記号には存在しません。この辞書だけです。
本当のタイ語の発音記号で言うと
「kr」「kl」「kw」「khr」「khl」「khw」「tr」「thr」「pr」「pl」「phr」「phl」
こんな感じでいっぱいあります。
でも、そんなこと覚えなくても引けてしまうのがこの辞書の良いところです。
下の例は、二重子音の中でも「kw」の代表格「クワーム+〇〇」です。
ここでは、幸せ「クワームスック」を例にあげています。
ここでは
「クワームスック(kwamsuk)」と正確に引いています。

こちらの例は二重子音がうまく、聞き取れなかった場合。
「カームスック」に聞こえてしまった場合です。
「kamsuk」でちゃんと引けています。

ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
ちなみに、使ってみました。
「プージャッガーン」なんて、職場で働く日本人には必須な単語を引いてみました。
聞こえる音は「phuu-cat-kaan」ですが、ルールに従って、長母音の「uu」や「aa」は短く「u」と「a」となります。
また、「จ(チョーチャーン)」ですが、これは聞く人によって「チャ」にも「ジャ」にも聞こえます。
従って「cha」で引いても「ja」で引いてもどちらでもOKです。
下の例では「ja」で引いてます。
「pujakan」でも「puchakan」でも、どちらでも出てきます。

さらに言うと、「ก(コーカィ)」ですが、これは聞く人によって「カ」にも「ガ」にも聞こえます。
だから「kan」でも「gan」でも、どちらでもOKです。
従って、この場合
「pujakan」
「pujagan」
「puchakan」
「puchagan」
と4通りの引き方が用意されてるわけですね。
どうりで単語が増加するはずだと思いませんか?
続いて、意地悪な単語「ジャイラーィ」を引いてみました。
心をあらわす「ジャィ」には、先ほど説明した「จ(チョーチャーン)」が使われています。
私には、「チャィ」というより、「ジャィ」に聞こえるので、「jairai」で引いてみました。

もちろん、「チャイラーィ」でもOKです。
その場合は、「chairai」で引けます。
こんな感じ↓でちゃんと引けますね。
例によって、聞こえる音は「chairaai」かもしれませんが、長母音の「aa」は「a」と短くなります。

そろそろ疲れてきたのでコーヒーが飲みたくなってきました。
「ガーフェー」です。
普通に英語の発音で考えると「カフェー(kafee)」なのですが、カフェの「ก(コーカィ)」は
「カ(ka)」というよりも、どちらかというと「ガ(ga)」に近い音です。
その証拠に、お店で「カフェー」と言っても通じないことがありますが、「ガフェー」と言えばほぼ通じます。
従って↓の写真は「gafe」で引いてます。

でも、「カフェー」と聞こえた人が引けないのでは意味がありません。
「kafe」でもちゃんと引けます。
ほら、この通り↓

くどいようですが、実際の発音記号をみると、「ガーフェー(kaafee)」となっています。
でも、「ガフェー(kafee)」と聞こえても、「ガーフェ(kaafe)」と聞こえても、ちゃんと引けるのがこの辞書の良いところです。
夜も更けてきたので、シャワーを浴びたいところです。
「アップナーム(aap-naam)」です。

長母音「aa」が「a」と短くなることはくどいほど説明しました。
でも、「アーナーム(aa-naam)」と聞こえたらどうしましょう?
タイ語の末子音「-p」「-t」「-k」というのは、発音するかしないかといった程度の音しか聞こえません。
聞き落してしまうこともあると思います。
そんな場合も安心です。
↓これがその証拠です。

「アーナーム(aa-naam)」と聞こえてしまっても、
「anam」でちゃんと引けますね。
末子音「-p」「-k」「-t」が聞き取れなくても、ちゃんと引けるように作ってあります。
なぜなら、岡滋訓氏のルールにそう書いてあるからです。
「プージャッガーン」なんて、職場で働く日本人には必須な単語を引いてみました。
聞こえる音は「phuu-cat-kaan」ですが、ルールに従って、長母音の「uu」や「aa」は短く「u」と「a」となります。
また、「จ(チョーチャーン)」ですが、これは聞く人によって「チャ」にも「ジャ」にも聞こえます。
従って「cha」で引いても「ja」で引いてもどちらでもOKです。
下の例では「ja」で引いてます。
「pujakan」でも「puchakan」でも、どちらでも出てきます。

さらに言うと、「ก(コーカィ)」ですが、これは聞く人によって「カ」にも「ガ」にも聞こえます。
だから「kan」でも「gan」でも、どちらでもOKです。
従って、この場合
「pujakan」
「pujagan」
「puchakan」
「puchagan」
と4通りの引き方が用意されてるわけですね。
どうりで単語が増加するはずだと思いませんか?
続いて、意地悪な単語「ジャイラーィ」を引いてみました。
心をあらわす「ジャィ」には、先ほど説明した「จ(チョーチャーン)」が使われています。
私には、「チャィ」というより、「ジャィ」に聞こえるので、「jairai」で引いてみました。

もちろん、「チャイラーィ」でもOKです。
その場合は、「chairai」で引けます。
こんな感じ↓でちゃんと引けますね。
例によって、聞こえる音は「chairaai」かもしれませんが、長母音の「aa」は「a」と短くなります。

そろそろ疲れてきたのでコーヒーが飲みたくなってきました。
「ガーフェー」です。
普通に英語の発音で考えると「カフェー(kafee)」なのですが、カフェの「ก(コーカィ)」は
「カ(ka)」というよりも、どちらかというと「ガ(ga)」に近い音です。
その証拠に、お店で「カフェー」と言っても通じないことがありますが、「ガフェー」と言えばほぼ通じます。
従って↓の写真は「gafe」で引いてます。

でも、「カフェー」と聞こえた人が引けないのでは意味がありません。
「kafe」でもちゃんと引けます。
ほら、この通り↓

くどいようですが、実際の発音記号をみると、「ガーフェー(kaafee)」となっています。
でも、「ガフェー(kafee)」と聞こえても、「ガーフェ(kaafe)」と聞こえても、ちゃんと引けるのがこの辞書の良いところです。
夜も更けてきたので、シャワーを浴びたいところです。
「アップナーム(aap-naam)」です。

長母音「aa」が「a」と短くなることはくどいほど説明しました。
でも、「アーナーム(aa-naam)」と聞こえたらどうしましょう?
タイ語の末子音「-p」「-t」「-k」というのは、発音するかしないかといった程度の音しか聞こえません。
聞き落してしまうこともあると思います。
そんな場合も安心です。
↓これがその証拠です。

「アーナーム(aa-naam)」と聞こえてしまっても、
「anam」でちゃんと引けますね。
末子音「-p」「-k」「-t」が聞き取れなくても、ちゃんと引けるように作ってあります。
なぜなら、岡滋訓氏のルールにそう書いてあるからです。
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
話がどんどん飛びますが、いきなり変換ツールの使い方の話です。というか、説明です。
変換手順はこんな感じです。
1.PDICを立ち上げる
2.PDICの辞書変換機能をつかって、タイ語の辞書ソフトをCSV形式でファイル出力する
3.音で引くタイ語辞書作成ツールで、CSVファイルを読み込んで変換する
4.変換したCSVファイルをPDICの辞書変換機能をつかって、PDIC形式の辞書に変換する
5.変換したPDIC形式の辞書ファイルを登録する
1は説明するまでもないと思いますが、PDICを知らない人はここのページの説明をみてPDICタイ語をインストールしておいてください。
2は具体的にはこんな手順です。
すると、CSV形式でファイルが出力されます。
PDICタイ語の辞書ファイルには無料会員バージョンと、有料会員バージョンがありますが、私は有料会員なので、単語数がめちゃくちゃ多いです。大体、4万7500行くらいあって、ファイルサイズが9Mもあります。秀丸で開くだけで1分以上かかります。
従って変換処理もそれなりにかかるので覚悟が必要です。
手順の3はツールをみれば、わかると思います。

ちなみに開発中ですが(大体終わってる)、↑こんな、芸のない画面になってます。
なんと、恐ろしいことに変換すると、4万7千件の元単語が14万件に増えました。
変換に1分以上かかります。旧式PCをお使いの方は数分覚悟しておく必要があります。
でも、それだけの価値があると思うのですが。タイ語の検索がとっても楽になります。
4のPDICに取り込む手順はこんな感じです。
5の辞書グループへ登録する手順です。
変換手順はこんな感じです。
1.PDICを立ち上げる
2.PDICの辞書変換機能をつかって、タイ語の辞書ソフトをCSV形式でファイル出力する
3.音で引くタイ語辞書作成ツールで、CSVファイルを読み込んで変換する
4.変換したCSVファイルをPDICの辞書変換機能をつかって、PDIC形式の辞書に変換する
5.変換したPDIC形式の辞書ファイルを登録する
1は説明するまでもないと思いますが、PDICを知らない人はここのページの説明をみてPDICタイ語をインストールしておいてください。
2は具体的にはこんな手順です。
- メニューの「Tools」→「辞書の変換」を選択
- 「転送元辞書」は「PDIC形式」が選択されていることを確認して、「参照」ボタンからPDICタイ語の辞書ファイルを選択。
(普通はC:\Program Files\Personal Dictionary (Unicode) あたりに入ってます。ファイルサイズの大きいやつです。私のところだと、「Uni-PdicThai-039b.dic」って名前になってました。) - 「転送先辞書」は「CSV形式」を選択して「参照」ボタンから、どこでも良いので出力したい場所を選ぶ。
- 「OK」ボタンを押して、CSVファイルを出力
すると、CSV形式でファイルが出力されます。
PDICタイ語の辞書ファイルには無料会員バージョンと、有料会員バージョンがありますが、私は有料会員なので、単語数がめちゃくちゃ多いです。大体、4万7500行くらいあって、ファイルサイズが9Mもあります。秀丸で開くだけで1分以上かかります。
従って変換処理もそれなりにかかるので覚悟が必要です。
手順の3はツールをみれば、わかると思います。

ちなみに開発中ですが(大体終わってる)、↑こんな、芸のない画面になってます。
なんと、恐ろしいことに変換すると、4万7千件の元単語が14万件に増えました。
変換に1分以上かかります。旧式PCをお使いの方は数分覚悟しておく必要があります。
でも、それだけの価値があると思うのですが。タイ語の検索がとっても楽になります。
4のPDICに取り込む手順はこんな感じです。
- メニューの「Tools」→「辞書の変換」を選択
- 「転送元辞書」は「CSV形式」を選択して、「参照」ボタンから3で作成したのCSV形式の辞書ファイルを選択。
- 「転送先辞書」は「PDIC形式」を選択して「参照」ボタンから、どこでも良いので出力したい場所を選ぶ。
- 「OK」ボタンを押して、PDIC形式の辞書ファイルへ変換
- OKを押すといろいろ聞かれるかもしれませんが、すべてデフォルトでOKして、「以降自動処理」を選んでおいてください
5の辞書グループへ登録する手順です。
- メニューの「File」→「辞書グループ編集」を選択
- 下の方に「辞書追加」ボタンがるので、4で作成した「PDIC形式」の辞書ファイルを選択してOK。
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
ここでちょっと、音で引くタイ語辞書を使うためのルールについて説明します。
これは、使う人にとっては大変重要な話です。
「音で引くタイ日実用辞典」の制作者、岡滋訓氏による、明文化されたルールだけをここに記載します。
・ルール1
・ルール1の例
・ルール2の例
しかし、もうちょっと詳しいルールを岡氏が説明されています。
これも、知っておいた方が良いルールです。
これは、使う人にとっては大変重要な話です。
「音で引くタイ日実用辞典」の制作者、岡滋訓氏による、明文化されたルールだけをここに記載します。
・ルール1
聞いた音をローマ字表記する。・ルール2
日本語にない音は、その音に一番近いと感じる日本語の音に置き換える。
従って、母音は[a・i・u・e・o]の5つだけを使う
母音・子音にかかわらず、同じ文字が二文字以上連続した場合は、それを1文字にする
(声調記号はすべて無視する)
・ルール1の例
- [ラン]と聞こえた音はlanもranもlangもすべてローマ字的にranにする
- [チャン]と聞こえた音はcanもchanもchangもすべてローマ字的にchanにする
- [タン]と聞こえた音はthanもtanもthangもすべてローマ字的にtanにする
・ルール2の例
基本的なルールはこれだけです。
- [saai]と聞こえた音はsaiにする
- [an-nan]と聞こえた音はananにする
- [naa-aan]と聞こえた音はnanにする
しかし、もうちょっと詳しいルールを岡氏が説明されています。
これも、知っておいた方が良いルールです。
・補足ルール1語尾、または音節末に来る末子音が[-k][-p][-t]の内、どの音なのか判断に迷う場合は、末子音を抜いて検索することもできる
[解説]話す、というタイ語の「プート」はローマ字に直すと[phuut]ですが、最後の[-p]は聞き取りにくかったり、聞こえなかったりするかもしれません。この場合の[-p]が末子音です。検索するときは、この[-p]を抜いても検索ができます、ということです。(ちなみに、phはpに直し、連続する[uu]は[u]に直すので[put]又は[pu]で検索します)
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
ここから、ほとんどの人にとっては関係のない話が続くかもしれません。
開発時の自分の健忘録的なことを書いていきます。
まず、いきなりですが、重要なのが↓これです。

これは、PDICタイ語で採用されている、発音記号を表示するためのフォント「Thai Phonetic YK」です。
ブログには、発音記号を貼れないので、EXCELに書いたものを貼っておきます。
タイ語の発音記号を表現するために、Thai Phonetic YKでは、だいたい40個くらい特殊な文字を使っています。
それが上の表です。
PDICタイ語の発音記号をコピーして、WORDとかEXCELとかに貼ると、たぶん右の表みたいにわけのわからない文字が出てくると思います。
こいつをまず、母音については「a」「i」「u」「e」「o」の5つに集約してあげます。
なぜなら、「音で引くタイ日辞典」のルールに
・発音記号は一切使わない
とあるからです。
開発時の自分の健忘録的なことを書いていきます。
まず、いきなりですが、重要なのが↓これです。
これは、PDICタイ語で採用されている、発音記号を表示するためのフォント「Thai Phonetic YK」です。
ブログには、発音記号を貼れないので、EXCELに書いたものを貼っておきます。
タイ語の発音記号を表現するために、Thai Phonetic YKでは、だいたい40個くらい特殊な文字を使っています。
それが上の表です。
PDICタイ語の発音記号をコピーして、WORDとかEXCELとかに貼ると、たぶん右の表みたいにわけのわからない文字が出てくると思います。
こいつをまず、母音については「a」「i」「u」「e」「o」の5つに集約してあげます。
なぜなら、「音で引くタイ日辞典」のルールに
・発音記号は一切使わない
とあるからです。
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
前回書いた記事は、実は途中で消えてしまってとても悲しい思いをしました。本当はもっと長かったのですが、消えてしまったので、続きを書く気力がなくなってしまいました。
でも、がんばって続きを書きます。
で、パソコンで使える「音で引くタイ日実用辞典」がずっと欲しかったのですが、誰も作ってくれなので、仕方ないから自分で作ることにしました。
作り方は分かっています。
自分でタイ語辞書を作るわけにはいかないので、既存のタイ語辞書を活用します。
具体的には、こちらのページでパソコンで使えるタイ語辞書を説明していますが、私のPCには「PDICタイ語」と、「白石昇 泰日辞書」が入っています。
このうち、白石氏の辞書には発音記号がないので、変換するのが大変そうです。
しかし、「PDICタイ語」には発音記号があるので、この発音記号を変換してやるのが簡単そうです。
このPDICには辞書ファイルをCSVで書き出す機能が標準でついているので、辞書ファイルをCSVで吐き出してやって、それを「音で引くタイ語辞書」のルールに則って、変換、そしてまたPDICに戻してやれば良いだけです。
実に簡単ですね。
では、なんで構想だけあって、今まで手をつけてこなかったのでしょうか。
それは、以前に変換ツールを作ろうとおもって、「タイ日実用辞典」を詳しく調べていたら、実はルールが非常に多く、変換すると単語の数が膨大に増えてしまうことが分かってきたからです。
この音で引く辞書の「岡滋訓」氏は、後半辞書部分で、検索方法とルールの説明をしているのですが、実はそれ以外にも説明されていないルールが複数存在していて、それらを1つ1つピックアップしているうちに、疲れてきて、ちょっと面倒だな、と思い始めて、そのまま放ったらかしになっていたというわけです。
私が怠けている間に、PDICタイ語のサイトでローマ字引き版辞書PDICタイ語が公開されていました。
私は最初「おぉ!私の求めていた音で引くタイ語辞書か!?」
と少し期待して使ってみたのですが、実際には発音記号を単純にローマ字に直しただけの、似て非なる辞書でがっかりしました。これでは全く意味がないのです。
正確に音が聞き取れた場合にしか使えないのでは、次第に引く気力を失っていきます。私が欲しいのは「耳で聞いたタイ語」が簡単に引ける辞書だからです。
そんなわけで、自分で作ってみました。
当初懸念だった、単語数が膨大に増えてしまう問題は、勝手にルールを追加して単語数の増殖を防ぐようにしておきました。
とりあえず単語の変換ルールが多いので、私が勝手ルールをいっぱい追加しています。
今8割くらいできていて、もう私のPDICでは実際に音で引くタイ語辞書が動いています。
自分で作っておいて手前味噌ですが、簡単にタイ語が引けるのでちょっと感動しちゃいました。
例によって、お手軽に作るために使いなれたVB.NETで作ってしまいました。
手元にあったのがVisual Studio2008だったので、例によって.netframeworkを入れないと動かないかもしれませんが、まぁ、どうせ最初の1回しか使わないので我慢してください。
公開できるのはもうちょっと後になると思いますが、↓こんな感じで動いてます。
「pasi」で税金(phaasii)も引けるようになってます。

でも、がんばって続きを書きます。
で、パソコンで使える「音で引くタイ日実用辞典」がずっと欲しかったのですが、誰も作ってくれなので、仕方ないから自分で作ることにしました。
作り方は分かっています。
自分でタイ語辞書を作るわけにはいかないので、既存のタイ語辞書を活用します。
具体的には、こちらのページでパソコンで使えるタイ語辞書を説明していますが、私のPCには「PDICタイ語」と、「白石昇 泰日辞書」が入っています。
このうち、白石氏の辞書には発音記号がないので、変換するのが大変そうです。
しかし、「PDICタイ語」には発音記号があるので、この発音記号を変換してやるのが簡単そうです。
このPDICには辞書ファイルをCSVで書き出す機能が標準でついているので、辞書ファイルをCSVで吐き出してやって、それを「音で引くタイ語辞書」のルールに則って、変換、そしてまたPDICに戻してやれば良いだけです。
実に簡単ですね。
では、なんで構想だけあって、今まで手をつけてこなかったのでしょうか。
それは、以前に変換ツールを作ろうとおもって、「タイ日実用辞典」を詳しく調べていたら、実はルールが非常に多く、変換すると単語の数が膨大に増えてしまうことが分かってきたからです。
この音で引く辞書の「岡滋訓」氏は、後半辞書部分で、検索方法とルールの説明をしているのですが、実はそれ以外にも説明されていないルールが複数存在していて、それらを1つ1つピックアップしているうちに、疲れてきて、ちょっと面倒だな、と思い始めて、そのまま放ったらかしになっていたというわけです。
私が怠けている間に、PDICタイ語のサイトでローマ字引き版辞書PDICタイ語が公開されていました。
私は最初「おぉ!私の求めていた音で引くタイ語辞書か!?」
と少し期待して使ってみたのですが、実際には発音記号を単純にローマ字に直しただけの、似て非なる辞書でがっかりしました。これでは全く意味がないのです。
正確に音が聞き取れた場合にしか使えないのでは、次第に引く気力を失っていきます。私が欲しいのは「耳で聞いたタイ語」が簡単に引ける辞書だからです。
そんなわけで、自分で作ってみました。
当初懸念だった、単語数が膨大に増えてしまう問題は、勝手にルールを追加して単語数の増殖を防ぐようにしておきました。
とりあえず単語の変換ルールが多いので、私が勝手ルールをいっぱい追加しています。
今8割くらいできていて、もう私のPDICでは実際に音で引くタイ語辞書が動いています。
自分で作っておいて手前味噌ですが、簡単にタイ語が引けるのでちょっと感動しちゃいました。
例によって、お手軽に作るために使いなれたVB.NETで作ってしまいました。
手元にあったのがVisual Studio2008だったので、例によって.netframeworkを入れないと動かないかもしれませんが、まぁ、どうせ最初の1回しか使わないので我慢してください。
公開できるのはもうちょっと後になると思いますが、↓こんな感じで動いてます。
「pasi」で税金(phaasii)も引けるようになってます。
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
もうずっと構想だけあって、ほったらかしにしてあった開発にようやく着手し始めました。
その構想とは、『音で引くタイ語辞書』ソフトの作成です。
私は普段ほとんど紙の辞書を使いません。
PCのタイ語辞書ソフトを使っています。
(PCのタイ語辞書ソフトの使い方はこちら)
ついでに、携帯電話はX01HTを使っています。
これは、Windows Mobileの入った今はやりのスマートフォンというやつで、PC版のタイ語辞書ソフトと同じPDICがインストールできてしまいます。
つまり、PCの辞書ソフトPDICがそのまま、携帯でも使えてしまうので、外出先でもタイ語を調べることができます。
しかしです。
1つだけ紙の辞書でないと困るものがあります。
それが、『音で引くタイ日実用辞典』です。
タイ語というのは、英語を違って発音を聞いて、単語を推測するのが困難な言語です。
例えば
タイ語で『税金』をなんというか知っていますか?
カタカナでいうと「パーシー」です。
この「パーシー」の意味を知らなかったとします。
タイ人に「パーシー」と言われて意味がわからなかった時、どうやって意味を調べたら良いのでしょう?
少しタイ文字を勉強したことがある人なら
「パ」行には、破裂音の「パ(p)」と、日本語の「パ」に近い有気音の「パ(ph)」があることがわかります。
耳の良い人ならどちらの「パ」を言っているのか聞き取れるかもしれませんが、それだけではタイ文字を推測できません。
タイ語には同じ音を表すタイ文字が複数存在するからです。
例えば
・破裂音のパ(p)
『ป』・・・phoo-plaaのป
・有気音のパ(ph)
『พ』・・・phoo-phaanのพ
『ภ』・・・phoo-samphawのภ
『ผ』・・・phoo-phwnのผ
と「パ」だけで、4つのタイ文字が存在します。
厳密にいえば、『พ』『ภ』の2つと『ผ』では声調が違いますが、慣れてないと聞き分けるのは困難でしょう。
パ行はまだ良い方で、絶望的なのは「タ行」です。
破裂音の「タ(t)」が3つ、有気音の「タ(th)」が5つ、計8文字もタイ語の「タ」が存在します。
上記はほんの一例ですが、タイ文字というのは、非常に複雑怪奇にできていて音から聞いてタイ文字を推測するのが非常に困難な言語です。
そんなわけで最初の税金に話を戻して、「パーシー」と聞いてその単語を知らないのに
・ภาษี
とタイ文字を推測できる人は非常に稀でしょう。
そこで登場するのが、前述の「音で引くタイ日実用辞典」です。
この辞典は、前半辞書、後半辞書の2部で構成されています。
前半の辞書は、聞こえた音をそのまま、発音記号で引くことができます。
例えば、「パーシー」と聞こえたのであれば、「paasii」又は「phaasii」と推測できるので、とりあえず
・「paasii」
で引いてみます。
・・・出てきません。
つまり破裂音の「パ」ではなかったのです
従って、有気音の「パーシー(phaasii)」で引いてみます。
・・・出てきました!
・「phaasii」(←実際には[i]のところに声調記号がついています)
で、「税金」「ภาษี」と引くことができます。
でも、タイ語の発音に慣れていない人は、「パ」が破裂音なのか、有気音なのか聞き分けができないかもしれません。前半の辞書ではうまく引ける可能性は1/2です。
これは面倒ですね。
その為に、後半の辞書が役に立ちます。
この後半部分の辞書は
・あるルールに則って
・聞いた音をローマ字に置き換えて引く
だけの非常に簡単な辞書です。
基本的に知っておくルールが少し存在しますが、非常に簡単です。
具体的にルールの例をあげると
1.ラ行の[l]と[r]は、日本人には聞き分けにくいので、すべて[r]に置き換える
2.パ行の[p]と[ph]は、すべて[p]に置き換える
3.母音・子音にかかわらず同じ音が2文字以上連続したら、それを1文字にする
といった具合です。
3のルールが少し特殊でわかりにくいかもしれません。
例えば「パーシー(phaasii)」ですが、人によっては「パーシ」や「パシー」又は「パシ」と聞こえた人がいるかもしれません。
そうすると2のルールに則って[ph]も[p]もすべて、[p]で検索できるとしても
・paasi
・pasii
・pasi
と、候補がいくつか出てきてしまいます。
それを1回で検索できるようにするための仕組みが3つめのルールなのです。
つまり、「paasii」も「paasi」も「pasii」も「pasi」も検索するときは
・pasi
です。
実際に今辞書を引いてみたら、「pasi」で
・[paasii][税金](←実際には[i]のところに声調記号がついてきます。)
と出てきました。
私はこの後半部分の音で引く辞書こそ、パソコンでの検索に適していると思っていました。
その構想とは、『音で引くタイ語辞書』ソフトの作成です。
私は普段ほとんど紙の辞書を使いません。
PCのタイ語辞書ソフトを使っています。
(PCのタイ語辞書ソフトの使い方はこちら)
ついでに、携帯電話はX01HTを使っています。
これは、Windows Mobileの入った今はやりのスマートフォンというやつで、PC版のタイ語辞書ソフトと同じPDICがインストールできてしまいます。
つまり、PCの辞書ソフトPDICがそのまま、携帯でも使えてしまうので、外出先でもタイ語を調べることができます。
しかしです。
1つだけ紙の辞書でないと困るものがあります。
それが、『音で引くタイ日実用辞典』です。
タイ語というのは、英語を違って発音を聞いて、単語を推測するのが困難な言語です。
例えば
タイ語で『税金』をなんというか知っていますか?
カタカナでいうと「パーシー」です。
この「パーシー」の意味を知らなかったとします。
タイ人に「パーシー」と言われて意味がわからなかった時、どうやって意味を調べたら良いのでしょう?
少しタイ文字を勉強したことがある人なら
「パ」行には、破裂音の「パ(p)」と、日本語の「パ」に近い有気音の「パ(ph)」があることがわかります。
耳の良い人ならどちらの「パ」を言っているのか聞き取れるかもしれませんが、それだけではタイ文字を推測できません。
タイ語には同じ音を表すタイ文字が複数存在するからです。
例えば
・破裂音のパ(p)
『ป』・・・phoo-plaaのป
・有気音のパ(ph)
『พ』・・・phoo-phaanのพ
『ภ』・・・phoo-samphawのภ
『ผ』・・・phoo-phwnのผ
と「パ」だけで、4つのタイ文字が存在します。
厳密にいえば、『พ』『ภ』の2つと『ผ』では声調が違いますが、慣れてないと聞き分けるのは困難でしょう。
パ行はまだ良い方で、絶望的なのは「タ行」です。
破裂音の「タ(t)」が3つ、有気音の「タ(th)」が5つ、計8文字もタイ語の「タ」が存在します。
上記はほんの一例ですが、タイ文字というのは、非常に複雑怪奇にできていて音から聞いてタイ文字を推測するのが非常に困難な言語です。
そんなわけで最初の税金に話を戻して、「パーシー」と聞いてその単語を知らないのに
・ภาษี
とタイ文字を推測できる人は非常に稀でしょう。
そこで登場するのが、前述の「音で引くタイ日実用辞典」です。
この辞典は、前半辞書、後半辞書の2部で構成されています。
前半の辞書は、聞こえた音をそのまま、発音記号で引くことができます。
例えば、「パーシー」と聞こえたのであれば、「paasii」又は「phaasii」と推測できるので、とりあえず
・「paasii」
で引いてみます。
・・・出てきません。
つまり破裂音の「パ」ではなかったのです
従って、有気音の「パーシー(phaasii)」で引いてみます。
・・・出てきました!
・「phaasii」(←実際には[i]のところに声調記号がついています)
で、「税金」「ภาษี」と引くことができます。
でも、タイ語の発音に慣れていない人は、「パ」が破裂音なのか、有気音なのか聞き分けができないかもしれません。前半の辞書ではうまく引ける可能性は1/2です。
これは面倒ですね。
その為に、後半の辞書が役に立ちます。
この後半部分の辞書は
・あるルールに則って
・聞いた音をローマ字に置き換えて引く
だけの非常に簡単な辞書です。
基本的に知っておくルールが少し存在しますが、非常に簡単です。
具体的にルールの例をあげると
1.ラ行の[l]と[r]は、日本人には聞き分けにくいので、すべて[r]に置き換える
2.パ行の[p]と[ph]は、すべて[p]に置き換える
3.母音・子音にかかわらず同じ音が2文字以上連続したら、それを1文字にする
といった具合です。
3のルールが少し特殊でわかりにくいかもしれません。
例えば「パーシー(phaasii)」ですが、人によっては「パーシ」や「パシー」又は「パシ」と聞こえた人がいるかもしれません。
そうすると2のルールに則って[ph]も[p]もすべて、[p]で検索できるとしても
・paasi
・pasii
・pasi
と、候補がいくつか出てきてしまいます。
それを1回で検索できるようにするための仕組みが3つめのルールなのです。
つまり、「paasii」も「paasi」も「pasii」も「pasi」も検索するときは
・pasi
です。
実際に今辞書を引いてみたら、「pasi」で
・[paasii][税金](←実際には[i]のところに声調記号がついてきます。)
と出てきました。
私はこの後半部分の音で引く辞書こそ、パソコンでの検索に適していると思っていました。
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
以前、
で、「音で引くタイ日実用辞典」のPDIC版が欲しいと書きました。
SoftBankのX01HTを持っているので、それに入れてどこでも耳に入ったタイ語を引きたいと思ったからです。
待ってても誰も作ってくれそうに無いので、筆者の岡滋訓の検索ルールをじっくり読んでみると、自分でも作れそうな気がしてきました。
といっても、ソースは自分で用意できないので、変換ソフトを開発するというだけですが。
もうちょっと調べて、時間のあるときに開発してみようと思っている今日この頃です。
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
