音で引くタイ日辞典作成ツール『音リンガルコンバーター』を公開しました
まだ、エラー処理も全然入れてませんが例によってとりあえず動くようになったので、先に公開してみました。
従ってバージョンも、Ver0.1です。
名前も決まりました。
『音リンガルコンバーター』
と命名されました。
ここからダウンロードできます。
インストールおよび設定方法はここのページで説明しています。
このツールは発展途上です。
岡滋訓氏による明文化されたルールはほぼ網羅されていますが、明文化されていない暗黙?のルールがいくつか存在していてそれらはまだ完全に実装していません。
今後徐々に実装していく予定です。
ちなみに、現時点での制限事項も若干あります。思いつく限りここに書いておきます。
従ってバージョンも、Ver0.1です。
名前も決まりました。
『音リンガルコンバーター』
と命名されました。
ここからダウンロードできます。
インストールおよび設定方法はここのページで説明しています。
このツールは発展途上です。
岡滋訓氏による明文化されたルールはほぼ網羅されていますが、明文化されていない暗黙?のルールがいくつか存在していてそれらはまだ完全に実装していません。
今後徐々に実装していく予定です。
ちなみに、現時点での制限事項も若干あります。思いつく限りここに書いておきます。
- 音節末の末子音(「-t」「-l」「-p」)は、なくても検索できる、というルールが存在します。
これは元々の辞書ファイルであるPDICタイ語の発音記号の「-(ハイフン)」「 (半角スペース)」を見て実装しています。
原則としてPDICタイ語では、音節と音節の間は「-(ハイフン)」で繋ぎ、単語と単語の間は「 (半角スペース)」で繋いでいるようです。
この原則を元に、音節末、または単語末の「-t」「-p」「-k」を判定していますが、時々、音節と音節の間が「-(ハイフン)」で繋がれていないことがあります。
例えば「こんにちは」を意味する「サワッ(ト)ディー」は「サワット(sawat)」と「ディー(dii)」の2音節から構成されていると推測されますが、実際の辞書では「sawat-dii」と2音節で登録されておらず、「sawatdii」と1音節として登録されています。これは恐らく最初の時期に登録された単語だからかもしれません。
後の方に登録された単語は音節間は「-(ハイフン)」で繋がれています。
従って、本来のルールに従えば「sawatdi」でも検索できるし、音節末の「-t」を抜いて「sawadi」でも検索できるはずなのですが、実際には「sawatdi」でしか検索ができない状況です。 - 「ก(コーカィ)」を使用する単語は、「k(カ)」でも「g(ガ)」でも検索できるが、同じ単語内ではどちらか一方だけを使う。
これは説明が難しのですが、次の例を見て下さい。
「ゴーゴーバー(koo-koo-baa)」
タイ語で書くと「โกโก้บาร์」です。
1つの単語に
「ก(コーカィ)」が2つ入っています。
この場合厳密に処理しようとすると
「go-go-ba」
「go-ko-ba」
「ko-go-ba」
「ko-ko-ba」
とそれぞれの「ก(コーカィ)」を「k」と「g」に分けると1つの単語が4つに増殖してしまいます。
「ก(コーカィ)」が2つだから、4つの増殖で済みますが、仮に1つの単語に「ก(コーカィ)」が3つ入っていると、全パターンを網羅するために、1つの単語が8つに増殖してしまいます。
これをやってしまうと単語が際限なく増殖してしまうので、次の勝手ルールを設定しています。
・同じ単語に「ก(コーカィ)」がいくつ入っていても、1つの単語内では「k」だけ、または「g」だけを使う
例えば「koo-koo-baa」で言うと
「ko-ko-ba」
又は
「go-go-ba」
だけを採用します。
同じ単語のなかで、「ก(コーカィ)」の部分に「k」と「g」を混在させることはしません。
この勝手ルールの採用で、単語が際限なく増殖しないようにしています。
また、例として「ก(コーカィ)」を挙げましたが、他のタイ文字についても同様のルールを適用しています。
例えば「生まれる」を意味する「เกิด(グート)」は発音記号で
ですが、この「k」と「t」に挟まれた「e」を逆にしたような文字は「a(ア)」と「u(ウ)」と中間の発音です。
従って、「เกิด(グート)」はルールに従って
「gut」
「gat」
の2つの単語に増殖します。
この「a」と「u」の中間の発音記号についても、同じ勝手ルールが適用されます。
仮に元の単語の中にこの「a」と「u」の中間の発音記号がいくつ存在しても、分裂後の単語内では「a」だけ、または「u」だけを含めます。
単語が分裂するときは、すべてこの勝手ルールを適用しています。
(補足事項)これはルールではありませんが、PDICタイ語内には、単語の他に用例が登録されています。
例えば次のような用例です。
เกิดวันพุธ เป็นมิตรกับอาทิตย์ และศุกร์ เป็นกลางกับอังคาร พฤหัสบดี และเสาร์
(【用例】水曜日生まれは日曜日と金曜日生まれと相性がよく、火曜日、木曜日、土曜日生まれとは中間です。)
これらの用例を削除してやれば、増殖する単語数を減らせるかと思っていましたが、実際にはそれほど減らなかったので、用例もそのまま、音で引くタイ日辞書化しています。
ブログランキングに参加しています
「タイリンガル」本サイトへ戻る
トラックバック(0)
このブログ記事を参照しているブログ一覧: 音で引くタイ日辞典作成ツール『音リンガルコンバーター』を公開しました
このブログ記事に対するトラックバックURL: http://www.tlin.jp/MT/MT-4.01-ja/mt-tb.cgi/149

コメントする