Ubuntu日本語フォーラム

universe · 2008-08-24 22:29:21

度々の質問、失礼致します。
以下、サイト（質問）を拝見させて頂き、IMEの辞書からAnthyへの顔文字の登録ができたのですが、

http://forum.ubuntulinux.jp/viewtopic.php?pid=9361

IMEにおいては、郵便番号から、住所への変換や、もともと顔文字が少々登録されていて、
IMEの辞書のプロパティより変更等が出来たり、

複数の、辞書ファイル（.dic）が登録可能でしたが、Anthyにおいて、
同様の事をするにはどうしたらよいのでしょうか？

P・S
また、
いくつか質問がある場合、
一つの質問内容に、まとめて投稿して方が良いのでしょうか？
（TOPIXとして、あった方が良いのかと思い、複数に分けて質問させて頂いています。）

HiroKws · 2008-08-25 07:28:43

　hiho!

　複数の質問は分けて投稿します。１投稿１トピックですね。

　この手のフォーラムではたいていそういう形式をとります。

　あとから、検索する人が分かりやすいよう、見つけやすいようにです。

　質問でなく、How toのような投稿ですと、それにちなんだ内容の質問が集中して、とてーも長く続いてしまうことがありますが、自然とそうなってしまうので、かまわないのです。（ちなみに本家サイトでは２００近く投稿されているトピックもあります）

HiroKws · 2008-08-25 07:45:48

　辞書の件に関しては、ちょっと検索してみましたが、個人用の複数辞書を取り扱いという要望が２００４年の時点で出ているようです。ただ、Anthy自体、もう活発に開発されていないようで、実現はされていないようですね。

　他の日本語変換プログラムから持ってきた辞書の内容をテキストファイルにして、マージ（複数のファイルをくっつけること）して、一つにまとめ、Anthyの個人用ファイルとして使う方法を紹介されている方がいます。

　UbuntuでAnthyに顔文字登録
　 Anthyにおける複数辞書の登録方法

　Ubuntu使いの方らしいので、これを見ていたら、手伝ってあげてください。;)

　あと、Anthyの本家サイトより、個人用辞書の構造を紹介しておきます。

　個人用辞書を作る (anthy-dic-tool)

　数が多くなければ、Anthyのユーティリティ「霞」を起動して、一つ一つ登録するのも手です。

universe · 2008-08-26 00:38:50

HiroKws様
アドバイス誠にありがとうございます。
記載して頂いたURLですが、参照させて頂いて実施済みだったのですが、
http://d.hatena.ne.jp/ombra/20080529/p1
以上のサイトにて、複数変換登録を試みたのですが、うまくいきません。

具体的にどこで、うまくいかないのかといいますと、
MS-IME用辞書をAnthy用に変換

まず、MS-IME用の辞書をこの間のエントリを参考にして、

Anthy用に変換します。
文字コードをShift_JISからUTF-8に

$ cat jisho_A.txt | nkf -w > jisho_A.utf8.txt
$ cat jisho_B.txt | nkf -w > jisho_B.utf8.txt

スクリプトでMS-IME形式からCanna形式に

この間のエントリのRubyスクリプトをkao.rbとして保存して、以下を実行。

$ ruby -Ku kao.rb < jisho_A.utf8.txt > jisho_A.canna.txt
$ ruby -Ku kao.rb < jisho_B.utf8.txt > jisho_B.canna.txt
ここまでは、うまくいくのですが、

それ以降がうまくいきません。（マージというのでしょうか？）

以下コマンド？は実行可能なのですが、

cat jisho_A.canna.txt > anthy_private.txt

jishoAをjishoBに変更すると

anthy_private.txtが

毎回上書きされてしまい、複数辞書のマージとなりません。
結局、ひとつの辞書の anthy_private.txtが出来上がってしまいます。

複数結合ができないのですが、ご教授お願い申し上げます。

HiroKws · 2008-08-26 06:06:39

　:D

コード:

cat jisho_B.canna.txt >> anthy_private.txt

　cat:ファイルの内容を標準出力へ表示
>>:標準出力の内容を以降に指定されたファイルに追加モードで出力

　Ubuntuの端末はctrl+c, ctrl+vは動作しませんが、右クリックでペーストはできます。

　ブラウザの内容をコピーし、端末でペーストすれば確実です。;)

最後の編集者: HiroKws (2008-08-26 07:07:05)

universe · 2008-08-26 10:23:29

HiroKws様。
ありがとうございます。
>>にて追加されました。
ですが、

その後、次のコマンドを実行しても
（env LC_ALL=C sort anthy_private.src > private_words_default）

private_words_defaultのファイルは
出きるのですが、中身が何もなく容量も0［Kバイト]です。
(´;ェ;`)ウゥ・・・

その時の、端末内でのメッセージは以下です。
（sort: open failed: anthy_private.src: No such file or directory）

そこで、#1の投稿時に参照させて頂いたURLにて、
以下コマンドにて試みた所

nkf -w anthy_private.txt | ./face-dic-conv.pl >> private_words_default

private_words_defaultファイル内に内容が作成されましたが、以下の様に一つの顔文字に対して
2行となってしまいます。

ex）
ああ #KJ o┤*´Д｀*├o\ アァー
#KJ*500

以上は、「ああ」と入力した時に変換されるはずの顔文字です。

#1の時に参照させて頂いたURLのように実施したときは、ちゃんと1行ずつ（１つのtxtファイルでしたが）以下の様になりましたが、

ex）
ああ #KJ*500 o┤*´Д｀*├o アァー

なぜ、うまくいかないのでしょう？

何卒、お力添えをよろしくお願い致します。

HiroKws · 2008-08-26 17:44:27

　:lol::lol::lol:

　参考元のコマンドが間違っているかも。:lol:

　せっかく、作成したファイルの名前がanthy_private.txtなのに係わらず、ソートしようとしているファイルの名前がanthy_private.srcになっていますから。

　多分、正しくは

コード:

env LC_ALL=C sort anthy_private.txt > private_words_default

　だと思います。

最後の編集者: HiroKws (2008-08-26 17:44:55)

universe · 2008-08-26 21:26:15

HiroKws様
早急なアドバイスならびにご解答、誠にありがとうございます。

ご指摘頂いた、コードにて実施した所、無事正常（1行で）にソート出来ました。

又、Anthyにも、複数のIME（実際4つ）辞書を登録することが出来ました。
本当に感謝致します。
a(^-^)r(-^\ )i(^\ )g(\ )a(\ ^)t(\ ^-)o(^-^)~♪★

解決したのですが、

少しだけ（1点）質問なのですが…．。
#6で私が記載した以下内容のものでも（2行でも）Anthyに登録可能で、
使用もたぶん問題なかったと、思うのですが・・・。
「辞書を編集」の時に、「霞」の起動が多少遅かったですが。

−−−−−−−−−−−−−ここから−−−−−−−−−−−−−−−−−−−−−
そこで、#1の投稿時に参照させて頂いたURLにて、
以下コマンドにて試みた所

nkf -w anthy_private.txt | ./face-dic-conv.pl >> private_words_default

private_words_defaultファイル内に内容が作成されましたが、以下の様に一つの顔文字に対して
2行となってしまいます。

ex）
ああ #KJ o┤*´Д｀*├o\ アァー
#KJ*500

以上は、「ああ」と入力した時に変換されるはずの顔文字です。

−−−−−−−−−−−−ここまで−−−−−−−−−−−−−−−−−−−

以上の、
nkf -w anthy_private.txt | ./face-dic-conv.pl >> private_words_default
のコードでは問題があるのでしょうか？

（2行になってしまった事自体が問題ですが・・・。）

又、以下の登録法において（perl使用）の違いが、
今一、分かり兼ねてしまうのですが、もし、ご説明頂けるのでありましたら幸いです。

http://forum.ubuntulinux.jp/viewtopic.php?pid=9361
（#1に記載のURLです）

P・S
郵便番号などの住所変換などは、今のところ不可能でしょうか？

度重なる質問で申し訳ありませんが、
何卒、よろしくお願い申し上げます。

HiroKws · 2008-08-27 05:57:00

　エー、まず、私自身この方法を行っていないことを理解してくださいね。

　回答をするために、調べているだけです。

#6で私が記載した以下内容のものでも（2行でも）Anthyに登録可能で、
使用もたぶん問題なかったと、思うのですが・・・。
「辞書を編集」の時に、「霞」の起動が多少遅かったですが。

　使用に問題が無い、つまり複数辞書をつなげて使用することに成功したと書いてくださっていれば、それ以上追求はしませんでした。やり方がどうであれ、動けばいいのですから。

「霞」の起動が遅かったのは、毎回余計な#KJ*500だけのデーターを処理しているからでないでしょうか？たぶん、内部的には取り込まれているのだと思います。

以上の、
nkf -w anthy_private.txt | ./face-dic-conv.pl >> private_words_default
のコードでは問題があるのでしょうか？

（2行になってしまった事自体が問題ですが・・・。）

　よくわかりません。答えられるほど、詳しいわけでありませんから。前にも書きましたとおり、実際に使っていませんので。

　推測ですが、毎行ごとに生成される#KJ*500があるため、取り込みのときに処理する行の数が２倍になり、その分時間がかかることくらいで無いでしょうか？問題としては。

郵便番号などの住所変換などは、今のところ不可能でしょうか？

　基となる住所のデーターはどこから持ってくるのでしょうか？たぶん、XPやVISTAに付属のIME関連のデーターだとしたら、Ubuntu上で使用するのに問題が無いか、きちんと調査しなくてはなりません。
　他のATOKのようなもの用に、提供されている郵便番号辞書も勝手に変換すると問題になりかねません。

　いわゆるフリーなデーターではないのです。ですから、その方法が分かったとしても、このフォーラムで回答するわけにはいかないことを、理解してください。

　調べていないのですが、anthy用の郵便番号辞書が存在しているかもしれませんよ。検索して見たらいかがでしょうか？;)
　また、cannaの辞書を取り込めるのですから、cannaの郵便番号辞書を調べたらいかがでしょうか？これは、存在しているはずです。

　存在していたとしても最新のものとは限りません。常に最新のものをしようしたければ、日本郵便のこちらのページより、最新のデーターを入手し、変換する必要があります。ただし、全国で12万件あります。:)

　やり方については、すでにオフトピックになっているので説明しません。必要な場合は別のトピックを立ててくださいね。

最後の編集者: HiroKws (2008-08-27 07:13:29)

universe · 2008-08-27 23:50:19

HiroKws様
郵便番号辞書などの件、かしこまりました。
（というより理解不足な私でした。申し訳ありません）

親切なご説明、本当に感謝致します。

Ubuntu日本語フォーラム

お知らせ

#1 2008-08-24 22:29:21

Anthyにおいて、IMEの様な辞書の複数登録に関して

#2 2008-08-25 07:28:43

Re: Anthyにおいて、IMEの様な辞書の複数登録に関して

#3 2008-08-25 07:45:48

Re: Anthyにおいて、IMEの様な辞書の複数登録に関して

#4 2008-08-26 00:38:50

Re: Anthyにおいて、IMEの様な辞書の複数登録に関して

#5 2008-08-26 06:06:39

Re: Anthyにおいて、IMEの様な辞書の複数登録に関して

コード:

#6 2008-08-26 10:23:29

Re: Anthyにおいて、IMEの様な辞書の複数登録に関して

#7 2008-08-26 17:44:27

Re: Anthyにおいて、IMEの様な辞書の複数登録に関して

コード:

#8 2008-08-26 21:26:15

Re: Anthyにおいて、IMEの様な辞書の複数登録に関して

#9 2008-08-27 05:57:00

Re: Anthyにおいて、IMEの様な辞書の複数登録に関して

#10 2008-08-27 23:50:19

Re: Anthyにおいて、IMEの様な辞書の複数登録に関して

Board footer