
Ubuntu日本語フォーラム
ログインしていません。
私の環境は次の通りです。
・ Ubuntu の【バージョン】
Ubuntu 18.04.5 LTS (WSL の上で使っています。)
・あなたが使っている PC の【ハードウェア的な情報】
product: Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz
width: 64 bits
この環境で次のことを実現したいと思っています。
準備
temptext=$(mktemp tmp.XXXXXX.txt) echo $temptext cat <<EOF > $temptext ほんじつはせいてんなり にほんごふぉーらむにしつもんします。 てれびでだいそうげんのちいさないえをみた。 EOF cat $temptext
この時、次のように入力して、
cat $temptext | mozc???
本日は晴天なり
日本語フォーラムに質問します。
テレビで大草原の小さな家を見た。
と出力してくれると嬉しいです。
上では、仮に「mozc???」としていますが、これを実現するコマンドがありましたら、教えていただけると幸いです。
変換がちょっとくらい違っていても構いません。
ちなみに、libkkc2 パッケージをインストールしたところ、kkc コマンドが使えるようになりました。
これはコマンドラインで使えて、
cat $temptext | kkc
なる入力に対して、
Type kana sentence in the following form:
SENTENCE [N-BEST [SEGMENT-BOUNDARY...]]
>> 0: <本日/ほんじつ><は/は><聖典/せいてん><なり/なり>
>> 0: <にほんご/にほんご><フォーラム/ふぉーらむ><に/に><質問/しつもん><し/し><ま/ま><す/す><。/。>
>> 0: <テレビ/てれび><で/で><大/だい><草原/そうげん><の/の><小さな/ちいさな><家/いえ><を/を><見/み><た/た><。/。>
と返してくれます。
(標準出力に出れば、やりくりできるので、出力の形式は問いません。)
よろしくお願いします。
オフライン
元の質問をした者です。
余計な情報が多かったため、要点を絞ります。
次のような入力ファイルがあったとします。
ほんじつはせいてんなり
にほんごふぉーらむにしつもんします。
てれびでだいそうげんのちいさないえをみた。
この時、何らかのコマンド 「X」があって、
X < 入力ファイル
または
cat 入力ファイル | X
と入力すると、
本日は晴天なり
日本語フォーラムに質問します。
テレビで大草原の小さな家を見た。
と返してくれるような、そんな 「X」はありませんか?
(仮名漢字変換の精度は問いません。)
「X」が単独のコマンドでなくても、パイプでつないだり、やスクリプトであっても構いません。
よろしくお願いします。
オフライン
全然詳しくないのでもっと良いものがあるかもしれませんが、 検索で見つかる
下のような記事がyamadamasahiroさんのやりたいことに近いのではないかと思います、
Mozcの辞書を使ってMeCabでかな漢字変換する - Qiita
https://qiita.com/yukinoi/items/14a07958727bef5f8e9c
Python 、Mecab、GoogleTranslitrateAPIで漢字→カタカナ→ひらがな→漢字変換をする。 - Qiita
https://qiita.com/Hirai0827/items/917d324f3f4d2b7d3134
調べるときは「形態素解析」がキーワードらしい。
オフライン
elliptic さん、回答を頂きまして、ありがとうございます。
教えていただいた「Mozc の辞書を使って MeCab でかな漢字変換する - Qiita」の記事に取り上げられている、著者 @yukinoi さんご自身による MeCab as KKC は、既に私も見つけておりました。
ですが、この記事には他に 6 つもツールが取り上げられており、大変参考になりました。
elliptic さんが協力していただいたことに感謝いたします。
どうもありがとうございました。
オフライン
元の質問をした者です。
かな漢字変換の複数の選択肢から精度の良いものを選ぼうとしています。
言い忘れていたため、追記します。
オフライン
元の質問をした者です。度々失礼します。
他のサイトでも同様の質問をして、頂いた回答をお読みして、質問の焦点が絞れてきました。
質問文に追加します
デスクトップのユーザーがエディタを使って日本語を入力するとき、エディタがクライアントとして、Mozc が最終的にサーバーとなって仮名漢字変換を実現していると思います。
であれば、Mozc が仮名だけの文章をどこかから受け取って、クライアントたるエディタに漢字仮名交じり文を返しているはずです。
その入出力を標準入出力につなぎ変えるだけで済むのではないかと思うのですが、甘いのでしょうか?
オフライン