お知らせ

  • 利用規約を守って投稿してください。また、よくある質問および投稿の手引きも参照してください。
  • メッセージの投稿にはアカウントが必要です。未登録の方は、ユーザ登録ページからアカウントを作成することができます。

#1 2007-06-03 18:59:32

kudo
メンバ
登録日: 2007-05-18

kookaでocr出力

KDE-desktopをインストールしたときに
KookaというScanner/Ocrソフトが入っておりテストしています
Scannerはうまくスキャンするのですが
Ocrがうまくいきません
Ocrは後でOCRADというソフトを追加しました
spell checking can't be started on this system
Please check the configurationというメッセージがでています
Ocr result textには文字化けしており実用に耐えません

どなたかOCRがうまくいった方いませんでしょうか

オフライン

 

#2 2007-06-03 19:30:02

gmax
メンバ
From: 兵庫県
登録日: 2006-10-24

Re: kookaでocr出力

OCRソフトはそもそも日本語はダメそうなので使っていないのですが、試しました。
gocrを使いました。
おそらくスペルチェックの設定に問題があります。
Aspell標準だとデフォルトロケール(つまり私たちだと日本語)のスペルチェッカを探しますが見付からないのでエラーになります。
"OCR画像...."で開くダイアログのスペルチェックタブのOCR後処理のチェックを外すか、読み込みたいテキストの言語が明確なら、その言語をスペルチェックオプションの言語設定で指定します。英語の場合は、"英語"でいいはずですが、aspellの語彙や言語によってはデフォルトでインストールされていないものもあります。
好みの言語や語彙をsynapticなどからインストールしてください。"aspell-"で始まるパッケージのなかにご希望のものがあるかと思います。日本語はありませんが:P

オフライン

 

#3 2007-06-04 12:49:54

kudo
メンバ
登録日: 2007-05-18

Re: kookaでocr出力

確かにsynapticから"aspell-"で始まるパッケージのなかにaspell-jpのような物は見つかりませんでした
winではソースネクストあたりからOCRソフトがでまわっているようですが
このubuntouではいつ頃なのでしょうか

オフライン

 

#4 2007-06-04 13:20:42

gmax
メンバ
From: 兵庫県
登録日: 2006-10-24

Re: kookaでocr出力

> このubuntouではいつ頃なのでしょうか

誰か必要とする人が作れば、ですね:)

オフライン

 

#5 2007-06-04 14:26:14

anoir
モデレータ
From: Berkeley, CA
登録日: 2007-01-13

Re: kookaでocr出力

まあプログラムかく人は基本的にコンピュータで全てが完結するような使いかたの人が多いのでなかなか。。。

オフライン

 

#6 2007-06-04 17:07:13

gmax
メンバ
From: 兵庫県
登録日: 2006-10-24

Re: kookaでocr出力

以前はOCRで新聞や雑誌のスクラップをプレーンテキストにするようなことを仕事でやっていたこともあり、多少は嗅覚はあるのですが....まぁ、一般論として。

多数の文字を要する言語圏では、ラテン語圏と比べてOCRの読み取り精度は低くなりますし、また同一精度だとしてもその訂正にかかる手間は比べ物にならないほど高くなります。

たとえば認識率90%を謳うOCRソフトを使い、そのとおりの認識率だったとしても結局残りの10%の修正の手間が馬鹿にならず、結局人間が最初から目で追いながらタイプした方が早い、ということはよくありました。

じゃ、これを綴り修正のプログラムを併用してできないか?ということになれば今度は日本語という複雑な言語の問題がまた露見します。だいたい単語を読み取ったテキストの中から切り出すこと自体が困難。文脈に依存します。
一方、欧米の言語であれば、空白が明らかに入りますので単語の切り出しは非常に楽。

市販のOCRソフトがどこまでクリアしているのか、現時点では知らないのですが、そういう超え難い問題があることから、欧米のOCRソフトに辞書を入れてチェックさせれば、という程度の発想ではどうにもならないのは目に見えているので;)

どうしてもということであれば認識エンジンだけとりあえず動くように、Windows用のソフトをWineで動かすとか。

しかし、また結局Wineを持ち出さねばならないのか。辛いですね:P

最後の編集者: gmax (2007-06-04 17:08:43)

オフライン

 

#7 2007-09-01 15:54:46

dinosauria
新しいメンバ
登録日: 2007-09-01

Re: kookaでocr出力

tesseractはどうでしょう。(日本語はまだだめですが)

http://www.howtoforge.com/ocr_with_tesseract_on_ubuntu704

読ませる前の画像処理についていろいろ書いてますが、Synapticから
tesseract-ocr と tesseract-ocr-dataをインストールすればよいようです。

オフライン

 

Board footer

Powered by FluxBB