tesseract 3.03でかなり読める

今新しく出ているバージョンが3.04.01で、最新版がかなり読めるようになったということを聞きまして、今はどれくらいなのかと見てみただけです。

f:id:alakialaca:20160513175738p:plain

f:id:alakialaca:20160513175748p:plain

f:id:alakialaca:20160513175811p:plain

↑3つは普通に -l jpnのコマンドで読むことができました。

 

 

しかしながら、

f:id:alakialaca:20160513175816p:plain

f:id:alakialaca:20160513181352p:plain

これはちょっとおしかった。

カンガルーって漢字なのですが、ちょっと意地悪過ぎたみたいですね。

 

f:id:alakialaca:20160513175806p:plain

これにいたっては、何も読み取らなかった。テキストファイルが生成されただけ。

文字として認識されてないww

人間が見てもよくわからない塊に見えますからね。

 

f:id:alakialaca:20160513175758p:plain

f:id:alakialaca:20160513181440p:plain

これが課題なのかなと思ったパターンで、部首とかの漢字を作っている部分を読み取ってしまったのですかね。

このミスがちょくちょく見るかもです。

 

f:id:alakialaca:20160513181030p:plain

個人的に謎なのが、この人参がempty page!!って怒ってくるのです。

f:id:alakialaca:20160513181125p:plain

 

拡大しすぎてちょっとぼやけているせいですかね。

 

基本的に適当にスクリーンショットして撮ったやつを-l jpnコマンドでやってみただけなので、tesseractのコマンドをちゃんとパターンに合わせて使えばもっと精度あがるのかな?

一つの文字と仮定しとか、一つのブロックと仮定してとかあったはず。

 

 というか、現状でかなりの精度で読めてる気がす。