tesseract 3.03でかなり読める
今新しく出ているバージョンが3.04.01で、最新版がかなり読めるようになったということを聞きまして、今はどれくらいなのかと見てみただけです。
↑3つは普通に -l jpnのコマンドで読むことができました。
しかしながら、
これはちょっとおしかった。
カンガルーって漢字なのですが、ちょっと意地悪過ぎたみたいですね。
これにいたっては、何も読み取らなかった。テキストファイルが生成されただけ。
文字として認識されてないww
人間が見てもよくわからない塊に見えますからね。
これが課題なのかなと思ったパターンで、部首とかの漢字を作っている部分を読み取ってしまったのですかね。
このミスがちょくちょく見るかもです。
個人的に謎なのが、この人参がempty page!!って怒ってくるのです。
拡大しすぎてちょっとぼやけているせいですかね。
基本的に適当にスクリーンショットして撮ったやつを-l jpnコマンドでやってみただけなので、tesseractのコマンドをちゃんとパターンに合わせて使えばもっと精度あがるのかな?
一つの文字と仮定しとか、一つのブロックと仮定してとかあったはず。
というか、現状でかなりの精度で読めてる気がす。