tesseract3.04.01に出来た。

最初にleptonicaでエラーが出て、leptonicaをアップグレードしたりしたはず。(うろ覚え)

 

そのあと、autogen.shを実行しようとしたら、

Something went wrong, bailing out!

ってエラーが出て困っていた。

↓参考に

TesseractGitInstallation · tesseract-ocr/tesseract Wiki · GitHub

 

sudo apt-get install autoconf automake libtool libleptonica-dev
これのあと、いつもの、./configureとかmakeやのなんやのでインストール出来た。

これが解決法だったのかは分からない。

tesseract 3.03でかなり読める - アルパカ研究室


↑いつか比較するために書いたブログが役に立つ??
3.03の時に出来なかった文字に使ってみると

f:id:alakialaca:20160513175816p:plain

 

f:id:alakialaca:20160530170413p:plain

出てくる文字は変わって、少し近くなった気はするけど・・・

 

ですが、

なぜか読めなかった

f:id:alakialaca:20160513175758p:plain

は読み取ることが出来ました。

 

f:id:alakialaca:20160513181030p:plain

これが読み取れなかった件ですが、

f:id:alakialaca:20160530171943p:plain

エラーの内容も出るようになっている。

小さすぎたってことなんですか・・・

適当にスクショしたせいで・・・

 

しゅごいいいいいい

findcontoursの輪郭認識の動きを見えるようにしたらキモかった

opencvのfindcontoursの動きを一個一個見てみたかっただけです。

輪郭検出と輪郭内面積・重心計算 | OpenCV画像解析入門

↑参考にしたやつ

 

輪郭が格納されている?countoursの中身がこんな感じだったので、 順番に青い線で結んでいってみました。

f:id:alakialaca:20160520220107p:plain

 円とかを表現しようとしたら頂点が多いので、たくさん端点が出来るってことなのかな?

 

 

ちゃんと輪郭をなぞっていっているのがわかります。

なんか、虫が這いずり回っているみたい。

 

 

続きを読む

tesseract 3.03でかなり読める

今新しく出ているバージョンが3.04.01で、最新版がかなり読めるようになったということを聞きまして、今はどれくらいなのかと見てみただけです。

f:id:alakialaca:20160513175738p:plain

f:id:alakialaca:20160513175748p:plain

f:id:alakialaca:20160513175811p:plain

↑3つは普通に -l jpnのコマンドで読むことができました。

 

続きを読む

pyinstallerを使おうとするとメモ帳が強制召喚される。(対処完了)

コマンドプロンプトにpyinstallerと打つと、このメモ帳が強制的に開かれて終了。人生の終わり。アーメン。っとなって諦めていました。

f:id:alakialaca:20160505122958j:plain

linuxでも上手くいかなかったけど、

pythonをexe化に悪戦苦闘のメモ(しかもちゃんとできてないよ。誰か助けて。) - アルパカ研究室


windowsではちゃんとexeファイルが出来たお。

 

↓参考

 

qiita.com

 

続きを読む

luceneを使いたかった。

Javaで記述されたインデックスを作成するタイプの全文検索エンジンluceneさんですね。

使おうとコマンドを打っても打ってもエラーが出て。

偉い方に聞いてみて純正javaであるoracleを入れてみたら動きました。

実際はいろいろやっていたのでoracleのせいだったのかはわからないwwww

Ubuntu にOracle Java 8 (PPA)をインストールする(ubuntu) - Qiita

oracleの入れ方はこちら参考で。

コマンドは

 

java -cp demo/lucene-demo-5.3.1.jar:core/lucene-core-5.3.1.jar:analysis/common/lucene-analyzers-common-5.3.1.jar org.apache.lucene.demo.IndexFiles -docs テキストを入れたフォルダ

 

これでインデックスが出来まして。

 

 

java -cp demo/lucene-demo-5.3.1.jar:core/lucene-core-5.3.1.jar:analysis/common/lucene-analyzers-common-5.3.1.jar:queryparser/lucene-queryparser-5.3.1.jar org.apache.lucene.demo.SearchFiles -index index -query "検索したい文字"

 

で検索できました。

全然動かなくて5時間くらい格闘してた。悲しい。

 

一気にプログラムを回したかった。

そういえば、こんなブログ作っていたと思い、思い出したかのように更新

 今日作ったしょぼいやつ。

コマンドラインからpngファイルを読み込み、とある処理するプログラム作ってたのですけど、

それを50ファイルくらい一気にやりたかったので作った。

続きを読む