tesseract を使うときでの手こずったとこ

プログラムとしてはtesseractをダウンロード出来るサイト(https://code.google.com/p/python-tesseract/)に書いてあるとおりに、

 

 

 

api = tesseract.TessBaseAPI()
api
.SetOutputName("outputName");
api
.Init(".","eng",tesseract.OEM_DEFAULT)
api
.SetPageSegMode(tesseract.PSM_AUTO)
mImgFile
= "xxx.jpg"
pixImage
=tesseract.pixRead(mImgFile)
api
.SetImage(pixImage)
outText
=api.GetUTF8Text()

みたいな感じで使えます。

 

 
api.Initの中の"."の.はtesseract-ocrのファイルがある場所を指定します.
api.Init("/usr/tesseract-ocr","eng",tesseract.OEM_DEFAULT)みたいに書きます。
SetPageSegModeの中を(tesseract.PSM_SINGLE_BLOCK)のように変えるとモードを変えられる。ことができます。

PSM_OSD_ONLY
 ......オリエンテーションスクリプト検出だけ
PSM_OSD_ONLY .....オリエンテーションスクリプト検出にページ分割ができます。
PSM_AUTO_ONLY ......OSD ,OCDのない自動ページ分割
PSM_AUTO ......OSDのない完全な自動ページ分割
PSM_SINGLE_COLUMN ......可変サイズのテキストの1列にとして仮定する
PSM_SINGLE_BLOCK_VERT_TEXT .....垂直配向テキスト一つの均一なブロックと仮定します。
PSM_SINGLE_BLOCK .....テキスト一つの均一なブロックを仮定します。
PSM_SINGLE_LINE .....一つのテキストラインとして画像を扱います
PSM_SINGLE_WORD ....一つの単語のような画像扱います
PSM_SINGLE_WORD サークル内の一つの単語として画像を扱います
PSM_SINGLE_WORD 1つの文字として画像を扱います
PSM_COUNT 列挙型エントリの数。