tesseract を使うときでの手こずったとこ
プログラムとしてはtesseractをダウンロード出来るサイト(https://code.google.com/p/python-tesseract/)に書いてあるとおりに、
api = tesseract.TessBaseAPI()続きを読む
api.SetOutputName("outputName");
api.Init(".","eng",tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)
mImgFile = "xxx.jpg"
pixImage=tesseract.pixRead(mImgFile)
api.SetImage(pixImage)
outText=api.GetUTF8Text()
みたいな感じで使えます。
セット4(前半)
セット4(前半)です。
(1)ファイルを読み込み,単語をキーとして,品詞,活用形,基本形のタプルのリストを値とするマッピング型に格納せよ.プログラムの動作を確認するため,標準入力から読み込んだ単語の語彙項目を閲覧するプログラムを実装
#!usr/bin/env python3
# -*- coding: utf-8 -*-
import re
import sys
dic = {}
for i in open("inflection.table.txt","r"):
i=i.split("|")
key=i[0]
word=(i[1],i[3],i[6])
dic.setdefault(key,).append(word)
word = ''
if(word != '0'):
word = input('単語入力')
print("入力="+word)
if(word in dic):
print(dic[word])
else:
print("登録されてません")
# -*- coding: utf-8 -*-
import re
import sys
dic = {}
for i in open("inflection.table.txt","r"):
i=i.split("|")
key=i[0]
word=(i[1],i[3],i[6])
dic.setdefault(key,).append(word)
word = ''
if(word != '0'):
word = input('単語入力')
print("入力="+word)
if(word in dic):
print(dic[word])
else:
print("登録されてません")
Pythonでマッピング型としてはdictというものがあり、それを使った。
setdefaultで指定したkeyが無い場合に、keyを辞書に追加することができ、dic.setdefault(key,).append(word)でどんどん追加していくことができます。
inputで入力を取得できます。
続きを読む
セット2
セット2です。
(1)「拡散希望」という文字列を含むツイートを抽出
#!usr/bin/env python3
# -*- coding: utf-8 -*-
import re
tweet = re.compile("<text>[\s\S]*?</text>")
kakusan=re.compile("拡散希望")
f = open('tweets.txt',"r")
data = f.read() # ファイル終端まで全て読んだデータを返す
tm=tweet.findall(data)
for i in range(len(tm)):
m=re.match("<text>([\s\S]*?)</text>",tm[i])
tm[i]=m.group(1)
tm[i]=tm[i].strip()
km=kakusan.search(tm[i])
if(km):
print(tm[i])
print()
f.close()
続きを読む
# -*- coding: utf-8 -*-
import re
tweet = re.compile("<text>[\s\S]*?</text>")
kakusan=re.compile("拡散希望")
f = open('tweets.txt',"r")
data = f.read() # ファイル終端まで全て読んだデータを返す
tm=tweet.findall(data)
for i in range(len(tm)):
m=re.match("<text>([\s\S]*?)</text>",tm[i])
tm[i]=m.group(1)
tm[i]=tm[i].strip()
km=kakusan.search(tm[i])
if(km):
print(tm[i])
print()
f.close()