java -cp demo/lucene-demo-5.3.1.jar:core/lucene-core-5.3.1.jar:analysis/common/lucene-analyzers-common-5.3.1.jar org.apache.lucene.demo.IndexFiles -docs テキストを入れたフォルダ

これでインデックスが出来まして。

java -cp demo/lucene-demo-5.3.1.jar:core/lucene-core-5.3.1.jar:analysis/common/lucene-analyzers-common-5.3.1.jar:queryparser/lucene-queryparser-5.3.1.jar org.apache.lucene.demo.SearchFiles -index index -query "検索したい文字"

で検索できました。

全然動かなくて5時間くらい格闘してた。悲しい。

2015-08-13

一気にプログラムを回したかった。

python

そういえば、こんなブログ作っていたと思い、思い出したかのように更新

今日作ったしょぼいやつ。

コマンドラインからpngファイルを読み込み、とある処理するプログラム作ってたのですけど、

それを50ファイルくらい一気にやりたかったので作った。

2015-06-18

treetagger使いたい.......（＋ω＋）

python

英語の構文解析がしたかったので

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

↑treetaggerのサイトのダウンロードから

1のlinuxパッケージ、2の tagging script、３のinstall-tagger.sh、4のparameter fileからEnglish parameter file をダウンロードし、全部を同じフォルダの中に入れてshコマンドでinstall-tagger.shを端末から実行したら展開されます。

パスを通すとどこからでもtreetaggerが使えるようになって楽なので、

隠しファイルの.bashrcの最後の行に(desktopでls -aで見つけられた。)

PATH="$PATH:/treetaggerの置いてある場所/treetagger/cmd"

PATH="$PATH:/treetaggerの置いてある場所/treetagger/bin"

を書き入れます。

端末にecho "my name is dog."| tree-tagger-english

と入力すると

reading parameters ...
tagging ...
finished.
my   　 PP$   my
name   NN       name
is           VBZ    be
dog       NN   dog
.   SENT   .
と表示された。

やったね。

あとはpythonから動かせたらいいのですけど、動かない........（＋ω＋）

2015-06-13

tesseract の論文？を読みました。

tesseract

論文というか、取り扱い説明書？？？

http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/33418.pdf

↑ググったらすぐに出てくるこれです。

verview of the Tesseract OCR Engine直訳して、テセラクトの概要......

どういう仕組みでtesseractが文字を読み取っているのか気になった次第です。

一応頑張って読みましたが正しいかどうかは分からないです。。。。。

2015-06-13

セット4（後半）

python

セット4（後半）です。

(6)１行１単語形式（medline.txt.sent.tok）を読み込み，単語の連接を出力するプログラムを実装

#!usr/bin/env python3
# -*- coding: utf-8 -*-

import marshal
line = ""
for i in open("medline.txt.sent.tok.stem","r"):
   i = i.strip("\n").split("\t")
   if(line != ""):
       if(line != "."):
           print(line+"\t"+i[1])
   line = i[1]

if(line != "")で１回目はlineが""なのでline=i[i]となります。

if(line != ".")でlineが"."になるまで出力していきます。

line="."となるとまたline=i[1]となりこれをループで繰り返していきます。

2015-05-24

beamerのフォーマット

その他

ネットに基本形（フォーマット？）みたいなの置いておいたらどこでも作れると思ったので設置。

いちいち調べるのめんどくさいのでｗｗ