2016-01-01から1年間の記事一覧

pythonで再現性をもたせるためシードを揃えて行をシャッフル

シェルスクリプトでシードも揃えたままシャッフルできたら楽だったのですけど、ちょっとわからなかったのでパイソンで、リストをシードを揃えてシャッフルしてその順番に並べるってコード。 #!/usr/bin/python# -*- encoding: utf-8 -*-import numpy as npim…

wrong input format at line 1って出る。

伝説のlibsvmさん使ってみようとするとsvm-trainで・・・ wrong input format at line 1というエラー でググったら英語のページしか出てこなくてふええってなったけど、 stackoverflow.com

ナンバーと一部の文章があるテキストを元に、ナンバーと文章全体のテキストから、文章を抜き出す。

はてなの中で写真の縦横って変えられないっぽい? a.txtがこんな感じ。 b.txtがこんな感じ a.txtの情報をもとにb.txtから情報を取る感じのやつです。 とりあえず、ナンバーと一部の文章があるテキスト(a.txt)の情報を元に、ナンバーと文章全体とurlがあるテ…

HP中の%の入っている文を取り出したかったから作ったやーつ

なにで使ったかはひ・み・つ!! #!/usr/bin/python# -*- encoding: utf-8 -*-import reimport urllib2pattern1 = re.compile(r"\d+\.\d+\s%|\b\d+\s%|\b\d+%|\b\d+\s*\.\d+\s%|\b\d+\s*\.\d+%")#数字と%のやつurl ="HPのURL"fp = urllib2.urlopen(url)inlin…

csvのファイルの数字の部分だけ消して、フォルダ内のテキストを結合

csvファイルを一つのテキストファイルにまとめたかったので。 ↑エクセルで開いたとき。 ↑メモ帳で開いたとき。 この数字の部分消したいと思ったので。 正規表現でたくさん数字ある部分を消して結合した。

texのPDFに表を作るマン。

表を作った時のやつ。 ちょっと昔過ぎて覚えてないので説明は割愛。 このタイプのやつを表にするプログラムです。

ball playing という言葉から baseballという言葉にをつなげられなかった。

Word2VecをPythonでやってみる – 学生コーダーの備忘録 コードは上記サイト様のを丸パクリです。 僕としてはball playing からbase balと連想できるのかと、そんな軽い気持ちです。。。 まずは公式様のテストデータで学習して、ball playingで近いものを30個…

フォルダ内のテキストファイルの中身を全て合わせる君

言葉の通り、フォルダ内のテキストファイルを全て、一つのテキストファイルに突っ込むというだけです。 # -*- coding: utf-8 -*-import globf = open("ketsu.txt","w") #これに全てを突っ込みたい。files = glob.glob('/home/araki/デスクトップ/corpus/trai…

wordnetのやつをコマンドラインからいろいろ出来るように〜

所要で簡単に類似度とか見たかったので、 -sでsynsetの表示、-dで定義表示、-eで上位語表示、-oで下位語表示、-tで深度、-lで類似度を表示できるようにしただけです。 参考にしたサイト様 Python Programming Tutorials 自然言語処理 :: 自然言語処理ツールN…

smurakamiさんの日本語版wordnetのサンプルプログラムを動かした。

とりあえず今日やったことです。 ちゃんと書いておかないと何やったのかも忘れてしまうことに気づいたので・・・(ボケ老人) wordnet使ってみるか・・・とりあえず他人のコード読んでみるか・・・ということで。ぱっと目に止まった。 GitHub - smurakami/jp…

四角の中に一つだけ四角があるものを選ぼうの回

ちょっと前に作ったfindcontourを改造してみました。 やりたかったこととしましては、↓の図のピンクのやつだは取らず、他の四角はとるってやつです。 四角の中に一つだけ四角があるものを取ったのです。

tesseract3.04.01に出来た。

最初にleptonicaでエラーが出て、leptonicaをアップグレードしたりしたはず。(うろ覚え) そのあと、autogen.shを実行しようとしたら、 Something went wrong, bailing out! ってエラーが出て困っていた。 ↓参考に TesseractGitInstallation · tesseract-oc…

findcontoursの輪郭認識の動きを見えるようにしたらキモかった

opencvのfindcontoursの動きを一個一個見てみたかっただけです。 輪郭検出と輪郭内面積・重心計算 | OpenCV画像解析入門 ↑参考にしたやつ 輪郭が格納されている?countoursの中身がこんな感じだったので、 順番に青い線で結んでいってみました。 円とかを表現…

tesseract 3.03でかなり読める

今新しく出ているバージョンが3.04.01で、最新版がかなり読めるようになったということを聞きまして、今はどれくらいなのかと見てみただけです。 ↑3つは普通に -l jpnのコマンドで読むことができました。

pyinstallerを使おうとするとメモ帳が強制召喚される。(対処完了)

コマンドプロンプトにpyinstallerと打つと、このメモ帳が強制的に開かれて終了。人生の終わり。アーメン。っとなって諦めていました。 linuxでも上手くいかなかったけど、 pythonをexe化に悪戦苦闘のメモ(しかもちゃんとできてないよ。誰か助けて。) - ア…