nltk for biginer

にこにこテキストマイニング勉強会

初めての NLTKーツイートでの累積頻度ー

早川　敦士

http://www.slideshare.net/gepuro/に資料が公開されています。

AGENDA

●自己紹介●NLTKについて●ツイートの取得●MeCabでツイートの分かち書き●NLTKを用いて累積頻度プロット●参考資料

AGENDA

自己紹介

早川　敦士電気通信大学電気通信学部システム工学科　二年

TwitterID: @gepuro

テキストマイニング初心者プログラミング初心者

AGENDA

NLTKについて

Natural Language Toolkitの略

ペンシルバニア大学で、コンピュータ言語学コーパスの一部として作成

●単純化●一貫性●拡張性

●モジュール性

を目標にデザインされた。

NLTKについて

単純化

退屈で面倒な作業を少なくするユーザーへ NLPの実用知識を与える

直感的なフレームワーク

NLTKについて

一貫性

一貫したインターフェイスとデータ構造推測しやすいメソッド名

NLTKについて

拡張性

新しいソフトウェアモジュールが容易に対応可能であるような構造

NLTKについて

モジュール性

ツールキットの他の部分の理解を必要なしで、独立して利用できるコンポーネント

NLTKについて

要は、使いやすいように

作った

AGENDA

ツイートの取得

ぺちゃくちゃ Reader で取得Windowsで使用可能です。

python-twitterなるものがあるそうだけど、知識不足の為、断念。一度目の挫折 orz

まずは、ダウンロード。しみず工房 http://pcbase.web.infoseek.co.jp/

過去の投稿を取得後、csvファイルに出力

csvファイルには、

●何番目のツイートか●発言ユーザー●ツイート内容

●ツイートの投稿時間●謎の数字

今回、使用した情報は、

自分のツイート内容です。投稿時間等の他の情報は使用しませんでした。

Pythonで csvを使おうとしたら苦戦しました。↓

Google Documentを使用した。

二度目の挫折 orz

必要な無いツイート以外の内容を削除したのち、tcv形式で出力しました。

これで、とりあえず一段落。

AGENDA

MeCabで分かち書き

分かち書きするなら、MeCabでしょ！

という訳で、MeCabのインストール

$ sudo apt-get install mecab

Ubuntu10.10で動作確認

$ mecab -Owakati input.tcv -o twitter.txt

これで分かち書きされる。

AGENDA

NLTKを用いて累積頻度プロット

まずは、インストールを、

$ sudo apt-get install python-nltk

参考書を見ながら、プログラムを書いてみました。

#!/usr/bin/pythonimport sysimport nltkfrom nltk.book import *from nltk.corpus import PlaintextCorpusReaderreload(sys)sys.setdefaultencoding('utf-8')

corpus_root = '/home/dedicatus545/Dropbox/Documents/nlp/'wordlist = PlaintextCorpusReader(corpus_root,'twitter.txt',encoding='utf-8')

fdist = FreqDist(wordlist.words('twitter.txt'))fdist.plot(40,cumulative=True)

文字化け！！

しかも、文字化けだけで無く、 y軸が割合では無く、

カウントで表示されている。

三度目の挫折 orz

しかし、ここは譲ることができない。という訳で、

文字化けの修正と、 y軸を割合で表示できるようにしました。

どうやら、NLTKツールキットの内部的な問題なので、ライブラリにパッチを当ててみました。

グラフ出力のメソッドは、/usr/lib/pymodules/python2.6/nltk/probability.py

を参照してます。

変更した内容は、asciiコードでの処理を utf-8に変更

累積の割合で表示できるように、引数を追加フォントの指定による文字化けの回避です。

http://www.mma.club.uec.ac.jp/~hayakawa/nltk_probability_plot.txt

に掲載しました。

#!/usr/bin/pythonimport nltkfrom nltk.book import *from nltk.corpus import PlaintextCorpusReader

corpus_root = '/home/dedicatus545/Dropbox/Documents/nlp/'wordlist = PlaintextCorpusReader(corpus_root,'twitter.txt',encoding='utf-8')

fdist = FreqDist(wordlist.words('twitter.txt'))fdist.plot(40,cumulative=True,percent=True)　 #上位 40単語でプロット

を実行しました。

助詞や句読点で大半を占めていることが分かる。自分のツイートの特徴的なものが

出てこなかった。

そこで、上位 100語を出力してみた。fdist.tabulate(100)で表示される。

特徴的な語は、

Http,今日、何、時間、僕、勉強、 R、 fkhr、mlka、けど、良い、アニメ、明日

頻度順

アニメ！

しかし、アニメより、勉強という語の方が出現頻度が高くて、

安心しました。

AGENDA

参考資料

出版　 O'RELLY　入門　自然言語処理

Steven Bird, Ewan Klein, Edward Loper 著萩原　正人、中山　敬広、水野　貴明　訳

おわり

ご清聴ありがとうございました。

nltk for biginer

Technology

nltk tagging

nhóm 8 bt nltk

natural language toolkit nltk

nltk tutorial: introduction

python nltk

corpus bootstrapping with nltk - o'reilly...

nltk essentials - sample chapter

isd312 03-nltk

corpora in nltk -...

language sleuthing howto with nltk

slide chuong 3- nltk

bai tap nltk

nltk introduction

nltk: the natural language toolkit -...

nltk-trainer documentation - read the docs · nltk-trainer...

nltk book chapter 2

bird05 nltk-intro

sentiment analysis-by-nltk

slide nltk kt

frequency with nltk