frequency with nltk

さくさくテキストマイニング勉強会

条件付き頻度分布 with NLTKーコーパスの比較ー

早川　敦士

http://www.slideshare.net/gepuro/に資料が公開されています。

http://www.slideshare.net/gepuro/

AGENDA

●自己紹介●前回の反省●ツイートの取得●ゴミ取り●条件付き頻度分布のプロット●参考資料

自己紹介

早川　敦士電気通信大学電気通信学部

システム工学科　三年TwitterID: @gepuro

統計に興味津々なお年頃コンピュータサークルに所属

さくさくテキストマイニング勉強会の初心者代表

自己紹介

はてなダイアリーを始めました。http://d.hatena.ne.jp/gepuro/

サークルMicrocomputer Making Association

http://wiki.mma.club.uec.ac.jp/http://wiki.mma.club.uec.ac.jp/hayakawa

http://d.hatena.ne.jp/gepuro/

http://wiki.mma.club.uec.ac.jp/

http://wiki.mma.club.uec.ac.jp/hayakawa

AGENDA


前回の反省

ツイートの取得を windows アプリケーション任せ↓

Tweepy に挑戦

グラフをプロットする時に助詞等が残ったまま↓

必要の無い語を削除

前回の反省

前回の反省を踏まえて、

4/9 〜 4/14 の間の自分のタイムラインとパブリックなタイムライン

の比較をしてみます。

前回の反省

テキストマイニングの成果がでるよう

意外な発見を期待して、

取り組みました。

AGENDA


ツイートの取得

●パブリックなタイムラインの取得

Api.public.timeline()なるものを使って

過去のパブリックタイムラインを取得しようとした。



出来なかった。

パブリックタイムラインに対しては、過去のツイートに遡るような事が出来ない。



現在から未来へかけて取得する方針に変更↓

VPS 上で５日間取得し続けました。


５日後


●自分のタイムラインの取得

比較が出来ることを楽しみにしながら、

自分の TL を過去に遡って取得を試みました。


API 制限

＼ (^o^) ／



自分のタイムラインに対しては、

過去 800 件までしか取得できない。（ 4/15 現在）



涙を拭いながら、

http://dev.twitter.com/doc

を見てみると、ユーザー毎のタイムラインなら、

3200 件まで取得できる。

http://dev.twitter.com/doc



フォローしている人のタイムラインを

順番に取得することに変更


予定が次々と変更したものの、

２種類のテキストが手に入った。

AGENDA


ゴミ取り

パブリックなタイムラインは複数の言語を含む↓

日本語だけに

形態素解析↓

名詞だけを残す（代名詞は除く）

ゴミ取り

●多言語を含むテキストから日本語を抽出

１行１ツイートのテキストファイル各行に対して、文字コードを変更する（例： shift-jis)

変更できなければ、日本語以外変更できれば、日本語 or英語

ゴミ取り


アスキーコードに変更してみる。

出来なければ、日本語

ゴミ取り


一部のツイートに対して、うまく作用しないものがありました。

↓大体OK

ゴミ取り

　　　　　　　　　　　　／）

　　　　　　　　　　　／／／）

　　　　　　　　　／ ,.=ﾞ ''" ／　　　

　　　／　　　　 i f 　 ,.r='"- '‐ つ＿＿＿ _ 　　こまけぇこたぁいいんだよ！！

　　 / 　　　　　 / 　　　 _,.- '~‐ ／⌒　　⌒＼

　　　　／　　 ,i 　　　 , ⊃ ●二ﾆ（） . ●　（）＼

　　　 / 　　　ﾉ　　　 ilﾞフ ::::::⌒ （ __ 人 __ ）⌒ ::::: ＼

　　　　　　 , ｲ｢ﾄ､　　 ,!,!| 　　　　　 |r┬-| 　　　　　 |

　　　　　 / 　 i ﾄヾヽ _/ ｨ " ＼　　　 ` ー '´ 　　／

http://dic.nicovideo.jp/a/%EF%BC%8F%EF%BC%8F%EF%BC%8F

http://dic.nicovideo.jp/a/%3D

http://dic.nicovideo.jp/a/%3D

http://dic.nicovideo.jp/a/%E3%81%93%E3%81%BE%E3%81%91%E3%81%87%E3%81%93%E3%81%9F%E3%81%81%E3%81%84%E3%81%84%E3%82%93%E3%81%A0%E3%82%88%EF%BC%81%EF%BC%81

http://dic.nicovideo.jp/a/il

ゴミ取り

●テキストから名詞を取り出す

おなじみの

MeCabを使いました。

AGENDA


条件付き頻度分布のプロット

ここからは、

NLTK が使える。

頼むぞ！


●実行したことその１テキストを読み込み、トークン化させる

@やRT 、 http といった必要の無いものを取り除く

１文字の語を取り除く

頻度の多い順にソート (vcb_tl)

条件付き頻度分布のプロットf = open('tl.txt')raw = f.read()f.close()

token = re.split(' ', raw)

ngword = ['.', '/', '@', '://', 'http', '#', 'RT', '_', ':', '(', ')', '-', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ',']

clean = []for w in token: if not w in ngword: clean.append(w)

tl = []for w in clean: if len(w) > 3: tl.append(w)

fdist = nltk.FreqDist(tl)vcb_tl = fdist.keys()


●実行したこと　その２PlaintextCorpusReader で

テキストを読み込む。

ConditionalFreqDist() で条件付き頻度分布の準備


from nltk.corpus import PlaintextCorpusReadercorpus_root = '.'wordlists = PlaintextCorpusReader(corpus_root, '.*', encoding='utf-8')

corpus = ['tl_for_kaiseki.txt', 'public_for_kaiseki.txt']

cfd = nltk.ConditionalFreqDist( (target, text) for target in corpus for text in wordlists.words(target))


●実行したこと　その３

文字コードを utf-8 へ条件付き頻度分布表の表示

グラフの表示

tl_utf = [w.decode('utf-8') for w in voc_tl]

cfd.tabulate(samples=tl_utf[:20])cfd.plot(samples=tl_utf[:20])


パブリックと比較して、地震というワードが多いが、

大震災が少ない。

tl_for_kaiseki.txt は 88,861 outcomespublic_for_kaiseki.txt は 447,175 outcomes

を考慮すれば、 TL にはかなりの頻度で大震災というワードが流れたことになる。


「こと」、「さん」、「今日」などの

一般的な言葉が含まれるので、

グラフの面白さが半減してしまう。


パブリックの上位１００語に含まれる語を取り除いてみる

change = []for w in tl_utf: if not w in public_utf[:100]: change.append(w)

cfd.plot(samples=change[1:30])


特徴的に感じた語

知事、被災、震災、調布、必要、首相、普通


パブリックなタイムラインと自分のタイムラインを比較すると、違いを確認する事ができた。

特に、地域に関する部分で大きな違いを観測できた。

参考資料

出版　O'RELLY　入門　自然言語処理

Steven Bird, Ewan Klein, Edward Loper 著萩原　正人、中山　敬広、水野　貴明　訳

バイト及びインターンシップ先を探しています。

関心のある事柄テキストマイニング、データマイニング、

マーケティング、自然言語処理、統計学が関わる仕事、

Python,R言語

よろしくお願いします。

連絡先： hayakawa アットマーク mma.club.uec.ac.ジェイピー

おわり

ご清聴ありがとうございました。

frequency with nltk

Technology