pythonでtf-idf計算i.cla.kobe-u.ac.jp/murao/class/2015-seminarb3/06_python...Ä ? u ? u ] ) f 7 -...

29

PythonでTF-IDF計算専⾨演習(B)：Pythonでデータ分析⼊⾨

Upload: lamanh

Post on 05-Apr-2018

221 views

Category:

Documents

6 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

PythonでTF-IDF計算専⾨演習(B)：Pythonでデータ分析⼊⾨

Page 2: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

TF-IDFの概念• ⽂書群内の特定の⽂書における特定の単語の重要度• 仮定：以下のような単語の重要度は⾼い• その⽂書における出現頻度が⾼い• ⽂書群の他の⽂書にはあまり出現しない

Page 3: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

TF-IDFの定義

単語 t の⽂書 d における出現頻度tf(t, d) :

tf-idf(t, d, D) = tf(t, d) � idf(t, D)

idf(t, D) : 単語 t の⽂書群 D における出現頻度

idf(t, D) = log|D|

|{d � D : t � d}|

tf(t, d) = 0.5 + 0.5 · ft,d

max{ft�,d : t� � d}

ft,d =nt,d�t� nt�,d

Page 4: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

TF-IDFの例

TF-IDF

✓ 回数の多い単語が重要というわけでもない

⽂書ごとの単語の出現頻度（回数）

Page 5: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

準備

Page 6: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

必要なライブラリのインストール• TF-IDFの計算に必要なライブラリ• scikit-learn

• 機械学習とデータマイニング⽤のライブラリ[以下はscikit-learnで必要]• numpy

• 数値演算⽤のライブラリ（特に⾏列演算）• scipy

• 科学技術計算⽤のライブラリ

• インストール⼿順（⻘字が⼊⼒）

ユーザ領域にインストールするために必要アップデート（無くても良い）

Page 7: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

演習⽤データの作成(1)• テキスト⽂書から単語リストを作成する[⼿順]1. プログラムとテキスト⽂書ファイル（8つ）をダウンロード2. ターミナルで以下のように実⾏してみる

テキスト⽂書に含まれる単語のリスト

Page 8: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

演習⽤データの作成(2)3. 単語リストを画⾯で確認したら以下を実⾏

4. これを残りのテキストファイル（7つ）について⾏うリダイレクト

Page 9: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

リダイレクト• シェルの機能：⼊出⼒先を変更する

記号機能使⽤例画⾯表⽰をファイルに上書き保存する画⾯表⽰をファイルに追加するキーボード⼊⼒の代わりにファイルから⼊⼒する

Page 10: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

対話モードでTF-IDF

Page 11: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

Pythonの起動• 何はともあれまずはPythonの起動

Pythonの対話⽤プロンプト

Page 12: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

必要なライブラリの読み込み• TF-IDF計算⽤ライブラリ（scikit-learnの⼀部）を読み込み

Page 13: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

単語リストの読み込み• 単語リストを読み込む

• これを全ての単語リストについて⾏う

✓ 横着して1⾏でファイルのオープンと読み込みをしている✓ あまり良くないがファイルのクローズは省略

Page 14: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

単語リストの確認• 単語リストの確認

Page 15: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

ドキュメントセットの作成• ⽂書ごとの単語リストのリストを作成する

Page 16: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

TF-IDFの準備• TF-IDF計算プログラムの⽤意

［TF-IDFのオプション(⼀部)］• use_idf

• IDFを利⽤するかどうか（True|False）• stop_words

• TF-IDFの計算に含めない単語のリスト

Page 17: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

TF-IDF計算の実⾏• TF-IDF計算の実⾏

Page 18: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

単語リストの確認• 単語リストの取得

• 単語リストの表⽰

termsの中⾝を' '（半⾓スペース）で結合する

Page 19: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

TF-IDFの確認• TF-IDFの表⽰ 0番⽬の⽂書(hana.txt)のTF-IDF

単語リストの0番⽬の単語のTF-IDF

Page 20: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

主成分分析してみる

Page 21: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

主成分分析の準備• ライブラリの読み込み

• 主成分分析器の⽤意

Page 22: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

主成分分析してみる• 主成分分析の実⾏

• 主成分の数の確認

Page 23: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

因⼦負荷量の確認• 因⼦負荷量の多い/少ない単語を主成分毎に表⽰してみる

→ 主成分の意味を推定する

こいつをなくすと因⼦負荷量の少ない順に表⽰

Page 24: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

因⼦負荷量の例多い順少ない順

第1主成分：太宰治軸？（反芥川軸）

第2主成分：夏⽬漱⽯軸？（反メロス軸）

Page 25: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

データの次元圧縮• データを主成分空間に写像

Page 26: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

データをプロットしてみる

Page 27: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

データプロット⽤ライブラリの読み込み• matplotlibの読み込み

• 対話モード

• プロット⾯のクリア

Page 28: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

次元圧縮後のデータをプロットする• 名前の設定

• ⾊の設定

• データのプロット

• 凡例の表⽰左下に表⽰

Page 29: PythonでTF-IDF計算i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/06_Python...Ä ? U ? U ] ) f 7 - 253RE®+IUUQ XXX BP[PSB F S ] 0 mº Á ÿ テキスト書に含まれる単語のリスト

プロット例• 夏⽬・太宰・芥川の作品が

グループ分けされている• 特定のキーワードの影響の可能性

（メロスとか芥川とか）

• 名詞を除いて分析→ ⽂体の分析の可能性

hana

kokorowaganeko

sorekara

rashokumo

merosu

ningen

第1主成分

第2主

成分

EclipseでGUI作成 - Kobe Universityi.cla.kobe-u.ac.jp/murao/class/2011-SeminarB3B/1/1.pdfEclipseでGUI作成 WindowBuilderの利用 11年12月8日木曜日 WindowBuilder • Googleが2010年8月に買収した技術

マルチスレッドの基本 - Kobe Universityi.cla.kobe-u.ac.jp/murao/class/2011-SeminarB3B/2/2.pdfマルチスレッド実現の2つの方法 1.Threadクラスを継承 2.Runnableインターフェイスを実装

Preliminary Study on the Production of Extracellular ...psasir.upm.edu.my/3368/1/Preliminary_Study_on_the... · Murao et aL (1979) for Bacillus subtilis and Chaloupka et aL (1987)

クラスター分析 - Kobe Universityi.cla.kobe-u.ac.jp/murao/class/2014-SeminarB2/6_Cluster.pdfコーフェン行列ユークリッド距離と最遠隣法によるコーフェン相関係数

)¼ Ü « º...42:ý v ± Û ± Û 7T 業績リスト2014 d Û %Ê '2 &É>- d Û 4 %Ê '2 Ì '¨ Improving Decentralized Control Algorithm to Enlarge AAS Window Murao, T., Nishimura,

Gesture Recognitionhomepage.cs.uiowa.edu/~ochipara/classes/sensing_the... · Motion-Based Gesture Recognition Based on the Paper: Kazuya Murao, Tsutomu Terada, Ai Yano, Ryuichi Matsukura,

Yoshifumi Nakata 1,2, ,† and Mio Murao 3,†

樹木モデル - i.cla.kobe-u.ac.jpi.cla.kobe-u.ac.jp/murao/class/2014-SeminarB2/14_TreeBasedModel.pdf · – データマイニングパッケージWekaのRバージョン – C4.5のアルゴリズムによる関数J48がある

国際文化学部村尾元 - Kobe Universityi.cla.kobe-u.ac.jp/murao/docs/java/JavaText.pdf · 1.3. はじめてのJava プログラミング 7 ページが開いたら，“Download

psN Xi V RMIKhk 6*V8’/HWm0i s0i.cla.kobe-u.ac.jp/murao/docs/java/RMI.pdf · psN=)Xi,V RMIKhk,6*V8’/HWm0i_s0 4v51’

第8章非線形回帰分析 - Kobe Universityi.cla.kobe-u.ac.jp/murao/class/2014-SeminarB2/9_NonlinearRegression.pdf · glm(formula,family,data) ケーススタディ一般化線形モデル関数glmの使用法について、本項では

Stabilizing Predictive Visual Feedback Control for Fixed ... · Stabilizing Predictive Visual Feedback Control for Fixed Camera Systems TOSHIYUKI MURAO,1 HIROYUKI KAWAI,2 and MASAYUKI

NON-SOFTWARE OPEN SOURCE OPPORTUNITIES Group F Members: Albin Louit * Chitra Madhwacharyula Koji Murao Mark Pearson * Mike Wooldridge * presenter

対応分析 - Kobe Universityi.cla.kobe-u.ac.jp/murao/class/2014-SeminarB2/4_Corres...241 909 403 110 lee 412 R R Console > fair medium dark ack red 116 48 blue ght dark 326 241 909

Microsoft Wordi.cla.kobe-u.ac.jp/murao/class/2008-itskills/Word-3.pdfGraduate School of Intercultural Studies Kobe University, JAPAN 本日の課題今日の授業で作成した作品を提出して下さい

Application of PIXE to mineral analysis - ESDMpsdg.bgl.esdm.go.id/makalah/PIXE-mineral.pdf · Application of PIXE to mineral analysis Satoshi Murao 2006 CASM Asia-Pacific Bandung

08 Personal Computing and Digital Media - Kobe …i.cla.kobe-u.ac.jp/murao/class/2015-InfoEnv/08_Personal...PCの進化（CPU編） 1985年 80386 1989年 80486 1991年 486SX 1993年

Machinery Listingsfinatexinternational.com/Machines-rovingframe.pdf · 2016. 5. 7. · Roving Frame 03 MARZOLI simplex model BCX 16, spindle nr 96, SKF PK 1500, Murao cleaner, T5

日本の携帯事情 - Kobe Universityi.cla.kobe-u.ac.jp/murao/class/2014-InfoEnv/02_Mobile...ガラパゴス化日本における携帯電話普及率の変化 0 25 50 75 100 1993

Entry Barriers, Reallocation, and Productivity Growth ... · Entry Barriers, Reallocation, and Productivity Growth: Evidence from Japanese manufacturing firms MURAO Tetsushi Hitotsubashi

A Village, a Country and the Discipline: economic ... · • Diverse caste structure (dominant castes by population: Thakur, Murao and Jatab). •Has been surveyed seven times. •Original

Liste des produits T/T+ et CMR (Xn comportant … · milord minedor misol mistel mohawk monnaie movento murao mycloss fort mycotox c nabega nando nativo ... piano pirimor g pirogue

組織化マップ SOM - Kobe Universityi.cla.kobe-u.ac.jp/murao/class/2014-SeminarB2/7_SOM.pdf組織化マップとは？組織化マップとは Teuvo Kohonenにより提案されたニューラル

ビッグデータの活用 - Kobe Universityi.cla.kobe-u.ac.jp/murao/class/2015-InfoEnv/09_BigData.pdfビッグデータ • 量的 → 通常のデータベースソフトウェアで扱えない程の巨大なデータ

Rで主成分分析/因子分析 - i.cla.kobe-u.ac.jpi.cla.kobe-u.ac.jp/murao/class/2014-SeminarB2/3_PCA_FA_in_R.pdf · 因子分析（fa） ! 多数の変数で説明されるデータ

env · mercury-free operation at artisanal/small-scale mining sites in Mongolia, NMCC Annual Report 22, 145-151, Japan Radioisotope Association. (2015) 11 , 31-35. Murao, S., Goto,

Pythonで主成分分析i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/05_Python_de_PCA.pdf · 必要なライブラリのインストール • 主成分分析に必要なライブラリ

Tetsushi Murao - econstor.eu

THIRD ltnE~ATICl'lAL CoNFERENCE · 2015. 6. 11. · 2:00 pm The Mechanism of the Production of Velcro Rale Y. Homma Y. Minami Y. Ohsaki M. Murao 2:30 pm Acoustic Characteristics of

Вечная река eternal river..."Вечная река" TРассказ Судо Яхюй(Suto Yahee) Ясуко Murao родилася в префектуре Ямагути

NFC＆おサイフケータイ - i.cla.kobe-u.ac.jpi.cla.kobe-u.ac.jp/murao/class/2014-InfoEnv/05_NFC.pdf · NFC • Near Field Communication＝近距離無線通信 • 国際標準規格

Microsoft Word - Kobe Universityi.cla.kobe-u.ac.jp/murao/class/2008-itskills/Word-1.pdfIT課題「Word1」【提出期限】 2008年5月20日（火）13:00 Faculty of Intercultural

PowerPointの基本操作i.cla.kobe-u.ac.jp/murao/class/2014-ITSkills/04/0401...• パッと見て分かる文字が大きい（18pt以上）文字が少ない効果的な絵の使い方

専門演習B：Pythonによるデータ分析入門i.cla.kobe-u.ac.jp/murao/class/2015-SeminarB3/01_Preparation.pdf · 専門演習B：Pythonによるデータ分析入門. 環境の整備

gorzata Murao - slubfurt.net fileIch komme aus Polen, dort bin ich aufgewach-sen und habe mich dort immer wohl gefühlt. Während eines meiner ersten Aufenthalte in Deutschland habe