jasp web site - rによる自然言語研究環境の整備lewis carroll: alice in wonderland....
TRANSCRIPT
![Page 1: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/1.jpg)
Rによる自然言語研究環境の整備石田基広
徳島大学総合科学部
R による自然言語研究環境の整備 – p.1/27
![Page 2: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/2.jpg)
自然言語研究と統計解析
コーパス言語学
語の共起関係 (t検定など),テキストの指標 (多変量解析など)
計量言語学
言語単位の分布 の法則など
心理言語学
言語と認知 誤差の処理
パッケージ パッケージ
パッケージ パッケージ
パッケージ パッケージ パッケージ
R による自然言語研究環境の整備 – p.2/27
![Page 3: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/3.jpg)
自然言語研究と統計解析
コーパス言語学
語の共起関係 (t検定など),テキストの指標 (多変量解析など)
計量言語学
言語単位の分布 (Zipfの法則など)
心理言語学
言語と認知 誤差の処理
パッケージ パッケージ
パッケージ パッケージ
パッケージ パッケージ パッケージ
R による自然言語研究環境の整備 – p.2/27
![Page 4: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/4.jpg)
自然言語研究と統計解析
コーパス言語学
語の共起関係 (t検定など),テキストの指標 (多変量解析など)
計量言語学
言語単位の分布 (Zipfの法則など)
心理言語学
言語と認知 (誤差の処理)
パッケージ パッケージ
パッケージ パッケージ
パッケージ パッケージ パッケージ
R による自然言語研究環境の整備 – p.2/27
![Page 5: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/5.jpg)
自然言語研究と統計解析
コーパス言語学
語の共起関係 (t検定など),テキストの指標 (多変量解析など)
計量言語学
言語単位の分布 (Zipfの法則など)
心理言語学
言語と認知 (誤差の処理)
Rstemパッケージ Snowballパッケージ
tm パッケージ lsaパッケージ
zipfR パッケージ languageRパッケージ corporaパッケージ
R による自然言語研究環境の整備 – p.2/27
![Page 6: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/6.jpg)
コーパス言語学:トークンの処理
Alice was beginning to get very tired of sitting by her sisteron
the bank, and of having nothing to do...
Lewis Carroll: Alice in Wonderland.
トークン化
でも不可能ではない.また パッケージがサポート
パッケージ
R による自然言語研究環境の整備 – p.3/27
![Page 7: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/7.jpg)
コーパス言語学:トークンの処理
Alice was beginning to get very tired of sitting by her sisteron
the bank, and of having nothing to do...
Lewis Carroll: Alice in Wonderland.
トークン化: “Alice” “was” “beginning” “to” “get” “very”
“tired” “of” “sitting” “by” “her” “sister” “on” “the” “bank ”...
でも不可能ではない.また パッケージがサポート
パッケージ
R による自然言語研究環境の整備 – p.3/27
![Page 8: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/8.jpg)
コーパス言語学:トークンの処理
Alice was beginning to get very tired of sitting by her sisteron
the bank, and of having nothing to do...
Lewis Carroll: Alice in Wonderland.
トークン化: “Alice” “was” “beginning” “to” “get” “very”
“tired” “of” “sitting” “by” “her” “sister” “on” “the” “bank ”...
Rでも不可能ではない.また tmパッケージがサポート
H. Baayen “Analyzing Linguistic Data” 2008+ languageRパッケージ
We can make a frequency spectrum withinR. (This is feasible
only with texts or small corpora withe less than a million
words.)
R による自然言語研究環境の整備 – p.3/27
![Page 9: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/9.jpg)
コーパス言語学:トークン分割
Alice was beginning to get very tired of sitting by her sisteron
the bank,..#連続テキストのベクトル化alice.raw <- readLines ("alice.txt")
alice.vec <- strsplit(alice.raw,
split = "[[:blank:]]|[[:punct:]]" ,
extended = TRUE, perl = TRUE)
alice <- alice.vec[alice.vec != “”]
“Alice” “was” “beginning” “to” “get” “tired” “of” “sitting ”
“by” “her” “sister” “on” “bank”...
万語のテキストの場合 で約 秒,で約 秒 環境
R による自然言語研究環境の整備 – p.4/27
![Page 10: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/10.jpg)
コーパス言語学:トークン分割
Alice was beginning to get very tired of sitting by her sisteron
the bank,..#連続テキストのベクトル化alice.raw <- readLines ("alice.txt")
alice.vec <- strsplit(alice.raw,
split = "[[:blank:]]|[[:punct:]]" ,
extended = TRUE, perl = TRUE)
alice <- alice.vec[alice.vec != “”]
“Alice” “was” “beginning” “to” “get” “tired” “of” “sitting ”
“by” “her” “sister” “on” “bank”...
166万語のテキストの場合 R (on ESS/Emacs)で約 6秒,Java(on Eclipse)で約 1秒 (環境: Core2Duo, Ubuntu7.10)
R による自然言語研究環境の整備 – p.4/27
![Page 11: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/11.jpg)
Rでテキスト処理
トークン化に続く処理
library(tm) # Text Miningパッケージ#余分な空白類を削除alice.DC2 <- tmMap (alice.DC, stripWhitespace)
# stopWords (and, or, ...)を削除alice.DC3 <- tmMap (alice.DC2,removeWords, stopwords (“english”))
ステミング同じことで語幹に縮める処理結果を表示する
R による自然言語研究環境の整備 – p.5/27
![Page 12: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/12.jpg)
Rでテキスト処理
トークン化に続く処理
library(tm) # Text Miningパッケージ#余分な空白類を削除alice.DC2 <- tmMap (alice.DC, stripWhitespace)
# stopWords (and, or, ...)を削除alice.DC3 <- tmMap (alice.DC2,removeWords, stopwords (“english”))
alice.DC4 <- tmMap (alice.DC3,stemDoc)#ステミングlibrary (Rstem)#同じことで語幹に縮める処理wordStem (alice) #結果を表示する
"alic" "was" "begin" "to" "get" "veri" "tire" "of"
"sit" "by" "her" "sister" "on" "the"
R による自然言語研究環境の整備 – p.5/27
![Page 13: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/13.jpg)
Rでコーパス言語学
語の共起関係 (collocations)
有意な配列パターン
kick the bucket
take place
powerfulcomputer vs. ??strongcomputer
で 無理やり コロケーションを抽出
R による自然言語研究環境の整備 – p.6/27
![Page 14: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/14.jpg)
Rでコーパス言語学
語の共起関係 (collocations)
有意な配列パターン
kick the bucket
take place
powerfulcomputer vs. ??strongcomputer
Rで (無理やり)コロケーションを抽出place <- which(alice == "place")
for(i in place){ x <- i - 2; y <- i + 2
if (x< 0) x <- 0; if (y > length (alice )) y <- length (alice)
for(z in x:y){ cat ( sprintf (“%10s”, alice[z] ),”Un” ) }}
in bill’s place for a
an open place with a
at the place where it
move one place on he
the dormouse’s place and alice
took the place of the
the whole place around her
take the place of the R による自然言語研究環境の整備 – p.6/27
![Page 15: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/15.jpg)
共起関係の統計解析
z スコア,tスコア, MIスコアz = O−E
σ
t = O−E√O
(by Church)
MI = log2O
E
corporaパッケージ, S.Evert
正規分布,ランダムの仮定値そのものではなく,そのランクを参照
カイ二乗検定や対数尤度比検定ならば 関数など
R による自然言語研究環境の整備 – p.7/27
![Page 16: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/16.jpg)
共起関係の統計解析
z スコア,tスコア, MIスコアz = O−E
σ
t = O−E√O
(by Church)
MI = log2O
E
corporaパッケージ, S.Evert
正規分布,ランダムの仮定t値そのものではなく,そのランクを参照
カイ二乗検定や対数尤度比検定Rならばloglin()関数など
R による自然言語研究環境の整備 – p.7/27
![Page 17: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/17.jpg)
コーパス言語学その2
文学・文献学研究への応用
著者推定
金明哲「自己組織化マップと助詞分布を用いた書き手の同定」2003
作品のターム分析
田畑智司「コーパスに基づく文体論研究」
石田基広「ベクトル空間に投射した作品の意味構造」
R による自然言語研究環境の整備 – p.8/27
![Page 18: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/18.jpg)
コーパス言語学その2
文学・文献学研究への応用
著者推定
金明哲「自己組織化マップと助詞分布を用いた書き手の同定」2003
作品のターム分析
田畑智司「コーパスに基づく文体論研究」2005
石田基広「ベクトル空間に投射した作品の意味構造」2005
R による自然言語研究環境の整備 – p.8/27
![Page 19: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/19.jpg)
コーパス言語学その2
文学・文献学研究への応用
著者推定
金明哲「自己組織化マップと助詞分布を用いた書き手の同定」2003
作品のターム分析
田畑智司「コーパスに基づく文体論研究」2005
石田基広「ベクトル空間に投射した作品の意味構造」2005
R による自然言語研究環境の整備 – p.8/27
![Page 20: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/20.jpg)
lsaパッケージによるテキスト処理
潜在的意味インデキシング解析 (LSA)
lsa_0.57 by Fridolin Wild
ディレクトリ内の全テキスト読込
オプションで stopwordsを削除
stemmingに対応 (Rstemによる処理)
ターム・文書行列の生成 (重み付け)
特異値分解
文書どうしの類字度 (コサイン距離等)の算出
新規検索タームの文書行列との類似度計算R による自然言語研究環境の整備 – p.9/27
![Page 21: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/21.jpg)
ベンチマークによる試行例
九つのテクニカルメモのタイトルを利用
Scott C. Deerwester et al., Indexing by Latent Semantic Analysis, 1990
D1 - D5 (human-computer-interaction)
D6 - D9 (graph theory)
R による自然言語研究環境の整備 – p.10/27
![Page 22: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/22.jpg)
ベンチマークによる試行例
九つのテクニカルメモのタイトルを利用
Scott C. Deerwester et al., Indexing by Latent Semantic Analysis, 1990
D1 - D5 (human-computer-interaction)
D6 - D9 (graph theory)D1: Human machine interface for ABC computer applications
D2: A survey of user opinion of computer system response time
D3: The EPS user interface management system
D4: System and human system engineering testing of EPS
D5: Relation of user perceived response time to error measurement
D6: The intersection graph of paths in trees
D7: Graph minors IV: Widths of trees and well-quasi-ordering
D8: The generation of random, binary, ordered trees
D9: Graph minors: A survey
R による自然言語研究環境の整備 – p.10/27
![Page 23: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/23.jpg)
ファイルの読み込みと行列作成
#文書ディレクトリの指定td <- (“/home/user/texts”)
#必要なら stopwordをロードdata(stopwords_en)
#ディレクトリを読み込み#ターム・文書行列作成myMatrix <- textmatrix(td,
stopwords = stopwords_en,
stemming = TRUE)
> myMatrix
docs
terms D1 D2 D3 D4 D5 D6 D7 D8 D9
abc 1 0 0 0 0 0 0 0 0
application 1 0 0 0 0 0 0 0 0
comput 1 1 0 0 0 0 0 0 0
human 1 0 0 1 0 0 0 0 0
interfac 1 0 1 0 0 0 0 0 0
machin 1 0 0 0 0 0 0 0 0
opinion 0 1 0 0 0 0 0 0 0
respons 0 1 0 0 1 0 0 0 0
survey 0 1 0 0 0 0 0 0 1
syst 0 1 1 2 0 0 0 0 0
R による自然言語研究環境の整備 – p.11/27
![Page 24: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/24.jpg)
もとの頻度行列と検索語との距離
myQuery <-
query("user interface",
rownames(myMatrix),
stemming = TRUE)
myMat.Que <-
cbind(myMatrix,
myQuery)
as.matrix(round(
cosine(myMat.Que),
dig = 2)[,10])
D1 0.29
D2 0.27
D3 0.63
D4 0.00
D5 0.27
D6 0.00
D7 0.00
D8 0.00
D9 0.00
R による自然言語研究環境の整備 – p.12/27
![Page 25: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/25.jpg)
特異値分解
# LSAを実行してみるmyLSAspace <-
lsa(myMatrix,
dimcalc_share(0.4))
myLSAspace
round(myLSAspace$tk,
digits= 2)
# 出力を編集[,1] [,2] [,3]
abc -0.06 0.02 0.07
applicat -0.06 0.02 0.07
comput -0.22 -0.01 -0.04
human -0.22 0.09 0.26
interfac -0.18 0.05 0.13
machin -0.06 0.02 0.07
opinion -0.16 -0.03 -0.11
respons -0.26 -0.08 -0.35
survey -0.18 -0.16 -0.09
syst -0.58 0.13 0.33
R による自然言語研究環境の整備 – p.13/27
![Page 26: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/26.jpg)
文書ベクトルの 3次元表現
#近似文書行列の生成new3Doc <-
t(myLSAspace$tk)
%*% myMatrix
rgl.open()
rgl.bg(color =
c("white", "black"))
rgl.spheres(new3Doc[1,],
new3Doc[2,],
new3Doc[3,])
rgl.texts(new3Doc[1,],
new3Doc[2,],
new3Doc[3,],
rownames(myLSAspace$dk))
-0.6877
-0.5809-0.7343
-0.5001
-0.2658
-0.03158
0.2027
-0.4342 -0.2875 -0.1408 0.00595
-0.3761
-0.06451
0.2471
0.5587
D3 D1
D4
D7
D9
D8
D6
D5D2
北研二他 (2002)『情報検索アルゴリズム』共立出版
R による自然言語研究環境の整備 – p.14/27
![Page 27: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/27.jpg)
tmパッケージ
tm_0.2-3 by Ingo Feinerer
S4クラスに基づく実装
各種フォーマット・メタ情報
(HTML,XML,Gmane,RSS)への対応
空白,stopwordsの処理 (英独露など 13言語に
対応)
stemmingの処理 (11言語に対応)
文章・ターム行列の作成
各種重み付け (tf-idf など)
R による自然言語研究環境の整備 – p.15/27
![Page 28: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/28.jpg)
Feinerer: tmパッケージによる解析例
A.Karatzoglou & I. Feinerer: Text clustring with string kernels in R: Advances in Data Analysis, 2006.
テキストクラスタリング
Reuters-21578データセットのサブテキスト (1720文書)
bag of words:単語頻度情報• 古典的 k-mean法 (kmeans())
String Kernels:文字の位置情報 (stringdot())• kernlabパッケージによる kernelベースの技法• Kernelk-means(kkmeans())• Spectral Clustering(specc())
それぞれが 前後の文書からなる集合についてカーネル・ストリングの作成に約 時間
その後のクラスタリングに約 分を費やす
R による自然言語研究環境の整備 – p.16/27
![Page 29: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/29.jpg)
Feinerer: tmパッケージによる解析例
A.Karatzoglou & I. Feinerer: Text clustring with string kernels in R: Advances in Data Analysis, 2006.
テキストクラスタリング
Reuters-21578データセットのサブテキスト (1720文書)
bag of words:単語頻度情報• 古典的 k-mean法 (kmeans())
String Kernels:文字の位置情報 (stringdot())• kernlabパッケージによる kernelベースの技法• Kernelk-means(kkmeans())• Spectral Clustering(specc())
それぞれが 500 words前後の文書からなる集合についてカーネル・ストリングの作成に約 2時間,
その後のクラスタリングに約 30分を費やす (2.6 Ghz Pentium 4)R による自然言語研究環境の整備 – p.16/27
![Page 30: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/30.jpg)
計量言語学: ZipfR パッケージ
例:ボキャブラリの増加率
の問題参考:
R による自然言語研究環境の整備 – p.17/27
![Page 31: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/31.jpg)
計量言語学: ZipfR パッケージ
例:ボキャブラリの増加率
5000 15000 25000
500
1000
1500
2000
2500
observed vocabulary size
N = sample size (tokens)
V(N
)
5000 15000 25000
510
1520
mean word freqeuncy
N = sample size (tokens)
N/V
(N)
Alice’s Adventures by Lewis Carroll
の問題参考:
R による自然言語研究環境の整備 – p.17/27
![Page 32: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/32.jpg)
計量言語学: ZipfR パッケージ
例:ボキャブラリの増加率
5000 15000 25000
500
1000
1500
2000
2500
observed vocabulary size
N = sample size (tokens)
V(N
)
5000 15000 25000
510
1520
mean word freqeuncy
N = sample size (tokens)
N/V
(N)
Alice’s Adventures by Lewis Carroll
500000 150000010
000
1500
020
000
2500
030
000
3500
0
observed vocabulary size
sample size (tokens)
voca
bula
ry s
ize
500000 1500000
1520
2530
3540
45
mean word frequency
sample size (tokens)
mea
n w
ord
freq
uenc
y
Six works by Charles Dickens
LNRE (Large Number of Rare Events)の問題参考:Baayen, Word Frequency Distributions, 2002 R による自然言語研究環境の整備 – p.17/27
![Page 33: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/33.jpg)
言語はランダム事象か?
文をランダムに並び替え頻度を測るシミュレーションの例 (実際には 1000語間隔で計測)
Alice was beginning to get very tired of sitting by(10語) her sister
on the bank, and of having nothing to(20語) do: once or twice she
had peeped into the book(30語) her sister was reading, but it had no
pictures or(40語) conversations in it, ‘and what is the use of a(50
語) book,’thought Alice ‘without pictures or conversation?’冒頭から 10語の範囲で theの頻度は 0
冒頭から 20語の範囲で theの累積頻度は 1
冒頭から 30語の範囲で theの累積頻度は 2...以下同様
語語
語語
語冒頭から 語の範囲で の頻度は冒頭から 語の範囲で の累積頻度は冒頭から 語の範囲で の累積頻度は ...以下同様
R による自然言語研究環境の整備 – p.18/27
![Page 34: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/34.jpg)
言語はランダム事象か?
文をランダムに並び替え頻度を測るシミュレーションの例 (実際には 1000語間隔で計測)
Alice was beginning to get very tired of sitting by(10語) her sister
on the bank, and of having nothing to(20語) do: once or twice she
had peeped into the book(30語) her sister was reading, but it had no
pictures or(40語) conversations in it, ‘and what is the use of a(50
語) book,’thought Alice ‘without pictures or conversation?’冒頭から 10語の範囲で theの頻度は 0
冒頭から 20語の範囲で theの累積頻度は 1
冒頭から 30語の範囲で theの累積頻度は 2...以下同様
what it but to peeped the sister of or was(10語) was on book no do
twice Alice pictures tired or(20語) of into or by of in beginning the
and conversation(30語) nothing she had thought once very use and
reading had(40語) is without it Alice conversations her a get sister
to (50語) her sitting bank book pictures the having冒頭から 10語の範囲で theの頻度は 1
冒頭から 20語の範囲で theの累積頻度は 1
冒頭から 30語の範囲で theの累積頻度は 2...以下同様R による自然言語研究環境の整備 – p.18/27
![Page 35: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/35.jpg)
theあるいは aはランダムか
5 10 15 20
0.02
00.
022
0.02
40.
026
0.02
80.
030
0.03
2
frequency spectrum of a
Monte Carlo simulationword span
prob
abili
ty o
f occ
uren
ce
95% confidence intervalexpected meanempirical mean
5 10 15 20
0.04
50.
050
0.05
50.
060
0.06
50.
070
frequency spectrum of the
Monte Carlo simulationword span
prob
abili
ty o
f occ
uren
ce
95% confidence intervalexpected meanempirical mean
テキストをシャッフルして冒頭から 1000語間隔で theと aの頻度を測る.これを 1000回繰り返
す.青いドットはランダムシャフルで求めた 95 %信頼区間.赤いドットはアリスの実測値.参考
Baayen, Word Frequency Distributions, 2002R による自然言語研究環境の整備 – p.19/27
![Page 36: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/36.jpg)
zipfRパッケージ
zipfRパッケージ, S.Evert & M.Baroni
パッケージ
m V(m,N) Sichel Zipf
1 1176 1176.00 1156.13
2 402 402.64 433.23
3 233 207.35 233.12
4 154 130.25 147.19
5 99 91.18 101.90
V (m, N) N トークン中 m 回現われた語彙数
Sichel =Inverse Gauss Poisson
modelによる期待値E(V (m, N))
Zipf = extended Zipf modelによる期待値 E(V (m, N))
R による自然言語研究環境の整備 – p.20/27
![Page 37: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/37.jpg)
zipfRパッケージ
zipfRパッケージ, S.Evert & M.Baroni
H. Baayen: Word Frequency Distributions, 2002
languageRパッケージ, H.Baayen
m V(m,N) Sichel Zipf
1 1176 1176.00 1156.13
2 402 402.64 433.23
3 233 207.35 233.12
4 154 130.25 147.19
5 99 91.18 101.90
V (m, N) N トークン中 m 回現われた語彙数
Sichel =Inverse Gauss Poisson
modelによる期待値E(V (m, N))
Zipf = extended Zipf modelによる期待値 E(V (m, N))
R による自然言語研究環境の整備 – p.20/27
![Page 38: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/38.jpg)
文長と確率分布
文長の分布に対して,以下の 4種の確率分布を検討する
対数正規分布 (安本美典『文章心理学入門』1965)
ポアソン分布負の二項分布
の混合ポアソン分布
日本語の場合,文を区切る作業が問題単語と形態素は異なる単位
好き だ
茶筅などの解析ツールを利用
R による自然言語研究環境の整備 – p.21/27
![Page 39: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/39.jpg)
文長と確率分布
文長の分布に対して,以下の 4種の確率分布を検討する
対数正規分布 (安本美典『文章心理学入門』1965)
ポアソン分布負の二項分布Sichelの混合ポアソン分布
日本語の場合,文を区切る作業が問題単語と形態素は異なる単位
好き だ
茶筅などの解析ツールを利用
R による自然言語研究環境の整備 – p.21/27
![Page 40: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/40.jpg)
文長と確率分布
文長の分布に対して,以下の 4種の確率分布を検討する
対数正規分布 (安本美典『文章心理学入門』1965)
ポアソン分布負の二項分布Sichelの混合ポアソン分布
日本語の場合,文を区切る作業が問題単語と形態素は異なる単位(“lik-ed” vs “好き” “だ”)
茶筅などの解析ツールを利用R による自然言語研究環境の整備 – p.21/27
![Page 41: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/41.jpg)
文長解析作業手順
青空文庫からサンプリングした 118の散文茶筅と自作 Javaプログラムでテキスト解析形態素あるいは文字を単位に文長を計測
以下 による作業のテキストごとに頻度の区間幅を段階的に
変更作成された頻度表それぞれと四つの確率分布の適合度を測る全テキスト,区間設定,確率分布ごとの結果を集計
R による自然言語研究環境の整備 – p.22/27
![Page 42: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/42.jpg)
文長解析作業手順
青空文庫からサンプリングした 118の散文茶筅と自作 Javaプログラムでテキスト解析形態素あるいは文字を単位に文長を計測
以下 Rによる作業118のテキストごとに頻度の区間幅を段階的に変更作成された頻度表それぞれと四つの確率分布の適合度を測る全テキスト,区間設定,確率分布ごとの結果を集計
R による自然言語研究環境の整備 – p.22/27
![Page 43: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/43.jpg)
負の二項分布
Negative Binomial distribution
p0(x) =
(
k + x − 1
x
)
pk qx
=Γ(k + x)
Γ(k)x!(
k
k + µ)k (
µ
k + µ)x
0-truncated Negative Binomial distribution
p(x) =p0(x)
1 − p0(0)=
pk
1 − pk
(
k + x − 1
x
)
pk qx
R による自然言語研究環境の整備 – p.23/27
![Page 44: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/44.jpg)
Sichelの混合ポアソン分布
Sichel’s Compound Poisson Distribution
Φ(r) =((1 − θ)
1
2 )γ
Kγ(α (1 − θ)1
2 )
(α θ/2)r
r!Kr+γ(α)
0-truncated Sichel’s Compound Poisson Distribution
Φ(r) = [((1 − θ)1
2 )−γ Kγ(α(1 − θ)1
2 ) − Kγ(α)]−1
α θ/2
r!Kr+γ(α)
ここでKγ()は第 2種の修正ベッセル関数.Sichelによれば γ = −1/2が「言語の分布に当て
はめがよい」.H. S. Sichel, On a Distribution Representing Sentence-length in written Prose, 1974
R による自然言語研究環境の整備 – p.24/27
![Page 45: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/45.jpg)
走れメロスの分布 –その 1
『走れメロス』: 実測値 (上右),実測値 (上左:確率密度),対数正規分布 (下左:間隔 0.25),ポア
ソン分布 (下右)
original word frequency
010
2030
40
0 10 20 30 40 50 60
0.0
0.1
0.2
0.3
−0.125 1.125 2.125 3.125 4.125 5.125
020
4060
80
χ2 P (freq > 1) =0df = 12
Poisson distribution
010
2030
4050
ObservedExpected
mean =
10.983var =
65.774χ2 P (freq > 1) =0
Dazai’s Merosu
N mean var
479 10.98 65.77
R による自然言語研究環境の整備 – p.25/27
![Page 46: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/46.jpg)
走れメロスの分布 –その 2
『走れメロス』: 負の二項分布,Sichel分布
010
2030
40 k = 2.797prob = 0.203
χ2 P (freq > 1) =0.02df = 31
010
2030
40 k = 2.797prob = 0.203
χ2 P (freq > 1) =0.05df = 30
010
2030
40 8.8820.862χ2 P (freq > 1) =0.02df = 28
010
2030
40 8.8820.862χ2 P (freq > 1) =0.02df = 28
Dazai MEROSU (N = 479 )
確率分布 P
NB 0.02
0-NB 0.05
Sichel 0.02
0-Sichel 0.02
R による自然言語研究環境の整備 – p.26/27
![Page 47: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/47.jpg)
終わり
テキスト解析でもRを使いまわそう!!
ご清聴有難うございました.
R による自然言語研究環境の整備 – p.27/27
![Page 48: Jasp Web Site - Rによる自然言語研究環境の整備Lewis Carroll: Alice in Wonderland. トークン化 でも不可能ではない.また パッケージがサポート パッケージ](https://reader035.vdocuments.site/reader035/viewer/2022081620/611997220f2ccf10175eeb5d/html5/thumbnails/48.jpg)
終わり
テキスト解析でもRを使いまわそう!!
ご清聴有難うございました.
R による自然言語研究環境の整備 – p.27/27