zipf? (ジップ則のひみつ?) #dsirnlp
TRANSCRIPT
ジップ則(べき乗則)
• 単語の頻度がよく従う分布
• 𝑟番目に多い単語の頻度 𝑓𝑟 について※
𝑓𝑟 ∝1
𝑟
• 両対数グラフが直線になる
• 80-20の法則+ロングテール
– 大部分をごく一部が占めるが、
すそも異様に長い
※より一般には、ある 𝑠があって 𝑓𝑟 ∝1
𝑟𝑠(べき乗則)
ジップ則、謎い
• 言語によらない
– 英語、イタリア語、日本語(単語、漢字)、……
• 言語に限らない
– 都市の人口、遺伝子、アクセス数、株価、……
• スケールフリーネットワークのモデルで説明がつく場合もある
– 最小努力原理での説明を試みている人もいる
[Zipf 1949][Cancho+ 2003]
– けどまだ説明しきれてはいない(よね?)
ランダムテキストがZipf則に従う
[Li 1992]
• a~z と空白の 27文字を一様分布させてラ
ンダムテキストを生成
• 空白で区切られた「単語」の頻度がなん
と! Zipf則に従うんだ! すげー!
–ほんまに?
実験その2
• Reuters コーパスの文字割合を生成確率に
使ってランダムコーパスを作る
_ 0.2186 i 0.0568 r 0.0560a 0.0646 j 0.0016 s 0.0591b 0.0119 k 0.0054 t 0.0694c 0.0292 l 0.0360 u 0.0213d 0.0331 m 0.0205 v 0.0090e 0.0885 n 0.0575 w 0.0101f 0.0176 o 0.0566 x 0.0025g 0.0139 p 0.0198 y 0.0116h 0.0270 q 0.0016 z 0.0007
単語の分布に
• 文字の分布が関係してそう?
– 実は文字もジップ分布だとぴったり直線に
• でも(表音)文字の分布≒音素の分布
– 英語は読みと綴りの対応ひどいけどね!
• 音素は言語の発展に反比例して減少傾向
– 経済性の原理?
• 音素の分布とジップ則に関連ある? ない?
– そこらへんに言語の秘密が……???
References
• Manning and Schuetze (1999). "Foundations of
Statistical Natural Language Processing"
• Zipf (1949). "Human Behavior and the Principle
of Least Effort"
• Wentian Li (1992). "Random Texts Exhibit Zipf's-
Law-Like Word Frequency Distribution"
• Cancho and Sole (2003). "Least effort and the
origins of scaling in human language"