unigram mixtures

Unigram Mixtures の話

@fmkz___

教師あり学習とは？

教師なし学習とは？

教師あり学習でのラベルを潜在変数として推定するのが

教師なし学習

•  教師あり学習: p(y|x)

•  教師なし学習: p(x) = Σyp(x|y)p(y)

K-means h"p://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-‐visualise/

•  距離の中心を計算して •  最も近いクラスに割り当てて

•  を繰り返す

EMアルゴリズム •  EMアルゴリズムは観測データの対数尤度を、E stepとM stepの繰り返しにより最大化するアルゴリズム

スパムとハムの話に戻る •  教師あり学習 – 事前にスパムとハムに分類していた

•  これをラベルを付与してない状態から2つのグループに分割できないか？ – 教師なし学習

Unigram Mixtures

アルゴリズム •  このスライドが詳しい – http://www.ism.ac.jp/~daichi/lectures/ISM-2012-TopicModels-daichi.pdf

実装 •  R – https://github.com/ariddell/mixture-of-unigrams

•  C – http://www.ism.ac.jp/~daichi/lectures/H24-TopicModels.html

デモ本当はいつものようにeしずおかのブログのデータを分類するつもりだったのだけど読書が急がしくてやる暇なかったｗ

まとめ •  入門機械学習のナイーブベイズの応用としてUnigram Mixturesの紹介とデモをしました

Technology