kdd 2015読み会

KDD 2015読み会 Diversifying restricted boltzman machine

for document modeling

坪坂正志 2015/8/22

紹介論文

•  Diversifying Restricted Boltzmann Machine for document modeling

•  概要 – 文章の潜在変数モデルにおいてよく起きる事象であるメジャーなトピックはよくモデル化されるがマイナーなトピックはモデル化されないという問題を潜在変数モデルの一つであるRBMにおいてトピックをDiversifyするような項を導入して解決した

RBMについて

•  観測された単語に相当するvと隠れユニットhによって決まるエネルギー関数から決まる確率を最適化する

RBMについて

•  観測された文章から隠れユニットが1になる確率は(3)式で表せる

•  ベクトルhを文章Vの潜在表現とみなすことができる

RBMの問題点

•  RBMに限らずトピックモデル一般においてLong-‐tailなトピックの検出が難しいという点がある – 例えばニュース記事であれば大多数をしめる政治などのトピックが複数出現し、ガーデニングのような小さなトピックは検出されない

Diversify RBM

•  制約項としてはトピックごとの単語ベクトル間の角度が大きくなるように設定する

RBMに対してトピックがばらつくような制約項を加える

分散を抑えることにより、各ベクトルがまんべんなく配置される

最適化

•  (P1)を変形した問題(P2)を考え、A~とgを相互に最適化する

文章検索による評価

•  ある文章から近い文章を探してきたときにお互いが同じカテゴリのものかどうかで評価を行う –  RBMにおいては文章に対応する潜在表現の近いものが対応する

–  DRBMが既存手法よりも高い精度となっている •  DocNADE, PV(Paragraph vector)はNeural networkベースの手法 •  PYTM, LIDAはべき則に基づき新しいトピックができやすくなっているモデル

•  DPP-‐LDAはLDAに対してDiversityが起きるようにしたモデル

Long-‐tailにおける改善

•  Reutersデータセットにおいてカテゴリごとに改善率をみたところ、特にカテゴリに含まれる文章が少ないLong-‐tailなカテゴリにおいて大幅な精度の改善が達成できている

学習されたトピックの例

•  RBMにおいてはTopic 2とTopic 3およびTopic 4とTopic 5はほぼ同じものが出現している

•  一方DRBMにおいてはTopic 5のJapanese eductaionのようなマイナーなトピックが得られている

まとめ

•  RBMに対してトピック間で単語分布がばらつくような制約項を導入したDRBMを提案した

kdd 2015読み会

Technology