20151221 public

76
Copyright©2015 NTT corp. All Rights Reserved. [特別講演] パターン認識研究者のための トピックモデリング概観 ○石黒 勝彦、木村 昭悟 NTT コミュニケーション科学基礎研究所 e-mail: [email protected] twitter: @k_ishiguro

Upload: katsuhiko-ishiguro

Post on 23-Jan-2018

6.917 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: 20151221 public

Copyright©2015 NTT corp. All Rights Reserved.

[特別講演]

パターン認識研究者のためのトピックモデリング概観

○石黒 勝彦、木村 昭悟

NTT コミュニケーション科学基礎研究所

e-mail: [email protected]

twitter: @k_ishiguro

Page 2: 20151221 public

2Copyright©2015 NTT corp. All Rights Reserved.

本サーベイの目的

対象:統計的パターン認識の研究者、同分野に関連した仕事をするエンジニア

目的:今後トピックモデルを研究・開発の一要素(building block)として利用する際の指針を与える

手段:building blockとして使用する上でおさえておくべき機能・応用例・実装技術の「入口」を整理・紹介する

目指さないこと:網羅的 and/or 深いレベルまでの調査研究

Page 3: 20151221 public

3Copyright©2015 NTT corp. All Rights Reserved.

What トピックモデル?

一言でいうと:混合モデルの混合モデル

目的:

データの中の大雑把な意味のかたまり(トピック)を教師なしで推定する(クラスタリング)

用途:

データ集合のクラスタリングと可視化、知識発見

巨大なデータの低ランク化による情報圧縮

Page 4: 20151221 public

4Copyright©2015 NTT corp. All Rights Reserved.

Why トピックモデル?

教師なしで良いクラスタリング性能

直観に合うクラスタ、精度の高いモデルが得られる

大量にデータを放り込んでもよく動く

シンプルなモデルで実装が容易、堅牢

多くの研究者が拡張や高速化を研究してくれている

自分で開発しなくても、使えばよい

Page 5: 20151221 public

5Copyright©2015 NTT corp. All Rights Reserved.

研究対象としては枯れている?関心は低下していないタイトルに “LDA” or “Latent Dirichlet Allocation” or “topic”がある論文数(講演者調べ)

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

NIPS 2 3 4 5 3 6 7 4 3 4

ICML 5 1 1 6 3 2 7 11 5 4

CVPR 2 1 2 2 2 2 2 3 2 0

ICCV - 3 - 1 - 0 - 3 - 0

ECCV 0 - 0 - 1 - 0 - 1 -

Google Trends, “topic models”, as of 2015/12/2

Page 6: 20151221 public

6Copyright©2015 NTT corp. All Rights Reserved.

本講演の目次

1.基本モデル(17分):トピックモデルとはどんなものか

2.拡張モデル(10分):機械学習分野でどのような拡張モデルが根付いているか

3.パターン認識応用(20分):種々のドメインでどんな研究に利用されてきたか

4.推論法およびデータスケーラビリティ(5分):高精度を達成したり大規模データへ応用するための手法

5.まとめ(3分):本講演のまとめと注目している最新の研究について

Page 7: 20151221 public

7Copyright©2015 NTT corp. All Rights Reserved.

1.基本モデル:トピックモデル

文書データ

ユニグラム混合モデル

トピックモデル

Latent Dirichlet Allocation(LDA)

Bag of Words (BoW)フォーマット

グラフィカルモデル(プレートノーテーション)

Page 8: 20151221 public

8Copyright©2015 NTT corp. All Rights Reserved.

データ:文書データ集合

本講演では観測データ=文書データ集合として(そのアナロジーのもとで)話を進めます

文書データ集合 X = {xd} d = 1, …, D例えば全国の新聞記事データセット

消費税 法案 否決 据え置き ・・・総選挙 長期金利 影響 永田町 ・・・

文書 dを構成する単語集合(文を分かち書きしたと思う)

文書dはNd個の単語の集合{xd,i}, i = 1, …, Nd

単語xd,iはV種の離散シンボル観測値

xd,i=v, v = 1, …, V

xd,2 = v = {法案}

xd,3 = v’ = {否決}

Page 9: 20151221 public

9Copyright©2015 NTT corp. All Rights Reserved.

目的:“話題=トピック”に基づく文書データの自動意味解析

大量の文書データを教師なしで大体把握したい。つまり、下記のような問いに答えたい

各文書は、大体どういう内容?

この文書データ集合の中には、

どんな「話題」がある?

トピックモデルのアプローチ:

「ある話題で出現しやすい単語集合」というクラスタ(”トピック”)で文書を表現する

Page 10: 20151221 public

10

[Blei+, 2003]

トピック(話題):ある「話題」のもとで出現しやすい単語集合

各文書中の単語をトピックで色分け大体の内容の「話題」がわかる

[Blei+, 2003] Blei et al, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.

Page 11: 20151221 public

11Copyright©2015 NTT corp. All Rights Reserved.

トピックとは?

新聞記事なら:国内政治、国際政治、経済、金融、スポーツ、芸能、文化・・・などの「話題」

その話題のもとで出現しやすい単語、すなわち単語出現確率によって各トピックを定義

「総選挙」 「音楽性」「アイドル」単語

トピック

投票

消費税

総選挙

.04

.04

.03… …

アイドル

総選挙

ドラマ

.05

.02

.04

… …

音楽

展覧会

アニメ

.04

.02

.02

… …

国内政治 芸能 文化

Page 12: 20151221 public

12Copyright©2015 NTT corp. All Rights Reserved.

ユニグラム混合モデル:1文書を1トピックだけで説明する

GMMと同じ複雑さの文書モデリング

ガウシアンコンポーネント=トピックサンプル=文書

消費税 法案 否決 据え置き ・・・総選挙 長期金利 影響 永田町 ・・・

アイドル グループ 総選挙 ・・・経済効果 音楽 ドラマ CM ・・・

文書 dを構成する単語集合 xd

文書 d’を構成する単語集合 xd’

投票

消費税

総選挙

.04

.04

.03… …

国内政治

アイドル

総選挙

ドラマ

.05

.02

.04

… …

芸能

Page 13: 20151221 public

13Copyright©2015 NTT corp. All Rights Reserved.

現実:1文書中に複数トピックが混在する状況も自然に考えられる

一つの文書の中に複数のトピックが混在する、

という二段目の「混合」があったほうが良い

消費税 法案 否決 据え置き ・・・総選挙 長期金利 影響 永田町 ・・・

アイドル グループ 総選挙 ・・・経済効果 音楽 ドラマ CM ・・・

文書 dを構成する単語集合 xd

文書 d’を構成する単語集合 xd’

金融?

経済?

投票

消費税

総選挙

.04

.04

.03… …

国内政治

アイドル

総選挙

ドラマ

.05

.02

.04

… …

芸能

Page 14: 20151221 public

14Copyright©2015 NTT corp. All Rights Reserved.

トピックモデル:混合モデルの混合モデル

2段階の混合モデルで文書データ集合を表現する

上位の混合:文書集合全体はトピックの混合モデル

下位の混合:各文書自体が固有の混合比をもつトピック混合モデルで、各単語はいずれかのトピックで説明

投票

消費税

総選挙

.04

.04

.03… …

国内政治

アイドル

総選挙

ドラマ

.05

.02

.04

… …

芸能

金利

緩和

中銀

.03

.02

.02

… …

金融

消費税 法案 否決 据え置き ・・・総選挙 長期金利 影響 永田町 ・・・

トピック=混合コンポーネントで文書集合をモデル化

文書=混合コンポーネントの混合モデル

文書dのトピック混合比

文書dの観測量(単語群)

各トピックの単語分布

Page 15: 20151221 public

15Copyright©2015 NTT corp. All Rights Reserved.

Latent Dirichlet Allocation (LDA)

[Blei+, 2003]

階層ベイズモデルによる“デファクトスタンダード”

確率的生成モデル: 文書データが確率的にサンプリング(生成)される過程を定義

pLSI(非ベイズモデル)[Hoffman, 1999]よりモデリング精度、拡張性、学習の安定性の面で優れる

多様な最新のベイズ推論方法が使える

[Blei+, 2003] Blei et al, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.

Page 16: 20151221 public

16Copyright©2015 NTT corp. All Rights Reserved.

LDAの確率的生成過程:4つの登場要素に確率分布を仮定

d: 文書のインデックス d ∈ {1, …, D}

i: 単語のインデックス i ∈ {1, … Nd}

V: 観測される離散シンボルのインデックス v ∈ {1, …, V}

k: トピックのインデックス k ∈ {1, …, K}

𝑥𝑑,𝑖 = 𝑣 ~ Discrete 𝜷𝑧𝑑,𝑖

𝑧𝑑,𝑖 = 𝑘 ~ Discrete 𝜽𝑑

𝜽𝑑 ∈ ℝ+𝐾~Dirichlet 𝜶

𝜷𝑘 ∈ ℝ+𝑉~Dirichlet 𝜷0

for トピック k = 1, 2, …, K

トピックkの単語分布

for 文書d = 1, 2, …, D

文書dのトピック混合比

for 単語i = 1, 2, …, Nd

単語(d,i)のトピック割り当て

単語の値(観測する文字列)

独立かつ一様に分布(サンプリング)

投票

消費税

総選挙

.04

.04

.03… …

国内政治

Page 17: 20151221 public

ex) 政治欄の記事文書d, i番目の観測単語がv番目のシンボル「総選挙」だった

トピック=「ある話題での単語の出やすさ分布」を生成すなわち不均一なV面サイコロをK個つくります

ディリクレ(Dirichlet)分布:すべて非負&足して1のベクトル≒「サイコロ」を生成する確率分布

𝜷𝑘 ∈ ℝ+𝑉~Dirichlet 𝜷0for トピック k = 1, 2, …, K

投票

消費税

総選挙

.04

.04

.03… …

k:国内政治

アイドル

総選挙

ドラマ

.05

.02

.04

… …

m:芸能

金利

緩和

中銀

.03

.02

.02

… …

l:金融各トピックごとに出やすい単語が違う=「話題」が違うことを表現

単語の語彙数=Vトピックの総数=K

Page 18: 20151221 public

文書ごとの固有のトピック混合比を生成すなわち不均一なK面サイコロをD個つくります

𝜽𝑑 ∈ ℝ+𝐾~Dirichlet 𝜶for 文書d = 1, 2, …, D

政治欄の文書d: 𝜽𝑑

芸能欄の文書d’: 𝜽𝑑′

政治欄の記事なら政治トピックが多めになると期待

ex) 政治欄の記事文書d, i番目の観測単語がv番目のシンボル「総選挙」だった

𝜷𝑘 ∈ ℝ+𝑉~Dirichlet 𝜷0

投票

消費税

総選挙

.04

.04

.03… …

k:国内政治

アイドル

総選挙

ドラマ

.05

.02

.04

… …

m:芸能

金利

緩和

中銀

.03

.02

.02

… …

l:金融

トピックkの単語分布

トピックの総数=K文書の総数=D

Page 19: 20151221 public

(1) (2) (3) (4) ・・・(i) (i+1) (i+2) (i+3) ・・・

各文書dの単語iごとに、文書のトピック混合比に合わせてi番目の単語を説明するトピックを割り当てます。つまり混合比のK面サイコロを振ります。

for 文書d = 1, 2, …, D𝑧𝑑,𝑖 = 𝑘 ~ Discrete 𝜽𝑑

for 単語i = 1, 2, …, Nd

離散分布(多項分布):与えられた「サイコロ」を振って出目を返す確率分布

ex) 政治欄の記事文書d, i番目の観測単語がv番目のシンボル「総選挙」だった

𝜽𝑑 ∈ ℝ+𝐾~Dirichlet 𝜶

𝜷𝑘 ∈ ℝ+𝑉~Dirichlet 𝜷0

投票

消費税

総選挙

.04

.04

.03… …

k:国内政治

アイドル

総選挙

ドラマ

.05

.02

.04

… …

m:芸能

金利

緩和

中銀

.03

.02

.02

… …

l:金融

トピックkの単語分布

文書dのトピック混合比i番目の単語について一番混合比が高い

トピックを選択した

Page 20: 20151221 public

消費税 法案 否決 据え置き ・・・総選挙 長期金利 影響 永田町 ・・・

i番目の単語に割り当てられたトピックと、そのトピックのもつ単語分布に従って実際の観測量(文字列)を生成します。つまり指定されたトピックのV面サイコロを振ります

for 文書d = 1, 2, …, D

for 単語i = 1, 2, …, Nd

𝑥𝑑,𝑖 = 𝑣 ~ Discrete 𝜷𝑧𝑑,𝑖

ex) 政治欄の記事文書d, i番目の観測単語がv番目のシンボル「総選挙」だった 𝑧𝑑,𝑖 = 𝑘 ~ Discrete 𝜽𝑑

𝜽𝑑 ∈ ℝ+𝐾~Dirichlet 𝜶

𝜷𝑘 ∈ ℝ+𝑉~Dirichlet 𝜷0

投票

消費税

総選挙

.04

.04

.03… …

k:国内政治

アイドル

総選挙

ドラマ

.05

.02

.04

… …

m:芸能

金利

緩和

中銀

.03

.02

.02

… …

l:金融

文書dの観測量(単語群)

トピックkの単語分布

文書dのトピック混合比

確率の高い「総選挙」がサンプルされた

Page 21: 20151221 public

投票

消費税

総選挙

.04

.04

.03… …

k:国内政治

アイドル

総選挙

ドラマ

.05

.02

.04

… …

m:芸能

金利

緩和

中銀

.03

.02

.02

… …

l:金融

消費税 法案 否決 据え置き ・・・総選挙 長期金利 影響 永田町 ・・・

𝑥𝑑,𝑖 = 𝑣 ~ Discrete 𝜷𝑧𝑑,𝑖

𝑧𝑑,𝑖 = 𝑘 ~ Discrete 𝜽𝑑

𝜽𝑑 ∈ ℝ+𝐾~Dirichlet 𝜶

𝜷𝑘 ∈ ℝ+𝑉~Dirichlet 𝜷0

for トピック k = 1, 2, …, K

トピックkの単語分布

for 文書d = 1, 2, …, D

文書dのトピック混合比

for 単語i = 1, 2, …, Nd

単語(d,i)のトピック割り当て

単語の値(観測する文字列)

文書dの観測量(単語群)

トピックkの単語分布

文書dのトピック混合比

Page 22: 20151221 public

このモデルに従って文書が確率的に生成されたと「仮定して学習すると」トピック解析ができます

22

[Blei+, 2003]

bの推論結果=各トピックの頻出単語「話題」のクラスタがわかる

Zの推論結果=各文書中の単語をトピックで色分け文書の大体の内容の「話題」がわかる

[Blei+, 2003] Blei et al, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.

Page 23: 20151221 public

23Copyright©2015 NTT corp. All Rights Reserved.

Bag-of-Words(BoW)表現

「単語の出現頻度」のみで文書をモデル化

LDAモデルは文書中の単語の順番 i を入れ替えても確率が変化しないため(可換性)

法案:4賛成:4多数:4国会:3・・・・

総選挙:5握手:4売上:4

アイドル:2・・・・

BoWはトピックモデルの限界を規定すると共に実応用上の大きなメリットも提供する重要な性質です

Page 24: 20151221 public

24Copyright©2015 NTT corp. All Rights Reserved.

BoW表現のpros & cons

Pros:

文書データを簡易&省メモリなフォーマットで表現可能

Cons:

観測量(単語)間に一切の依存関係・順序関係を認めない

大量のデータを投入可能にすることで高いクラスタリング精度を見込める

モデルの限界。文書の生成過程としてはかなり非現実的な仮定(ただし意味のクラスタを抽出するにはこれで十分だった)

Page 25: 20151221 public

25Copyright©2015 NTT corp. All Rights Reserved.

プレートノーテーション(グラフィカルモデル)

変数間の依存関係とインデックスの繰り返し部分を図示する方法

様々なモデルを視覚的に比較可能

25

𝑧𝑑,𝑖 𝑥𝑑,𝑖

𝜷𝑘

𝜽𝑑𝜶

i=1, …, Nd

k=1, …, K

d=1, …, D

𝜷0

LDAのグラフィカルモデル

定数(ハイパーパラメータ)

観測量

プレート:変数の繰り返しとインデックス範囲

確率変数

Page 26: 20151221 public

26Copyright©2015 NTT corp. All Rights Reserved.

プレートノーテーション(グラフィカルモデル)

26

𝑧𝑑,𝑖 𝑥𝑑,𝑖

𝜷𝑘

𝜽𝑑𝜶

i=1, …, Nd

k=1, …, K

d=1, …, D

𝜷0定数(ハイパーパラメータ)

確率変数

観測量

プレート:変数の繰り返しとインデックス範囲

𝑥𝑑,𝑖 = 𝑣 ~ Discrete 𝜷𝑧𝑑,𝑖

𝑧𝑑,𝑖 = 𝑘 ~ Discrete 𝜽𝑑

𝜽𝑑 ∈ ℝ+𝐾~Dirichlet 𝜶

𝜷𝑘 ∈ ℝ+𝑉~Dirichlet 𝜷0for トピック k = 1, 2, …, K

for 文書d = 1, 2, …, D

for 単語i = 1, 2, …, Nd

LDAのモデル

Page 27: 20151221 public

27Copyright©2015 NTT corp. All Rights Reserved.

2.拡張モデル

トピック間の関係モデリング

文書の時系列モデリング

教師情報・補助情報の利用

Page 28: 20151221 public

28Copyright©2015 NTT corp. All Rights Reserved.

本講演で調べる範囲

トピック間の関係モデリング

相関関係、順序・階層関係

時系列(タイムスタンプ文書)モデリング

どこにマルコフ性を入れるか

教師・補助情報の利用

評価スコア、クラス情報、関係データ

Page 29: 20151221 public

29Copyright©2015 NTT corp. All Rights Reserved.

トピック間の関係モデリング

LDAでは表現できない「トピックの関係」を実現するための研究は多数ありあす

[Blei & Lafferty, 2007] Blei and Lafferty, “A Correlated Topic Model of Science”, The Annals of Applied Statistics, Vol. 1(1), pp. 17-35, 2007. [Li&McCallum, 2006] Li and McCallum, “Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations”, in Proc. ICML, 2006.

トピック間の上位・下位関係[Li & McCallum, 2006]

医療 経済

新薬開発地方医療 金融危機再生医療

トピックの相関関係 [Blei & Lafferty, 2007]

国際政治

日米関係

日本映画

貿易

Page 30: 20151221 public

30Copyright©2015 NTT corp. All Rights Reserved.

Correlated Topic Model (CTM)

[Blei & Lafferty, 2007]

トピック間の正負の相関をモデル化

30

𝜽𝑑 ∈ ℝ+𝐾~Dirichlet 𝜶

LDA文書dのトピック混合比

𝜽𝑑 ∈ ℝ𝐾~Normal𝐾 𝝁, 𝜮

CTM

文書dのトピック ``レスポンス’’

Soft-maxでトピック混合比へ変換

𝑧𝑑,𝑖 = 𝑘 ~ Discrete 𝜽𝑑各単語iのトピック割り当て

𝜽𝑑,𝑘 =exp 𝜃𝑑,𝑘

𝑘′ exp 𝜃𝑑,𝑘′∈ ℝ+

𝐾

𝑧𝑑,𝑖 = 𝑘 ~ Discrete 𝜽𝑑各単語iのトピック割り当て

Soft-maxによる変換を導入することで、任意のK次元ベクトルをトピック ``レスポンス’’ として使えるようになる

Σの設計によって、トピックの相関(正負)を積極的にデザインできる

[Blei & Lafferty, 2007] Blei and Lafferty, “A Correlated Topic Model of Science”, The Annals of Applied Statistics, Vol. 1(1), pp. 17-35, 2007.

Page 31: 20151221 public

31Copyright©2015 NTT corp. All Rights Reserved.

Pachinko Allocation Model

[Li & McCallum, 2006]

単語を生成するtopicへの分岐を制御するsuper-topicを最初に選択する階層モデル

医療super-topicを選ぶと医療関係のトピックを選択しやすくなる

super-topicは普通のトピックの重み付和として表現

・・・

super-topicノード s: 全トピックノードと接続

ルートノード

topicノード k

・・・医療

経済

新薬開発

地方医療

貿易自由化

金融危機

再生医療

[Li&McCallum, 2006] Li and McCallum, “Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations”, in Proc. ICML, 2006.

Page 32: 20151221 public

32Copyright©2015 NTT corp. All Rights Reserved.

時系列データ

タイムスタンプのついた文書データ群に対する時間依存性モデリングは多くの場面で必要です

2014 2015

購買履歴 [Iwata+, 2009]科学論文・特許[Blei & Lafferty, 2006]

動画像、音響信号[Nakano+, 2011; Ishiguro+, 2012]

[Nakano+, 2011] Nakano et al., “Automatic Video Annotation via Hierarchical Topic Trajectory Model Considering Cross-modal Correlation”, in Proc. ICASSP, 2011. [Ishiguro+, 2012] Ishiguro et al., “Probabilistic Speaker Diarization with Bag-of-Words Representations of Speaker Angle Information”, IEEE Trans. ASLP, 20(2), 447-460, 2012. [Blei & Lafferty, 2006] Blei & Lafferty, “Dynamic Topic Models”, in Proc. ICML, 2006. [Iwata+, 2009] Iwata et al, “Topic Tracking Model for Analyzing Consumer Purchase Behavior”, in Proc. IJCAI, 2009.

Page 33: 20151221 public

33Copyright©2015 NTT corp. All Rights Reserved.

(添え字d, i, kは省略)

time

𝑥𝑡−1 𝜷𝑡−1𝜽𝑡−1i=1, …, Nt-1,d

d=1, …, Dt-1

𝑧𝑡 𝑥𝑡 𝜷𝑡𝜽𝑡i=1, …, Nt,d

k=1, …, K

𝑧𝑡−1

d=1, …, Dt

𝜶𝑡−1

𝜶𝑡

各年度tの研究トピックの流行(混合比の分布)が前年度に依存して変化

各研究トピックkの単語の選択確率が前年度に依存して発展

年度 t-1

年度 t

GMM

Viola-Jones

SVM

.04

.04

.03… …

パターン認識

SGD

カット

深層学習

.04

.04

.03… …

[Blei & Lafferty, 2006] Blei & Lafferty, “Dynamic Topic Models”, in Proc. ICML, 2006.

Dynamic Topic Models (DTM)

[Blei & Lafferty, 2006]

論文誌データを年度ごとの時系列で解析

Page 34: 20151221 public

34Copyright©2015 NTT corp. All Rights Reserved.

Topic Tracking Model (TTM)

[Iwata+, 2009]

34[Iwata+, 2009] Iwata et al, “Topic Tracking Model for Analyzing Consumer Purchase Behavior”, in Proc. IJCAI, 2009.

購買履歴データからユーザの興味を時間解析して推薦

文書=ユーザ、トピック=興味、単語=購入商品

𝑥𝑡−1 𝜷𝑡−1𝜽𝑡−1i=1, …, Nt-1,d

d=1, …, D

𝑧𝑡 𝑥𝑡 𝜷𝑡𝜽𝑡i=1, …, Nt,d k=1, …, K

𝑧𝑡−1

d=1, …, D

𝜶𝑡−1

𝜶𝑡

(添え字d, i, kは省略)

各ユーザ d の興味トピック混合比が時刻tに応じて変化

興味トピック k ごとのアイテム購買分布が時間変化

ガジェット

時刻 t-1

時刻 t

Page 35: 20151221 public

35Copyright©2015 NTT corp. All Rights Reserved.

教師情報・補助情報の利用

トピッククラスタリングのために教師信号やメタデータを利用する拡張モデルの研究例です

文書間の関係リンク [Chang & Blei, 2009]数値スコア(評点) [Blei & McAuliffe, 2008]

クラスラベル、タグ [Lacoste-Julien+, 2009; Ramge+, 2009]

4.3

“cool”クラス1

クラス3“あとで読む”

[Blei & McAuliffe, 2008] Blei and McAuliffe, “Supervised Topic Models”, in Proc. NIPS, 2008. [Lacoste-Julien+, 2009] Lacoste-Julien et al.., “DiscLDA: Discriminative Learning for Dimensionality Reductioin and Classification”, in Proc. NIPS, 2009. [Ramage+, 2009] Ramage et al., “Labeled LDA: a supervised topic model for credit attribution in multi-labeled corpora”, in Proc. EMNLP, 2009. [Chang & Blei, 2009] Chang and Blei, “Relational Topic Models for Document Networks”, in Proc. AISTATS, 2009.

Page 36: 20151221 public

36Copyright©2015 NTT corp. All Rights Reserved.

Supervised LDA (sLDA)

[Blei & McAuliffe, 2008]

BoW文書と補助情報(数値スコア)を同時にトピック割当Zで制御

36

𝑧𝑑,𝑖 𝑥𝑑,𝑖

𝜷𝑘

𝜽𝑑𝜶i=1, …, Nd

k=1, …, K

d=1, …, D

𝜷0

LDAのグラフィカルモデル

𝑧𝑑,𝑖 𝑥𝑑,𝑖

𝜷𝑘

𝜽𝑑𝜶i=1, …, Nd

k=1, …, K

d=1, …, D

𝜷0

sLDAのグラフィカルモデル

𝑦𝑑評価スコア値𝜇

𝜎 𝑧𝑑,𝑘 =1

𝑁𝑑

𝑖=1

𝑁𝑑

𝛿𝑘 𝒛𝑑,𝑖 𝑦𝑑| 𝒛𝑑 , 𝜼, 𝜎 ~N 𝜼𝑇 𝒛𝑑 , 𝜎

𝟐

[Blei & McAuliffe, 2008] Blei and McAuliffe, “Supervised Topic Models”, in Proc. NIPS, 2008.

Page 37: 20151221 public

37Copyright©2015 NTT corp. All Rights Reserved.

離散ラベル・タグデータ:矢印が逆向き

教師(補助)データがトピック混合比や トピック割り当てを制御する

[Lacoste-Julien+, 2009][Ramge+, 2009]

[Lacoste-Julien+, 2009] Lacoste-Julien et al.., “DiscLDA: Discriminative Learning for Dimensionality Reductioin and Classification”, in Proc. NIPS, 2009. [Ramage+, 2009] Ramage et al., “Labeled LDA: a supervised topic model for credit attribution in multi-labeled corpora”, in Proc. EMNLP, 2009.

Page 38: 20151221 public

38Copyright©2015 NTT corp. All Rights Reserved.

3.各ドメインにおける応用研究

自然言語処理

ソーシャルサービスデータ解析

画像処理

音声・動画像(あまり数がありませんでした)

Page 39: 20151221 public

39Copyright©2015 NTT corp. All Rights Reserved.

自然言語処理(NLP)分野での応用

自然言語処理分野でのトピックモデル応用は多岐にわたっています

講演者が今回調査した中で特に気になったのは以下の項目です:

A) 文構造、オントロジー情報との融合

B) Sentiment analysisへの応用

C) オンラインレビュー記事の自動解析

Page 40: 20151221 public

40Copyright©2015 NTT corp. All Rights Reserved.

文構造、オントロジー情報

[Boyd-Graber & Blei, 2009] Boyd-Graber & Blei, “Syntactic Topic Models”, in Proc. NIPS, 2009.[Boyd-Graber+, 2007] Boyd-Graber et al., “A topic model for word sense disambiguation”, in Proc. EMNLP, 2007.

文構造情報や、外部DBのオントロジーをトピックモデルと融合する

構文木を補助情報として用いる [Boyd-Graber & Blei, 2009]

トピック=WordNetの同義語グラフ上の酔歩としてモデル化 [Boyd-Graber+, 2007]

Page 41: 20151221 public

41Copyright©2015 NTT corp. All Rights Reserved.

文構造、オントロジー情報

NLPでなくても木構造などのデータ構造を取り入れる際に参考になる

[Gruber+, 2007] Gruber et al., “Hidden topic Markov models”, in Proc. AISTATS, 2007.

トピックが文単位のHMMで遷移 [Gruber+, 2007]

Page 42: 20151221 public

42Copyright©2015 NTT corp. All Rights Reserved.

Sentiment Analysisへの応用

Sentiment analysis (感情極性解析): ある単語(節, 文)がポジティブなのかネガティブなのかを推定する技術

トピックモデルと組み合わせることで、「トピックごとの」sentimentを推定できる

Mei+, 2007] Mei+, “Topic sentiment mixture: modeling facets and opinions in weblogs“, in Proc. WWW, 2007.

[Mei+, 2007]

Page 43: 20151221 public

43Copyright©2015 NTT corp. All Rights Reserved.

Sentiment Analysisへの応用

[Lin & He, 2009]

[Lin & He, 2009] Lin & He, “Joint Sentiment / Topic Model for Sentiment Analysis“, in Proc. CIKM, 2009. Mei+, 2007] Mei+, “Topic sentiment mixture: modeling facets and opinions in weblogs“, in Proc. WWW, 2007.

Sentiment隠れ変数を導入、トピックの選択に影響

[Mei+, 2007]

“Positive”トピックと”Negative”トピックを明示的にモデル化

Page 44: 20151221 public

44Copyright©2015 NTT corp. All Rights Reserved.

オンラインレビュー記事の自動解析

レビュー記事は、さまざまな観点(aspect)についての評論が書かれています

立地・食事・アクセス・アメニティ・・・・

仮説:観点はレビュー記事内の「話題」に相当トピックモデルで自動抽出できそう?

[Titov & McDonald, 2008ACL]

[Titov & McDonald, 2008ACL] Titov & McDonald, “A joint model of text and aspect ratings for sentiment summarization”, in Proc. ACL, 2008.

Page 45: 20151221 public

45Copyright©2015 NTT corp. All Rights Reserved.

オンラインレビュー記事の自動解析

トピックモデルでレビュー記事DBの利用価値向上

細かい観点をトピック的に学習レビュー内の「関心事」を自動抽出

観点ごとのsentiment analysisと併用観点ごとの評価値や総合評価値の予測

45

値段: A

性能: A

アフターサービス: C

使いやすさ: B

総合評価: 4観点評価

[Titov & McDonald, 2008ACL; Brody, 2010]

[Titov & McDonald, 2008ACL] Titov & McDonald, “A joint model of text and aspect ratings for sentiment summarization”, in Proc. ACL, 2008.[Titov & McDonald, 2008WWW] Titov & McDonald, “Modeling online reviews with multigrain topic models”, in Proc. WWW, 2008.[Brody, 2010] Brody, “An Unsupervised Aspect-Sentiment Model for Online Reviews”, in Proc. NAACL, 2010

[Titov & McDonald, 2008WWW]

Page 46: 20151221 public

46Copyright©2015 NTT corp. All Rights Reserved.

ソーシャルサービスデータ解析分野での応用

ソーシャルサービスデータはトピックモデルに良く適合します

主にテキストで情報交換される

さまざまな話題があるが、人手での整理は困難

社会インフラの側面もありモデル化価値が高い

ここでは特に以下の2点について報告します:

A) ツイッター[twitter.com]応用

B) Geo-Taggedデータ解析

Page 47: 20151221 public

47Copyright©2015 NTT corp. All Rights Reserved.

ツイッター[twitter.com]応用

好ましいデータ

多くのアクティブユーザ無料でデータ取得可能速報性・トレンド性

ツイッター独自の問題:「ノイジーな短文データ」

140字制限

「無意味」なつぶやき

Page 48: 20151221 public

ユーザ本人の意図が反映された投稿か、ノイジーな投稿かを推定

[Hong & Davidson, 2010] Hong & Davidson, “Empirical study of topic modeling in twitter”, in Proc. The First Workshop on Social MediaAnalytics, 2010.[Yan+, 2013] Yan et al., “A biterm topic model for short texts2, in Proc. WWW, 2013. [Xu+, 2011] Xu et al., “Discovering User Interest on Twitter with a Modified Author-Topic Model”, InProc. IEEE/WIC/ACM Int. Conf. on Web Intelligence and Intelligent Agent Technology, 2011.

[Xu+, 2011]

ツイート=文書とするトピックモデルをあきらめ、bi-termごとにトピックを割り当てる[Yan+, 2013]

まず当たるべき比較研究論文

Page 49: 20151221 public

49Copyright©2015 NTT corp. All Rights Reserved.

Geo-Taggedデータ解析

位置情報つき(Geo-Tagged)ソーシャルデータは、特に実世界における推薦サービスへの応用が見込めるため重要な課題です

技術的には:位置情報によってトピックの分布や単語の分布をどのように変化させるか?

Ex) 野球トピック

アメリカ東海岸:ヤンキースvs.レッドソックス

アメリカ西海岸:マリナースやドジャース?

Page 50: 20151221 public

50Copyright©2015 NTT corp. All Rights Reserved.

モデル化の例

単語wとロケーションlがトピックのもとで条件付き独立 [Wang+, 2007]

位置の隠れ変数 r が単語 w とジオタグ観測 y を支配する単語分布は(トピックz, 位置r)でインデックスされる[Eisenstein+, 2010]

[Wang+, 2007] Wang et al., “Mining Geographic Knowledge Using Location Aware Topic Model”, in Proc. GIR, 2007. [Eisenstein+, 2010] Eisenstein et al., “A latent variable model for geographic lexical variation”, in Proc. EMNLP, 2010.

Page 51: 20151221 public

51Copyright©2015 NTT corp. All Rights Reserved.

画像処理分野での応用

コンピュータビジョンは古くから機械学習コミュニティと距離が近く、トピックモデルも早くから利用されています

ここで取り上げたい話題は以下の2点です

A) Bag-of-Visual Wordsと最初期の応用研究

B) セグメンテーションタスク

Page 52: 20151221 public

52Copyright©2015 NTT corp. All Rights Reserved.

Bag of Visual Words (BoVW):

画像データの「文書化」

RGB値や局所記述子のような画像特徴量は数値ベクトルクラスタリングで離散シンボル化

52

K-meansなどによる量子化

Visual Words: 単語に相当

Bag of Visual Words: 文書に相当

SIFT, SURFなどの数値(局所)特徴を抽出

v = 1

v = 2

v = 3

V次元のヒストグラム

・・・

K = V

Leung & Malik, “Representing and Recognizing the Visual Appearance of Materials using Three-dimensional Textons”, IJCV, 43(1):29–44, 2001.Sivic &Zisserman, “Video Google: a text retrieval approach to object matching in videos”, In Proc. ICCV, 2003.柏野 et al., “ヒストグラム特徴を用いた音響信号の高速探索法-時系列アクティブ探索法-”. 電子情報通信学会論文誌, J82-D-II(9):1365–

1373, 1999.

Page 53: 20151221 public

53Copyright©2015 NTT corp. All Rights Reserved.

最初期の応用例:シーン認識

BoVW + トピックモデルを画像処理に使った最初期の例

シーンのクラスごとに、トピック混合比の傾向が異なることを利用して学習・識別

[Fei-Fei & Perona, 2005] Fei-Fei and Perona., “A Bayesian hierarchical model for learning natural scene categories”, in Proc. CVPR, 2005.

[Fei-Fei & Perona, 2005]

Page 54: 20151221 public

54Copyright©2015 NTT corp. All Rights Reserved.

プレートノーテーションと生成モデル

54

𝑧𝑑,𝑖 𝑥𝑑,𝑖

𝜷𝑘

𝝅𝑑

𝜼

i=1, …, Nd

k=1, …, K

d=1, …, D

c=1, …, C𝐶𝑑

画像dのトピック混合比 𝝅𝑑~Dirichlet 𝜽𝑐𝑑

Key point (d,i)のトピック割り当て 𝑧𝑑,𝑖~Discrete 𝝅𝑑

Key pointの観測量(visual words) 𝑥𝑑,𝑖~Discrete 𝜷𝑧𝑑,𝑖

画像dのシーンクラス 𝑐𝑑~Discrete 𝜼

𝜽𝑐

シーンクラスc固有の混合比ハイパーパラメータ(平均)

文書dのクラスのハイパーパラメータを

平均にする

Page 55: 20151221 public

55Copyright©2015 NTT corp. All Rights Reserved.

認識問題ではあまり使われませんでした

理由は2つあると考えています

1.LDAは教師なしの生成モデル認識問題は教師有り識別タスク

SVMなどの識別モデルを使ったほうが性能が高いのは自然

2.BoVWの表現能力不足研究の方向はFisher Vector, GMM SuperVectorのように表現力の高い連続数値特徴量の開発に向かった

離散シンボル化した観測量では識別能力に限界がある

Page 56: 20151221 public

56Copyright©2015 NTT corp. All Rights Reserved.

トピックモデルの応用先:セグメンテーション

セグメンテーションもクラスタリングタスクなので

アプローチ:

画像をsuper pixel (小部分領域)に過剰分割

各super pixelに一つのトピックを割り当てて同じトピック領域を結合

[Cao & Fei-Fei, 2007]

Super pixelに過剰分割 LDAでトピック割当(色塗り)

[Cao & Fei-Fei, 2007] Fei-Fei and Perona., “Spatially Coherent Latent Topic Model for Concurrent Segmentation and Classification of Objects and Scenes”, in Proc. ICCV, 2007[Niu+, 2012] Niu et al., “Context aware topic model for scene recognition”, in Proc. CVPR, 2012.

オブジェクトの切りだし:

簡単な画像ならトピック = オブジェクト

複雑な画像なら教師情報つきLDAに拡張[Cao & Fei-Fei, 2007, Niu+, 2012]]

簡単な場合はトピックモデルだけで切り出せる

Page 57: 20151221 public

複数のレベルでsuper pixelを作ってよいものを選ぶ[Russel+, 2006]

画像のシーン認識+セグメンテーション。シーンラベルとトピックによってsuper pixelの空間配置も評価される

[Niu+, 2012]

[Russel+, 2006] Russell et al., “Using Multiple Segmentations to Discover Objects and their Extent in Image Collections”, in Proc, CVPR,2006. [Niu+, 2012] Niu et al., “Context aware topic model for scene recognition”, in Proc. CVPR, 2012.

Page 58: 20151221 public

58Copyright©2015 NTT corp. All Rights Reserved.

音声・音響分野での応用:あまり数がありません

音は非線形かつ時間連続性をもつ信号のため、離散シンボルでモデル化する妥当性が低い?

観測量の分布を連続量の確率分布(正規分布など)に変更する例がいくつかある

音楽推薦のためにボーカルの特徴量を使用[Yoshii & Goto,

2009]

音源位置推定のために音源到達位相差(時間差)を使用[Ishiguro+, 2012]

[Yoshii & Goto, 2009] Yoshii and Goto, “Continuous PLSI and Smoothing Techniques for Hybrid Music Recommendation”, in Proc. ISMIR, 2009. [Ishiguro+, 2012] Ishiguro et al., “Probabilistic Speaker Diarization With Bag-of-Words Representations of Speaker Angle Information”,

IEEE Trans. ASLP, 20(2):447–460, 2012.

Page 59: 20151221 public

59Copyright©2015 NTT corp. All Rights Reserved.

動画像処理での応用:あまり数がありません

時系列モデルであるため、そもそものモデル化のハードルが高い?

時空間interest pointsを使った動作認識[Niebles+, 2008]

動きパターンのクラスタリング[Hospedales+,2012]

トラッキング[Rodriguez+, 2009]

[Niebles+, 2008] Niebles et al., “Unsupervised learning of human action categories using spatial-temporal words”, IJCV, 79(3):299–318, 2008.[Hospedales+, 2012] Hospedales et al., “Video Behaviour Mining Using a Dynamic Topic Model”, IJCV, 98(3):303–323, 2012.[Rodriguez+, 2009] Rodriguez et al., “Tracking in unstructured crowded scenes”, in Proc. ICCV, 2009.

[Hospedales+, 2012][Rodruguez+, 2009]

Page 60: 20151221 public

60Copyright©2015 NTT corp. All Rights Reserved.

4.推論法およびデータスケーラビリティ

ベイズ推論法

確率的最適化

オンライン学習・並列学習

Page 61: 20151221 public

61Copyright©2015 NTT corp. All Rights Reserved.

LDAの推定方法: ベイズ事後分布推定

変分ベイズ(VB)法: 近似解へ収束保証、高速計算が容易

周辺化ギブスサンプリング(CGS)法: 厳密解、 qd, bkの推定が不要

周辺化変分ベイズ(Collapsed Variational Bayes, CVB)法: VBより良い近似、 qd, bkの推定が不要、実験的に最高精度[Asuncion+, 2009; Sato&Nakagawa, 2012]

周辺化: 確率変数を定義域全体で積分することでその変数の影響を全て織り込んでおくこと

手法 q, bの推定

実験的な推定精度

厳密解へ漸近収束

停留点で収束

収束判定 実際的な計算コスト

近似計算・並列化による高速化

VB 要 普通 × ○ 容易 低い 容易

CGS 不要 高い ○ - 困難 高い 可能

CVB 不要 最高 × × 困難 高い 可能?

[Asuncion+, 2009] Asuncion et al., “On Smoothing and Inference for topic models”, in Proc. UAI, 2009. [Sato & Nakagawa, 2012] Sato & Nakagawa, “Rethinking Collapsed Variational Bayes Inference For LDA”, in Proc. ICML, 2012.

New

Page 62: 20151221 public

62Copyright©2015 NTT corp. All Rights Reserved.

CVB法のアルゴリズム

アイデア:VBの変分下限よりもよりタイトな近似であるCVB下限を最大化する

ただし、下限を正しく最大化するq(Z)は計算が困難なので、テイラー近似解を利用

「CGSのような計算式に基づく」「VB(EM)のような決定的繰り返し計算」

が導出される [Asuncion+, 2009]

[Asuncion+, 2009] Asuncion et al., “On Smoothing and Inference for topic models”, in Proc. UAI, 2009.

Page 63: 20151221 public

63Copyright©2015 NTT corp. All Rights Reserved.

CVB法の理論

VB法:周辺化尤度(evidence)の下限近似を最大化する変分事後分布q(Z), q(q), q(b)を求める

CVB法: パラメータを周辺化したうえで、周辺化尤度の下限近似を最大化するq(Z)を求める

変分近似された事後分布がq(z)だけになるので、VB下限よりも必ず良い近似となる

Also check my blog post: http://dr-kayai.hatenablog.com/entry/2013/12/22/003011

Page 64: 20151221 public

64Copyright©2015 NTT corp. All Rights Reserved.

推論手法の比較

[Asuncion+, 2009] Asuncion et al., “On Smoothing and Inference for topic models”, in Proc. UAI, 2009.

[Asuncion+, 2009]

better

better

better

Page 65: 20151221 public

65Copyright©2015 NTT corp. All Rights Reserved.

global parameterとlocal parameter

LDAの未知変数はglobal parameterとlocal parameterの2種類からなる

global parameter: トピックの単語分布bk

local parameter: トピック割り当てzd, 混合比qd

問題点:global param. bkの推定(更新)は全文書のスキャンが必要繰り返し計算が厳しい

𝑧𝑑,𝑖 𝑥𝑑,𝑖 𝜷𝑘𝜽𝑑𝜶

i=1, …, Nd k=1, …, K

d=1, …, D

local: 文書dに閉じている

global: 文書のプレート全体に影響

𝜷0

Page 66: 20151221 public

66Copyright©2015 NTT corp. All Rights Reserved.

Stochastic Variational Inference (SVI)

[Hoffman+, 2013]

変分下限の勾配を、乱拓したミニバッチ(文書サブセット)のデータで近似トピック単語分布bkの変分事後分布をO(S) (<< O(D))で高速に最適化

[Hoffman+, 2013] Hoffman et al., “Stochastic Variational inference”, Journal of Machine Learning Research, No. 14, 1304-1347, 2013.

乱拓したminibatch (S=2)全文書 D

変分事後分布の更新

Noisy estimate

Page 67: 20151221 public

67Copyright©2015 NTT corp. All Rights Reserved.

SVI + オンライン学習 [Hoffman+, 2010]

SVIによるglobal parameter推定

+ Local parameterをオンラインで推定=何度も繰り返し演算しない!

最初のほうに見た文書のトピック推定は悪いはずだが、数をこなせば全体としては良い推定が可能

[Hoffman+, 2010] Hoffman et al., “Online Learning for Latent Dirichlet Allocation”, in Proc. NIPS, 2010.

Page 68: 20151221 public

68Copyright©2015 NTT corp. All Rights Reserved.

並列学習

global/local param.の構造をうまく使います

MR.LDA[Zhai+, 2012]: Map-ReduceでLDA学習

16ノードのHadoop構成で360K文書/時間を処理

Yahoo!LDA[Smola & Narayanamurthy, 2010]: multi-core, multi-CPU計算機でのLDA学習

8コアCPUの計算機1台で75K文書/時間を処理

multi-CPU環境では1台あたり42K 文書/時間

[Zhai+, 2012] Zhai et al., “Mr. LDA”, in Proc. WWW, 2012.[Smola & Narayanamurthy, 2010] Smola & Narayanamurthy, “An Architecture for Parallel Topic Models”, in Proc. VLDB, 2010.

Page 69: 20151221 public

69Copyright©2015 NTT corp. All Rights Reserved.

Mr. LDA [Zhai+, 2012]

分散計算が容易なVB推論をMapReduce分散系に実装した mapper: local paramの統計量を

計算

reducer: global paramの統計量を計算

driver: globalなハイパーパラメータを

更新

[Zhai+, 2012] Zhai et al., “Mr. LDA”, in Proc. WWW, 2012.

Page 70: 20151221 public

70Copyright©2015 NTT corp. All Rights Reserved.

Yahoo!LDA [Smola & Narayanamurthy, 2010]

CGS推論において、メンテナンスが必要な隠れ変数と十分統計量を精査すると、

(A) 各文書で独立に保持できる量

(B) 文書全体で共有(通信が発生)されるが、頻繁に更新しなくても良い量

が存在する点に着目

(A)を各コアで並列計算する間(B)を「定数」とみなすことで通信とlockされる時間を削減

zdiおよび

n(d, k) = Σi I(zdi = k)

n(k, v) = Σd Σi I(zdi = k)I(xdi = v) および

n(k) = Σd Σi I(zdi = k)

[Smola & Narayanamurthy, 2010] Smola & Narayanamurthy, “An Architecture for Parallel Topic Models”, in Proc. VLDB, 2010.

Page 71: 20151221 public

71Copyright©2015 NTT corp. All Rights Reserved.

5.まとめ

本講演のまとめ

講演者が注目している最新手法と今後の方向性

参考図書の選び方

Page 72: 20151221 public

72Copyright©2015 NTT corp. All Rights Reserved.

本講演のまとめ

トピックモデルの現在のstatus技術としては「枯れて」いるが注目度は高い

トピックモデル(LDA)とは混合モデルの混合モデル, プレートノーテーション

各種拡張モデルについて相関、時間依存、教師情報の利用

さまざまなパターン認識ドメイン応用について

今後活用していただく際の「入口」の紹介

推論手法とスケーラビリティ

CVB、確率的最適化、並列計算

Page 73: 20151221 public

73Copyright©2015 NTT corp. All Rights Reserved.

最新の研究例: The Bayesian case model

[Kim+, 2014]

各トピックの「重要単語」と「典型例」を明示的にモデル化・推定

[Kim+, 2014] Kim et al., “The Bayesian Case Model: A Generative Approach for Case-Based Reasoning and Prototype Classification”, in Proc. NIPS, 2014.

LDA: 各トピックの頻出単語リストを人が解釈

提案法: 各トピックの典型的な観測値と

重要な単語を自動で提示

Page 74: 20151221 public

74Copyright©2015 NTT corp. All Rights Reserved.

今後の方向性について

1.「人にわかりやすく」クラスタリングを見せる技術

2.さらに高精度・高速・高スループットな推論・計算フレームワーク

3.各種パターン認識課題への応用

Page 75: 20151221 public

75Copyright©2015 NTT corp. All Rights Reserved.

参考図書の選び方(講演者の独断と偏見による)

佐藤一誠, “トピックモデルによる統計的潜在意味解析”,

自然言語処理シリーズ8, コロナ社, 2015.

トピックモデル(LDA)のすべてを詳細に議論各種推論法の非常に詳しい導出と背景となる数理的知識もカバー

トピックモデルを本格的に理解して、研究開発上の武器にしたい方は必読

岩田具治, “トピックモデル”,

機械学習プロフェッショナルシリーズ, 講談社, 2015.

本サーベイよりもう一段深い、実用を指向した説明特に拡張モデルの記述が豊富

とりあえず使ってみる・作ってみる際の理解を深めるのに好適

Page 76: 20151221 public

76Copyright©2015 NTT corp. All Rights Reserved.

IEICE技報の誤植訂正

お手数をおかけいたしますが、下記の修正をお願いいたします。もしほかにお気づきの方がいらっしゃれば、ご指摘いただけると助かります。

p.20 左コラム12行目

誤:[83] のように1 ツイート内に…

正:[82] のように1 ツイート内に…

p.24 右コラム、[73]の出版年

誤:2007年

正:2008年