Download - NIPS 2010 読む会
The Multidimentional Wisdom of Crowds Peter Welinder, Steve Branson, Serge Belongie, Pietro Perona
NIPS 2010 読む会
発表者 : 坪坂 正志
m.tsubosaka(at)gmail.com
2010/12/26 NIPS2010読む会 1
背景
• 多くの機械学習アルゴリズムにおいては大量のラベルありデータが必要となる
• 肝心のラベルは誰がつけるか
– 多くの場合人手
– ラベル付けのために専用の人材を雇うのはコストが高い
– あまり面白い仕事でもない • cf: 10000枚の写真から猫の移ってる写真を取り出す
2010/12/26 NIPS2010読む会 2
Amazon Mechanical Turk
• 簡単な大量のタスクを多くの人にやってもらうためのWebサービス (crowdsourcing)
– https://www.mturk.com/mturk/welcome
– 一つのタスクにつき数セントで実施してもらえる
– 例えば • 画面に何が移っているか答えてもらう
• 語義曖昧性の解消
• サイトのレビュー記事を書いてもらう
• 大量のアノテーションされたデータセットの作成に使われている
– 画像処理 : [Deng+, CVPR 2009] (ImageNet)
– NLP : [Snow+, EMNLP 2008]
2010/12/26 NIPS2010読む会 3
Crowd Sourcingの問題点
• 安く済む分、専門性の低いアノテーターを使うことになるのでラベルづけの精度は落ちる
• さらに、お金目当てで適当に回答を行う人間がいる
• そのため、一つのタスクに対して、複数のアノテーターを用意して多数決をとる(majority voting)などの方法をとる必要がある
– これには多くのアノテーターが必要、つまり多くのお金が必要となる
2010/12/26 NIPS2010読む会 4
本論文の内容
• 画像の二値ラベル付けに関して扱う
– Ex : 画像に”duck”が写ってるかどうか
• 画像自体の難しさとアノテーターのアノテーションを行う過程をモデル化することにより、既存の方法よりも高い精度を達成
– あるタスクにおいての精度が提案手法 75.4%, GLAD[Whitehill+ 2009, NIPS] 60.4% , Majority voting 68.3%
• 個々のアノテーターおよび画像をグループ分けすることが可能となる
2010/12/26 NIPS2010読む会 5
画像について
• 各画像𝐼𝑖には変数𝑧𝑖 ∈ *0,1+が対応する
• 各𝑧𝑖の値に応じて、多次元ベクトル𝒙𝑖が生成される
2010/12/26 NIPS2010読む会 6
識別が簡単
識別が困難
𝑥𝑖2
𝑥𝑖1
アノテータのノイズ
• アノテータは画像に関する量𝒙𝑖ではなく、ノイズの入った𝒚𝑖𝑗 = 𝒙𝑖 + 𝒏𝑖𝑗を観測する
– 𝒏𝑖𝑗は各アノテータ固有のパラメータ𝝈𝑗によって定まる
2010/12/26 NIPS2010読む会 7
𝑥𝑖2
𝑥𝑖1
ノイズ小
ノイズ大
𝑦𝑖2
𝑦𝑖1
𝑦𝑖1
𝑦𝑖2
アノテータのバイアス
• アノテータはパラメータ(𝑤 𝑗 , 𝜏 𝑗)で表される線形識別
面に基づいて𝑦𝑖𝑗上のデータのラベル付けをする
– これはアノテータの主観で決まって必ずしも二値分類できてるとはかぎらない
2010/12/26 NIPS2010読む会 8
Annotatorが誤るパターン
• 画像自体が判別しずらい
– 𝑥𝑖が判別面の境界付近に存在する
• ラベルのつけ方にむらがある
– 𝜎𝑗が大きい
– 画像に対してのラベル付けの整合性がとれてない
• タスクへの誤った認識
– 𝑤𝑗 , 𝜏𝑗の値が真の判別面と異なる
– 鴨と鵜の区別がつかない
2010/12/26 NIPS2010読む会 9
先行研究
• [David and Skene 1979]
– アノテータのバイアスとスキルを考慮
– [Welinder and Perona 2010, CVPR]によってbinary annotationタスク以外にも拡張されてる
• [Raykar+ 2009, ICML]
– アノテータのバイアスについて考慮
– 問題の難しさについては考慮せず
• [Whitehill+ 2009, NIPS] (GLAD)
– 問題の難易度、アノテータの信頼度をモデル化している
– アノテータのバイアスについては考慮していない
• 他にもnon-binary annotationタスクに対して[Spain and Perona 2008 ECCV],[Smyth+ 1995 NIPS]などがある
2010/12/26 NIPS2010読む会 10
確率モデル
• いままでのアノテータモデルの結合確率を書くと
• グラフィカルモデル
2010/12/26 NIPS2010読む会 11
[Welinder+ 2010]
画像に関するモデル
• ラベルに関する分布
– 𝑝 𝑧𝑖 = 1 = 𝛽
• 画像に対する量𝑥𝑖の分布
– 𝑝 𝑥𝑖 𝑧𝑖 = 𝑁(𝑥𝑖; 𝜇𝑧, 𝜃𝑧2)
– 𝑧𝑖 = 0のとき𝜇𝑧 = −1、𝑧𝑖 = 1のとき𝜇𝑧 = 1
– 𝑥𝑖が多次元ベクトルのときも同様
2010/12/26 NIPS2010読む会 12
[Welinder+ 2010]
観測時のモデル
• アノテータ𝑗ごとの画像𝑖に対する観測値𝑦𝑖𝑗の分布
– 𝑝 𝑦𝑖𝑗 𝑥𝑖 , 𝜎𝑗 = 𝑁(𝑦𝑖𝑗; 𝑥𝑖 , 𝜎𝑗2)
• アノテータの決定面
– 勾配 𝑤 𝑗, バイアス 𝜏 𝑗
– ラベル付けは𝑙𝑖𝑗 = 𝐼(𝑤 𝑗 ⋅ 𝑦𝑖𝑗 ≥ 𝜏 𝑗)に従い決定的に行わ
れる
• 𝑦𝑖𝑗について積分消去すると
2010/12/26 NIPS2010読む会 13
パラメータについて
• 𝑤𝑗 =𝑤 𝑗
𝜎𝑗, 𝜏𝑗 =
𝜏 𝑗
𝜎𝑗とreparameterizeする
– (3)式がΦ(𝑤𝑗 ⋅ 𝑥𝑗 − 𝜏𝑗)と書き直せる
• ハイパーパラメータについて
– 𝜏𝑗の事前分布は平均0, 分散𝛾 = 3の正規分布を仮定
– 𝑤𝑗の事前分布は平均1, 分散𝛼 = 3の正規分布を仮定
– 実のところハイパーパラメータを変えても実験結果には大きく影響しなかった
2010/12/26 NIPS2010読む会 14
MAP推定
• (1)式を変更すると以下のようになる
• 観測値𝐿 = *𝑙𝑖𝑗+を得た上で(4)式を最大化する
– 𝑚 𝑥,𝑤, 𝜏 = log 𝑝(𝐿, 𝑥, 𝑤, 𝜏)
2010/12/26 NIPS2010読む会 15
MAP推定(conn)
• 以下を繰り返す
– 1. 𝑥を固定したもとで(𝑤, 𝜏)を最適化
– 2. (𝑤, 𝜏)を固定したもとで𝑥を最適化
• 最適化には最急法を用いる
• 実験では20回以内の繰り返しで収束した
2010/12/26 NIPS2010読む会 16
Signal detection theoryとの関係
• 一次元の場合、信号検出理論で使われてるモデルと同じとなる
– ノイズから被験者がどれだけ正しくシグナルを検出できるかを知るための理論
2010/12/26 NIPS2010読む会 17
http://www.educ.kyoto-u.ac.jp/cogpsy/personal/Kusumi/datasem05/nakashima.pdf より
Signal detection theoryとの関係
• Sensitivity index 𝑑′ : アノテータがどの程度うまくノイズとシグナルを分離できるかの指標
• Threshold 𝜆 : アノテータのバイアスを表す指標
2010/12/26 NIPS2010読む会 18
𝑑′ =𝜇1 − 𝜇0
𝑠=
2
𝜃𝑧2 + 𝜎𝑗
2
モデルから計算した場合
𝑑′ = Φ−1 ℎ − Φ−1(𝑓)
False alarm rate 𝑓とhit rate ℎ から計算した場合
𝜆 =𝜏𝑗𝑠
𝜆 = −1
2(Φ−1 ℎ + Φ−1 𝑓 )
シミュレーションによる実験
• 提案モデルの通りにデータおよびアノテータのパラメータを生成してそれによるラベルデータを作成
• 500個の疑似イメージデータを作成して、4から20のアノテータにラベル付けさせるという設定
• 以上の手続きを40回繰り返した平均をとる
2010/12/26 NIPS2010読む会 19
実験結果
• 推定されたパラメータと真のパラメータとの相関
• 他手法との比較
2010/12/26 NIPS2010読む会 20
[Welinder+ 2010]
[Welinder+ 2010]
実際の人間による実験
• Amazon MTurkで実際のアノテータを使った実験を行った
• 他手法との比較のため、写真にIndigo BuntingとBlue Grosbeakのどちらが写ってるか答えさせる実験を行った – アノテータは各画像に対して40人
2010/12/26 NIPS2010読む会 21
実験結果
• 他手法に比べて提案手法の方が精度が高かった
– [1]は[David and Skene 1979]
– [13]はNIPS 2009のもの
2010/12/26 NIPS2010読む会 22
[Welinder+ 2010]
Ellipse Dataset
• 与えられた楕円が垂直に近いか水平に近いかを答えてもらうタスク
– 1度刻みで1度から180度までの180枚の画像を用意
– アノテータの数は20人
– 45度のときが最も判別しずらい
2010/12/26 NIPS2010読む会 23
[Welinder+ 2010]
実験結果
• 各画像に関する𝑥𝑖の推定値
– 横軸は45度からのずれで45度から離れるにつれ判別しやすくなっている
• SDTとの関係
– モデルパラメータから推定した値とFalse alarm rate, Hit rateから計算した値の整合性が取れている
2010/12/26 NIPS2010読む会 24
[Welinder+ 2010]
[Welinder+ 2010]
Greeble Dataset
• 緑色で背の高い画像をクラス0とし、黄色で背の低い画像をクラス1とする。 – このときアノテータにはクラス0の特徴として色もしくは身長のどちらかしか教えない
– アノテータは色もしくは身長のどちらかの知識のみで分類を行う
– 画像データの身長および色のパラメータは平均(1,1)もしくは(-1,-1)、分散0.8の正規分布からランダムに作成する
2010/12/26 NIPS2010読む会 25
クラス0 クラス1
[Welinder+ 2010]
実験結果
• 色で判定しているアノテータと身長で判定しているアノテータで判別面にあきらかな違いがでている
2010/12/26 NIPS2010読む会 26
[Welinder+ 2010]
Waterbird Dataset
• Mallard(マガモ), American Black Duck (アメリカガモ), Canada Goose(カナダガン), Red-necked Grebe(アカエリカイツブリ)の四種の水鳥についての画像を50枚ずつ用意
• 加えて鳥が写っていない風景画像を40枚用意
• 40人のアノテータにたいしてカモが写っているかどうかを答えてもらう
2010/12/26 NIPS2010読む会 27
実験結果
• アノテータの判別面は三種類のパターンとなった
– Duckとそれ以外をわける
– Duck + Grebeとそれ以外
– 水鳥とそれ以外
2010/12/26 NIPS2010読む会 28 [Welinder+ 2010]
実験結果
• 見当はずれの判別面がみられるがこれは報酬目当てで適当に答えているアノテータと思われる
– これは[Snow+ 2008]でも報告されている
• 他手法と比較すると提案手法が一番精度が高い
– 提案手法 75.4%
– GLAD[NIPS 2009] 60.4%
– Majority voting 68.3%
2010/12/26 NIPS2010読む会 29
Conclusions
• アノテーションの過程に関してのベイズモデルを提案
• Amazon MTurkを使って実験した結果既存手法よりも高い精度を得た
• 提案手法を使えば、二値分類問題を解くだけではなく、画像の難しさの尺度やアノテータがどのように判別しているかのグルーピングが行える
2010/12/26 NIPS2010読む会 30