nips 2012 読む会
DESCRIPTION
Linear submodular bandits and their application to diversified retrievalTRANSCRIPT
坪坂正志
mail : m.tsubosaka(at)gmail(dot)com
紹介論文
Linear submodular bandits and their
application to diversified retrieval
Yisong Yue, Carlos Guestrin (Carnegie
Mellon University)
問題
ニュース記事のレコメンドなどでユーザに対して複数の記事を提示したい
提示結果はパーソナライズしたい
Challenge
Diversification
なるべく同じ記事が並ばないようにしたい
Feature-based exploration
ユーザに記事を提示して、その結果クリックされる/されないというフィードバックを受け取り、そのユーザがスポーツに興味はあるけど政治には興味がないなどの嗜好を効率的に学習したい
Diversification
ニュース記事が𝑑個のトピック確率によって表されるとする 例えば記事Aはスポーツ0.5, 芸能 0.5
記事Bは政治0.8, 経済0.2など
Probabilistic coverage
トピック𝑖に関するcoverageを
𝐹𝑖 𝐴 = 1 − (1 − 𝑃 𝑖 𝑎 )𝑎∈𝐴 と定義する
たとえば提示した記事リストの中に𝑃 𝑖 𝑎 = 1となるものが入っていれば、他の記事をどれだけ追加したかに関わらず𝐹𝑖 𝑎 = 1
評価関数
記事の集合𝐴に対して、ユーザに関しての評価関数を
𝐹 𝐴 𝑤 = 𝑤𝑇 𝐹1 𝐴 ,… , 𝐹𝑑 𝐴 (𝑤 ≥ 0)
とする
ここで𝑤はユーザがどのトピックを好むかを表すベクトルである
Local Linearity
記事集合𝐴に対して、記事𝑎を追加した場合の利得は𝑤𝑇Δ(𝑎|𝐴)で表される
Δ 𝑎 𝐴 =
< 𝐹1 𝐴 ∪ 𝑎 − 𝐹1 𝐴 ,… , 𝐹𝑑 𝐴 ∪ 𝑎 − 𝐹𝑑 𝐴 >
ユーザの興味に合致したトピックでもすでに記事集合に含まれてるものの利得は小さくなる
Optimization
argmax𝐴:𝐴≤ 𝐿 𝐹(𝐴|𝑤)を求める
ここで𝐹にsubmodular性があることを使うと
𝑤𝑇Δ(𝑎|𝐴)が最大となるような記事𝑎を貪欲
に追加することで最適解の 1 −1
𝑒≃ 0.63倍
の解が達成できることが保証されている
Submodularとは
𝐹 𝐴 ∪ 𝑎 ≥ 𝐹 𝐴 かつ𝐴 ⊂ 𝐵のとき
𝐹 𝐴 ∪ 𝑎 − 𝐹 𝐴 ≥ 𝐹 𝐵 ∪ 𝑎 − 𝐹(𝐵)
が成立するとき𝐹はSubmodular関数であると言う
Linear Submodular Bandits Problem
時刻𝑡 = 1,… , 𝑇まで以下の処理を行う
アルゴリズムは記事の集合𝐴𝑡 = (𝑎𝑡1, … , 𝑎𝑡
𝐿)を選択する
ユーザは記事集合に関して報酬(クリックするor 無視する)𝑟𝑡(𝐴𝑡)を与える
報酬モデル
ユーザは記事を上から下に見ていく
ユーザは𝑙番目の記事に関して、
確率 w∗ TΔ(𝑎𝑙|𝐴1:𝑙−1)に従ってクリックする
報酬は和の形𝑟𝑡 𝐴 = 𝑟𝑡𝑙(𝐴)𝐿
𝑙=1 で表されるとする
このとき期待値は
𝐸 𝑟𝑡𝑙 𝐴 = 𝑤∗ 𝑇Δ(𝑎𝑙|𝐴1:𝑙−1)
Regret
最適な集合の選択をした場合との実際の報酬との差分
𝑅𝑒𝑔 𝑇 = 1 −1
𝑒 𝐸 𝑟𝑡 𝐴𝑡
∗𝑡 − 𝑟𝑡(𝐴𝑡)𝑡
= 1 −1
𝑒𝑂𝑃𝑇 − 𝑟𝑡(𝐴𝑡)𝑡
ここで最適な𝑤∗が求まっても、集合の選択
を貪欲に行うと最適解の(1 −1
𝑒)倍までしか
達成できないので最適解にかける
Algorithm
Algorithm
データ対(Δ𝜏𝑙 , 𝑟𝜏
𝑙)を使って線形回帰により重みベクトル𝑤𝑡を計算する
Algorithm
𝑙番目の記事に関する期待利得と信頼区間を計算する
信頼区間の上限の部分まで考えて記事を選択する
Confidence interval
記事の利得の期待値だけではなく、信頼区間の大きさも利用して記事を選択する
データが少ないものについては信頼区間が大きくなり、値が大きくなる (explore : 探索)
データが多いものについては期待値をそのまま利用する
記事1
記事2
記事1の方が期待値は低いが信頼区間の上限は大きいので記事1を選択
Theory
logの項を無視するとRegretは𝑂(𝑑 𝑇𝐿)で抑えられる
他のBandit algorithmとの関係
特徴量を使わない場合 UCBなど
固定された記事(数個程度)において最もクリックされやすいものを探索する
cf. Finite-time analysis of the multiarmed bandit problem, Machine Learning 2002
特徴量を使うが1つだけ選択する場合 LinUCB
ユーザや記事の特徴量を用いて記事を選択する(新規記事に対しても特徴量を使ってCTRを予測できる)
今回の論文では特徴量はトピックにあたる
cf. A contextual-bandit approach to personalized news article recommendation, WWW 2010
Experiment (Simulation)
正解の𝑤∗が分かっているという状況でシミュレーションを行う
Synthetic data
𝑑 = 25, 𝑤∗はランダムに作成
Blog dataset
𝑑 = 100, 𝑤∗は事前のユーザスタディにより決定
Competing method
Multiplicative Weighting
explorationを行わない手法
RankLinUCB
𝐿個の独立なLinUCBを利用する
ε-Greedy
確率εでランダムな記事を選択、そうでない場合最もCTRの高い記事を選ぶ
Result (Simulation)
ユーザによる評価
2つのアルゴリズムの出力をInterleavingしてどちらのアルゴリズムが好ましいか、ユーザの評価から確認した
static baselineはパーソナライズを行わないものになる
Interleaving algorithm
まとめ
ユーザのフィードバックを受け取りながらDiversified retrievalを行うための一般的なフレームワークを提案した
提案したアルゴリズムであるLSBGreedyがユーザアンケートの結果ニュース記事のレコメンドにおいては最も良い結果となった