Download - 15min nov25
高次元非線形統計モデリング
山田 誠理研AIP,高次元統計モデリングユニット
ユニットリーダーRIKENAIP,PRESTJST
特徴選択・変数選択• 入力•出力ベクトル:• 学習データ:
• ゴール: d次元の入力 から,出力 に関連するr個の特徴を選択する.
• 応用例:バイオマーカー検出
2
x 2 Rd, y 2 R
X = [x1, . . . ,xn] = [u1, . . . ,ud]>, y = [y1, . . . , yn]
>
x y
HSICの応用2:変数選択• Marginal Screening
𝑌が各変数 𝑋𝑎 (𝑎 = 1,… , 𝑝)に依存するか否かによって,変数選択を行う
Sure Independence Screening (Fan & Lv JASA2008)• 相関 Corr(𝑋𝑎, 𝑌)でランク付けして,トップ 𝑘 個を選択.• スクリーニングの一致性(真の非ゼロ線形回帰係数を「含む」集合を選択する確率が1に収束)
• HSICによるmarginal screening• HSIC(𝑋𝑎, 𝑌)のトップ 𝑘 個を選択 (Song et al JMLR2012; Balasubramanian et al AISTATS2013)• 𝑘個選んだ後さらに検定が可能(Post selection inference, Yamada et al 2016)
23
𝐺1, … , 𝐺𝑝
𝑆1
𝑆𝑛
𝑌
𝑋𝑖𝑎
0110
1
…
X
11010011
Features
Samples
{(xi, yi)}ni=1i.i.d.⇠ p(x, y)
研究分野
標本数
DeepLearning (CNN,RNN)画像、音声、テキスト
決定木(GBDT)ユーザーデータ
Lassoバイオデータ (医療,農業)(SNPs,マイクロアレイ,etc.)
Matrix/TensorFactorizationクリックデータグラフデータ
次元(
特徴数)
10^3
10^4
10^5
10^6
10^7
10^8
10^2 10^4 10^6 10^8
非線形超高次元データ解析解釈性!
3
非線形性を使うことが解釈性を高めるために重要?
解釈性
柔軟性 (非線形性)
ここ!
機械学習基盤手法の位置付け
AnintroductiontostatisticallearningSection2Fig2.7
4
Theleastabsoluteshrinkageandselectionoperator(Lasso)
5
• 最適化問題
がスパース
• 特徴–特徴数dが標本数より大きいとき有用–凸最適化–線形モデルL
↵ 2 Rd
Tibshirani.(JRSSB1996)
↵ =
0
0
0
min↵
ky �X>↵k22 + �k↵k1
高次元非線形特徴選択
• ゴール:科学的発見のための機械学習方法の構築• 解釈性 (a.k.a.,特徴選択?)
– 少数特徴で高い予測性能• 高次元データにおいて線形手法は予測性能が高いが、多くの特徴が必要 (解釈性は低い)
– p値• 各特徴のp値がわかると嬉しい
– サブタイプ毎に特徴選択• チャレンジ
– 非線形モデルは複雑になりがち• よくわからないのであまり使われない?
– 非凸最適化がよく利用される• サンプル数が少ないのですぐにオーバーフィットする.
• 単純&高性能(&凸最適化).
6
高次元非線形特徴選択
• ゴール:科学的発見のための機械学習方法の構築• 解釈性 (a.k.a.,特徴選択?)
– 少数特徴で高い予測性能• 高次元データにおいて線形手法は予測性能が高いが、多くの特徴が必要 (解釈性は低い)
– p値• 各特徴のp値がわかると嬉しい
– サブタイプ毎に特徴選択• チャレンジ
– 非線形モデルは複雑になりがち• よくわからないのであまり使われない?
– 非凸最適化がよく利用される• サンプル数が少ないのですぐにオーバーフィットする.
• 単純&高性能(&凸最適化).
7
• 非線形特徴選択手法– HSICLasso(NECO2014)(State-of-the-art手法)– LocalizedLasso(AISTATS2017)– LocalizedLogisticRegression(arXiv)– hsicInf (NIPS2016workshop)– mmdInf (NIPS2017workshop)
特徴スクリーニング(Pengetal.TPAMI2005,Fan, Lv, JRSSB 2008)
• 各特徴と出力の間の関連度を計算したあとで,関連度の高いm個の特徴を選択–相互情報量やカーネル法に基づいた独立性基準が用いられる.
–実装が簡単&大規模化が容易.–重複した特徴が選択されやすいL
8
...
Select top-rfeatures by
sorting
I(X1, Y )
I(X2, Y )
I(Xd, Y )
{(xi, yi)}ni=1
max
�2{0,1}d
dX
k=1
�kI(Xk, Y ),
s.t.
dX
k=1
�k = r
MinimumRedundancyMaximalRelevance (mRMR) (Peng &Ding,TPAMI2005)
• ゴール:– 出力と関連性の高い特徴を選択.– 選択された特徴同士は独立.
• 最適化問題:
• 実験的に高いパフォーマンス(Hawsetal.,PLOSone2015)
• 貪欲法を用いているL• dxdの相互情報量を計算する必要があるL
9
max
�2{0,1}d
dX
k=1
�kI(Xk, Y )�dX
k=1
dX
k=1
�k�k0I(Xk, Xk0),
s.t.
dX
k=1
�k = r
関連度:HilbertSchmidtIndependenceCriterion(HSIC) (Gretton,ALT2005)
• EmpiricalHSIC
:正規化グラム行列 (出力)HSICは確率変数XとYが独立だと0,それ以外の場合は非負値をとる.
–正規化HSIC(NHSIC):
HSIC(X,Y ) = tr(K̄L̄) K̄ = HKH,H = I � 1
n11
[K]ij = exp
✓� (xi � xj)
2
2�
2
◆
L̄ 2 Rn⇥n
:ガウスカーネル
tr(K̄L̄)
kK̄kF kL̄kF2 [0, 1]
10
NHSIC 実験
NHSIC=0.0031相関係数=0.0343
NHSIC=0.2842相関係数 =0.1983
XとYが独立 XとYが従属
11
HSICLasso(Yamadaetal.NECO2014)
12
• mRMRの凸最適化版–大域的最適解がもとまる!
• アイディア:NHSICを相互情報量の代わりに利用
• NHSICはXとYの変数毎に分解可能
C �dX
k=1
↵kNHSIC(uk,y) +1
2
dX
k,k0=1
↵k↵k0NHSIC(uk,uk0)
NHSIC(X,Y ) = tr(fK eL) = vec(fK)>vec(eL)
y 2 Rn ! eL 2 Rn⇥n, eL =L̄
kL̄kF
uk 2 Rn ! fK(k)
2 Rn⇥n, fK =K̄
(k)
kK̄(k)kF
X = [x1, . . . ,xn] = [u1, . . . ,ud]>,y = [y1, . . . , yn]
>
HSICLasso(Yamadaetal.NECO2014)
13
• mRMRの凸最適化を提案する
:k番目の特徴のグラム行列.:出力のグラム行列.
• 大域的最適解が求まる!• (d>>n(n-1)/2)の時に特に有用• 非負Lassoを用いて簡単に解ける!
min↵2Rd
1
2keL�
dX
k=1
↵kfK
(k)k2F + �k↵k1, s.t. ↵1, . . . ,↵d � 0.
fK(k)
eL
min↵2Rd
1
2kvec(eL)� (vec(fK
(1)), . . . , vec(fK
(d)))↵k22 + �k↵k1
s.t. ↵1, . . . ,↵d � 0.
...
...
K̄(1)
K̄(2)
K̄(d)
L̄
↵1
↵2
↵d
実験結果:中規模14
• 前立腺癌分類.(270Kfeatures,400samples)
実験結果:大規模
• 酵素分類 (d>100万次元,n>1万標本,100G)
103
104
105
106
0
2
4
6
8x 10
4
Dimensionality (d)
Tim
e [
seco
nd
]
LANDMR−NHSICmRMR
15
0.75
0.80
0.85
0.90
Accuracy
A
0 20 40 60 80 100
0.600.650.700.750.800.850.90
B
Inde
pend
ence
rate
Number of extracted features