Download - 15min nov25

高次元非線形統計モデリング

山田誠理研AIP,高次元統計モデリングユニット

ユニットリーダーRIKENAIP,PRESTJST

特徴選択・変数選択• 入力•出力ベクトル:• 学習データ:

• ゴール: d次元の入力から,出力に関連するr個の特徴を選択する.

• 応用例:バイオマーカー検出

2

x 2 Rd, y 2 R

X = [x1, . . . ,xn] = [u1, . . . ,ud]>, y = [y1, . . . , yn]

>

x y

HSICの応用２：変数選択• Marginal Screening

𝑌が各変数 𝑋𝑎 (𝑎 = 1,… , 𝑝)に依存するか否かによって，変数選択を行う

Sure Independence Screening (Fan & Lv JASA2008)• 相関 Corr(𝑋𝑎, 𝑌)でランク付けして，トップ 𝑘 個を選択．• スクリーニングの一致性（真の非ゼロ線形回帰係数を「含む」集合を選択する確率が１に収束）

• HSICによるmarginal screening• HSIC(𝑋𝑎, 𝑌)のトップ 𝑘 個を選択 (Song et al JMLR2012; Balasubramanian et al AISTATS2013）• 𝑘個選んだ後さらに検定が可能（Post selection inference, Yamada et al 2016)

23

𝐺1, … , 𝐺𝑝

𝑆1

𝑆𝑛

𝑌

𝑋𝑖𝑎

0110

１

…

X

11010011

Features

Samples

{(xi, yi)}ni=1i.i.d.⇠ p(x, y)

研究分野

標本数

DeepLearning (CNN,RNN)画像、音声、テキスト

決定木(GBDT)ユーザーデータ

Lassoバイオデータ (医療,農業)(SNPs,マイクロアレイ,etc.)

Matrix/TensorFactorizationクリックデータグラフデータ

次元(

特徴数)

10^3

10^4

10^5

10^6

10^7

10^8

10^2 10^4 10^6 10^8

非線形超高次元データ解析解釈性!

3

非線形性を使うことが解釈性を高めるために重要?

解釈性

柔軟性 (非線形性)

ここ！

機械学習基盤手法の位置付け

AnintroductiontostatisticallearningSection2Fig2.7

4

Theleastabsoluteshrinkageandselectionoperator(Lasso)

5

• 最適化問題

がスパース

• 特徴–特徴数dが標本数より大きいとき有用–凸最適化–線形モデルL

↵ 2 Rd

Tibshirani.(JRSSB1996)

↵ =

0

0

0

min↵

ky �X>↵k22 + �k↵k1

高次元非線形特徴選択

• ゴール:科学的発見のための機械学習方法の構築• 解釈性 (a.k.a.,特徴選択?)

– 少数特徴で高い予測性能• 高次元データにおいて線形手法は予測性能が高いが、多くの特徴が必要 (解釈性は低い)

– p値• 各特徴のp値がわかると嬉しい

– サブタイプ毎に特徴選択• チャレンジ

– 非線形モデルは複雑になりがち• よくわからないのであまり使われない？

– 非凸最適化がよく利用される• サンプル数が少ないのですぐにオーバーフィットする.

• 単純&高性能(&凸最適化).

6

高次元非線形特徴選択

• ゴール:科学的発見のための機械学習方法の構築• 解釈性 (a.k.a.,特徴選択?)

– 少数特徴で高い予測性能• 高次元データにおいて線形手法は予測性能が高いが、多くの特徴が必要 (解釈性は低い)

– p値• 各特徴のp値がわかると嬉しい

– サブタイプ毎に特徴選択• チャレンジ

– 非線形モデルは複雑になりがち• よくわからないのであまり使われない？

– 非凸最適化がよく利用される• サンプル数が少ないのですぐにオーバーフィットする.

• 単純&高性能(&凸最適化).

7

• 非線形特徴選択手法– HSICLasso(NECO2014)(State-of-the-art手法)– LocalizedLasso(AISTATS2017)– LocalizedLogisticRegression(arXiv)– hsicInf (NIPS2016workshop)– mmdInf (NIPS2017workshop)

特徴スクリーニング(Pengetal.TPAMI2005,Fan, Lv, JRSSB 2008)

• 各特徴と出力の間の関連度を計算したあとで,関連度の高いm個の特徴を選択–相互情報量やカーネル法に基づいた独立性基準が用いられる.

–実装が簡単&大規模化が容易.–重複した特徴が選択されやすいL

8

...

Select top-rfeatures by

sorting

I(X1, Y )

I(X2, Y )

I(Xd, Y )

{(xi, yi)}ni=1

max

�2{0,1}d

dX

k=1

�kI(Xk, Y ),

s.t.

dX

k=1

�k = r

MinimumRedundancyMaximalRelevance (mRMR) (Peng &Ding,TPAMI2005)

• ゴール:– 出力と関連性の高い特徴を選択.– 選択された特徴同士は独立.

• 最適化問題:

• 実験的に高いパフォーマンス(Hawsetal.,PLOSone2015)

• 貪欲法を用いているL• dxdの相互情報量を計算する必要があるL

9

max

�2{0,1}d

dX

k=1

�kI(Xk, Y )�dX

k=1

dX

k=1

�k�k0I(Xk, Xk0),

s.t.

dX

k=1

�k = r

関連度:HilbertSchmidtIndependenceCriterion(HSIC) (Gretton,ALT2005)

• EmpiricalHSIC

:正規化グラム行列 (出力)HSICは確率変数XとYが独立だと0,それ以外の場合は非負値をとる.

–正規化HSIC(NHSIC):

HSIC(X,Y ) = tr(K̄L̄) K̄ = HKH,H = I � 1

n11

[K]ij = exp

✓� (xi � xj)

2

2�

2

◆

L̄ 2 Rn⇥n

:ガウスカーネル

tr(K̄L̄)

kK̄kF kL̄kF2 [0, 1]

10

NHSIC 実験

NHSIC=0.0031相関係数=0.0343

NHSIC=0.2842相関係数 =0.1983

XとYが独立 XとYが従属

11

HSICLasso(Yamadaetal.NECO2014)

12

• mRMRの凸最適化版–大域的最適解がもとまる!

• アイディア:NHSICを相互情報量の代わりに利用

• NHSICはXとYの変数毎に分解可能

C �dX

k=1

↵kNHSIC(uk,y) +1

2

dX

k,k0=1

↵k↵k0NHSIC(uk,uk0)

NHSIC(X,Y ) = tr(fK eL) = vec(fK)>vec(eL)

y 2 Rn ! eL 2 Rn⇥n, eL =L̄

kL̄kF

uk 2 Rn ! fK(k)

2 Rn⇥n, fK =K̄

(k)

kK̄(k)kF

X = [x1, . . . ,xn] = [u1, . . . ,ud]>,y = [y1, . . . , yn]

>

HSICLasso(Yamadaetal.NECO2014)

13

• mRMRの凸最適化を提案する

:k番目の特徴のグラム行列.:出力のグラム行列.

• 大域的最適解が求まる!• (d>>n(n-1)/2)の時に特に有用• 非負Lassoを用いて簡単に解ける!

min↵2Rd

1

2keL�

dX

k=1

↵kfK

(k)k2F + �k↵k1, s.t. ↵1, . . . ,↵d � 0.

fK(k)

eL

min↵2Rd

1

2kvec(eL)� (vec(fK

(1)), . . . , vec(fK

(d)))↵k22 + �k↵k1

s.t. ↵1, . . . ,↵d � 0.

...

...

K̄(1)

K̄(2)

K̄(d)

L̄

↵1

↵2

↵d

実験結果:中規模14

• 前立腺癌分類.(270Kfeatures,400samples)

実験結果:大規模

• 酵素分類 (d>100万次元,n>1万標本,100G)

103

104

105

106

0

2

4

6

8x 10

4

Dimensionality (d)

Tim

e [

seco

nd

]

LANDMR−NHSICmRMR

15

0.75

0.80

0.85

0.90

Accuracy

A

0 20 40 60 80 100

0.600.650.700.750.800.850.90

B

Inde

pend

ence

rate

Number of extracted features

Download - 15min nov25

Top Related