Download - MLaPP輪講 Chapter 1

MLaPP 輪講第一回Ch1. Indroduction

名言

We are drowning in information and starving for knowledge.

- John Naisbitt, in Megatrends (1982)

2

ビッグデータ 1 兆のウェブページ Youtube にアップされる動画は 10 年分 / 日 38 億の塩基対 ×1000 人分ウォルマートのデータベース 2.5 ペタバイトドライバ 3200 人，走行距離 8000 万 km の

運転データ

人手では解析が追いつかない！

3

意外と小さいのね

重要な性質： Long tail重要なものはたくさん出てくるが，その他は比較的にほとんど出現しない

ビッグデータであっても，実質的に重要なデータサイズは小さい！．．．けどやっぱりデカイ

留意点として，

4

機械学習

データ中のパターンを自動的に発見し，それを用いて未来のデータを予測する不確実性のもとで意思決定を行う

ような手法の集まりを，機械学習と定義

5

確率論

過去のデータが与えられたとき，最適な予測とは？

データを説明する最適なモデルは？次にどのような観測を行えばよいか？

etc.など，機械学習では様々な形で不確実性が現れる．

不確実性を扱うツールとして，確率・統計を採用する．

6

MLaPP はクックブックではない！

確率的モデリング・推定の観点から，

機械学習における統一的な視点を与え

る

ことを目的とする．

7

機械学習の世界へ入りますが．．．

用語が多いので注意！専門用語を作りたがるのは人の性ですね。。ジャーゴン，ギャル語，猛虎弁．．．慣れるしかない（半年 ROM れ）

8

機械学習の分類

1. 教師あり学習

2. 教師なし学習

3. 強化学習

9

機械学習の分類

1. 教師あり学習

2. 教師なし学習

3. 強化学習Sutton & Barto 1998 を読みましょう．

10

教師あり学習

入力から出力への写像を学習する𝐱 𝑦 𝑓 (𝐱 )(supervised learning or predictive learning)

入力空間出力空間

𝐱𝑖 𝑦 𝑖≈ 𝑓 (𝐱 𝑖 )𝑓

11

教師あり学習

入力から出力への写像を学習する𝐱 𝑦 𝑓 (𝐱 )このとき，入力 - 出力の”ラベル付き”集合 𝒟= {𝐱 𝑖 , 𝑦 𝑖 }𝑖=1

𝑁

を用いて学習する．これを訓練データという．（は訓練例の個数）

(supervised learning or predictive learning)

12

入力

特徴，素性，共変量，説明変数，独立変数，予測変数，…

Input, feature がよく使うかな今のところで良い画像，文，時系列，分子形状，グラフな

ど，ベクトルとみなすには厳しい場合も多い

確率変数なので，本当はとか書かなきゃいけないが，大体無視される

13

出力

応答変数，従属変数など (input より少ない！ )

Output, response variable 出力の種類により，問題の名前が違う

1. カテゴリ変数識別，パターン認識として知られる

2. 実数値（多次元の場合もある）回帰 regression

classification, pattern recognition

カテゴリに順序がある場合も (amazon の★ )

14

出力

応答変数，従属変数など (input より少ない！ )

Output, response variable 出力の種類により，問題の名前が違う

1. カテゴリ変数識別，パターン認識として知られる

2. 実数値（多次元の場合もある）回帰 regression

classification, pattern recognition

カテゴリに順序がある場合も (amazon の★ )

ここらへんはノリで．

15

まず例より始めよ

例示は理解の試金石．．．って数学ガールで言ってた

大体の人は理論より実践を求めてますよね理論のほうが好きな変態さんもいることを忘れないで

16

Toy Example17

問題：オブジェクトが yes か no を識別

Toy Example18


訓練データ

Toy Example19


𝐱入力出力𝑦𝐱1𝐱 2𝐱 3

𝑦 1𝑦 2𝑦 3

Toy Example20


テストデータ

これら未知のオブジェクトは yes か no か？

Toy Example21


は yes であろう．

訓練データにおいて，1. 青はすべて yes であり，2. 月はいずれにも含まれていないから．

Toy Example22


は yes か no か？

訓練データにおいて，1. 黄色はいずれにも含まれており，2. ドーナツもいずれにも含まれている．

Toy Example23



訓練データにおいて，1. 黄色はいずれにも含まれており，2. ドーナツもいずれにも含まれている．

Toy Example24


同様の困難がにも．

訓練データにおいて，1. 青はすべて yes だが，2. 矢印はすべて no である．

確率的な表現が必要25

この問題では，決定論的な識別が困難

日常シーンでも，決定論的なことは，実はあまりない空気が湿ってるから雨振りそう（はずれ

ることもある）

やつは 3ポイントをうってくるはずだ識別の基準として，確率を基礎におく

（不確実性を扱うため！）

確率分布で表現26



𝑝 (𝑦∨𝐱 ,𝒟 ) にもとづいて識別しよう！出力入力

訓練データ

我々のひとまずの立場確率モデルにもとづかない手法もある（ SVM と

か）



は yes か no か？𝑝 (𝑦=1∨𝐱 ,𝒟 ) なら yes𝑝 (𝑦=0∨𝐱 ,𝒟) なら no

𝑝 (𝑦=1∨𝐱 ,𝒟 )+𝑝 ( 𝑦=0∨𝐱 ,𝒟)=1




が成り立つので，𝑝 (𝑦=1∨𝐱 ,𝒟 ) のみわかれば良い．

識別ルールはこう決める29


は yes か no か？�̂�= 𝑓 (𝐱 )

¿ arg max𝑐∈ {0 ,1 }

𝑝 (𝑦=𝑐∨𝐱 ,𝒟 )

“ ハット”は「推定値」という意味でよく使う

MAP 推定30

�̂�= 𝑓 (𝐱 )

¿ arg max𝑐∈ {0 ,1 }

𝑝 (𝑦=𝑐∨𝐱 ,𝒟 )

MAP 推定 (maximum a posteriori) というA posteriori は事後分布のこと

確率分布の最頻値を選択

補足：機械学習で MAP 推定とは，普通はパラメータ推定の意味において使う言葉

「わからない」という勇気31

�̂�= 𝑓 (𝐱 )

¿ arg max𝑐∈ {0 ,1 }

𝑝 (𝑦=𝑐∨𝐱 ,𝒟 )

一番大きい事後確率がある値よりも小さいとき，「わかりません」という識別結果を返すときもある

医薬・金融など間違いが許されない分野

クイズ・ミ■オネアとかね

オモチャで遊ぶのは終わり

実問題を紹介まずは識別から回帰は例の紹介のみ

32

文書識別 or スパムフィルタリング文書識別

文書・ウェブページなどの , トピックなどを識別

33

スパムフィルタリングメールが , スパムかハムかを識別

Bag-of-words34

文書について，ある単語が出現する場合はそうでなければ

クラスによって単語の出現パターンに差文脈は無視

フィッシャーのアヤメ（ Fisher’s Iris ）

35

𝐱

𝑦クラス

特徴量

の散布図

1 つの特徴量で分離可能

適切な特徴量を選べば，赤のクラスを分離可能

水平線で分離できるということ

36

2 つの特徴量である程度分離

2 次元の特徴量を用いれば，青と緑のクラスを割りと分離できる

特徴量で，原理的に分離可能かが決まる

37

手書き文字認識

MNIST 郵便番号の手書き文字データ訓練データ 60,000 ，テストデータ

10,000

クラス 0,1,2,…,9

28×28 ，画素値 0-255 単純にベクトル化するだけでは，画像の構造的な情報を無視しかねない

38

次元をシャッフル

顔検出39

窓をスライドさせていくスケール変化・回転を許容テンプレートとのマッチ

ング例えばこんなんグンマー部族の仮面かな？

デジカメに標準搭載 Google ストリートビューで，歩行者の顔に自動モザイク

顔認識40

検出後，誰なのかを認識

特徴量は検出とは大きく異なる！グンマー仮面では無理

SIFT, HOG などが有名 Bag-of-features

回帰41

回帰では出力が実数に

例だけ紹介市場の状態から明日の株価を予測 YouTube閲覧履歴から年齢を推定制御信号からロボットアームの手先位置推定

ここまでは教師ありの話

次は教師なし学習

42

教師なし学習43

データの中の”興味深い”構造を見つける𝐱(unsupervised learning or desctiptive learning)

データ空間

教師あり

教師なし学習44

データの中の”興味深い”構造を見つける𝐱(unsupervised learning or desctiptive learning)

𝑝 (𝑦∨𝐱 ,𝜽 ) 教師なし 𝑝 (𝐱∨𝜽 )

推定するもの：

はパラメータ．今のところは ( ﾟ ε ﾟ ) ｷﾆｼﾅｲ !!

教師なしでは，多次元変数の分布を推定する，というのが大きな違い

ヒントン大先生いわく45

When we’re learning to see, nobody’s telling us what the right answers are — we just look. Every so often, your mother says “that’s a dog”, but that’s very little information.

You’d be lucky if you got a few bits of information — even one bit per second — that way. The brain’s visual system has 1014 neural connections. And you only live for 109 seconds. So it’s no use learning one bit per second. You need more like 105 bits per second. And there’s only one place you can get that much information: from the input itself.

Geoffrey Hinton, 1996

クラスタリング46

データクラスタリング結果

クラスタ数をどう決めるか？が大きな問題

データをグループ（クラスタ）に分ける

クラスタリング47

データクラスタリング結果

MAP 推定

クラスタへの割振り

𝑧𝑖∗=arg max

𝑘∈ {1 ,…,𝐾 }𝑝 (𝑧 𝑖=𝑘∨𝐱𝑖 ,𝒟 )

クラスタリングの応用例48

フローサイトメトリーのデータをクラスタリングして細胞亜集団を発見

天体のクラスタリングで新種の星を発見超オシャンティー

ユーザの購買傾向のクラスタリングレコメンドシステムなど

次元削減49

高次元データは，実質的により低次元の部分空間に分布することがある

平面に射影（ PCA)

少数の潜在因子によりデータを説明可能

主成分分析（ PCA)50

データのばらつきを表す行列の固有値に対応する”固有顔”

固有顔は”平均顔”からのズレを説明

PCA により潜在因子を抽出

グラフ構造の発見51

グラフはまたちょっと特殊なので省略教師あり学習の問題を解く前に，

変数同士の相関構造を調べることがある

行列の補間52

主に，欠損値の予測

観測なし

例．画像修復

協調フィルタリング53

クラスタリング＋欠損値予測例．映画レーティング

Netflix が 2006 年にコンペなんと賞金一億円機械学習で人生一発逆転も夢じゃない！

超絶スパース観測はごく少数クラスに順序

1.4 は機械学習の基礎概念の紹介まずはパラメトリックモデルとノンパラメトリックモデルの対比から

54

パラかノンパラかそれが問題だパラメトリックモデル固定された数の有限個のパラメータを持つ

55

ノンパラメトリックモデルパラメータの個数が訓練データ量に従い増える

教師あり教師なし

パラメトリック

ノンパラメトリック

イメージということで。。

状況によって使いわけようパラメトリックモデル

ノンパラに比べ，計算が軽いデータの分布に強い仮定を置く高次元のデータを扱える

56

ノンパラメトリックモデルパラに比べ，計算量が多いデータの分布に関する仮定が弱いため，柔軟高次元のとき，次元の呪いにかかる

K近傍法：ノンパラ識別器の例未知のデータが入ってきた際，

1. 訓練データすべての点との距離を計算2. K 個の最近傍点を選び，対応する出力を K 個得る3. K 個の出力で，一番多いラベルを未知のデータの

出力とする

57

近傍の数は固定予め決めなければならない平滑化パラメータという

（により決定境界の滑らかさが決まるから）

K近傍法：ノンパラ識別器の例58

確率モデルで表すと

𝑝 (𝑦=𝑐∨𝐱 ,𝒟,𝐾 )= 1𝐾 ∑

𝑖∈

𝕀 (𝑦 𝑖=𝑐 )最近傍点の集合（は指示関数）

やはり MAP 推定�̂� (𝐱 )=argmin

𝑐𝑝 (𝑦=𝑐∨𝐱 ,𝒟 ,𝐾 )

のとき，決定境界はボロノイ分割となる

K近傍法の例59

次元の呪い60

データが高次元のとき，闇に呑まれる

訓練データがスカスカになるあるデータ点から他のデータを見ると，超球面上に集まって見える

闇に呑まれないためには？61

データの分布に仮定を置きましょう教師あり or

教師なし

帰納バイアスという

線形回帰62

教師あり回帰で，一番単純なもの

入出力関係が線形だという強い仮定まぁ，実問題ではほとんどの場合，成り立たないよねでも割りとうまくいく．偉い

統計の授業で必ず習う

𝑥

𝑦

𝑦=𝑎𝑥+𝑏 で当てはめ

パラメータは最小二乗法で推定

線形回帰を確率モデルで63

𝑦 (𝐱 )=𝑤0+∑𝑗=1

𝐷

𝑤 𝑗 𝑥 𝑗+𝜖 ,

データがこのように生成されると仮定：

.

標準正規分布入力が 1 次元の場合のデータの分布

線形回帰を確率モデルで64

入力の 1 次元目に含めると：𝑦 (𝐱 )=𝐰𝑇 𝐱+𝜖 , .

ただし .

このとき，𝑝 (𝑦∨𝐱 ,𝜽 ) 𝒩 (𝑦∨𝐰𝑇 𝐱 ,𝜎2 )

ただし .

パラメータ推定は，のちの章で（多分）

ロジスティック回帰65

今度は，線形モデルを使った識別

sigm (𝜂 )= 11+exp (−𝜂 )

まず，線形回帰の式にシグモイド関数

をかませる：sigm (𝐰𝑇 𝐱 )= 1

1+exp (−𝐰 𝑇𝐱 ).

ロジスティック回帰66

次に，出力にのるノイズがベルヌーイ分布

Ber (𝑦∨𝑝 )=𝑝 𝑦 (1−𝑝)1−𝑦

に従うとする（ 0-1 変数だから）：

𝑝 (𝑦∨𝐱 ,𝐰 )=Ber (𝑦∨sigm (𝐰𝑇 𝐱 )) .

SAT スコアを入力として，授業に合格したか (1) ，落第したか (0) をフィッティングした図（嫌な図だ）

過学習67

データの量に対してモデルが複雑すぎると，未知のデータに対する予測能力が落ちる

典型的には，ノンパラで陥りがち：K近傍法でが小さいとき

訓練データに適合しすぎィ！

モデル選択68

どの程度複雑なモデルが良いのか？訓練データに対する誤識別率

err ( 𝑓 ,𝒟 )= 1𝑁∑

𝑖=1

𝑁

𝕀 ( 𝑓 (𝐱𝑖 )≠ 𝑦 𝑖)予測と真のラベルが一致するかどうか

訓練誤差は，テスト誤差の推定値としてはよくない！！

どのようにして選択するか？69

とても難しい問題テスト誤差が推定できれば，

それに従って選ぶのが良かろう答えの一つに，交差確認

5 分割交差確認

訓練データを 5 つに分割 1 つは確認用残り 4 つは訓練用訓練誤差を求める 5 回繰り返し平均して，テスト誤差の

推定値とみなす

ノーフリーランチ定理70

あらゆる問題で性能の良い最強の汎用アルゴリズムは存在しないので，その問題に関する知識を持っているならば，その知識を使うべきである

C.f. 醜いアヒルの子定理（特徴量）

ここまで 1章長い戦いだった71

ところどころ大事な概念が散らばってる

だが基本的には後の章に書いてある（はず）

Download - MLaPP輪講 Chapter 1

Top Related