Download - MLaPP輪講 Chapter 1
名言
We are drowning in information and starving for knowledge.
- John Naisbitt, in Megatrends (1982)
2
ビッグデータ 1 兆のウェブページ Youtube にアップされる動画は 10 年分 / 日 38 億の塩基対 ×1000 人分 ウォルマートのデータベース 2.5 ペタバイト ドライバ 3200 人,走行距離 8000 万 km の
運転データ
人手では解析が追いつかない!
3
意外と小さいのね
重要な性質: Long tail重要なものはたくさん出てくるが,その他は比較的にほとんど出現しない
ビッグデータであっても,実質的に重要なデータサイズは小さい!...けどやっぱりデカイ
留意点として,
4
確率論
過去のデータが与えられたとき,最適な予測とは?
データを説明する最適なモデルは? 次にどのような観測を行えばよいか?
etc.など,機械学習では様々な形で不確実性が現れる.
不確実性を扱うツールとして,確率・統計を採用する.
6
教師あり学習
入力から出力への写像を学習する𝐱 𝑦 𝑓 (𝐱 )(supervised learning or predictive learning)
入力空間 出力空間
𝐱𝑖 𝑦 𝑖≈ 𝑓 (𝐱 𝑖 )𝑓
11
教師あり学習
入力から出力への写像を学習する𝐱 𝑦 𝑓 (𝐱 )このとき,入力 - 出力の”ラベル付き”集合 𝒟= {𝐱 𝑖 , 𝑦 𝑖 }𝑖=1
𝑁
を用いて学習する.これを訓練データという.(は訓練例の個数)
(supervised learning or predictive learning)
12
入力
特徴,素性,共変量,説明変数,独立変数,予測変数,…
Input, feature がよく使うかな 今のところ で良い 画像,文,時系列,分子形状,グラフな
ど,ベクトルとみなすには厳しい場合も多い
確率変数なので,本当は とか書かなきゃいけないが,大体無視される
13
出力
応答変数,従属変数など (input より少ない! )
Output, response variable 出力の種類により,問題の名前が違う
1. カテゴリ変数 識別,パターン認識 として知られる
2. 実数値 (多次元の場合もある)回帰 regression
classification, pattern recognition
カテゴリに順序がある場合も (amazon の★ )
14
出力
応答変数,従属変数など (input より少ない! )
Output, response variable 出力の種類により,問題の名前が違う
1. カテゴリ変数 識別,パターン認識 として知られる
2. 実数値 (多次元の場合もある)回帰 regression
classification, pattern recognition
カテゴリに順序がある場合も (amazon の★ )
ここらへんはノリで.
15
Toy Example22
問題:オブジェクトが yes か no を識別
は yes か no か?
訓練データにおいて,1. 黄色はいずれにも含まれており,2. ドーナツもいずれにも含まれている.
Toy Example23
問題:オブジェクトが yes か no を識別
は yes か no か?
訓練データにおいて,1. 黄色はいずれにも含まれており,2. ドーナツもいずれにも含まれている.
確率的な表現が必要25
この問題では,決定論的な識別が困難
日常シーンでも,決定論的なことは,実はあまりない 空気が湿ってるから雨振りそう(はずれ
ることもある)
やつは 3ポイントをうってくるはずだ 識別の基準として,確率を基礎におく
(不確実性を扱うため!)
確率分布で表現26
問題:オブジェクトが yes か no を識別
は yes か no か?
𝑝 (𝑦∨𝐱 ,𝒟 ) にもとづいて識別しよう!出力 入力
訓練データ
我々のひとまずの立場 確率モデルにもとづかない手法もある( SVM と
か)
𝑝 (𝑦=1∨𝐱 ,𝒟 )+𝑝 ( 𝑦=0∨𝐱 ,𝒟)=1
確率分布で表現28
問題:オブジェクトが yes か no を識別
は yes か no か?
が成り立つので,𝑝 (𝑦=1∨𝐱 ,𝒟 ) のみわかれば良い.
識別ルールはこう決める29
問題:オブジェクトが yes か no を識別
は yes か no か?�̂�= 𝑓 (𝐱 )
¿ arg max𝑐∈ {0 ,1 }
𝑝 (𝑦=𝑐∨𝐱 ,𝒟 )
“ ハット”は「推定値」という意味でよく使う
MAP 推定30
�̂�= 𝑓 (𝐱 )
¿ arg max𝑐∈ {0 ,1 }
𝑝 (𝑦=𝑐∨𝐱 ,𝒟 )
MAP 推定 (maximum a posteriori) というA posteriori は事後分布のこと
確率分布の最頻値を選択
補足: 機械学習で MAP 推定とは,普通はパラメータ推定の意味において使う言葉
「わからない」という勇気31
�̂�= 𝑓 (𝐱 )
¿ arg max𝑐∈ {0 ,1 }
𝑝 (𝑦=𝑐∨𝐱 ,𝒟 )
一番大きい事後確率 がある値よりも小さいとき,「わかりません」という識別結果を返すときもある
医薬・金融など間違いが許されない分野
クイズ・ミ■オネアとかね
手書き文字認識
MNIST 郵便番号の手書き文字データ 訓練データ 60,000 , テストデータ
10,000
クラス 0,1,2,…,9
28×28 , 画素値 0-255 単純にベクトル化するだけでは,画像の構造的な情報を無視しかねない
38
次元をシャッフル
顔検出39
窓をスライドさせていく スケール変化・回転を許容 テンプレートとのマッチ
ング例えばこんなんグンマー部族の仮面かな?
デジカメに標準搭載 Google ストリートビューで,歩行者の顔に自動モザイク
教師あり
教師なし学習44
データの中の”興味深い”構造を見つける𝐱(unsupervised learning or desctiptive learning)
𝑝 (𝑦∨𝐱 ,𝜽 ) 教師なし 𝑝 (𝐱∨𝜽 )
推定するもの:
はパラメータ.今のところは ( ゚ ε ゚ ) キニシナイ !!
教師なしでは,多次元変数の分布を推定する,というのが大きな違い
ヒントン大先生いわく45
When we’re learning to see, nobody’s telling us what the right answers are — we just look. Every so often, your mother says “that’s a dog”, but that’s very little information.
You’d be lucky if you got a few bits of information — even one bit per second — that way. The brain’s visual system has 1014 neural connections. And you only live for 109 seconds. So it’s no use learning one bit per second. You need more like 105 bits per second. And there’s only one place you can get that much information: from the input itself.
Geoffrey Hinton, 1996
クラスタリングの応用例48
フローサイトメトリーのデータをクラスタリングして細胞亜集団を発見
天体のクラスタリングで新種の星を発見 超オシャンティー
ユーザの購買傾向のクラスタリング レコメンドシステムなど
協調フィルタリング53
クラスタリング + 欠損値予測 例. 映画レーティング
Netflix が 2006 年にコンペなんと賞金一億円機械学習で人生一発逆転も夢じゃない!
超絶スパース 観測はごく少数 クラスに順序
パラかノンパラか それが問題だ パラメトリックモデル固定された数の有限個のパラメータを持つ
55
ノンパラメトリックモデルパラメータの個数が訓練データ量に従い増える
教師あり 教師なし
パラメトリック
ノンパラメトリック
イメージということで。。
状況によって使いわけよう パラメトリックモデル
ノンパラに比べ,計算が軽い データの分布に強い仮定を置く 高次元のデータを扱える
56
ノンパラメトリックモデル パラに比べ,計算量が多い データの分布に関する仮定が弱いため,柔軟 高次元のとき,次元の呪いにかかる
K近傍法: ノンパラ識別器の例 未知のデータが入ってきた際,
1. 訓練データすべての点との距離を計算2. K 個の最近傍点を選び,対応する出力を K 個得る3. K 個の出力で,一番多いラベルを未知のデータの
出力とする
57
近傍の数 は固定 予め決めなければならない 平滑化パラメータという
(により決定境界の滑らかさが決まるから)
K近傍法: ノンパラ識別器の例58
確率モデルで表すと
𝑝 (𝑦=𝑐∨𝐱 ,𝒟,𝐾 )= 1𝐾 ∑
𝑖∈
𝕀 (𝑦 𝑖=𝑐 )最近傍点の集合 ( は指示関数)
やはり MAP 推定�̂� (𝐱 )=argmin
𝑐𝑝 (𝑦=𝑐∨𝐱 ,𝒟 ,𝐾 )
のとき,決定境界はボロノイ分割となる
線形回帰62
教師あり回帰で,一番単純なもの
入出力関係が線形だという強い仮定まぁ,実問題ではほとんどの場合,成り立たないよねでも割りとうまくいく.偉い
統計の授業で必ず習う
𝑥
𝑦
𝑦=𝑎𝑥+𝑏 で当てはめ
パラメータは最小二乗法で推定
線形回帰を確率モデルで64
入力の 1 次元目に 含めると:𝑦 (𝐱 )=𝐰𝑇 𝐱+𝜖 , .
ただし .
このとき,𝑝 (𝑦∨𝐱 ,𝜽 ) 𝒩 (𝑦∨𝐰𝑇 𝐱 ,𝜎2 )
ただし .
パラメータ推定は,のちの章で(多分)
ロジスティック回帰65
今度は,線形モデルを使った識別
sigm (𝜂 )= 11+exp (−𝜂 )
まず,線形回帰の式にシグモイド関数
をかませる:sigm (𝐰𝑇 𝐱 )= 1
1+exp (−𝐰 𝑇𝐱 ).
ロジスティック回帰66
次に,出力にのるノイズがベルヌーイ分布
Ber (𝑦∨𝑝 )=𝑝 𝑦 (1−𝑝)1−𝑦
に従うとする( 0-1 変数だから):
𝑝 (𝑦∨𝐱 ,𝐰 )=Ber (𝑦∨sigm (𝐰𝑇 𝐱 )) .
SAT スコアを入力として,授業に合格したか (1) ,落第したか (0) をフィッティングした図(嫌な図だ)
モデル選択68
どの程度複雑なモデルが良いのか? 訓練データに対する誤識別率
err ( 𝑓 ,𝒟 )= 1𝑁∑
𝑖=1
𝑁
𝕀 ( 𝑓 (𝐱𝑖 )≠ 𝑦 𝑖)予測と真のラベルが一致するかどうか
訓練誤差は,テスト誤差の推定値としてはよくない!!
どのようにして選択するか?69
とても難しい問題 テスト誤差が推定できれば,
それに従って選ぶのが良かろう 答えの一つに,交差確認
5 分割交差確認
訓練データを 5 つに分割 1 つは確認用 残り 4 つは訓練用 訓練誤差を求める 5 回繰り返し 平均して,テスト誤差の
推定値とみなす