Download - サンプリングと推定 Siとht推定量
7/20/2013 32th Tokyo.R 1
サンプリングと推定 ~ SI(単純ランダムサンプリング)と HT推定量
@tanimocchi
7/20/2013 32th Tokyo.R 2
自己紹介 Twitter ID: @tanimocchi
(もっちぃ)
数学科出身、博士(情報科学)
所属: タヒにかけ半導体
仕事: マーケティングなのか
ブランディングなのか?
統計解析は必要! だと信じてる。
統数研「サンプリング入門と調査データの分析法」に行ってきました。
アンケート分析に着手したばかりですが (これから社内で需要ありそう)
ちなみに、Rは前々回のTokyo.Rでインストールしました。
⇒ 今回のスライドにRのコードないです、ゴメンなさい(><)
7/20/2013 32th Tokyo.R 3
本編の前に: 教えてエライ人! 学習で、データを学習データとテストデータに分けるけど、
データが超大量にあるなら、サンプリング理論から考えて、ホールドアウト法でもおkな気がするのですが。。。 ホールドアウト法、交差確認法、ジャックナイフ法、ブートストラップ法、等
過不足なくイイ感じの学習がしたいなら、例えば層別SIで学習データを抽出すれば十分?やはり未知のデータが問題?
層別SI:不偏性OK、推定量の分散も(SIに比べて)小さい
ホールドアウト法限定で、サンプリング手法と学習精度(AICとか?)との関係の、既存結果とかないですか?
学習精度の理論上限は、不偏性OKで、神様的抽出確率の指定で推定量の分散を0としたPPR(復元不等確率サンプリング)?
機械学習の経験0で、今後触れる予定も不明ですが m(_ _)m
7/20/2013 32th Tokyo.R 4
母集団、標本、全ての可能な標本
母集団のある要素が、標本に入っているか、
いないかで、2通りの場合があり、これをN個
の要素について組合せて、結局 2N通り の
標本が存在。これらを「すべての可能な標本
(all possible samples)」と呼ぶ
標本抽出(サンプリング)の仕方
に応じた、母集団特性値の推定
(HT推定、HH推定など)
7/20/2013 32th Tokyo.R 5
サンプリング・デザイン 全ての可能な標本(集合族) S の要素である標本 s の実現
する確率 p(s) の与え方: 0≦p(s)≦1 (s∈S)
具体的なサンプリング方法が、p(s)を定める
母集団の大きさN=2での例
標本の大きさ サンプリング・デザイン1 2 n(s) p(s)
0○ 1
○ 1○ ○ 2
母集団の要素 i全て可能な標本Sの要素である標本s
1s12 s 23 s
2,14 s
1sp
2sp 3sp 4sp
7/20/2013 32th Tokyo.R 6
基本サンプリング
色々あるけど、今回はSIのみ!
SIの手順: 母集団の大きさ N 、標本の大きさ n と仮定
以下の作業をn回繰り返す
I. 1からNの整数iを1つ決める: ex. uを[0,1)の一様乱数として、i=floor(u×N)+1
II. i が既に抽出された母集団の要素番号ならⅠに戻る
III. さもなければ、i を抽出する母集団の要素番号として記録する
⇒ [1,N]上の一様乱数を重複する事なくn個生成し、母集団から対応
する要素を抽出
非復元 復元
等確率(単純ランダム) SI SIR
不等確率(確率比例) PP PPR系統サンプリング SY
7/20/2013 32th Tokyo.R 7
不遍性って? 全ての可能な標本それぞれに対して求めた推定量の期
待値 が、母集団特性値 に一致: ˆE E
D推定量:
C推定量:
A推定量:
B推定量:
ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値
:母集団特性値
7/20/2013 32th Tokyo.R 8
推定値の分散が気になる理由 バイアス(偏り、Bias)
‘期待値’と母集団特性値の差
不偏推定量なら
平均2乗誤差(mean square error)
不偏推定量なら
ˆˆ EBias
0ˆ Bias
22ˆˆˆˆ BiasVarEMSE
ˆˆ VarMSE
誤差(=分散)は出来るだけ小さい方が良い
2
2
22
22
ˆˆ
ˆˆˆˆ2ˆ
ˆˆˆˆ2ˆˆ
ˆˆˆˆˆ
BiasVar
BiasEBiasEEVar
EEEEEEE
EEEEMSE
7/20/2013 32th Tokyo.R 9
HT推定量の定義~準備 包含確率
一次の包含確率
母集団の要素 i が、実現する
標本に含まれる確率
母集団の要素 i を含む標本 s について p(s) を足し挙げて得る
二次の包含確率
母集団の要素 i と j が、同時
に実現する標本に含まれる確率
標本帰属指標
母集団の要素 i が標本 s に
含まれているかどうかを表す確率変数
is
i sp
ji
jisp
jis
i
ij
&
サンプリングデザイン
si
sisI i
0
1
sIsI ii 2
i を含むsに関する和
i と j を両方含むsに関する和
7/20/2013 32th Tokyo.R 10
HT推定量の定義 HT推定量(the Horvitz-Thompson estimator)は、
母集団総計 の不偏推定量を与える
標本の各y値を包含確率で割って足しこむ
包含確率がわかればすぐに算出できる
si i
iHT
y
※ どの母集団の要素も標本に含まれる可能性があると仮定!
7/20/2013 32th Tokyo.R 11
HT推定量の期待値 HT推定量の期待値
母集団平均 μ の不偏推定量も直ちに作れる
Ui Ui
i
Ui
i
i
ii
i
i
Ui
i
i
i
si i
iHT
yy
IEy
Iy
Ey
EE
確かに不偏推定量
NNEE
N
HTHT
HTHT
ˆˆ
ˆˆ
i
isisSs
ii spspspsIIE
01
i を含む標本 i を含まない標本
7/20/2013 32th Tokyo.R 12
HT推定量の分散・分散の推定量 HT推定量の分散
HT推定量の分散の推定量
ここで、
ji
Ui ji ji
jiij
Ui Ui
i
i
i
Uj ji
ji
ijHT yyyyy
Var
21
ˆ
ji
Ui ji ijjisi Ui
i
i
i
sj ji
ji
ij
ij
HT yyyyy
111ˆ 2
2
ji
ji
jiij
ii
ij
1
め、一般に算出不能母集団の要素であるた:iy
、値を算出可能標本の要素であるため:iy
※ 母集団のどの2つの要素も 標本に同時に含まれる 可能性があると仮定!
7/20/2013 32th Tokyo.R 13
SIにおけるHT推定量 [1/3] 一次と二次の包含確率が解ればHT推定量を算出可能
一次の包含確率
標本の大きさが n の可能な標本数:
従って、サンプリング・デザイン
母集団のある要素 i を含む標本の数:
nsn
nsn
n
Nsp
0
1
通り
n
N
通り
1
1
n
N
N
n
n
Nn
Nsp
is
i
1
1
1
7/20/2013 32th Tokyo.R 14
SIにおけるHT推定量 [2/3] 二次の包含確率
母集団のある要素 i と j を含む標本の数: 通り
2
2
n
N
1
11
2
2
&
NN
nn
n
Nn
Nsp
jis
ij
7/20/2013 32th Tokyo.R 15
SIにおけるHT推定量 [3/3] HT推定量は母集団総計 の不偏推定量を与える
SIによるものである事を強調して、 と書く
統計量である標本平均 が、SIの場合に、母集団平均 のHT推定量 (不偏推定量)!
yN
yN
N
SISI
ˆˆ
si
i
si
i
si i
iSI yNy
n
N
N
n
yy
SI
y
SI
7/20/2013 32th Tokyo.R 16
SIにおけるHT推定量の分散 抽出率
有限母集団修正項
SIにおけるHT推定量の分散
ここで、 は母集団分散であり一般に不明。従って、その推定量の算出が必要となる。
n
fNn
nNNVar SI
22
2
1ˆ
N
nf
N
nNf
1
n
fnN
nNVar SI
22
1ˆ
2
7/20/2013 32th Tokyo.R 17
SIにおけるHT推定量の分散の推定量 標本分散
SIにおけるHT推定量の分散の推定量
n
i
i yyn
s1
22
1
1
n
sfN
n
snNNSI
22
2
1ˆ
n
sf
n
s
N
nNSI
22
1ˆ
7/20/2013 32th Tokyo.R 18
SIにおける標本分散の期待値 HT推定量の分散の不偏推定量 について
が成り立っている。
だから、両者を等しいとおいて下記を得る
統計量である標本分散の が、SIの場合に、母集団分散
の不偏推定量!
n
fNVar SI
22 1ˆ
n
sEfN
n
sfNEE SI
22
22 11ˆ
SI ˆ
SISI VarE ˆˆ
(不偏)22 sE
2s
2
7/20/2013 32th Tokyo.R 19
で、だから何? SIの場合、標本抽出の仕方から
母集団のどの要素も標本に含まれ、かつ
母集団のどの2つの要素も標本に同時に含まれる
可能性があるため、HT推定量の仮定を満たしており、
標本平均 が母集団平均 の
標本分散 が母集団分散 の
不偏推定量。(つまり、当り前に使ってる事実を証明!)
⇒他のサンプリング手法は、需要あればまたの機会に!
サンプリング手法の「学習データとテストデータの分離」への影響がやはり気になる。どの方法でも、非復元ランダム抽出、即ちSI、は当たり前に行ってるような気もするけど。
2s 2
y
7/20/2013 32th Tokyo.R 20
Thanks a lot!