サンプリングと推定 siとht推定量

20
7/20/2013 32th Tokyo.R 1 サンプリングと推定 SI(単純ランダムサンプリング)と HT推定量 @tanimocchi

Upload: tadaaki-tanimoto

Post on 07-Jul-2015

668 views

Category:

Documents


8 download

TRANSCRIPT

Page 1: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 1

サンプリングと推定 ~ SI(単純ランダムサンプリング)と HT推定量

@tanimocchi

Page 2: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 2

自己紹介 Twitter ID: @tanimocchi

(もっちぃ)

数学科出身、博士(情報科学)

所属: タヒにかけ半導体

仕事: マーケティングなのか

ブランディングなのか?

統計解析は必要! だと信じてる。

統数研「サンプリング入門と調査データの分析法」に行ってきました。

アンケート分析に着手したばかりですが (これから社内で需要ありそう)

ちなみに、Rは前々回のTokyo.Rでインストールしました。

⇒ 今回のスライドにRのコードないです、ゴメンなさい(><)

Page 3: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 3

本編の前に: 教えてエライ人! 学習で、データを学習データとテストデータに分けるけど、

データが超大量にあるなら、サンプリング理論から考えて、ホールドアウト法でもおkな気がするのですが。。。 ホールドアウト法、交差確認法、ジャックナイフ法、ブートストラップ法、等

過不足なくイイ感じの学習がしたいなら、例えば層別SIで学習データを抽出すれば十分?やはり未知のデータが問題?

層別SI:不偏性OK、推定量の分散も(SIに比べて)小さい

ホールドアウト法限定で、サンプリング手法と学習精度(AICとか?)との関係の、既存結果とかないですか?

学習精度の理論上限は、不偏性OKで、神様的抽出確率の指定で推定量の分散を0としたPPR(復元不等確率サンプリング)?

機械学習の経験0で、今後触れる予定も不明ですが m(_ _)m

Page 4: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 4

母集団、標本、全ての可能な標本

母集団のある要素が、標本に入っているか、

いないかで、2通りの場合があり、これをN個

の要素について組合せて、結局 2N通り の

標本が存在。これらを「すべての可能な標本

(all possible samples)」と呼ぶ

標本抽出(サンプリング)の仕方

に応じた、母集団特性値の推定

(HT推定、HH推定など)

Page 5: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 5

サンプリング・デザイン 全ての可能な標本(集合族) S の要素である標本 s の実現

する確率 p(s) の与え方: 0≦p(s)≦1 (s∈S)

具体的なサンプリング方法が、p(s)を定める

母集団の大きさN=2での例

標本の大きさ サンプリング・デザイン1 2 n(s) p(s)

0○ 1

○ 1○ ○ 2

母集団の要素 i全て可能な標本Sの要素である標本s

1s12 s 23 s

2,14 s

1sp

2sp 3sp 4sp

Page 6: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 6

基本サンプリング

色々あるけど、今回はSIのみ!

SIの手順: 母集団の大きさ N 、標本の大きさ n と仮定

以下の作業をn回繰り返す

I. 1からNの整数iを1つ決める: ex. uを[0,1)の一様乱数として、i=floor(u×N)+1

II. i が既に抽出された母集団の要素番号ならⅠに戻る

III. さもなければ、i を抽出する母集団の要素番号として記録する

⇒ [1,N]上の一様乱数を重複する事なくn個生成し、母集団から対応

する要素を抽出

非復元 復元

等確率(単純ランダム) SI SIR

不等確率(確率比例) PP PPR系統サンプリング SY

Page 7: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 7

不遍性って? 全ての可能な標本それぞれに対して求めた推定量の期

待値 が、母集団特性値 に一致: ˆE E

D推定量:

C推定量:

A推定量:

B推定量:

ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値

:母集団特性値

Page 8: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 8

推定値の分散が気になる理由 バイアス(偏り、Bias)

‘期待値’と母集団特性値の差

不偏推定量なら

平均2乗誤差(mean square error)

不偏推定量なら

ˆˆ EBias

0ˆ Bias

22ˆˆˆˆ BiasVarEMSE

ˆˆ VarMSE

誤差(=分散)は出来るだけ小さい方が良い

2

2

22

22

ˆˆ

ˆˆˆˆ2ˆ

ˆˆˆˆ2ˆˆ

ˆˆˆˆˆ

BiasVar

BiasEBiasEEVar

EEEEEEE

EEEEMSE

Page 9: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 9

HT推定量の定義~準備 包含確率

一次の包含確率

母集団の要素 i が、実現する

標本に含まれる確率

母集団の要素 i を含む標本 s について p(s) を足し挙げて得る

二次の包含確率

母集団の要素 i と j が、同時

に実現する標本に含まれる確率

標本帰属指標

母集団の要素 i が標本 s に

含まれているかどうかを表す確率変数

is

i sp

ji

jisp

jis

i

ij

&

サンプリングデザイン

si

sisI i

0

1

sIsI ii 2

i を含むsに関する和

i と j を両方含むsに関する和

Page 10: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 10

HT推定量の定義 HT推定量(the Horvitz-Thompson estimator)は、

母集団総計 の不偏推定量を与える

標本の各y値を包含確率で割って足しこむ

包含確率がわかればすぐに算出できる

si i

iHT

y

※ どの母集団の要素も標本に含まれる可能性があると仮定!

Page 11: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 11

HT推定量の期待値 HT推定量の期待値

母集団平均 μ の不偏推定量も直ちに作れる

Ui Ui

i

Ui

i

i

ii

i

i

Ui

i

i

i

si i

iHT

yy

IEy

Iy

Ey

EE

確かに不偏推定量

NNEE

N

HTHT

HTHT

ˆˆ

ˆˆ

i

isisSs

ii spspspsIIE

01

i を含む標本 i を含まない標本

Page 12: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 12

HT推定量の分散・分散の推定量 HT推定量の分散

HT推定量の分散の推定量

ここで、

ji

Ui ji ji

jiij

Ui Ui

i

i

i

Uj ji

ji

ijHT yyyyy

Var

21

ˆ

ji

Ui ji ijjisi Ui

i

i

i

sj ji

ji

ij

ij

HT yyyyy

111ˆ 2

2

ji

ji

jiij

ii

ij

1

め、一般に算出不能母集団の要素であるた:iy

、値を算出可能標本の要素であるため:iy

※ 母集団のどの2つの要素も 標本に同時に含まれる 可能性があると仮定!

Page 13: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 13

SIにおけるHT推定量 [1/3] 一次と二次の包含確率が解ればHT推定量を算出可能

一次の包含確率

標本の大きさが n の可能な標本数:

従って、サンプリング・デザイン

母集団のある要素 i を含む標本の数:

nsn

nsn

n

Nsp

0

1

通り

n

N

通り

1

1

n

N

N

n

n

Nn

Nsp

is

i

1

1

1

Page 14: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 14

SIにおけるHT推定量 [2/3] 二次の包含確率

母集団のある要素 i と j を含む標本の数: 通り

2

2

n

N

1

11

2

2

&

NN

nn

n

Nn

Nsp

jis

ij

Page 15: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 15

SIにおけるHT推定量 [3/3] HT推定量は母集団総計 の不偏推定量を与える

SIによるものである事を強調して、 と書く

統計量である標本平均 が、SIの場合に、母集団平均 のHT推定量 (不偏推定量)!

yN

yN

N

SISI

ˆˆ

si

i

si

i

si i

iSI yNy

n

N

N

n

yy

SI

y

SI

Page 16: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 16

SIにおけるHT推定量の分散 抽出率

有限母集団修正項

SIにおけるHT推定量の分散

ここで、 は母集団分散であり一般に不明。従って、その推定量の算出が必要となる。

n

fNn

nNNVar SI

22

2

N

nf

N

nNf

1

n

fnN

nNVar SI

22

2

Page 17: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 17

SIにおけるHT推定量の分散の推定量 標本分散

SIにおけるHT推定量の分散の推定量

n

i

i yyn

s1

22

1

1

n

sfN

n

snNNSI

22

2

n

sf

n

s

N

nNSI

22

Page 18: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 18

SIにおける標本分散の期待値 HT推定量の分散の不偏推定量 について

が成り立っている。

だから、両者を等しいとおいて下記を得る

統計量である標本分散の が、SIの場合に、母集団分散

の不偏推定量!

n

fNVar SI

22 1ˆ

n

sEfN

n

sfNEE SI

22

22 11ˆ

SI ˆ

SISI VarE ˆˆ

 (不偏)22 sE

2s

 2

Page 19: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 19

で、だから何? SIの場合、標本抽出の仕方から

母集団のどの要素も標本に含まれ、かつ

母集団のどの2つの要素も標本に同時に含まれる

可能性があるため、HT推定量の仮定を満たしており、

標本平均 が母集団平均 の

標本分散 が母集団分散 の

不偏推定量。(つまり、当り前に使ってる事実を証明!)

⇒他のサンプリング手法は、需要あればまたの機会に!

サンプリング手法の「学習データとテストデータの分離」への影響がやはり気になる。どの方法でも、非復元ランダム抽出、即ちSI、は当たり前に行ってるような気もするけど。

2s  2

y

Page 20: サンプリングと推定 Siとht推定量

7/20/2013 32th Tokyo.R 20

Thanks a lot!