統計基礎(第6回) 大数の法則、中心極限定理と...
TRANSCRIPT
3
ベルヌーイ試行(1)
3
統計上、算術平均は極めて重要
は観測平均または観測確率と呼ばれ
ベルヌーイ試行と確率論上重要な二つの法則に基づき、真の確率を導くために使用される
1
1( )nX X X
n= + +
4
ベルヌーイ試行(2)
4
本校の学生の1年間に交通事故の発生率(p)を知りたい
事故にあった人:1、合わなかった人:0事故の発生は互いに独立と仮定事故にあう確率はpは未知
は交通事故の実際の発生者数で確率変数である
は2項分布に従うと想定できる
1n nS X X= + +
nS
5
ベルヌーイ試行(3)
5
B(n, p)より、平均はnp
も の関数なので、確率変数である
は実際の調査で得られた値であり、その平均は、発生確率となる
X
( )
( )
nE S np
E X p
=
=
6
大数の法則(1)
6
大数の法則:観測平均 と真の平均(確率)pの関係を示したもの
観測平均と真の平均の乖離が任意の常数cより大きくなる確率は、観測数が無限大になれば、ゼロに収束する
真の平均は母平均といい、一般的にはμで表すが、確率を示すためpとしている
lim ( ) 0n
P X p c→
− =
7
大数の法則(2)
7
偶然発生の事象は観測数が多くなるほど実際の結果が真の結果に近づく
(実際の結果÷観測数)は発生確率に近づく
大標本で観測された平均は母集団の真の平均(母平均)とみなしてよい
未知の母平均を知るためにはどの程度の標本数、モデルを作成すればよいか?
大数の法則(4)
正確なコイントス(確率は0.5)
ちょうど半分表が出る確率は
10回投げて表が5回:0.25
100回投げて表が50回:0.080,49回:0.079,48回:0.073,47回:0.067・・
47-53回表が出る確率:0.518
中心極限定理(1)
大数の法則より一般化された理論近代統計学の基盤をなす定理
母集団分布が何であれ、母平均、母分散が存在すれば の確率分布はnが十分に大きいとき、概ね正規分布に従う二項分布の場合
1n nS X X= + +
: ( , ) : ( , )
: ( , )
nS B n p N np npq
pqX N p
n
正規分布の活用ある集団について「XX以上の人数」「上位YY番目になる点数」という問いに答えるために正規分布(正規分布表、エクセル関数)を活用することができる
ただし、データが独立あること その確率分布が正規分布に従うと仮定できることが条件
設問商学部の学生1000人に対し数学の試験を行った。その結果は平均点:65点、標準偏差:12点であった
1)50点から70点までの成績の人は何人くらいいると考えられますか2)80点以上の人は何人くらいいると考えられますか3)上位50番目以内に入るためには何点以上取ればよいですか
課題(第3回)次の3問について、回答および回答を求める経過をメモして(11/28)までに報告をお願します。報告先:コースナビ
商学部の学生1000人の身長を測定した。その結果は平均170㎝、標準偏差:12㎝であった
1)150~180㎝の人は何人くらいいると考えられますか2)140㎝以下の人は何人くらいいると考えられますか3)上位80番目の人の身長はどのくらいですか
14
15
母集団(1)
15
母集団:統計手法を用いる対象、集団 e.g.国民全員、本校の学生、GDP、来年の経済成長率、A社の今後10年間の販売額または統計手法を用いて知りたいと思うその集団の属性値 e.g.死亡率、出生率、成績、100m走のタイム統計調査:母集団の特徴、属性を要約、整理する、属性値を推測する
16
母集団(2)
16
母集団の定義:正確な統計調査を行うためには適切な母集団を定義することが必要
e.g. 国民の喫煙割合を調査
1. 母集団は国民全員?
2. No! 20歳未満は対象外
3. Doctor Stopはどう扱う
4. 喫煙の定義は?酒席の時だけ吸う人、子供の時のいたずら?
17
統計調査
17
全数調査:母集団すべてを調べる。母集団が比較的大きくない場合、または正確さを求めて大規模な調査を実施するe.g. 国勢調査、全校調査度数分布やヒストグラムが活躍する世界
標本調査:母集団の一部を取り出して調査する。母集団を完全に把握し調査することが困難な場合に活用する
18
標本調査(1)
18
全数調査の方が容易にその集団の属性値を調べることができる。しかし、常に全数調査ができるわけではない・母集団が非常に大きく、費用・期間が全数調査を行うことができない eg.選挙の投票行動、TVの視聴率・母集団は大きくないが、調査の目的からして全数調査が無意味、不可能なもの eg製品の寿命調査、CMの効果、
19
標本調査(2)
19
・調査の対象が将来の事象を含むため、現時点で測定が不可能なもの 来年のGDP等将来の事象を含む場合
⇒統計的推測ⅰ母集団から一部を選び出すⅱその一部を分析するⅲその結果をもとに母集団についての推測を行う⇔記述統計学:データを正しく効率的に読むために発達した統計学
20
母集団と標本
20
日本人(母集団)の性向を調べる
どのような属性の何人(標本)にどのようにアクセスすれば日本人を代表するか
群盲象を撫でるインドジャイナ教の寓話すべての群盲は正しいが、真理ではない
21
統計的推論
21
標本:母集団から分析のために一部を選び出した要素
標本抽出、抽出:標本を選び出すこと
標本調査(統計的推論)の目的:標本(母集団の一部)を調査・分析して母集団の属性についての推論を行う-抽出の方法-標本の大きさ-標本の分析手法
22
無作為標本
22
無作為抽出:母集団からデタラメに調査対象を選び出す方法、母集団をまんべんなく代表するような方法を選択する現在では必ず乱数を使用するeg.電話インタビューために乱数によって合成した電話番号に連絡する
無作為標本、ランダムサンプル:無作為抽出によって作られた標本
23
層別抽出
23
母集団を複数の性格が異なるグループに分割し、グループごとに母集団(層)を形成する eg. 年齢階層別、県別、支持政党別、学部別
層別比例配分法:観測数は層の大きさに応じて比例配分する
層別に比例配分された観測数で無作為抽出を行い、各層で行った統計的推論をもとに母集団の推論を行う
24
標本の抽出(1)
24
N:母数の大きさ
n : 標本の大きさ
どのようにn 個の標本をNのなかから抜き出すか
復元抽出:抽出した要素を再び母集団に戻しその後の抽出の対象とする
非復元抽出:一度抽出した要素は母集団に戻さず、その後の抽出の対象にしない
25
標本の抽出(2)
25
現実の統計調査ではほぼすべてが非復元抽出e.g. N:1億人、n:1万人ランダムに選択し調査票を発送する
しかし、非復元抽出を前提にすると確率計算は難しい
Nがnに較べて十分に大きい(100倍くらいはほしい)ので、標本の可能な選び方の数は非復元抽出でも復元抽出と変わらないと仮定している:つまり
n
N nC N
26
母集団の分析手法(1)
26
調査の結果得られたn個の標本の値を分析して母集団の属性についての推論を行う⇒母集団の分布を仮定
パラメトリック:母集団分布としてある確率分布を事前に仮定し、分布の母数(パラメーター)を求める手法 eg. 事故の発生、死亡率調査:ポワソン分布、二項分布・・・p, λ身長、支持政党、視聴率:正規分布・・・μ、σ
27
母集団の分析手法(2)
27
パラメトリックな分析では分布の母数(パラメーター)を求めることが主目的
しかし、母数の分布がわからない場合、母集団分布に関わらない手法を選択する
⇒ノンパラメトリック
実際の統計的推計ではほとんどがパラメトリックな手法を用いる以後、パラメトリックの手法を解説する
28
母数と統計量(1)
28
統計量:標本の関数。標本を要約し、母集団の母数の推計に使用する
統計量 も確率変数となるが、一般的な統計量の確率分布の正確な算出は難しい
しかし、代表的な統計量、代表的な母集団分布の場合は、標本分布、統計量の分布を求めることができる
1 2 3( , , , )nt X X X X
29
確率分布の再生性
29
二項分布、ポワソン分布、正規分布には再生性がある
:再生性のある分布に従う
:も同一の分布に従う
N(μ, 𝜎2)に従う母集団の標本平均は
N(μ, 𝜎2 /n)に従う
( ), ( )
( )
f x f y
f x y+
30
母数と統計量(2)
30
中心極限定理を前提とするとほとんどの場合で母数の分布は正規分布を前提して問題ない⇒多くの場合で 母平均 μ、母分散σを求める
または
大きさnの標本の平均(標本平均)
( )xf x dx
−=
1
( )i i
i
x P X x
=
= =
1 2 3
1( )nX X X X X
n= + + + +
31
標本平均
31
1 2 3
1 2 3
22
1 2 32 2
( )
1lim ( ) lim
1( ) ( ( )
1( )
lim ( ) 0
nn n
n
n
n
E X
X X X X Xn
V X V X X X Xn
nV X X X X
n n n
V X
→ →
→
=
+ + + + = =
= + + + +
= + + + + = =
=
不偏分散
を用いない理由は不偏性がないため
32
標本分散
32
2 2
1
2 2
1( )
1
( )
n
i
i
s X Xn
E s
=
= −−
=
2
1
1( )
n
i
i
X Xn =
−