chapter 1ua.t.u-tokyo.ac.jp/okabelab/sada/ppt/m1.pdf1. 単回帰分析 1.1...

32
Chapter 1 単回帰分析

Upload: lambao

Post on 11-Mar-2019

221 views

Category:

Documents


0 download

TRANSCRIPT

Chapter 1単回帰分析

1. 単回帰分析

1.1 単回帰分析とは?

単回帰分析:2つの変数間の直線的関係(線形関係)を分析するための手法

例:都市の市街地面積は,人口にほぼ比例する部分と,都市を維持するのに最低限必要な基盤施設の定数部分に分かれる.

市街地面積=定数1×人口+定数2

各都市の市街地面積と人口が与えられているとき,上の定数1と定数2を単回帰分析によって求める(これらの定数は回帰係数と呼ばれる).

1. 単回帰分析

単回帰モデルとは?

従属変数(被説明変数): y1, y2, ... , yn

独立変数(説明変数): x1, x2, ... , xn

これら2変数の間に,

という関係が成立する場合(εiは誤差項),それを単回帰モデルと呼ぶ.単回帰分析は,単回帰モデルが当てはまると思われるデータに対して,実際にそのモデルを推定し,結果の妥当性を検討する分析過程である.

i i iy xα β ε= + +

1. 単回帰分析

1.2 単回帰分析の実際

1. 散布図の作成2. モデル(パラメータ)推定3. 分析の有効性の検討

1. 単回帰分析

1.2.1 散布図の作成:どれが単回帰モデルか?

1. 単回帰分析

変数の変換後に

という関係が成立すれば,それも単回帰(線形回帰)モデルと呼ぶ.

2y xα β ε= + +

y xα β ε= + +

logy xα β ε= + +xy eα β ε= + +

1. 単回帰分析

1.2.2 モデル推定

単回帰分析では,2変数間の線形構造に加え,誤差項εiについて通常以下の仮定を置く.

不偏性:

等分散性:

無相関性:

正規性:

[ ] 0iE ε =

[ ] 2iV ε σ=

( ), 0i jCov i jε ε = ≠

( )20,i Nε σ

1. 単回帰分析

これらの仮定の下,単回帰モデルをデータから最小二乗法により推定する.いま,yiの真値と推定値の差(残差と呼ばれる)を

と置くと,最小二乗法は,残差の2乗和を最小化するα及びβを求める問題として表される.即ち,

である.

2ˆˆ ,

min ii

eα β∑

ˆi i ie y y= −

1. 単回帰分析

この問題を解くには,残差二乗和のα及びβによる偏微分を0と置き,それらを満たすα及びβを推定する.

( )( )

2

2

ˆˆ 0ˆ

ˆˆ 0ˆ

i ii

i ii

y x

y x

α βα

α ββ

∂ − − =∂∂ − − =

1. 単回帰分析

ここで,

と置くと,解は

( )

( )

( )( )

2

2

xx ii

yy ii

xy i ii

S x x

S y y

S x x y y

= −

= −

= − −

1. 単回帰分析

となる.

ˆ

ˆ

xy

xx

xy

xx

Sy x

SSS

α

β

= −

=

1. 単回帰分析

なぜ最小二乗法か?

「良い推定値」という考え方

1. 不偏性:推定値の期待値が真値に一致する2. 一致性:標本数の増加により推定値が真値に限りなく近づく3. 有効性(最小分散性):推定値の分散が最小である4. 最尤性:モデルが正しい場合,データから得られる確率の最も高い推定値である

1. 単回帰分析

1.2.3 分析の有効性の検討1:決定係数と分散分析表

回帰モデルを用いると,被説明変数はどの程度説明可能なのか?

この問いに答えるために,まずは被説明変数yのばらつき具合を,その平均値からのばらつきによって評価する.即ち,

を計算し,これを総平方和と呼ぶ.総平方和が小さければ, yの大部分は「平均値」で記述することができるが,総平方和が大きければ,「平均値」だけでは十分ではない.総平方和とは,回帰モデルによって説明すべき情報の量を表す指標と言うことができる.

( )2T yy i

iS S y y= = −∑

1. 単回帰分析

総平方和Syyは,回帰平方和SRと残差平方和Seに次のように分解される.

( ) ( )

( ){ }

( )

2 2

2

22

ˆ ˆ

ˆ

ˆ

yy i i i ii i

i ii

i ii i

e R

S y y y y y y

e y y

e y y

S S

= − = − + −

= + −

= + −

= +

∑ ∑

∑ ∑

1. 単回帰分析

回帰平方和SRは,データのばらつきのうち,回帰モデルによって説明される部分を表す.残差平方和Seは,モデルでは説明しきれない,誤差の程度(まさに残差)を表す.

従って, ST,SR,Seの値を比較することで,モデルの有効性を検討できる.

1. 単回帰分析

決定係数

STのうちSRの占める割合が,モデルの有効性を表す指標として有効である.

このr2を決定係数(もしくはモデルの寄与率)と呼ぶ.

しかし,データの個数が多くなると,それに伴ってSTも大きくなり,必然的にSRは小さくならざるを得なくなる(データの個数が2と10の場合を比較すれば明らか).

2 R

T

SrS

=

1. 単回帰分析

分散分析表

データのばらつきに対するモデルの説明力を,ST,SR,Seなどの分散や,データの個数(多ければモデルによる説明は相対的に困難になる)などを用いて検討するための表

S: 変動(平方和) データのばらつきφ: 自由度 データ個数によるモデル説明力の差異V: 分散 変動に,自由度による調整を加えたものF: 分散比(F値) モデルの説明力

1. 単回帰分析

2xy

Rxx

SS

S=

S φ V 0F

1Rφ = R RV S= R

e

VV

e T RS S S= − 2e nφ = −2

ee

SVn

=−

要因

回帰

残差

計 T R eS S S= + 1T nφ = −

変動 自由度 分散 分散比

1. 単回帰分析

決定係数は,STに対するSRの割合によってモデルの有効性を判断しようとするものである.

一方F値は,変動(平方和)の評価に,データの個数という視点を加味して調整した分散VR及びVeを用いる方法であり,

が大きいほどモデルが有効である(説明力が高い)と考える.

0R

e

VFV

=

1. 単回帰分析

1.2.4 分析の有効性の検討2:検定

推定されたパラメータα, βは本当に意味を持っているのか?回帰自体は意味があるのか?

このような問いに答えるために,統計的検定という手続きを踏む.

注意:決定係数だけでは回帰分析の有効性は判断できない.

1. 単回帰分析

パラメータβの有意性に関する検定

帰無仮説H0:β=0対立仮説H1:β≠0

H0は,推定した回帰式の傾きが0であるという仮説である.もしH0が成立すれば,データyiのばらつきはxiとは無関係ということになり,回帰分析は無意味である.

H1が成立すれば,データyiのばらつきはxiによってある程度説明されるわけであるから,回帰分析の有意性を主張できる.

1. 単回帰分析

統計量(t値)

この値は,帰無仮説H0が成立するとき,自由度n-2のt分布に従う.従って,有意水準をpとして,

のときに帰無仮説を棄却し,β≠0と判断する.

0

ˆ

e

xx

tVS

β=

( )0 2,t t n p≥ −

1. 単回帰分析

なお,帰無仮説H0をβ=β0(βがある特定の値β0に等しいかどうか)とする場合には,

を計算し,同様に検定を行えばよい.

00

ˆ

e

xx

tVS

β β−=

1. 単回帰分析

もう一つの統計量(F値)

ところで,分散分析表に現れるF値(F 0)もまた,回帰分析の有意性を判断する統計量となりうる.実際,帰無仮説H0:β=0が成立するとき, F 0は自由度(1, n-2)のF 分布に従うことが知られている.従って,有意水準をpとして,

のときに帰無仮説を棄却し,β≠0と判断することもできる.そして実は,この検定は前述のt検定と同等である.なぜならば,

であり,自由度φのt分布に従う確率変数の2乗は自由度(1, φ)のF 分布に従うからである.

( )0 1, 2,F F n p≥ −

20 0F t=

1. 単回帰分析

パラメータαの有意性に関する検定

帰無仮説H0:α=α0

対立仮説H1:α≠α0

αは回帰直線のY切片であり,それがある特定の値α0に等しいかどうかを検定する.

通常はα0=0,つまり,回帰直線が原点を通るかどうかという検定が行われることが多い.

1. 単回帰分析

統計量(t値)

この値は,帰無仮説H0が成立するとき,自由度n-2のt分布に従う.従って,有意水準をpとして,

のときに帰無仮説を棄却し, α≠α0と判断する.

00

2

ˆ

1e

xx

tx V

n S

α α−=

+

( )0 2,t t n p≥ −

1. 単回帰分析

1.2.5 分析の有効性の検討3:信頼区間

パラメータα, βがどの程度信頼できるのかを示すには,信頼区間を計算すると良い.

100(1-p)%信頼区間:ある確率分布に従うデータが得られており,データからその確率分布を定めるパラメータを推定する.同一の確率分布であっても,パラメータの推定値はデータによって異なる.このとき,パラメータの真の値が100(1-p)%の確率で含まれる区間のことを100(1-p)%信頼区間と呼ぶ.

1. 単回帰分析

帰無仮説H0:β=β0が成立するとき,t0は自由度n-2のt分布に従うので,β の100(1-p)%信頼区間は

となる.同様にα の100(1-p)%信頼区間は

である.

( )ˆ 2, e

xx

Vt n pS

β ± −

( )21ˆ 2, exx

xt n p Vn S

α

± − +

1. 単回帰分析

回帰分析における散布図の重要性

回帰分析を行ってその有効性を判断する際,数値だけに頼るのは大変危険である.

Anscombe, F. J. (1973): “Graphs in statistical analysis,” American Statistician , 27, 17-21.

データ4データ3データ2データ1

12.5198.84148.1149.96148.84812.74138.74137.58138.4788.15129.131210.84127.9187.81119.26118.33117.7187.46109.14108.04107.0487.1198.7798.8196.8986.7788.1486.9586.5886.4277.2674.8275.7686.0866.1367.2465.5685.7354.7455.6855.2585.3943.144.264

YXYXYXYX

0

2

4

6

8

10

12

0 5 10 15 20

0

2

4

6

8

10

12

0 5 10 15 20

0

2

4

6

8

10

12

0 5 10 15 20

0

2

4

6

8

10

12

0 5 10 15 20

データ1 データ2

データ3 データ4

1. 単回帰分析

回帰分析の結果

0.6667074.2430280.4999097.5009093.001727データ40.6663244.2393720.4997277.5000003.002455データ30.6662424.2385900.5000007.5009093.000909データ20.6665424.2414550.5000917.5009093.000091データ1決定係数t値βyの平均値α