回帰分析 重回帰 (2)
DESCRIPTION
回帰分析 重回帰 (2). 仮説検定. 仮説検定. 単一の制約 t 検定 メニューから行う方法 複数の制約 F 検定 メニュー から行う方法 F 統計量を実際に求める 構造 変化 最適 なモデルの決定. 回帰分析の前提. 最小二乗推定量. 最小二乗推定量 (2). 個々の係数に関する検定. H0: ある変数の係数が 0. 係数の標準誤差. t 値 = b / b( s.e. ) 係数の真の値が 0 だとして計算. p 値 ( 両側 確率 ) 通常は, 0.05 より小さければ 0 と有意に異なると 判断 - PowerPoint PPT PresentationTRANSCRIPT
回帰分析重回帰 (2)
仮説検定
仮説検定
• 単一の制約– t 検定– メニューから行う方法
• 複数の制約– F 検定– メニューから行う方法– F 統計量を実際に求める
• 構造変化• 最適なモデルの決定
回帰分析の前提
rankfull:
),0(~
linearity2
X
INu
uXy
最小二乗推定量
)1()1(
'
0'
ˆ
')'(ˆ
')'(')'(
2
1
11
kn
SSR
kn
ees
eX
MyyPIyye
PyyXXXXXby
uXXXyXXXb
最小二乗推定量 (2)
)1(~)1('
)1,0(~
)'(,~
22
2
22
12
knXsknRSSee
Na
b
XXNb
jj
jj
個々の係数に関する検定
jjj
j
jj
asbes
kntbes
b
).(.
)1(~).(.
0
00 : jjH
-3 -2 -1 0 1 2 3
両側検定
臨界値の両側に落ちる確率をとして検定
-3 -2 -1 0 1 2 3
片側検定
臨界値の片側に落ちる確率をとして検定
H0: ある変数の係数が 0
係数の標準誤差
t 値 = b / b(s.e.)係数の真の値が0 だとして計算
p 値 ( 両側確率)通常は, 0.05 より小さければ 0 と有意に異なると判断EDUC の t 値は12.56t分布に従う確率変数が(絶対値で) 12.56 より大きな値をとる確率
仮説検定 単一の制約• t 分布• 特に,「係数が 0 に等しい」という仮説は,回
帰分析の output をみるだけでよい• p 値 output の Prob. 欄• wage1.raw の回帰分析の結果では, educ の p
値は 0.0000 。 educ の係数の真の値が 0 だとすると,(絶対値で) 0.09209 以上の推定値を得る確率が 0.0000 だということ(両側確率)
• 一般的には, p 値が 0.05 未満なら,係数 =0 の仮説は棄却される
• 注意: Eviews の p 値は両側確率
educ の係数の信頼区間を求める
educ の係数は自由度 522 の t 分布をする df = オブザベーション数 (526) – 説明変数の個数 (4) = 522• 片側 5% の臨界値 t 分布の 95% 点• 両側 5% の臨界値 t 分布の 97.5% 点
– 例えば,両側 5% の場合,臨界値を t0.975 とすれば, bj の信頼区間は次の通りになる
).(.).(. 975.00
975.00
jjjjj bestbbest
)1(~).(.
0
kntbes
b
j
jj
educ の係数の信頼区間を求める(2)
Eviews の関数を用いて行うには,@qtdist(p, df) 累積分布が p になるt値を返す(自由度 df)
@coefs(i) i 番目の係数(定数項は 1 番目とカウント)@stderrs(i) i 番目の係数の標準誤差
を用い,コマンド行で次のようにタイプする( bj0 =bj とし
た場合)。scalar tc = @qtdist(0.975, 522)
scalar b_low=@coefs(i) –tc * @stderrs(i)
scalar b_up= @coefs(i) + tc * @stderrs(i)
i : 実際の数字( 2 番目の変数の係数なら 2 を入れる )
計算すると, b_low = 0.077629, b_up= 0.106429
任意の bj0 については,上の式の @coef(i) に想定した値を代入
回帰分析の結果のメニューからViewCoefficient Diagnostics Confidence Intervals
をたどっても信頼区間を求められる。Excel を用いることもできる
問題• Wage1.raw のデータを用いた先ほどの OLS
で,次の仮説をそれぞれ検定せよ。• EDUC の係数が 0.06 に等しい• EXPER の係数が 0.005 に等しい• TENURE の係数が 0.02 に等しい
– それぞれの場合の t 値を求める• @coefs, @stderrs を用いる• この場合の t 分布の自由度は ?
– OLS を行った後, menu から View/Coefficient
Diagnostics / Wald Test Coefficient Restrictions とたどる
複数の制約
))1(,(~
)1(
knrFknURSS
rURSSRRSS
• RRSS (Restricted Residual Sum of Squares: 制約付きの残差平方和)
• URSS (Unrestricted Residual Sum of Squares: 制約無しの残差平方和)
• r : 制約の数• n-(k+1): 制約無しの回帰での自由度
0 1 2 3 4 5
F Distribution: Numerator df = 5, Denominator df = 100
f
臨界値よりも大きな値をとる場合に仮説H0を棄却
複数の bj に関する制約(単一の制約)
• 単一の制約の問題に帰着できる場合がある• 例) Kane and Rouse(1995)
– 短大と 4 年生大学 : 賃金差はあるか– 回帰式ln(wage)=a+b1*jc +b2*univ+ b3*exper + u
• jc 短大の教育年数• univ 4 年生大学の教育年数• exper 卒業後の年数(労働市場にでてからの年
数)
• H0: b1=b2
複数の bj に関する制約(単一の制約) 続き
1. ln(wage) = a + b1*jc + b2*univ + b3*exper + u
H0: b1=b2
1. で b2= b1+ d とおくと
ln(wage) = a + b1*jc + (b1+d)*univ + b3*exper + uこれより
2. ln(wage) = a + b1*(jc + univ) + d*univ + b3*exper + u
H0: d=0jc+univ, univ で回帰し, univ の係数が 0 という制約に帰着
説明変数の全て (educ, exper, tenure) の係数が 0かどうか
ここをクリックし, coefficient diagnostics Wald tests - coefficient restrictions ..をたどると,係数の制約のテストの画面が表れる。複数の制約も可能。
個々の係数 =0 の検定はここをみる
この値から F 検定を行うこともできる。 E-views では直前の回帰の残差平方和は @ssrに保存される
Eviews 係数の制約
Eviews での F 検定 View/ Coefficient diagnostics/ Wald test – Coefficient Restrictions を選択c(3)=0, c(4)=0 で制約式を指定(複数の制約式は , で区切る)c(3) は 3 番目の説明変数の係数(定数項を 1番目とカウント)
H0: exper,tenure の係数がともに 0
検定のための統計量は,自由度が (2,522) の F 統計量5% 水準の臨界値は 3.013
H0 は棄却される
自由度(2,252) の F分布に従う確率変数が49.685 よりも大きな値をとる確率は 0.0000
F 検定(コマンドを打ち込む方法)• 制約無しの回帰分析 URSS を求める
制約なしの回帰後,コマンドウィンドウで scalar urss= @ssr
• 制約付の回帰分析 RRSS を求める制 約つきの回帰後,コマンドウィンドウで scalar rrss= @ssr
• F 統計量を計算分子は (rrss-urss)/( 制約の数 ) ,分母は urrs/( 制約なしの回帰の自由度 ) で計算した変数を作る(以下では,ffとした)コマンドウィンドウで次のようにタイプ
scalar f1= (rrss – urss)/ 制約の数scalar f2 =urss/(@regobs – 定数項を含んだ説明変数の個
数 )
scalar ff =f1/f2
ff の累積分布を求める( @cfdist(ff,df1,df2) を用いるExcel でも同様の計算ができる
問題 1• wage1.raw 被説明変数 ln(wage) 説明変数 educ, exper, tenure, f emale• 次の仮説を検定せよ1. H0 : 全ての説明変数の係数が 0 に等しい2. H0 : 女性と男性の賃金格差は無い(定数項ダ
ミーだけでよい)3. H0 : exper と tenure の係数が共に 0 である
2. と 3. については,制約なしの残差平方和と制約付の残差平方和の値を求める方法でも計算せよ。
問題 2
• 問題 1 と同じデータで次の仮説を検討せよ。– 説明変数に female ダミーと学歴 (educ) ,勤続年数
(tenure) の交差項を加える。
• 女性と男性の賃金格差(定数項)は無いし,学歴の効果の違いも無いし,勤続年数の効果の違いも無い。
問題 3
• MLB1.RAW• 次の回帰式を推定
– 被説明変数: log(salary)– 説明変数: years, gamesyr, bavg, hrunsyr, rbisyr,
runsyr, fldperc, allstar, firstbase, scndbase, thrdbase, shrtstop, catcher,(base は outfield)
– 次の仮説を検討せよ。• 他の要因を一定にした場合,捕手と外野手の年俸は同じ• 他の要因を一定にした場合,守備位置の違いは年俸に影響
を与えない
Chow テスト• 構造変化の検定
– 例)消費関数,投資関数の推計
– T 個の時系列データ– 時点 s 以降で構造変が起きたかどうかの検定
• 全体を二つの期間に分割– 時点ダミーを導入してg=0 の検定を行う
Tst
stD
uxDxy
t
ttttt
,...,11
,..,10
)2,(~2/
/)(kTkF
kTURRS
kURRSRRSS
k は説明変数の個数(定数項も含めて)
最適なモデルの決定• F 検定
– nested model の場合• adjusted R2 を用いる方法• AIC基準 (Akaike Information Criteria)
AIC=-2ln(L)+2k
ln(L): 対数尤度 , k: パラメータの数(説明変数の数)AIC を最小にするようなモデルを選ぶたいていの統計パッケージでは自動的に出力される
• 変数増減法 (stepwise regression)• RESET (regression specification error test)
– 回帰式 非線形性のテスト
• J テスト– non nested model
RESET
)2(ˆˆ 32
21110 uyyxxy kk
)1(110 uxxy kk
上のモデルを推計し, y の予測値を得る。y の予測値の平方,3乗の項, ... を説明変数に加えた次のモデルを推計する
H0: (1) の定式化が正しい g1=g2=0
Eviews での RESET(1) 式を OLS で推計View/ Stability Diagnostics/ Ramsey RESET Test Number of Fitted Terms で (2) 式に Fitted value をいくつ入れるかを設定 1 2 次の項まで, 2 3 次の項まで
Non nested model
• MLB1.raw の MLB 選手の年棒の回帰分析では, hrunsyr(ホームラン数)と rbisyr (打点)はともに,有意ではなかった(二つの変数の単相関は 0.89 と非常に高いため)。
• そこで,次の二つのモデルのどちらが適切かを選択する必要に迫られたとする。
urbisyr
bavggamesyryearssalary
uhrunsyr
bavggamesyryearssalary
4
32102
4
32101
)log(:H
)log(:H
J test• どちらか一方のモデルが正しいモデルであれば,他方の
モデルで得られた予測値は説明力を持たない• (例) H2 で推定したモデルの予測値 (y2hat) を説明変数
として H1 に代入して, b5=0 の検定を行う
uhatyhrunsyr
bavggamesyryearssalary
2
)log(
54
3210
• 同様に, H1 で推定したモデルの予測値 (y1hat) を説明変数として H2 に代入して, b5=0 の検定を行う
• 両方のテストとも棄却される場合がある別のモデル
Eviews での統計関数• @c--:cumulative distribution function(CDF)• @d--:density function• @q--:quantile( inverse CDF)• @r--:random number generator------------------------------------• @cfdist(x,df1,df2) , @qfdist(x,df1,df2) F 分布 • @cnorm(x), @qnorm(p) 正規分布• @ctdist(x,df), @qtdist(p,df) t 分布• Eviews で,自由度 (2,522) の F 分布に従う変数の 95%
点を求めるためには scalar ff= @qfdist(0.95, 2, 522)をコマンド行に打ち込む
Eviews での回帰分析• @coefs(i) : i 番目の係数• @stderrs(i): 標準誤差• @tstats(i): t 値 • @coefcov(I,j): i 番目のj番目の係数の共
分散• @f : F 統計量• @se: standard error of the regression• @ssr: 残差平方和• @regobs: 回帰分析でのオブザベーショ
ン数