03 「重回帰分析」の入門

57
重回帰分析入門 株式会社オルトメディコ 市川周平

Upload: shuhei-ichikawa

Post on 03-Jul-2015

10.713 views

Category:

Technology


5 download

DESCRIPTION

2013/07/27 心理・医学系研究者のためのデータ解析環境Rによる統計学の研究会  第11回 重回帰分析 にて発表した内容です。

TRANSCRIPT

重回帰分析入門

株式会社オルトメディコ 市川周平

目次

重回帰分析とは

二値データを用いた重回帰

二値データとの交互作用項を持つ重回帰

引用文献・推奨文献

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会2

目次

重回帰分析とは

二値データを用いた重回帰

二値データとの交互作用項を持つ重回帰

引用文献・推奨文献

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会3

重回帰分析 (Multiple Regression) とは

複数の変数と1つのアウトカムの関係性を評価する統計手法

※用語の統一

複数の変数

説明変数 (explanatory variable)

独立変数 (independent variable)

Regressor

1つのアウトカム

基準変数 (criterion variable)

従属変数 (dependent variable)

アウトカム (outcome)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会4

関係性の評価

相関係数

2変数間の類似性の度合いを表す

因果関係は表現できない

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会5

r = 0.190

関係性の評価

単回帰分析 独立変数が従属変数をどの程度説明できるか、定量的に評価

因果関係の存在を仮定し、その妥当性を検証

重回帰分析 単回帰分析の独立変数側が複数になったもの

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会6

残差 (residual)

最小二乗法残差の二乗和が最小になるように回帰曲線を設定

回帰直線(regression line)

(重) 回帰分析を何のために使う?

質問

太郎さんは、結婚資金500万円を貯めるため、毎月、一定の金額を貯金しています。

2012年1月の貯金残高は100万円でした。

2013年1月の貯金残高は220万円でした。

Q1. 太郎さんは毎月いくら貯金していますか?

⇒法則性の検証、現象の説明 (explanation)

Q2. 太郎さんが結婚資金を準備できるのはいつだと予測されますか?

⇒予測 (prediction)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会7

数学的なお話

単回帰分析

Y = β0 + β1X1 + ε

重回帰分析

Y = β0 + β1X1 + β2X2 + … + βnXn + ε

cf. 2way ANOVAの概念モデル

Y = f1(X1) + f2(X2) + f1*2(X1*X2) + E

!! ANOVA familyと線形回帰は、General Linear Modelで統合された

※Generalized Linear Modelは別物なので注意

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会8

Y : 従属変数Xk : 独立変数β0 : 切片βk : 係数ε : 残差

Y : 従属変数Xk : 独立変数fk : 要因関数(効果)E : 誤差

結果の読み方

独立変数の影響力

モデルの説明力

例)独立変数を10個投入し、うち1つがぎりぎり有意でした。

このモデルは妥当でしょうか?

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会9

結果の読み方

独立変数の影響力

偏回帰係数 (b)

ӧ 独立変数にかけられる重み

ӧ 独立変数が、従属変数に対してどの程度影響を与えているかを表す

標準偏回帰係数 (β)

ӧ SD=1にそろえて標準化した偏回帰係数

ӧ 偏回帰係数は独立変数の平均値に依存する=単位変換の影響を受ける

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会10

結果の読み方

モデルの説明力

重決定係数 (R2)

ӧ 回帰分析の精度、あるいは回帰式の当てはまりの具合を表す

自由度調整済み重決定係数 (adjusted R2)

ӧ モデル分析の精度は、N数が大きければ大きいほど高くなる

Q. N=10のデータのR2とN=100のデータのR2を同じに扱えるか?

⇒ N数を調整した決定係数を用いる

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会11

Rで実践!

参考 : Fox (1997)

dataset : Davis

carライブラリに収載

習慣的に運動をしている男女の身体測定及びその自己申告

ӧ sex 性別 (F: female, M: male)

ӧ weight 計測された体重 (kg)

ӧ height 計測された身長 (cm)

ӧ repwt 自己申告された体重 (kg)

ӧ repht 自己申告された身長 (cm)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会12

Rで実践!

参考 : Fox (1997)

dataset : Davis

carライブラリに収載

習慣的に運動をしている男女の身体測定及びその自己申告

ӧ sex 性別 (F: female, M: male)

ӧ weight 計測された体重 (kg)

ӧ height 計測された身長 (cm)

ӧ repwt 自己申告された体重 (kg)

ӧ repht 自己申告された身長 (cm)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会13

独立変数

従属変数

Rで実践!

手順

1. carパッケージをインストールする

> install.packages(“car”)

2. carライブラリを使えるようにする

> library(car)

3. Davisデータセットを使えるようにする

> data(Davis)

4. 回帰を行う

> MR <- lm(repwt ~ weight + height, data = Davis)

5. 結果を出力する

> summary(MR)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会14

結果

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会15

残差

係数

モデルの説明力

glm関数でも似たようなことができる

手順

1. GLM <- lm(repwt ~ weight + height, data = Davis)

2. summary(GLM)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会16

決定係数等が算出されない

係数はlmと同じ

重回帰分析の前提

正規性 独立変数がどのような値をとっても、従属変数は正規分布する

等分散性 独立変数がどのような値をとっても、従属変数の分散は異ならない

独立性 独立変数と従属変数は独立している

直線性 独立変数の変化に対し、従属変数は直線的に増加する

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会17

多重共線性

多重共線性

独立変数間の強い相関のこと

βの値が歪む

ӧ βが過小評価 / 過大評価される

多重共線性の指標 : VIF (Variance Inflation

Factors)

VIF > 10 なら多重共線性が起きている

DAAGパッケージのvif関数を用いる

ӧ > MR <- lm(repwt ~ weight + height, data = Davis)

ӧ > summary(MR)

ӧ > vif(MR)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会18

VIFの確認

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会19

VIFが10未満

目次

重回帰分析とは

二値データを用いた重回帰

二値データとの交互作用項を持つ重回帰

引用文献・推奨文献

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会20

二値データとは

カテゴリカルデータの一種

2種類の値のうち、いずれか一方のみをとる

性別 : 男性, 女性

コイントスの結果 : 表, 裏

二肢法への回答 : はい, いいえ

患者と診断されたか : 患者, 健常者

介入を受けたか : 介入群, コントロール

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会21

どうして二値データを使うの?

従属変数をよりよく説明するため=モデルの説明力を上げるため

交絡要因を炙り出し、結果にかかるバイアスを解消するため⇐ Simpson's Paradox

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会22

Simpson’s Paradox

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会23

Fox J (2008)

男女それぞれの回帰直線は右上がり

男女を合わせた回帰直線は右下がり

二値データを用いた重回帰分析?

直観的には……

独立変数側が離散データになるのであれば、ANOVAを適応するべきでは?

!! ANOVA familyと線形回帰は、General Linear

Modelで統合された

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会24

重回帰分析でも、二値データや離散データを独立変数とすることができる

(重) 回帰分析で二値データを扱うために

1. カテゴリカルデータをダミー変数にコードする

男性: 1, 女性: 0

患者: 1, 健常者: 0

介入群: 1, コントロール: 0

2. ダミー変数を独立変数に投入し、(重) 回帰分析を実施する

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会25

Rで実践!

参考 : Fox (1997)

dataset : Davis

carライブラリに収載

習慣的に運動をしている男女の身体測定及びその自己申告

ӧ sex 性別 (F: female, M: male)

ӧ weight 計測された体重 (kg)

ӧ height 計測された身長 (cm)

ӧ repwt 自己申告された体重 (kg)

ӧ repht 自己申告された身長 (cm)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会26

独立変数

従属変数

Rで実践!

手順

1. パッケージ・ライブラリ・データセットの準備

※ 省略

2. sexをダミーデータに変換する

> male <- ifelse(Davis$sex == “M”, 1, 0)

3. 回帰を行う

> MR2 <- lm(repwt ~ male + weight, data = Davis)

4. 結果を出力する

> summary(MR2)

5. プロットする> plot(effect(“weight:male”, MR2, xlevels =

list(weight=40:120),multiline = TRUE, ylab =

“repwt(kg)”, rug = FALSE))

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会27

この方法だと、プロットに失敗する

結果

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会28

ダミー変数を作らなくても……

統計パッケージの場合、カテゴリーデータを作成しなくても、解析してくれることが多い

⇒ ソフトのクセに合わせて選択すれば良い

plot(effect())は、ダミー変数を自作すると上手く動かない、ような気がする

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会29

ダミー変数を作らずにやってみよう

手順

1. パッケージ・ライブラリ・データセットの準備

※ 省略

2. 回帰を行う

> MR3 <- lm(repwt ~ sex + weight, data = Davis)

3. 結果を出力する

> summary(MR3)

4. プロットする> plot(effect(“weight:sex”, MR3, xlevels =

list(weight=40:120),multiline = TRUE, ylab =

“repwt(kg)”, rug = FALSE))

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会30

結果:ダミー変数不使用

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会31

グラフ:ダミー変数不使用

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会32

結果を比較してみる

ダミー不使用 (sex) とダミー使用 (male) の結果は等しい

単回帰と比較すると、R2が0.08ほど上昇

単回帰と比較すると、Weightの係数が低下

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会33

male sex 単回帰

β_Intercept 23.520 23.520 15.759

β_weight 0.570 0.570 0.753

β_sex 9.751 9.751

R2 0.782 0.782 0.698

数学的なお話

重回帰分析

Y = β0 + β1X1 + γDi + εi

D=0のとき

Y = β0 + β1X1 + εi

D=1のとき

Y = (β0 + γ) + β1X1 + εi

注意

二値変数は分散に意味がないため、標準化偏回帰係数が解釈不能

→偏回帰係数を用いましょう

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会34

Y : 従属変数Xk : 独立変数β0 : 切片βk : 係数Di : ダミー変数γ : ダミー変数の係数ε : 残差

rep

wt

(kg

)

weight

D=1 D=0

数学的なお話

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会35

1

β1

γ

1

β1

β0 + γ

β0

目次

重回帰分析とは

二値データを用いた重回帰

二値データとの交互作用項を持つ重回帰

引用文献・推奨文献

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会36

交互作用とは

交互作用なし (Additive)

交互作用あり (Multiplicative)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会37

30

40

50

60

70

80

90

100

rep

wt

(kg

)

weight

D=1 D=0

30

40

50

60

70

80

90

100

rep

wt

(kg

)

weight

D=1 D=0

30

40

50

60

70

80

90

100

rep

wt

(kg

)

weight

D=1 D=0

2本のグラフが平行

2本のグラフが平行ではない

Rでの表現形

主効果 (Additive)

A + B + ... + N

交互作用 (Multiplicative)

A + B + A*B + ...

A:B (結果での表記など)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会38

Rで実践!

参考 : Fox (1997)

dataset : Davis

carライブラリに収載

習慣的に運動をしている男女の身体測定及びその自己申告

ӧ sex 性別 (F: female, M: male)

ӧ weight 計測された体重 (kg)

ӧ height 計測された身長 (cm)

ӧ repwt 自己申告された体重 (kg)

ӧ repht 自己申告された身長 (cm)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会39

独立変数

従属変数

Rで実践!

手順

1. パッケージ・ライブラリ・データセットの準備

※ 省略

2. 回帰を行う

> MR4 <- lm(repwt ~ sex + weight + sex*weight,

data = Davis)

3. 結果を出力する

> summary(MR4)

4. プロットする> plot(effect(“weight:sex”, MR4, xlevels =

list(weight=40:120),multiline = TRUE, ylab =

“repwt(kg)”, rug = FALSE))

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会40

結果:二値データを含む交互作用

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会41

グラフ:二値データを含む交互作用項

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会42

結果を比較してみる

ダミーなしとダミーありの結果は等しい

単回帰と比較すると、R2が0.08ほど上昇

単回帰と比較すると、Weightの係数が低下

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会43

Interaction Additive 単回帰

β_Intercept 41.323 23.520 15.759

β_weight 0.264 0.570 0.753

β_sex -39.964 9.751

β_sex*weight 0.725

R2 0.887 0.782 0.698

数学的なお話

重回帰分析

Y = β0 + βiXi + γDi + δ(XiDi) + εi

D=0のとき

Y = β0 + β1X1 + εi

D=1のとき

Y = (β0 + γ) + (β1 + δ)X1 + εi

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会44

Y : 従属変数Xk : 独立変数β0 : 切片βk : 係数Di : ダミー変数γ : ダミー変数の係数δ : 交互作用項の係数ε : 残差

rep

wt

(kg

)

weight

D=1 D=0

数学的なお話

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会45

1

β1+δ

1

β1

β0 + γ

β0

3水準以上のカテゴリーデータについて

(水準数-1) 個のダミーデータを作成

何故、(水準数) 個のダミーデータを作らない?

Baseline : Y = β0 + β1X1 + εi

Additive : Y = (β0 + γ) + β1X1 + εi

Multiplicative : Y = (β0 + γ) + (β1 + δ)X1 + εi

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会46

カテゴリー D1 D2

Intervention 1 0

Positive Control 0 1

Negative Control 0 0

連続データ同士の交互作用

独立変数X1と、その交互作用X1*X2とは、相関が高くなりやすい

⇒多重共線性が生じやすい

dataset : Davis

sex 性別 (F: female, M: male)

weight計測された体重 (kg)

height 計測された身長 (cm)

repwt 自己申告された体重 (kg)

repht 自己申告された身長 (cm)

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会47

独立変数

従属変数

連続データ同士の交互作用

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会48

r = 0.745

結果:連続変数同士の交互作用

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会49

多重共線性が発生

連続データ同士の交互作用

高い確率で多重共線性が生じるため、注意が必要

多重共線性回避のための手段

中心化 ←最近では否定されつつある

変数を絞る ←モデルやプロトコルとの相談

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会50

目次

重回帰分析とは

二値データを用いた重回帰

二値データとの交互作用項を持つ重回帰

引用文献・推奨文献

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会51

今回使ったパッケージ

car

データセットDavis

DAAG

多重共線性の検証

関数 : vif

effects

交互作用データのプロット

plot(effect(...))

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会52

注意点

Davisは欠損値や外れ値、入力ミスを含む

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会53

引用文献・参考文献

Dalal DK and Zickar MJ : Some common myths about

centering predictor variables in moderated multiple

regression and polynomial regression. Organiz Res

Methods 2012 ; 15 : 339-362.

Fox J : Effect Displays in R for Generalised Linear

Models. J Stat Soft 2003 ; 8 : 1-18.

Gromping U : Relative importance fro linear regression

in R : The package relaimpo. J Stat Soft 2006 ; 17 : 1-

27

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会54

参考図書

Fox J : Dummy-variable Regression. in Fox J : Applied

regression analysis and generalized models. Willey,

2008.

Kelley K and Maxwell S E. Multiple regression. in G. R.

Hancock & R. O. Mueller (Eds.), The reviewer's guide to

quantitative methods in the social sciences (pp. 281-

298). New York: Routledge.

Concato J, Feinstein AR, Holford TR : Predicting values

from one or more variable. in Lang TA, Secic M (Eds.),

How to Report Statistics in Medicine. 85-101, ACP

Press 2006.

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会55

参考図書

大橋靖雄 2013 : わかりやすい医学統計の報告-医学論文作成のためのガイドライン (第2版)

安藤正人 2011 : マルチレベル分析入門

General LM (ANOVA, MR, et al)

⇒ Generalized LM

⇒ Generalized LMM

より高次の解析法への橋渡しとして

舟尾暢男 2009 : The R Tips

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会56

FIN

2013/7/27 於東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会