傾向スコアマッチと多重補完法の解説 その1

49
Propensity score matching after multiple imputation Atsushi Shiraishi, MD Trauma and Emergency Medical Center, Tokyo Medical and Dental University

Upload: atsushi-shiraishi

Post on 23-Dec-2014

1.378 views

Category:

Healthcare


0 download

DESCRIPTION

医学生物学研究で用いる傾向スコアマッチと多重補完法をできるだけやさしく解説しています。

TRANSCRIPT

Page 1: 傾向スコアマッチと多重補完法の解説 その1

Propensity score matching after multiple imputation

Atsushi Shiraishi, MDTrauma and Emergency Medical Center, Tokyo Medical and Dental University

Page 2: 傾向スコアマッチと多重補完法の解説 その1

Goals

Propensity score matching (PSM)どんな研究で、なぜ使うのか?実際にやってみよう。

Multiple imputation (MI)欠損値のある対象を除外しちゃだめなの?実際にやってみよう。

Page 3: 傾向スコアマッチと多重補完法の解説 その1

結論

とってもよく効くこの薬を是非使い

ましょ!

日本臨床リウマチ治療学会総会

Page 4: 傾向スコアマッチと多重補完法の解説 その1

日本臨床リウマチ治療学会総会

PICOヨクキクマブの効果を後ろ向きに評価した。関節リウマチの患者が対象ヨクキクマブの投与有無で患者を二群に分割投与 1 週後の CRP を比較した (Student’s t-test)

CRP (mg/dL) PYokukikumab (N=41) 6.42

0.044Control (N=33) 11.18

Page 5: 傾向スコアマッチと多重補完法の解説 その1

日本臨床リウマチ治療学会総会

PICOヨクキクマブの効果を後ろ向きに評価した。関節リウマチの患者が対象ヨクキクマブの投与有無で患者を二群に分割投与 1 週後の CRP を比較した (Student’s t-test)

CRP (mg/dL) PYokukikumab (N=41) 6.42

0.044Control (N=33) 11.18

・ 後ろ向き研究で背景因子調整を行わず、共変量の影響を無視している。・ 不適切な代用アウトカムを用いている。・ 治療有無と CRP の二変数の相関関係が因果関係であると安易にみなしている。

Page 6: 傾向スコアマッチと多重補完法の解説 その1

相関 ≠ 因果

Page 7: 傾向スコアマッチと多重補完法の解説 その1

相関 ≠ 因果

Page 8: 傾向スコアマッチと多重補完法の解説 その1

相関 ≠ 因果

・ ドイツで、コウノトリのつがいの数と出生数が正の相関関係を示している。・ コウノトリが増えると出生が増えるという因果関係?

Page 9: 傾向スコアマッチと多重補完法の解説 その1

相関 ≠ 因果

Page 10: 傾向スコアマッチと多重補完法の解説 その1

相関 ≠ 因果

・ 世界での海賊行為の数と地球温暖化が負の相関関係を示している。・ 海賊は地球温暖化を阻止していたという因果関係?

Page 11: 傾向スコアマッチと多重補完法の解説 その1

人間の経験に基づく曖昧な因果関係について考える代わりに、数学的に厳密に定義される相関関係を問うべきだ。

Karl Pearson (1857-1936)

Page 12: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

治療Yokukikumab

データ

データ

転帰

この差を知りたい

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

未知の因子

Page 13: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

データ

データ

転帰

この差を知りたい

だが共変量も転帰に影響する

治療選択は共変量に影響される

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

未知の因子

治療Yokukikumab

Page 14: 傾向スコアマッチと多重補完法の解説 その1

差を知りたい介入以外の介入が等しくなければ、因果関係が正しく分からない。

Ronald Fisher (1890-1962)

Page 15: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

データ

データ

転帰

この差を知りたい

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

RCT

R

未知の因子

治療Yokukikumab

Page 16: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

データ

データ

転帰

この差を知りたい

共変量は治療に影響しないはず

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

RCT

R

未知の因子

二群間の共変量は一致している

未知の因子を含め全ての共変量が調

整されている

治療Yokukikumab

Page 17: 傾向スコアマッチと多重補完法の解説 その1

RCT で因果関係が得られるのはなぜだろうか?

Page 18: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model「 x が起きた世界での y 」と「 x が起きなかった世界での y 」の差分が因果効果である。

因果効果とは独立変数単独の効果である。

Donald Rubin (b 1943)

Page 19: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

転帰治療

Yokukikumab

Page 20: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

介入ありの場合の転帰

データ

介入なしの場合の転帰

治療Yokukikumab

Page 21: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

介入ありの場合の転帰

データ

介入なしの場合の転帰

この差を介入の因果効果と定義した

治療Yokukikumab

Page 22: 傾向スコアマッチと多重補完法の解説 その1

高速道路

RQ: 高速道路を使ったら目的地に早く着けるか?

一般道路

同じ人、同じ車が同時に両方を通れば因果効果を求めることができる。

Page 23: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

介入ありの場合の転帰

データ

介入なしの場合の転帰

この差を介入の因果効果と定義した

治療Yokukikumab

Page 24: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

この差を介入の因果効果と定義した

しかし差が求められない

事実  反事実

治療Yokukikumab

Page 25: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

実際に求まるのは上記の差だが…

なし 欠損値 データ

治療Yokukikumab

Page 26: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

実際に求まるのは上記の差だが…

介入以外の独立変数も違う別世界

なし 欠損値 データ

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

未知の因子

治療選択は共変量に影響される

治療Yokukikumab

Page 27: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

R

未知の因子

データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

欠損値 データ

Rubin’s causal modelRCT の場合

治療Yokukikumab

Page 28: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

Yokukikumab

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

R

未知の因子

サンプルサイズが十分に大きければ、二群は集団として同一と見なせ

る。

未知の因子を含め全ての共変量が調

整されている

データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

欠損値 データ

Rubin’s causal modelRCT の場合

Page 29: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

R

未知の因子

データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

欠損値 データ

Rubin’s causal model

実際に求まる上記の差が、同一集団の単一独立変数の因果効果と見なせ

る。同一集団と見なせる

RCT の場合

相互に代入可

治療Yokukikumab

Page 30: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

なし 欠損値 データ

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

未知の因子

PSM の場合

治療Yokukikumab

Page 31: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

なし 欠損値 データ

58 歳

女性

対象患者

中等症

ADL 自立

待機的

健康保険

2014 年

大学病院

未知の因子

PSM の場合

90%

10%

治療Yokukikumab

Page 32: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

なし 欠損値 データ

76 歳

男性

対象患者

重症

伝い歩き

待機的

無保険

2008 年

一般病院

未知の因子

PSM の場合

10%

90%

治療Yokukikumab

Page 33: 傾向スコアマッチと多重補完法の解説 その1

Rubin’s causal model

あり データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

なし 欠損値 データ

76 歳

男性

対象患者

重症

伝い歩き

待機的

無保険

2008 年

一般病院

未知の因子

PSM の場合

10%

90%

この確率を背景因子から計算したものが PS

治療Yokukikumab

Page 34: 傾向スコアマッチと多重補完法の解説 その1

Propensity score の計算

単なるロジスティック回帰です。介入決定以前の背景因子が独立変数介入の有無が目的変数pが propensity score

1例ごとに propensity score が求まるPropensity score とは介入を行う確率値域は 0-1

Page 35: 傾向スコアマッチと多重補完法の解説 その1

Propensity score の計算リウマチ症例

Yokukikumab を投与された

Page 36: 傾向スコアマッチと多重補完法の解説 その1

Propensity score の計算リウマチ症例

Yokukikumab を投与されたYokukikumab を投与されなかった

Page 37: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

P

未知の因子

データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

欠損値 データ

Rubin’s causal modelPSM の場合

0.501

0.499

治療Yokukikumab

Page 38: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

P

未知の因子

データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

欠損値 データ

Rubin’s causal modelPSM の場合

0.501

0.499

PSが近い値で、介入有り無しのペアを抽出

治療Yokukikumab

Page 39: 傾向スコアマッチと多重補完法の解説 その1

Propensity score matchingリウマチ症例

Yokukikumab を投与されたYokukikumab を投与されなかった

Page 40: 傾向スコアマッチと多重補完法の解説 その1

Propensity score matchingリウマチ症例

Yokukikumab を投与されたYokukikumab を投与されなかったPS の近いペア

Page 41: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

P

未知の因子

データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

欠損値 データ

Rubin’s causal modelPSM の場合

マッチされなかった対象

個々のペアごとに同一サンプルサイズが増えればさらに

既知の共変量は調整されている。おそらく未知の共変量も…

治療Yokukikumab

Page 42: 傾向スコアマッチと多重補完法の解説 その1

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

P

未知の因子

データ

介入ありの場合の転帰

欠損値

介入なしの場合の転帰

欠損値 データ

Rubin’s causal modelPSM の場合

マッチされなかった対象

実際に求まる上記の差が、同一集団の単一独立変数の因果効果と見なせ

る。同一集団と見なせる

治療Yokukikumab

相互に代入可

Page 43: 傾向スコアマッチと多重補完法の解説 その1

実際にやってみましょう

• 配布した “ PSM1.R” をエディタで開いて下さい• 中身は R の関数を記述したテキストファイルで

す。• 丸ごと R のコンソールに貼り付け、リターンを押して実行して下さい。

• 宜保光一郎先生と吉田和樹先生に感謝!

http://goo.gl/W5wfqR

Page 44: 傾向スコアマッチと多重補完法の解説 その1

• “lalonde” dataset を使っています。• 教育効果(介入)の年収(転帰)に対する因果

関係を調べてみましょう。• 12 変数からなる 445例の観察研究です。

– 背景因子 8 変数– 治療 1 変数– 転帰 3 変数

• 欠損値の無い完全データです。

実際にやってみましょう

Page 45: 傾向スコアマッチと多重補完法の解説 その1

変数表独立変数 (Propensity score の構成変数 )

age 年齢educ 教育年数black 黒人hisp ヒスパニックmarried 既婚者nodegr 高校卒業re74 1974 年の年収re75 1975 年の年収

介入 (Propensity score の目的変数 )

treat 教育プログラムの有無目的変数

re78 1978 年の年収

実際にやってみましょう

Page 46: 傾向スコアマッチと多重補完法の解説 その1

Before PSM

Stratified by treat 0 1 p test n 260 185 age (mean (sd)) 25.05 (7.06) 25.82 (7.16) 0.265 educ (mean (sd)) 10.09 (1.61) 10.35 (2.01) 0.135 black (mean (sd)) 0.83 (0.38) 0.84 (0.36) 0.649 hisp (mean (sd)) 0.11 (0.31) 0.06 (0.24) 0.076 married (mean (sd)) 0.15 (0.36) 0.19 (0.39) 0.327 nodegr (mean (sd)) 0.83 (0.37) 0.71 (0.46) 0.001 re74 (mean (sd)) 2107.03 (5687.91) 2095.57 (4886.62) 0.982 re75 (mean (sd)) 1266.91 (3102.98) 1532.06 (3219.25) 0.382 re78 (mean (sd)) 4554.80 (5483.84) 6349.15 (7867.40) 0.005 u74 (mean (sd)) 0.75 (0.43) 0.71 (0.46) 0.326 u75 (mean (sd)) 0.68 (0.47) 0.60 (0.49) 0.065

Page 47: 傾向スコアマッチと多重補完法の解説 その1

After PSM

Stratified by treat 0 1 p test n 150 150 age (mean (sd)) 25.41 (6.86) 25.48 (7.29) 0.929 educ (mean (sd)) 10.11 (1.67) 10.29 (1.77) 0.349 black (mean (sd)) 0.87 (0.33) 0.87 (0.34) 0.864 hisp (mean (sd)) 0.05 (0.23) 0.06 (0.24) 0.804 married (mean (sd)) 0.18 (0.39) 0.16 (0.37) 0.646 nodegr (mean (sd)) 0.81 (0.40) 0.77 (0.42) 0.399 re74 (mean (sd)) 1821.88 (4792.12) 1517.04 (4370.13) 0.565 re75 (mean (sd)) 1329.82 (3350.84) 914.13 (1943.45) 0.190 re78 (mean (sd)) 4064.76 (4568.86) 6149.53 (7960.04) 0.006 u74 (mean (sd)) 0.76 (0.43) 0.78 (0.42) 0.682 u75 (mean (sd)) 0.68 (0.47) 0.68 (0.47) 1.000

Page 48: 傾向スコアマッチと多重補完法の解説 その1

Propensity score matching利点

• 背景因子調整に優れる。• 因果関係を言うことができる。• 後ろ向き解析で最良の方法のひとつ。• RCT と比べて、

– ランダム化が不可能な解析も可能。– 低コスト。– 厳格な倫理審査が不要。

Page 49: 傾向スコアマッチと多重補完法の解説 その1

Propensity score matching欠点

• 多くは後ろ向き解析。• サンプルサイズの計算が困難。• PS の構成変数を決める標準的な手法は確立していな

い。• 介入前の背景因子が PS を構成するため、計算困難な場

合がある。• 未知の背景因子は十分に調整できない。• マッチングできなかった対象を除外するため、

– 検出力が低下する。– PS の重なり合いが少ない介入の解析は困難。

• 欠損値に脆弱で更に検出力が低下する。