傾向スコアマッチと多重補完法の解説その１

Propensity score matching after multiple imputation

Atsushi Shiraishi, MDTrauma and Emergency Medical Center, Tokyo Medical and Dental University

Goals

Propensity score matching (PSM)どんな研究で、なぜ使うのか？実際にやってみよう。

Multiple imputation (MI)欠損値のある対象を除外しちゃだめなの？実際にやってみよう。

結論

とってもよく効くこの薬を是非使い

ましょ！

日本臨床リウマチ治療学会総会


PICOヨクキクマブの効果を後ろ向きに評価した。関節リウマチの患者が対象ヨクキクマブの投与有無で患者を二群に分割投与 1 週後の CRP を比較した (Student’s t-test)

CRP (mg/dL) PYokukikumab (N=41) 6.42

0.044Control (N=33) 11.18


PICOヨクキクマブの効果を後ろ向きに評価した。関節リウマチの患者が対象ヨクキクマブの投与有無で患者を二群に分割投与 1 週後の CRP を比較した (Student’s t-test)

CRP (mg/dL) PYokukikumab (N=41) 6.42

0.044Control (N=33) 11.18

・後ろ向き研究で背景因子調整を行わず、共変量の影響を無視している。・不適切な代用アウトカムを用いている。・治療有無と CRP の二変数の相関関係が因果関係であると安易にみなしている。

相関 ≠ 因果

相関 ≠ 因果

・ドイツで、コウノトリのつがいの数と出生数が正の相関関係を示している。・コウノトリが増えると出生が増えるという因果関係？

相関 ≠ 因果

相関 ≠ 因果

・世界での海賊行為の数と地球温暖化が負の相関関係を示している。・海賊は地球温暖化を阻止していたという因果関係？

人間の経験に基づく曖昧な因果関係について考える代わりに、数学的に厳密に定義される相関関係を問うべきだ。

Karl Pearson (1857-1936)

あり

なし

治療Yokukikumab

データ

データ

転帰

この差を知りたい

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

未知の因子

あり

なし

データ

データ

転帰


だが共変量も転帰に影響する

治療選択は共変量に影響される

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

未知の因子

治療Yokukikumab

差を知りたい介入以外の介入が等しくなければ、因果関係が正しく分からない。

Ronald Fisher (1890-1962)

あり

なし

データ

データ

転帰


年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

RCT

R

未知の因子

治療Yokukikumab

あり

なし

データ

データ

転帰


共変量は治療に影響しないはず

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

RCT

R

未知の因子

二群間の共変量は一致している

未知の因子を含め全ての共変量が調

整されている

治療Yokukikumab

RCT で因果関係が得られるのはなぜだろうか？

Rubin’s causal model「 x が起きた世界での y 」と「 x が起きなかった世界での y 」の差分が因果効果である。

因果効果とは独立変数単独の効果である。

Donald Rubin (b 1943)

Rubin’s causal model

ありデータ

転帰治療

Yokukikumab


ありデータ

介入ありの場合の転帰

データ

介入なしの場合の転帰

治療Yokukikumab


ありデータ


データ


この差を介入の因果効果と定義した

治療Yokukikumab

高速道路

RQ: 高速道路を使ったら目的地に早く着けるか？

一般道路

同じ人、同じ車が同時に両方を通れば因果効果を求めることができる。


ありデータ


データ



治療Yokukikumab


ありデータ


欠損値



しかし差が求められない

事実　反事実

治療Yokukikumab


ありデータ


欠損値


実際に求まるのは上記の差だが…

なし欠損値データ

治療Yokukikumab


ありデータ


欠損値


実際に求まるのは上記の差だが…

介入以外の独立変数も違う別世界


年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

未知の因子

治療選択は共変量に影響される

治療Yokukikumab

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

R

未知の因子

データ


欠損値


欠損値データ

Rubin’s causal modelRCT の場合

治療Yokukikumab

あり

なし

Yokukikumab

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

R

未知の因子

サンプルサイズが十分に大きければ、二群は集団として同一と見なせ

る。

未知の因子を含め全ての共変量が調

整されている

データ


欠損値


欠損値データ

Rubin’s causal modelRCT の場合

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

R

未知の因子

データ


欠損値


欠損値データ


実際に求まる上記の差が、同一集団の単一独立変数の因果効果と見なせ

る。同一集団と見なせる

RCT の場合

相互に代入可

治療Yokukikumab


ありデータ


欠損値



年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

未知の因子

PSM の場合

治療Yokukikumab


ありデータ


欠損値



58 歳

女性

対象患者

中等症

ADL 自立

待機的

健康保険

2014 年

大学病院

…

未知の因子

PSM の場合

90％

10％

治療Yokukikumab


ありデータ


欠損値



76 歳

男性

対象患者

重症

伝い歩き

待機的

無保険

2008 年

一般病院

…

未知の因子

PSM の場合

10％

90％

治療Yokukikumab


ありデータ


欠損値



76 歳

男性

対象患者

重症

伝い歩き

待機的

無保険

2008 年

一般病院

…

未知の因子

PSM の場合

10％

90％

この確率を背景因子から計算したものが PS

治療Yokukikumab

Propensity score の計算

単なるロジスティック回帰です。介入決定以前の背景因子が独立変数介入の有無が目的変数pが propensity score

1例ごとに propensity score が求まるPropensity score とは介入を行う確率値域は 0-1

Propensity score の計算リウマチ症例

Yokukikumab を投与された

Propensity score の計算リウマチ症例

Yokukikumab を投与されたYokukikumab を投与されなかった

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

P

未知の因子

データ


欠損値


欠損値データ

Rubin’s causal modelPSM の場合

0.501

0.499

治療Yokukikumab

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

P

未知の因子

データ


欠損値


欠損値データ


0.501

0.499

PSが近い値で、介入有り無しのペアを抽出

治療Yokukikumab

Propensity score matchingリウマチ症例

Yokukikumab を投与されたYokukikumab を投与されなかった

Propensity score matchingリウマチ症例

Yokukikumab を投与されたYokukikumab を投与されなかったPS の近いペア

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

P

未知の因子

データ


欠損値


欠損値データ


マッチされなかった対象

個々のペアごとに同一サンプルサイズが増えればさらに

既知の共変量は調整されている。おそらく未知の共変量も…

治療Yokukikumab

あり

なし

年齢

性別

対象患者

重症度

ADL

緊急度

経済状況

治療時期

医療機関

…

P

未知の因子

データ


欠損値


欠損値データ


マッチされなかった対象

実際に求まる上記の差が、同一集団の単一独立変数の因果効果と見なせ

る。同一集団と見なせる

治療Yokukikumab

相互に代入可

実際にやってみましょう

• 配布した “ PSM1.R” をエディタで開いて下さい• 中身は R の関数を記述したテキストファイルで

す。• 丸ごと R のコンソールに貼り付け、リターンを押して実行して下さい。

• 宜保光一郎先生と吉田和樹先生に感謝！

http://goo.gl/W5wfqR

• “lalonde” dataset を使っています。• 教育効果（介入）の年収（転帰）に対する因果

関係を調べてみましょう。• 12 変数からなる 445例の観察研究です。

– 背景因子 8 変数– 治療 1 変数– 転帰 3 変数

• 欠損値の無い完全データです。


変数表独立変数 (Propensity score の構成変数 )

age 年齢educ 教育年数black 黒人hisp ヒスパニックmarried 既婚者nodegr 高校卒業re74 1974 年の年収re75 1975 年の年収

介入 (Propensity score の目的変数 )

treat 教育プログラムの有無目的変数

re78 1978 年の年収


Before PSM

Stratified by treat 0 1 p test n 260 185 age (mean (sd)) 25.05 (7.06) 25.82 (7.16) 0.265 educ (mean (sd)) 10.09 (1.61) 10.35 (2.01) 0.135 black (mean (sd)) 0.83 (0.38) 0.84 (0.36) 0.649 hisp (mean (sd)) 0.11 (0.31) 0.06 (0.24) 0.076 married (mean (sd)) 0.15 (0.36) 0.19 (0.39) 0.327 nodegr (mean (sd)) 0.83 (0.37) 0.71 (0.46) 0.001 re74 (mean (sd)) 2107.03 (5687.91) 2095.57 (4886.62) 0.982 re75 (mean (sd)) 1266.91 (3102.98) 1532.06 (3219.25) 0.382 re78 (mean (sd)) 4554.80 (5483.84) 6349.15 (7867.40) 0.005 u74 (mean (sd)) 0.75 (0.43) 0.71 (0.46) 0.326 u75 (mean (sd)) 0.68 (0.47) 0.60 (0.49) 0.065

After PSM

Stratified by treat 0 1 p test n 150 150 age (mean (sd)) 25.41 (6.86) 25.48 (7.29) 0.929 educ (mean (sd)) 10.11 (1.67) 10.29 (1.77) 0.349 black (mean (sd)) 0.87 (0.33) 0.87 (0.34) 0.864 hisp (mean (sd)) 0.05 (0.23) 0.06 (0.24) 0.804 married (mean (sd)) 0.18 (0.39) 0.16 (0.37) 0.646 nodegr (mean (sd)) 0.81 (0.40) 0.77 (0.42) 0.399 re74 (mean (sd)) 1821.88 (4792.12) 1517.04 (4370.13) 0.565 re75 (mean (sd)) 1329.82 (3350.84) 914.13 (1943.45) 0.190 re78 (mean (sd)) 4064.76 (4568.86) 6149.53 (7960.04) 0.006 u74 (mean (sd)) 0.76 (0.43) 0.78 (0.42) 0.682 u75 (mean (sd)) 0.68 (0.47) 0.68 (0.47) 1.000

Propensity score matching利点

• 背景因子調整に優れる。• 因果関係を言うことができる。• 後ろ向き解析で最良の方法のひとつ。• RCT と比べて、

– ランダム化が不可能な解析も可能。– 低コスト。– 厳格な倫理審査が不要。

Propensity score matching欠点

• 多くは後ろ向き解析。• サンプルサイズの計算が困難。• PS の構成変数を決める標準的な手法は確立していな

い。• 介入前の背景因子が PS を構成するため、計算困難な場

合がある。• 未知の背景因子は十分に調整できない。• マッチングできなかった対象を除外するため、

– 検出力が低下する。– PS の重なり合いが少ない介入の解析は困難。

• 欠損値に脆弱で更に検出力が低下する。

傾向スコアマッチと多重補完法の解説 その１

Healthcare

傾向スコアマッチと多重補完法の解説その１