analysis of clinical trials using sas　勉強用 isseing333

1

東京大学医学系研究科・疫学教室

倉橋一成

東京大学医学系研究科倉橋一成

2

SAS社のHP◦ http://support.sas.com/companionsites

サンプルコード、マクロ◦ http://ftp.sas.com/samples/A59390


http://support.sas.com/companionsites�

http://ftp.sas.com/samples/A59390�

3

1.1 Introduction 1.2 Continuous Endpoints 1.3 Categorical Endpoints 1.4 Time-to-Event Endpoints 1.5 Tests for Qualitative Interactions


4東京大学医学系研究科

倉橋一成


倉橋一成

12

Large-strata asymptotics：層が大きい（ロジット補正、Breslow-Dayなど）

Sparse-data asymptotics：層が多い（CMH）◦ 2つの基準値が5を超えているとCMH検定量はχ2分布で近似できる（Mantel, 1980, AJE）

Proc multtestで層別CA並べ替え検定も可能◦ Fisher正確検定の簡易版で傾向性も考慮

◦ 並べ替えは多変量超幾何分布を利用


13

CMH◦ Proc freq table / cmh

層別CA並べ替え検定◦ Proc multtest class explanatory strata stratum test ca(outcome / permutation=) Permutationオプションより小さい層で並べ替え

オプションが無いと連続補正した正規近似

観測値が数千あっても並べ替え検定できる

lowertailedオプションで片側検定


14

CMHの重みは層間のオッズ比が均一のとき最適（Radhakrishna, 1965, Biometrics）◦ どの指標が均一かはデータを入手するまで不明◦ 最悪の状況で検出力の損失が最小になる方法

Minimum risk tests（Mehrotra, 2000, Stat Med）◦ MSEを最小にする重み◦ 重みをpとnから計算◦ 点推定値、検定統計量を計算オッズ比が均一でない：MRはSSIZEより有効

SSIZEは漸近的にCMHに等しい

リスク比が均一でない：MRはINVARより有効◦ Nj>10のとき正規近似できる◦ 均一性に関してa prioriな情報しかない際に有用◦ マクロ内でIMLを利用して計算◦ %MinRisk


15

共変量は連続変数でも良い◦ Randomization-Basedはカテゴリ変数のみ

ロジスティックモデルに基づく漸近最尤推定◦ Proc logistic 主効果のワルド検定、パラメタの最尤推定、オッズ比

層を調整したワルド検定はCMH（1.3.1）と近い値 SparseでなければCMHはロジスティックモデルでのスコア検定に近似し、スコア検定はワルド

検定に近似する（Day, 1979, Biometrics） class / param=glm：ダミー変数のパラメタをGLM流にする model / clodds=pl：プロファイル尤度での信頼区間

オッズ比が1に近くない場合でも安定している（Agresti, 2002, Wily）◦ Proc genmod model / type3：Type3流の尤度比検定統計量

ワルド検定統計量よりも検出力、安定性の面で有用（Agresti, 2002, Wily） Proc logisticでも計算できる

尤度比が出るから、共変量を入れたり消したりしたときの尤度比を引けば良い


16

十分統計量での条件付最尤推定◦ 正確な推定、検定、信頼区間が可能（Agresti, 2002, Wily）◦ Proc logistic class / param=reference exact / estimate=odds 正確なオッズ比、信頼区間を計算

スコア、確率法共にCA並べ替え正確検定と同じP値オッズ比の点推定はCMHとロジット補正の中間

オッズ比の信頼区間はCMHとロジット補正より広い

SAS V9からは層別条件付推定ができる


17

層別カテゴリカル結果変数の解析◦ 今回は2値のみだったが多値でも解析可能

Randomization-based◦ リスク差、リスク比、オッズ比◦ Proc freqでリスク比とオッズ比のCMH、ロジット補正推定が可能◦ %MinRiskマクロ（Appendix）

Model-based◦ Proc losisticでワルド検定、オッズ比の点推定、ワルドとプロファイル尤度信頼区間、尤度比検定（手計算）

Sparseな場合は注意◦ リスク比、オッズ比のCMH推定はかなり頑健


18

イベントデータの層別解析 Randomization-based◦ 層別ウィルコクソン、層別ログランク（Proc lifetest）

Model-based◦ Cox回帰（Proc phreg）

変量効果はAnderson, 1999, Stat MedかYamaguchi, 1999, Stat Med

シミュレーションデータ◦ ワイブル分布から生存時間を発生（rand関数）◦ Proc lifetest：KM曲線を描くためのデータセット作成◦ Proc gplot anno=：図中に文字を入れる


19

Proc lifetest◦ ノンパラメトリックログランク検定

2群：Mantel, 1966, Cancer Chemo Reports 多群：Peto, 1972, JRSS A 比例ハザード性が成立しているとき最強力

ウィルコクソン検定 2群：Gehan, 1965, Biometrika 多群：Breslow, 1970, Biometrika 比例ハザード性が不成立のときログランク検定より強力早い時点で多くのイベントが発生したときは注意（Prentice, 1979, Biometrics）

Tarone-Ware検定（Tarone, 1977, Biometrika）、Harrington-Fleming検定（Harrington, 1982, Biometrika）重みが異なるログランク検定やウィルコクソン検定より頑健

◦ パラメトリック尤度比検定

一般化linear rank test（Hajek, 1967, Academic press）


20

治療群、非治療群の分布間の距離を規定する重みが異なる◦ ログランク：dL=Σk(d1k-e1k) d：k時点のイベント数（治療群） e：帰無仮説の下での期待イベント数（治療群）時点に関して均等な重み

◦ ウィルコクソン：dW=Σknk(d1k-e1k) n：リスクセット（両群）初めのイベントほど重みが大きい対象者が少なくなると精度が落ちるため

◦ Tarone-Ware：dTW=Σknk1/2(d1k-e1k)

ログランク（n0）とウィルコクソン（n1）の中間◦ Harrington-Fleming：dHF=ΣkSk

ρ(d1k-e1k) S：併合KM推定 ρ：重みが個人のイベント時間にどの程度寄与するか

0：ログランク検定と同値、1：ウィルコクソンタイプ


21

Proc lifetest◦ サブグループ解析 strata explanatory

ログランク、ウィルコクソン、尤度比検定を行う

尤度比検定は指数分布を仮定しているため注意

Randomization-based test explanatory

ログランク、ウィルコクソン検定を行う

タイデータがある場合はstrataとtestの結果は異なる

Model-basedに近い

Cox回帰の結果と同等

strata / test=(tarone fleming(ρ))：SAS V9で可能

◦ 層別解析ログランク、ウィルコクソン共に以下の式で検定

u=(Σjdj)2/Σjsj2～χ1

2分布

d：層毎の距離、s2：層毎の層内分散

test explanatory strata stratum

ベースラインリスクを調整した検定

%LinRankでTarone-Ware、 Harrington-Flemingの層別解析も可能（Cantor, 1997, SAS）


22

Proc lifereg◦ パラメトリックモデル（Allison,1995, SAS）

Proc phreg◦ セミパラメトリックモデル Cox回帰（Cox, 1972, JRSS B, 187-）比例ハザードモデル

hik(t)=h0(t)exp{XikTβi}

i：治療群、k：対象者、h0：ベースラインハザード

パラメタ（β）を部分尤度を最大化することで推定

部分尤度にはh0が含まれない

後に部分尤度推定量の一致性、漸近正規性が示される（Tsiatis, 1981, Annals of Stat）

◦ 層別解析、discrete-timeモデル、時間依存性共変量など可能時間依存性共変量の例（Allison, 1995, SAS）


23

◦ 層別解析 strata stratum class

SAS V8には無いためダミー変数が必要 SAS V9のtphregにはある

3種の検定の結果が表示スコア検定タイデータが無ければログランク検定と等しい

あった場合もデフォルトの修正方法であれば等しい（Collet, 1994, Chapman and Hall）比例ハザード性が不成立でも頑健ハザード関数が交わっていると効率はかなり落ちる

model / risklimits ハザード比の最大部分尤度推定値、信頼区間 Proc lifetestでは効果の推定は不可能

baseline out= 生存曲線のアウトプット形は群毎で異なるがハザード比は全群で等しい

比例ハザード性の確認図によって確認する（Allison, 1995, SAS; proc lifetest）


24

◦ タイデータの解析時間が離散である場合に起こる

打ち切りは同時に起きてもタイにはならない

部分尤度の導出や推論が困難正確な部分尤度ではなく近似部分尤度を利用する

可能性のある全順序の平均を尤度関数とする（Breslow, 1974, Biometrics）

Proc phregのデフォルトはBreslow法

タイの数が多いとパラメタに0の方向へバイアスが入る

修正版

model / ties=efron（Efron, 1977, JASA） model / ties=exact（Kalbfleisch, 1973, Biometrika）


25

Randomization-based◦ Proc lifetest 治療群での生存関数の比較など単純な推測のみ

ログランク検定：比例ハザード性が成立しているとき最強力ウィルコクソン検定：生存者が少ない場合の試験終了間際のイベントには感度が低い Tarone-Ware、Harrington-Fleming法：多くの仮説に対して頑健

time-to-eventデータは複雑な性質であるため、シミュレーションで検出力を推定するのも良い

Model-based◦ Proc phreg Cox比例ハザードモデルのような回帰モデルを利用

部分尤度による推測ベースラインハザードは除去され、これを指定をしなくても推定可能パラメタの推定はイベントの順位でノンパラメトリックに行うので頑健

層別、時間依存性共変量、タイデータの補正などが可能連続変数、カテゴリカル変数の効果を確認可能比例ハザード性が崩れていても頑健だが検出力の低下は起こる

strataステートメントで層別を行い層毎の比例ハザード性を適用する


26

治療効果の不均一性は多くの出版物やガイドラインで強調されている◦ ICH E9 3.2 図示したり交互作用の検定を行うなどして施設間の不均一性を確認するべき

いくつかの層で逆の効果が観察されても、それが真の治療効果であるとは限らない◦ 層が多くあれば偶然逆の効果が観察される可能性が高くなる（Senn, 1997,

Wiley） 10個層があれば80%を超える

交互作用の定義◦ 量的交互作用治療効果の程度は変わるが方向は変わらない自然なばらつきによって起こるものであり極端な場合は質的に変わることも

◦ 質的交互作用真の治療効果の方向が変わる crossover交互作用とも呼ばれる？ Gail-Simon検定（Gail, 19985, Biometrics）、Pushuback検定（Ciminera, 1993, Stat Med）


27

多変量仮説の象限（orthant）を考える◦ 正の象限：真の治療効果が全て正◦ 負の象限：真の治療効果が全て負

P=Σi=1m-1(1-Fi(Q))Bini,m-1(0.5)

◦ Fi()：χi2の累積確率

◦ Q=min(Q+,Q-) Q+=Σi=1

m(di2/si

2)I(di>0) di：真の治療効果δiの推定値、si：標準誤差

推定値が正の集合と負の集合の小さい方

◦ Bini,m-1(0.5) 自由度がiになる確率真の治療効果が正または負である個数の確率

◦ 自由度がiになる確率にそのときのP値をかけて合計する質的交互作用がないという帰無仮説での尤度比P値

％GailSimon◦ 片側帰無仮説：「全て正」、「全て負」◦ 両側帰無仮説：「全て正または全て負」、「交互作用はない」確率の交互作用の場合はBreslow-Day検定よりも保守的になる

帰無仮説：オッズ比は均一


28

pushback検定の手順◦ τi=(di-m)/si メディアン標準化を行う

◦ ρi=τ(i)-ti τiを並べ替えた値からpushback標準化を行った値を引く

正規分布を利用：最も検出力が高い

t分布を利用：最も検出力が低い

ρiの符号がτ(i)と異なる場合はρi =0とする

◦ di*=siρi+m メディアン標準化を戻す di*が質的交互作用の度合いを示す

符号が異なる群があれば帰無仮説を棄却することと同値

%Pushback◦ 層の数が多くなると正規分布とt分布を利用した場合の違いが大きい

Gail-Simon検定との比較◦ 検出力は低いが感度は高い？（Ciminera, 1993, Stat Med）◦ hamd17の例 Geil-Simon検定：-4.09まで検出 pushback：-1.85（正規分布）、-3.7（t分布）まで検出


29

Gail-Simon検定◦ 確定的な場合に有用

pushback検定◦ 探索的な場合に有用

交互作用の見つかった施設を除いた解析を正当化することは難しいが、感度解析を行う際の設定や結果の解釈には役に立つ


30

2.1 Introduction 2.2 Single-Step Tests 2.3 Closed Testing Methods 2.4 Fixed-Sequence Testing Methods 2.5 Resampling-Based Testing Methods 2.6 Testing Procedures for Multiple Endpoints 2.7 Gatekeeping Strategies


31

全体のType I errorを制御する必要◦ 審査側が効果の無い薬剤を承認してしまう European Committee for Proprietary Medicinal Products（CPMP）

単一のプライマリエンドポイントを用いた調整無しのType I errorが必要

プライマリエンドポイントについてあらかじめ定められた帰無仮説に対して適切な解析ストラテジーが必要であり、暫定的な解析は不必要

ICH E9 多重性についてはプロトコルで特定しておくべきであり、調整方法も詳しく記載するべきである

臨床試験での多重性1. 治療群の多重性

Phase IIの多くではいくつかの用量での有効性と安全性を確認2. プライマリエンドポイントの多重性

有効性と安全性についていくつかの側面から評価する例：心血管薬（全因性死亡、非致死性心筋梗塞、難治性狭心症の緊急血管再生術）

3. セカンダリ解析の多重性セカンダリ解析やサブグループ解析で調整することはまれであった近年はプライマリ解析を含めて階層化し、調整することが強調されてきている


32

weak and strong control◦ 統計家が何十億という仮説に答えなくてはならない中でどのように帰無仮説族を構成すれば良いのか？帰無仮説族は試験レベルで考えれば良い trialwise error rate

◦ 帰無仮説：μP=μL= μM= μH（global null hypothesis） F検定

weak control 全帰無仮説が真であるときに誤って棄却する確率のみ制御

Dunnettの方法（1955, JASA） strong control

どの帰無仮説が真であっても制御している

false discovery rate（Benjamini, 1995, JRSS B） strong controlよりも甘い

帰無仮説が多い場合に有用

安全性の試験での利用が提案されている（Mehrotra, 2004, Statistical Methods in Medical Research）ベイズ流の調整（Gonen, 2003, Biometrics, 76-）

marginal p-value?（Chi, 1998, Drug Information Journal）


33

Single-step◦ 個々の仮説を独立に検定する◦ 仮説の順序があまり重要でない場合

Stepwise◦ 検定を逐次的に行う◦ familywise error rate（FWER）を増加することなく、多くの帰無仮説を棄却することができる点が利点

表記◦ global null hypothesis（包括的帰無仮説）：｛｝、HG◦ 順序p値：p()

調整p値が有意水準以下であれば帰無仮説を棄却する◦ Westfall（1993, Wily）の定義に従う


34

Bonferroni and Sidak◦ Proc multtest（bonferroni、sidakオプション） Bonferroni p=mp strong control

Sidak p=1-(1-p)m FWERを保てるのは検定統計量が次のような状況互いに独立又は多変量正規分布（Sidak, 1967, JASA） t分布や他の分布（Holland, 1987, Biometrics）

◦ 帰無仮説が一つでも棄却されればHGも棄却 HGに関しては閉手順の方が性能は良い

◦ 検定統計量に相関がある場合はかなり保守的になる◦ Bonferroni法よりも一様に有効なsingle-step検定は無い（Hommel,

1983, Biometrical Journal）


35

Sims法◦ HGの検定のみに利用可能個別の帰無仮説に対する推論にも拡張可能（2.3）

◦ Ruger法に近い（Ruger, 1978, Metrika（ドイツ）） strong controlされているが検定に一つのp値しか利用していないのが問題

◦ pSIM=m*min(p(1)/1,p(2)/2,…,p(m)/m) PB=mp(1)であるから一様にBonferroni法より強力

◦ Simes法は有意水準を保っていない（Hommel, 1983, Biometrical Journal） (1+1/2+…+1/m)*α m=2のとき1.5α、m=4のとき2.08α

◦ p値が独立な場合はαエラーの増加量が最大検定統計量が多変量正規分布に従う場合、相関係数が大きくなるとαエラーが減少

する（Simes, 1986, Biometrika）負の相関の正規分布である場合は名目上の値に近い（Hochberg, 1995, Journals of

Statistical Planning and Inference）同時分布が正の関係である場合はαエラーを保つ（Sarkar, 1997, JASA）

正規分布の仮定の下でいくつかの治療群を比較する場合など


36

Single-step法は帰無仮説を個別に検定し、順序はあまり重要でない◦ Bonferroni 如何なる状況でもstrong controlしているが保守的である Bonferroniよりも一様に強力なsingle-step法はない p値の同時分布に仮定を加えればより強力な補正は可能

◦ Sidak Bonferroniよりも一様に強力？検定統計量が独立であるか多変量正規分布に従う場合にFWERを制御する

◦ Sims HGの検定のみに利用可能 HGの検定に限りBonferroniよりも強力検定統計量が独立であるか正に相関している場合に名義水準を保つ

Proc glm, Proc mixedでも可能


37

閉検定はMarcus（1976, Biometrika）によって定式化された◦ 全ての多重性の調整方法は閉検定を利用したものであるか、又はこれを再構築したもの（Liu, 1996, JRSS B）

様々な状況での検定を構築可能◦ 多変量エンドポイントや検定を繰り返す状況（Bauer, 1991, Stat

Med）◦ 容量反応性などの状況（Rom, 1994, Stat Med）◦ 多群比較や多サブグループの比較（Koch, 1996, Drug Information

Journal; Chi, 1998, Drug Information Journal）不可能ではないが同時信頼区間の構成が困難交差仮説（intersection仮説）のimplication関係を図で表現することが多い

FWERをstrong controlしている


38

implication relationships


HLMH

HLM

HL

HLH HMH

HM HH

{HL, HM, HH} implies {HL, HM} implies {HL}

39

閉検定手順◦ 適切なα水準で閉仮説族を検定する

水準さえ守っていればどのような検定でも良い

検定統計量が独立な場合の包括的F検定や、そうでない場合の包括的Bonferroni検定など

◦ ある仮説を棄却するには、その仮説をimplyする仮説を全て棄却しなくてはならない

ある交差仮説が採択された場合は、その仮説がimplyしている仮説は全て採択される


40

Holm法（1979, Scandinavian J of Stat）◦ pHolm=max(p1*,…,pi*) pi*=(m-i+1)pi

包括的Bonferroni法による閉検定手順と同値

PB=mpであるからBonferroni法より強力

Bonferroni法以上の帰無仮説が棄却される

P値の小さい仮説から順番に行う

step-down法

◦ 閉仮説族の各仮説に対してα水準の検定が可能全体のType I errorをstrong controlできる

◦ proc multtest stepbon


41

多くの仮説を検定する場合はstepwise法のプログラムを行う余裕が無いことがある

decision matrix algorithmが有効（Dmitrienko, 2003, Stat Med, 2387-）◦ Decision matrixの対応する列の最大p値が、その帰無仮説の調整p値◦ imlで計算指示行列を作成数学のテクニックを使ってる？

floor関数：底関数

調整p値を作成 loc関数：0でない値が格納されている場所を与える


42

Shaffer（1986, JASA）◦ 帰無仮説が互いに関連していることを仮定ある帰無仮説が棄却されると他の帰無仮説も棄却される

多くの対比較を行う場合に有用用量発見試験など

Hommel（1986, Metrika; 1988, Biometrika）◦ Sims法に基づいた閉検定手順 Holm法以上の帰無仮説を棄却する

Sims法と同様の性質を持つ検定統計量が独立であるか正に相関している場合にFWERを保つ（Sarkar, 1997,

JASA）生のp値が全て有意な場合は全ての帰無仮説が棄却される

◦ Proc multtest hommel Decision matrix法と同じ結果になる


43

Hochberg（1988, Biometrika）◦ p値の大きい仮説からHolm法と同じ検定を行う step-up法

◦ Holm法で棄却された仮説は棄却される◦ Hommel法よりは一様に強力でない（Hommel, 1989, Biometrika）◦ 個別のp値が独立な場合はFWERを保つ◦ Proc multtest hochberg

検出力の比較◦ Hommel, Hochberg, Holm & Sidak, Bonferroniの順 Sims法に基づくHommelと、Sims法に関係するHochbergはFWERに注意

◦ 正規分布の仮定の下で多群比較を行った場合のHommel法とHolm法の比較（Dunnett, 1992, JASA）

◦ FWERの観点からは修正Hocgberg法（Hochberg, 1990, Stat Med）が良い（Brown, 1997, Stat Med）

◦ Hocherg法とHommel法はエンドポイントが多く相関係数が高くなると、FWERが小さくなる（Sankoh, 1997, Stat Med） 3次元だと0.04、10次元だと0.03（相関係数は0.9）


44

Holm法◦ Bonferroni法を利用しているので如何なる場合でもFWERを保つ◦ Bonferroni法よりも一様に強力◦ step-down法

Hochberg法◦ step-up法◦ Holm法より強力だがFWERはSims法と同じ性質

Hommel法◦ Sims法を利用している◦ Holm法、Hochberg法より一様に強力◦ FWERはSims法と同じ性質◦ Hochberg法より如何なる場合でも性質が良い


45

得られたp値の順番で検定するのではなく、あらかじめ仮説の順番を決めておく◦ 間違った帰無仮説が後の方になってしまい、誤って採択してしまう危険性もある

閉検定手順の性質から、以前の検定が棄却されていれば次の検定のFWERは調整しなくても良い◦ 順序は上（前）からか下（後）からの2通り


46

治療効果発現の時期や期間を確認するための経時データの解析などは順番が固定

アレルギー物質による喘息データ（allergen-induced asthma trial）◦ 気管支拡張剤の試験◦ 10人試験薬、10人プラセボ◦ allergen-induced asthmaモデル（Taylor, 1991, Lancet）アレルギー物質を吸入したか調査

◦ スパイロメトリーを使ってFEV1を測定 1時間までは毎15分、その後1時間おきに3時間まで測定

◦ FEV1曲線に臨床的、統計的な差がつく最初の時点が重要順序を固定して検定をするべき

閉検定手順の考え方から、個々の検定は調整する必要ない step-down法：0時点が有意でないのでストップ

step-up法：3、2、1時点が有意

1時間後から有意な差がついていると解釈可能

単調性の仮定が成立している場合に性能が良い◦ 時間に関して単調に変化

最小有効用量（MED)を求める場合も適している（Hsu, 1999, JASA）経時データの解析も参考（Littell, 1996, SAS）


47

順序を固定している場合はstepwise法を用いて簡単に同時信頼区間を計算できる（Hsu, 1999, JASA）◦ step-down方式で行い、最初に採択された仮説より後の下側信頼限界をδ（臨床的な最小値）とする

◦ 最初に採択された仮説はその時点の下側信頼限界値

◦ 全ての仮説が棄却された場合は全時点の下側限界値で最小の値が、全時点の下側限界値となる

H1 H2 HL Hn…… ……

検定の順序

最初に採択

下側信頼区間の計算

下側信頼区間は無い


48

順序固定検定は帰無仮説が自然な順番になっている場合に有用

多重性の補正をすることなく検定できる

以前の仮説が全て棄却されている場合のみ次の仮説を検定する

エンドポイントの変化が検定の順序に対して単調な場合に有用

同時信頼区間の構成もHsu-Berger法によって可能


49

p*=Prob{min(P1,…,Pm)<=p}◦ Westfall（1989, JASA）の定義

◦ P：m帰無仮説が同時に正しい場合のp値の分布からの観測値

◦ m観測値の最小値がp以下になる確率を補正p値（p*）とする

subset pivotality conditionの下でstrong controlする

Bonferroni法やSidak法より強力◦ 経験相関を考慮しているため

p*を利用したHolm流のstep-down法も提案（Westfall, 1993, Wily）


50

Bootstrap Resampling◦ ブートストラップ（Efron, 1979, Annals of Stat）を利用してp値の同時分布を推定する分布の推定自体は行わずブートストラップサンプルから得られたp値を利用する

ブートストラップによって得られた補正p値をideal bootstrap estimateと呼ぶ

観測数nに関して指数的に計算時間が増大するためモンテカルロ法で近似することもある

潰瘍性大腸炎の試験（ulcerative colitis trial）◦ 用量発見試験（プラセボvs3群）◦ 各群12人◦ プライマリエンドポイント：15ヵ所の内視鏡スコアの減少正規分布には従わないがproc multtesstのlocation shiftモデルで解析

t検定で良い


51

t検定による3つのp値をモンテカルロ法の近似で補正◦ εmn=ymn-Σny m：治療群（0～3）、n：対象者（1～12）

◦ ブートストラップサンプルを治療群にランダムに割り付ける

帰無仮説は治療群に差が無いことを仮定

◦ t検定で3つのp値を算出

◦ 以上を繰り返しmin(p1*,p2*,p3*)がp1以下になる割合を求める

真の補正p値のモンテカルロ近似

proc multtest bootstrap stepboot seed= n= （single-step法とstepwise法）◦ class explanatory◦ test mean(outcome)◦ contrast “name” hypothesis contrastステートメントの仮説を調整する

◦ stepwise法の方が強力

◦ FWERをstrong controlする


52

proc multtest permutation stepperm◦ リサンプリング法の結果はモンテカルロ近似に依存する

◦ 並べ替え検定の方が正確でブートストラップ法より保守的（Westfall, 1993, Wily）

◦ 結果変数が連続値の場合は結果が近いが2値の場合は異なる

Subset Pivotality Condition◦ リサンプリング法の推論を行う際の概念（Westfall, 1993, Wily）帰無仮説（H1,…,Hm）を2つの集合に分ける

どのような分け方をしても集合1と集合2が独立なとき成立集合2の仮説が真であっても偽であっても集合1には影響しない

◦ 2値データの場合は成立しない

正規変数では平均値が異なり分散が均一な状況はある

2値変数では確率が等しい場合のみ分散が均一（heteroscedastic nature） 2値変数に対するFisher正確検定による並べ替え検定が正しくない結果となった

（Westfall, 1999, SAS）


53

◦ heteroscedasticを解消するために分散安定化変換を行う test ft(outcome/lower) arcsine変換を行うFreeman-Tukey検定

Fisher正確検定よりFWERを保守する test fisher(outcome/lower) 例：補正p値の方が小さくなっている

◦ Westfall（2000, SAS）に詳しい記述

2.5.1 Summary◦ リサンプリングによる多重性の調整（Westfall, 1989, JASA）◦ stepwise法のように単純で強力なため臨床試験で多用される stepwise法：p値を直接補正

リサンプリング法：生データをリサンプリングしてp値を再計算


54

有効性や安全性のための多重コプライマリエンドポイント◦ 疾病の病因が複雑な場合は単一のエンドポイントで有効性を示すことは難しい（Huque, 1997, J of Biopharmaceutical Stat）潰瘍性大腸炎

全身性エリテマトーデス、SLE（Seigel, 1999, Lupus）

パラメトリック、リサンプリング法を利用した検定


55

表記◦ i：治療群（1,…,g）、j：対象者（1,…,ni）、k：エンドポイント（1,…,m）

◦ Xijk～N(μik、σk2)、R：分散共分散行列

分散共分散は治療群を通して等しく平均値のみ異なる

個々のエンドポイントを結合して有効性を示す◦ 改善方向への片側検定

ホテリングのT2検定は方向が無い（両側）検定なので臨床試験には適さない

臨床的に重要な方向へのホテリング型の検定が必要


56

Tests Based on Marginal p-Values◦ 周辺p値を利用した検定は仮説間の関連を考慮してない Bonferroni法やHolm法など

かなり保守的多重エンドポイントは生物学的に関連性があり相関も高い

1つのエンドポイントのみ効果がある場合、Bonferroni法が最も強力だった（Pocock, 1987, Biometrics）このようは状況は臨床試験では考えにくい

これ以外の状況では検出力が低い

リウマチ性関節炎の試験（Rheumatoid Arthritis Trial）◦ ACR基準米リウマチ協会（American College of Rheumatology）の評価方法連続値を離散値に区切っているので検出力が低下するため、

プライマリエンドポイントは連続値を用いる

7つの尺度のいくつかが20%以上の改善疾患活動性（関節数など）、患者評価、医師評価、炎症バイオマーカー


57

◦ 新薬vsプラセボ、対象者24人◦ プライマリエンドポイント

関節28箇所

number of swollen joints (SJC)：関節腫脹

number of tender joints (TJC)：圧痛関節

100mm visual analog scale (VAS) physician global assessment (PHA)：医師評価

patient global assessment (PTA)：患者評価

◦ 等分散性のt検定では全て有意だがBonfferoni法による補正を行うと有意にはならない

58

Likelihood-Based Tests◦ 正規性の仮定の下で多重エンドポイントを行う場合は尤度比検定を行うが自然（Wassmer, 1999, J of Statistical Planning and Inference; Perlman, 1969, Annals of Mathematical Statistics）式が複雑で特に相関行列が分からないときはさらに複雑

近似式が提案されている（Tang, 1989, Biometrika）データを直行変換する

この近似式でも計算は大変

検定統計量の帰無分布はChi-bar-squared分布となる

P値の基準値を求めるために数値積分が必要

59

Ordinary Least Squares Test （O’Brien, 1984, Biometrics）◦ 個々の検定統計量の重み付き和を利用して包括的帰無仮説を検定する一般的な方法◦ 仮定：各エンドポイントでの効果の大きさが治療群内では等しい

仮定が成立していない場合は検出力が低下する

μi1/σ1=…= μiK/σK

Yijk=(Xijk-mk)/sk i：治療、j：個人、k：エンドポイント

治療群をつぶした平均と標準偏差を用いて、測定値を標準化する

ΣkYijkを用いて分散分析を行う個人毎にエンドポイントの和をとる

検定統計量はFg-1,n-mgに従う

二群比較でt検定流に検定する場合 tOLS=1/√(J’RJ)Σktk

tk：各エンドポイントのt検定統計量（観測値は標準化前）

J：1ベクトル、R：相関行列（J’RJは相関行列の全値の合計）

単純に各エンドポイントのt検定統計量を等しい重みで足したもの

%GlobTest◦ OLS, GLS, MGLS, RS（後述）を実行可能

60

Generalized Least Squares Test （O’Brien, 1984, Biometrics）◦ ΣtΣurtuYijuを用いて分散分析を行う t、u：エンドポイント、r：相関行列の逆行列の成分多重エンドポイントの相関行列の逆行列による重み付け

不均一分散の状況でOLSよりも効率が良い他のエンドポイントと相関が低いエンドポイントの重みが大きい

検定統計量はFg-1,n-mgに従う◦ OLSより検出力は高いが解釈が難しい重みが負になる場合がある（Pocock, 19987, Biometrics; Follmann, 1995, Stat

Med）相関行列の列の合計が負の場合修正OLS（Tang, 1993, Biometrics） Σt√(rtt)Yijt 最小の検出力を最大化する

OLS、GLSの拡張◦ ノンパラ（次項）、二項＆生存時間（Pocock, 1987, Biometrics, 487-）、他の拡張

（Follmann, 1996, JASA; Lauter, 1996, Biometrics）

61

Rank-Sum Test （O’Brien, 1984, Biometrics）◦ エンドポイントが正規分布に従ってない場合のノンパラ検定エンドポイントの次元を減らすという意味でOLSやGLSと同じ

ΣtRijtを用いて分散分析を行う R：エンドポイント内の順位（治療群をプール）

Kruskal-Wallis検定に似ている

Resampling-Based Tests (Westfall, 1999, SAS, 11.3)◦ 2.5節のWestfall-Young法の拡張 proc multtest stepboot

◦ 相関を考慮できている（？）◦ リウマチデータではOLSに比べてp値が大きくなっている効果の大きさが大きいのでOLSの性質が良い

resampling法の検出力が特別低いわけではない

62

包括的検定の目的は全体の効果の確認◦ 個々のエンドポイントの効果はわからない◦ 包括的検定が有意であればスポンサーや審査側はどのエンドポイントに効果があったのかを知りたい

初めから2.2、2.3節の方法（Troendle, 1998, Stat Med）やresampling法を行えば個々の結果が分かる

包括的検定から初めて個々の検定に降りることもできる（Lehmacher, 1991, Biometrics; Westfall, 2000, SAS, 8）

例：リウマチデータで閉検定を行う◦ 4つの帰無仮説で15の閉検定族◦ OLS検定を利用たまたま調整p値と生のp値と等しい効果の大きさが各エンドポイントで同等であったためOLSの性能が良かった OLSのP値が生のp値よりも全て小さかった

63

多重エンドポイントでの多重性の調整◦ Bonfferoniのように周辺p値を用いる方法はエンドポイントの相関を考慮していないので保守的

◦ ordinary least squares (OLS)は個々のエンドポイントを等しい重みで計算し、効果の大きさが等しいときに検出力が高い

◦ generalized least squares (GLS)は相関を考慮した重みで計算し検出力もOLSよりも高いが、相関関係によっては重みが負になり解釈が難しい場合もある

◦ modified GLSは負にならない重みで計算◦ rank-sum testはOLSのノンパラ流の拡張◦ resampling法は確率的な関係を考慮し、包括的検定と個々の検定の両方に利用できる

◦ 個々の検定の推論を行う場合はdecision matrixを用いた閉検定を利用

64

階層仮説である臨床試験の仮説族の検定手順◦ エンドポイントに順序がある場合

これまでの議論はエンドポイントは同等であった

◦ 用量発見研究

仮説族の順序に沿って順番に検定を行う◦ 前の仮説族を“gatekeeper（門番）”と呼ぶ

◦ gatekeeperが開いた（棄却された）場合は次の仮説族に進む

Serial gatekeeping (Bauer, 1998, Stat Med; Westfall, 2001, J of Statistical Planning and Inference)◦ gatekeeperが全て棄却されないと次の仮説族に進めない

閉検定手順に近い

◦ 棄却できない仮説があればその時点で検定手順が終了する

Parallel gatekeeping (Dmitrienko, 2003, Stat Med)◦ gatekeeperのどれか1つでも棄却されると次の仮説族に進める

◦ 下位の仮説族の検出力が高い

Trials with Hierarchically Ordered Endpoints◦ 臨床試験ではエンドポイントをプライマリとセカンダリに分ける

プライマリ：試験全体の効果を決め、審査する際の基盤となる

セカンダリ：全体の効果への寄与が大きい場合もあるかもしれないが、治療利益への十分なエビデンスとはならない（O’Neill, 1997, Controlled Clinical Trials）

◦ CPMPのセカンダリエンドポイントの定義

“Points to consider on multiplicity issues in clinical trials” (2002) Committee for Proprietary Medical Products: 欧州医薬品委員会

新しい審査要求の基盤を生み出し得る変数

追加要求の基盤になり得る変数

エビデンスを支持する変数

◦ セカンダリエンドポイントが新たな要求を生み出した例

うつの試験（Depression Trial: Hamilton, 1967, British J of Clinical Psychology; Faries, 2000, J of Psychiatric Research）◦ プライマリ：HAMD17のベースラインからの平均的な改善 17-item Hamilton Depression Scale 審査側の要求

◦ セカンダリ：HAMD17の反応や減少率追加の審査要求へのエビデンス

◦ FWERをstrong controlするように、プライマリがgatekeeperとなる手順を行う

急性呼吸促進症候群の試験（Acute Respiratory Distress Syndrome (ARDS) Trial）◦ 審査要求（プライマリ）生存日数 28日間の試験期間のうち人工呼吸器を付けていない日数

◦ 追加審査要求（セカンダリ） ICU（intensive care unit）に入っていない日数 QOL

◦ プライマリのうちどれかが有意になっていればセカンダリに進めるような手順を考えるプライマリ族も多重仮説になっているため、うつの例よりも複雑である

Multiple Comparisons in Dose-Finding Trials◦ 用量発見試験でのgatekeeping手順 Serial gatekeeping：Westfall (2001, J of Statistical Planning and Inference) Parallel gatekeeping：Denne (2002, Pharmaceutical Statistics)

◦ 高血圧症の用量発見試験（Dose-Finding Hypertension Trial）降圧薬の4つの用量（D1～D4）をプラセボに対して評価用量の高いD3、D4が最も効果のあると考えられる

D3、D4のうちどちらかが有意になればD1、D2の検定に進む

用量反応性を確認したい

2つの仮説族のうちどちらかが有意になれば用量の組み合わせの検定に進む（D4 vs D1, D4 vs D2, D3 vs D1, D3 vs D2）

3つの仮説族が存在する

高用量、低用量、組み合わせ

前の2つの仮説族がparallelに行われることに注意して、全体のType I errorが増加しないように検定手順を設定する

n個の帰無仮説をm個の仮説族に分類する◦ 仮説族F1,…,Fmはそれぞれni個の帰無仮説を持つ仮説族Fiに属する帰無仮説はHi1,…,Hini n1+…+nm=n P値：P、多重性調整P値：P’

◦ 仮説族内と仮説族間に重みを付ける仮説族内：仮説族内で棄却されやすさが変わる仮説族間：仮説族全体の棄却されやすさが変わる

◦ F1から順に検定し、passすれば次の仮説族に進む passする基準

serial：max(p’i1,…,p’ini)≤α parallel： min(p’i1,…,p’ini)≤α

2種の推量がある？◦ 条件A：仮説族Fiは以下に続く仮説族に依存している◦ 条件B：仮説族Fiは以下に続く仮説族に依存していない臨床試験の文脈ではBの状況の方が理想的しかしBの状況の方が検出力は低い

H11：HAMD17の平均改善H21：HAMD17の反応率H22：HAMD17の減少率

うつの試験

ARDS試験 H11：人工呼吸器を付けていない日数

H12：28日死亡率

H21：ICUに入っていない日数H22：QOL

降圧薬用量発見試験

H11：D4 vs P

H12：D3 vs P

H21：D2 vs P

H22：D1 vs P

H32,H32,H33,H34：

用量の組み合わせ

3種の方法1. ボンフェローニ・ゲートキーピング法（B-G法）

条件Bを満たす

2. 補正ボンフェローニ・ゲートキーピング法（MB-G法）一様にボンフェーローニ・ゲートキーピング法より強力

常に条件Bを満たすわけではない

条件Aは満たすある仮説族は下位の仮説族が棄却されるかどうかに依存する

3. シムズ・ゲートキーピング法（S-G法）補正ボンフェローニ・ゲートキーピング法と似た特徴

%GateKeeper◦ データセットに必要な変数

FAMILY 仮説族の順番

SERIAL 仮説族をserial（1）、parallel（0）に行うか

WEIGHT 仮説族の中での仮説の重み0～1の値で、仮説族内の合計は1

RELIMP 仮説族の重み0だとserial、0～1だとparallelになる？（0は含む、1は含まない）大きいと以下の仮説族が棄却されにくくなる分、その仮説族は棄却されやすくなる

RAW_P 個々の仮説の生のp値◦ アウトプットデータはADJP（補正p値）を追加したデータセットになる

ボンフェローニ・ゲートキーピング法（B-G法）◦ うつの試験帰無仮説

H11：HAMD17の平均値の改善に治療効果が無い（p11） H21：HAMD17の反応率に治療効果が無い（p21） H22：HAMD17の減少率に治療効果が無い（p22）

交差仮説を分かりやすくするため帰無仮説を以下のように書き直す H11→H*100 H21→H*010 H22→H*001

条件Bを仮定しているので交差仮説に対応するp値は上位の仮説のみに影響される p*110=p11（H*110=H11 and H21） p*011=2min(p21, p22)（H*011=H21 and H22）

Decision Matrix（決定行列）を作り、補正p値を計算する p’11=max(p*111, p*110, p*101, p*100)=p11 下位の帰無仮説のp値に依存していないプライマリの検定はセカンダリの検定に依存していない

◦ ARDS試験（急性呼吸促進症候群）

プライマリ仮説族内に重みを付ける

H11：0.9 人工呼吸器を付けていない日数（VFD） H21：0.1 28日全因死亡

プライマリ仮説族はparallelに検定

決定行列の作り方を確認

例１：VFD、28日死亡の両方で有意

例２：VFDは有意、28日死亡はmarginal-P値のみ有意

結果：どちらの例でもプライマリ仮説族は棄却されるためセカンダリ仮説も棄却できる

◦ 高血圧症の用量発見試験（Dose-Finding Hypertension Trial） F1: D4 vs P, D3 vs P F2: D2 vs P, D1 vs P F3: D4 vs D1, D4 vs D2, D3 vs D1, D3 vs D2

D3 vs D4, D1 vs D2はない 8個の帰無仮説があるので決定行列の行数は28-1=255となる手計算より%GateKeeperを使った方が楽

B-G法とHommel閉検定を比較 Hommel閉検定：Sims法を利用した閉検定手順 Sims法：棄却水準をp値の順位で割っていく

結果 F1：両方有意 F2：D2 vs Pが有意 F3：D4 vs D1とD3 vs D1が有意 Hommel閉検定はD4 vs P、 D4 vs D1、D3 vs D1の3仮説のみが有意

Hommel閉検定はボンフェローニ法よりも検出力の高いSims法を利用しているが、ゲートキーピング法によって階層構造を考慮することでB-G法はHommel閉検定よりも効率が高くなっている

補正ボンフェローニ・ゲートキーピング法◦ 条件Aを仮定している P値が小さくなる重みの補正をしないため

検出力が高くなる

プライマリエンドポイントに対する推量はセカンダリエンドポイントに依存し得る？

◦ ARDS試験（急性呼吸促進症候群）例２の場合でも28日死亡が有意になる下記の２箇所以外はボンフェローニ・ゲートキーピング法と全く同じボンフェローニ・ゲートキーピング法：P*1000=P11/0.9、P*0100=P12/0.1 補正ボンフェローニ・ゲートキーピング法：P*1000=P11、P*0100=P12

セカンダリエンドポイントのp値が大きいとプライマリエンドポイントが有意にならなくなる（でもこれはボンフェローニ・ゲートキーピング法でも同じでは？）

ボンフェローニ・ゲートキーピング法での仮説族の重み◦ プライマリ仮説族とセカンダリ仮説族の重みを変えるボンフェローニ・ゲートキーピング法でも検出力が大きくなる

セカンダリ仮説族の検出力と引き換えにしてプライマリ仮設族の検出力を大きくする

パラメータ（RELIMP）を1に近づけるプライマリ仮説族の検出力：増加

セカンダリ仮説族の検出力：減少

条件Bを仮定しているプライマリ仮説族の推量はセカンダリ仮説族に依存しない

◦ ARDS試験（急性呼吸促進症候群）以前の設定：RELIMP=0 RELIMP=0.9などにするとプライマリ仮説族の検出力が大きくなる（P21を0.05にしてみるとH21（セカンダリ）の検出力も若干上がった）

◦ シムズ・ゲートキーピング法（S-G法）

シムズ法はボンフェローニ法よりも一様に検出力が大きいので、S-G法もB-G法より多くの帰無仮説を棄却する一般的に仮説族の数が多くなると、検出力の利益が減ってしまう

（仮説族の数が多いとB-G法の検出力が大きくなると思われる）

条件Aを仮定している

前の帰無仮説族が全て棄却できていなくても、ある仮説を棄却してしまうことがある

生のp値が全て有意である場合は、B-G法とS-G法の結果が異なることが多い S-G法：補正p値も全て有意

B-G法：生p値が特に小さいものだけ有意になりやすい

◦ 高血圧症の用量発見試験（Dose-Finding Hypertension Trial） B-G法とほとんど同じ結果

これまでのゲートキーピング法は検定統計量間の相関を考慮していない◦ 効率を上げるためにも相関を考慮するべき

多重エンドポイント試験や用量発見試験では検定統計量の相関が大きいことが多い

Westfall-Young流の方法を紹介◦ 個々のp値の同時分布を考慮する◦ %ResamGate RESP：生（多重性の補正前）のブートストラップp値のデータセット

RESPデータセットi番目の変数がi番目の仮説に対応する

ブートストラップサンプルはproc multtestを利用すると早く発生できる

（proc surveyselectより早いかな？）

高血圧症の用量発見試験（Dose-Finding Hypertension Trial）◦ 結果：リサンプリングをしない場合とほとんど変わらない

（少しだけ小さくなっている）

閾値に近い場合を除いて、リサンプリングによる改善は小さい（Dmitrienko, 2003, StatMed）

n帰無仮説をm仮説族に分ける◦ 各仮説族にはni個の帰無仮説

生のp値：p、仮説族内の帰無仮説の重み：wi

各仮説族はparallelかserial◦ 最後の仮説族（Fm）は常にserialになる

◦ parallelの仮説族ではriがその仮説族の重要度を示す

これまでの方法を式で表現

serial◦ 仮説族の帰無仮説が全て棄却されないと次の仮説族に進めない

◦ 仮説族の帰無仮説が1つずつであれば2.4節の順序を固定した検定と同等

parallel◦ 仮説族の帰無仮説がどれか1つでも棄却されると次の仮説族に進める

B-G法とMB-G法（ボンフェローニ）◦ MB-G法はB-G法よりも検出力が大きいが下位の仮説族の影響を受ける可能性がある

◦ B-G法で仮説族の重みを利用すれば、下位の仮説族の影響を受けずに上位の仮説の検出力を増大できる

S-G法（シムズ）◦ 下位の仮説族の力を借りているためB-G法、MB-G法の検出力よりも大きい

リサンプリング法◦ Westfall-Youngの方法を利用

◦ 検定統計量間の相関を考慮しているためB-G法やS-G法より検出力が大きい

基本概念単純な調整閉検定手順包括的検定 Gatekeeping

Resampling Westfall-Resampling Westfall-Resampling Westfall-Resampling

Permutation

Sims Hommel※ Sims Sims-Gatekeeping

Hochberg※

Bonferoni Holm※ Bonferoni Bonferoni-GatekeepingModified-Bonferoni

Shaffer※

Sidak

Dunnet

OLSGLSMGLSRank-Sum test

Bonferoni

Likelihood

※閉検定手順のHommelからShafferは上から検出力の高い順に並んでいる

Sims流の検定はBonferoni流の検定より検出力が高いが、Type I errorを保っていないかも

Gatekeepingでは仮説族間の重みを利用したB-G法がお勧めだが、重みの決定が恣意的

4.1 Introduction 4.2 Repeated Significance Tests 4.3 Stochastic Curtailment Tests◦ 中間データモニタリングのレビュー

群逐次検定

Futility （無効性） test 頻度論（conditional power, 条件付検出力）

頻度論とベイジアンの混合（predictive power, 予測検出力）

ベイジアン（predictive probability, 予測確率）

安全性・有効性試験のモニタリングは今日の臨床試験で重要になっている

数理的には連続したモニタリングを考えることはできるが、現実には群逐次モニタリングが適している

新薬の性質についての十分な情報が得られると臨床試験を中止する◦ 新薬が対照薬に比べて優れているか劣っているか

中間解析は次のような理由で行われる（Jennison, 1990, JRSS等）◦ 倫理的要求

患者が害のある治療を受けないようにする責務があるため、試験薬に重大な副作用があれば即座に中止しなくてはならない

死亡のような不可逆なイベントに対して安全性の中間評価を行う

◦ 財政的判断研究や資金を最適に利用するために、特に大きな第II相・第III相試験で、有効性を早期に証明するため

の中間解析を行う

計画した結果に届きそうに無い場合も試験は中止される

◦ 行政上（経営上）の問題全体の結果の見通しを付け、経営・取引の問題決定をするために中間解析を行う

有効性が早期に示されれば薬品の工場生産を増加できるかもしれない

安全性・有効性に関する薬品のさらなる性質を掴むために試験は続行される

逐次中間解析はサンプル固定デザイン（fixed-sample design）と同等の性質を持ちながら、中間解析の平均的なサンプルサイズは大きく減少する

例：群逐次デザインとサンプル固定デザインの比較◦ 検出力80%、両側αエラー5%、標準偏差0.2の状況（Pocock, 1977, Biometrika,

191-; O’Brien, 1979, Biometrics, 549-）◦ 効果の差が0.2で中間解析を半分の時点で1回行う場合、O’Brien法では10%、

Pocock法では15%平均サンプル数が減少◦ 効果の差が0の場合は中間解析を行うと平均サンプル数が増加◦ 中間解析の回数を増やすとこの性質が顕著になる◦ 中間解析の方法が多数提案されている中で、主要な方法は検定を繰り返す方法と区間を繰り返す方法群逐次的に検定を繰り返す（Pocock, O’Brien）

柔軟な逐次モニタリングに拡張できる

区間法は逐次手順を連続に拡張したもの（Wald’s sequential probability test; triangular test; Whitehead, 1983, Biometrics, 227-）群逐次解析に修正可能

◦ 繰り返し検定が現在多く利用されている◦ 正規・二項エンドポイントの紹介生存時間への拡張も可能（Jennison, 2000, Chapman and Hall, Chap13）

同一人物が何度も解析される点が大きく異なる

うつの試験（Depression Trial）◦ 試験開始時と8週時点のHAMD17総得点の平均減少への有効性を評価差が3で標準偏差が8の場合：検出力90%で各群150必要（サンプル固定デザイン）

◦ 対象者が約50%、75%集まった時点で中間解析を行う◦ HAMD17の改善結果は表のようになった

重症敗血症の試験（Severe Sepsis Trial）◦ 28日全因性死亡のプラセボ対照試験死亡割合：プラセボ30%、試験薬24%と仮定差が6%の場合：検出力が80%で各群859必要（サンプル固定デザイン）

◦ 対象者が約20%、66%集まった時点で中間解析を行う初回の中間解析は主に無益性（futility）の確認試験は有効性が確認されたときのみ早期中止される

2回目の中間解析は有効性と無益性の確認

◦ 死亡率は表のような結果となった

overview◦ 4.2節 O’Brien法、Pocock法、Wan-Tsiatis法などを紹介有効性・無益性を評価するためのサンプルサイズ設計や中止境界についての説明柔軟な逐次戦略も紹介（Lan, 1983, Biometrika, 659-）

繰り返し信頼区間

バイアス補正した点推定値

最終解析の信頼区間

◦ 4.3節 stochastic curtailment approachの紹介

条件付検出力（conditional power; 頻度論）

予測検出力（predictive power; ベイズ流と頻度論の混合）

予測確率（predictive probability; ベイズ流）

◦ ここで紹介しているのは“統計的な”確認方法だけ中止を決定するためにはその他も要因も重要

安全性への注意、セカンダリの発見、部分集団への一致性、他の似た試験から得られる結果（Ellenberg, 2002, Wily, Chap8）

“良い推量というものは、p値を計算するだけではなくて、試験中止の意思決定も行う”（DeMets, 1984, Communications in Statistics Part A）

notation◦ m：中間解析の総回数 k：中間解析の回数

◦ N：各群の最大サンプルサイズ n：各群で集積されたサンプル数

◦ i：治療群◦ X：測定変数（Xは1から最大Nまで、連続値か2値）◦ δ：平均値か割合の差◦ s：併合分散◦ Z：検定統計量 Z=√(kn/2s2){(Σj=1

knX1j)/kn-(Σj=1knX2j)/kn}

両側検定の場合は片側検定の境界を対称にする◦ 有効性と無益性の両方を両側検定する場合は、対象な境界線が2セットできる

Group sequential plan for detecting superior efficacy◦ αエラーを制御するように上側境界を定める

◦ 中間解析で計算した検定統計量が境界を上回れば、有効性が証明され試験中止

Group sequential plan for detecting futility◦ βエラーを制御するように下側境界を定める◦ 境界を下回れば、対立仮説が偽であると示唆され試験中止

Group sequential plan for simultaneous efficacy and futility testing◦ 上側、下側境界のどちらかをまたげば中止◦ α・βエラーの両方を制御している

Popular group sequential designs1. Pocock法：どの中間解析でも同じ境界値

2. O’Brien法：初めは保守的に、後のほうでは有意水準を名義値に近づける

3. Wan-Tsiatis族：境界の形を決めるパラメータρを導入（0～0.5） ρ=0.5：Pocock法 ρ=0：O’Brien法

◦ 逐次デザインは中止確率（stopping probabilities; P(δ)）によって定義される

真の効果がδであった場合にk回目の中間解析で中止される確率

帰無仮説のもとでの中止確率を確認すると、中間解析がどれくらいαエラーを消費しているか分かる Pocock：試験終了前に中止する可能性が高い

O’Brien：αエラーの消費がとても少ない

◦ 期待サンプルサイズは中止確率の関数で、次のように計算できる nΣk=1

m-1kPk(δ)+nm(1-Σk=1m-1Pk(δ))

中間解析の回数とタイミング、中止境界に依存している

◦ 群の大きさが均一な場合しか紹介しないが、不均一な場合にも拡張可能

Design and data monitoring stages◦ Design stage

1. 片側対立仮説の検定（4.2.1; 有効性）か帰無または対立仮説の検定（4.2.2; 有効性または無益性）を選択帰無仮説の検定（無益性）は4.3節で説明

2. 中止境界の設定方法を選択（O’Brien, Pocock, Wang-Tsiatis）3. 中止境界、最大サンプル数、期待サンプル数、検出力を計算

◦ Monitoring stage1. Lan-DeMetsの手順（Lan-DeMets error spending approach）が柔軟な方

法（4.2.3）エラー消費関数を選び、各中間解析で限界値・p値を補正する（4.2.4, 4.2.5）計画された中間解析と異なるタイミング・回数を行っても良い

2. 繰り返し信頼区間の構成（4.2.6）とバイアス補正点推定値・最終解析での信頼区間（4.2.7）

%EffDesign◦ 早期に有効性を示すための中間解析をデザイン

RHO：デザインの種類を指定する（0：OF、0.5：P） FRACTION：中間解析をするタイミングのデータ

BOUNDARY：中止限界・中止確率のデータ

SIZEPOWER：検出力・期待サンプルサイズのデータ

◦ SEQ、SEQSCALE関数を使って効率的に計算している SEQ：中止確率・全体のαエラーを計算（recursive integration algorithm; Armitage, 1969, JRSS, 235-） SEQSCALE：全体のαエラーが名義水準を保っているか確認

◦ コード間違い：“&boundary[,2]=ceil(cusum(fraction)*max);”のcusumはいらない

O’Brien-Fleming group sequential design in the depression trial◦ うつの試験（Depression Trial）

50%、75%時点で中間解析を行うようにFRACTIONデータを作成

HAMDの群間差が3、SDが8とするとEFFSIZE=3/8=0.375 固定サンプルサイズ：150 H0が真の場合の期待サンプルサイズ：153 H1が真の場合の期待サンプルサイズ：115

％EffDesingの結果に沿って中間解析を行うこの場合は約77例、115例、153例そろった時点で行う

Pocock group sequential design in the depression trial◦ O’Brian-Fleming法はWang-Tsiatis族の極端な例であり、もう１つの極端な例がPocock法（マクロはRHOで指定する）

◦ 効果が0.375の場合のO’Brian-Fleming法（OF）とPocock法（P）の比較期待サンプル数 H0が真：OFの方が少ない

H1が真：Pの方が少ない（早く終了しやすい）

効果が大いに見込める場合はPocock法が良い

検定統計量の境界値試験早期：Pの方が小さい

試験後期：OFの方が小さい

効果が0に近いとPの期待サンプル数が大きく、効果が大きいとOFの期待サンプル数が大きくなる

Comparison of stopping boundaries◦ どの中間解析法を選ぶかは試験の目的に大きく依存する◦ 一般的な指針 Clinical considerations

かなり大きな効果があれば試験は早期中止されるが、その代わりに安全性やセカンダリの効果を確認しにくい早く終わる可能性の低いOFを利用することが多い

Sample size considerations 期待サンプルサイズや最大サンプルサイズが焦点

真の治療効果が大きい場合はPocockの期待サンプル数が小さい（Wang, 1987, Biometrics）治療効果が無い場合はO’Brien-Flemingの期待・最大サンプル数が小さい

期待サンプル数が小さい：早期終了する可能性が高い

期待サンプル数を小さく最適化するような方法も考えられるが、そのような数学的な議論よりも先で述べた臨床的な視点の方が重要

Data management considerations 最初の中間解析は、データマネージメント手順・コンプライアンス・データの質などを確認するために

行われることが多い

早期終了を避けるためにはO’Brian-Flemingを使う

◦ 新しいメカニズムの薬効の無効性を調べる場合は、早期終了をしないO’Brien-Flemingを選択することが多い

負の結果が避けられず、試験を続ける意味がない場合に試験を中止する（無効性試験）◦ 無効性の早期終了は人的・金銭的な莫大な出費を抑えることができる（Ware,

1985, American J of Med）◦ 効果の弱い候補薬を早く脱落させれる◦ 死に至ったり不可逆な結果を起こす、効果の無い薬に曝露される対象者の数を最小にできる

%EffFutDesign◦ 帰無仮説と対立仮説を同時に検定するため、無効性を検証するための下側境界も必要上下に境界がある

上側境界を超えると帰無仮説を棄却 δ=0のもとで上側境界を超える確率：α

下側境界を超えると対立仮説を棄却 δ=δ1のもとで下側境界を超える確率：β

Wang-Tsiatis族を利用する場合は2つの乗法式を数値的に解く必要があるのでSAS/IMLで最適化して求める

Group sequential design for efficacy and futility testing in the severe sepsis trial◦ 重症敗血症の試験（Severe Sepsis Trial）かなり大きな治療効果がないと早期中止はしない有効性にはO’Brien-Fleming、無効性にはPocockを使う

O’Brien-Fleming：早期中止の可能性が低く、最終解析での検出力が高い

Pocock：治療効果が負であるかとても小さい場合は早期中止する

20%と66%の対象者で28日の試験期間が終了した時点で中間解析する効果はp1-p2/√(pbar-(1-pbar))で計算する

28日生存割合を0.76（試験群）、0.7（プラセボ群）とすると効果は0.1352となる

RHOEFF=0で有効性にO’Brien-Flemingを、RHOFUT=0.5で無効性にPocockを設定帰無仮説が真であれば早期中止される可能性があるため、サンプル数が464と少ない（固定サンプ

ル数は859）有効性・無効性試験の欠点は最大サンプル数が多くなってしまう点（1078）最初の中間解析での上側境界はz=4.1766とかなり大きい

下側境界はz=0.1335であり、帰無仮説が真であれば55.3%の確率でこれを下回り無効中止となる重篤な患者に効果の無い治療を行うことは倫理的に問題

最終解析時のcutoff-P値は0.0309であり片側P値の0.025より大きい無効性の早期終了を設定をしているため全体のαエラーが減っている（Chang, 2004, Pharmaceutical

Statistics, 51-）

Group sequential designs for efficacy and futility testing: alternative approaches◦ 有効性・無効性試験は欠点がある（Gordon Lan）下側境界が設定した効果によって変わる

仮定した効果を大きくすると下側境界も上がる

◦ 無効性で早期中止したとしても、真の効果の設定が妥当であったと言えるのか

◦ 推定された効果はもはや設定した効果とは違っており、推定された効果を考慮するべき

古典的な群逐次法より頑健

4.3節のadaptive stochastic curtailment testと関連がある

1. 事前に解析時点を決定しておく◦ O’Brien-Fleming、Pocock

2. 中間解析の時点、回数を変更する◦ Lan-DeMetsのエラー消費（Lan, 1983, Biometrika, 659-）

方法の詳細はJennisonにある（2000, Chapman, 7章）

◦ 暦時間で解析時点を決定できる薬理以外の試験ではこのような中間解析が多い（Van Den Berghe, 2001, NEJM）

3ヶ月、6ヶ月など

物流面（logistical）からも暦時間の方が都合が良い

◦ 時間（サンプル割合）に関して非減少なα消費関数α(t)を考える α(0)=0、 α(1)=α

◦ 柔軟に解析できるが検出力が名目の値より小さくなりやすい極端な例では15%減少した（ Jennison, 2000, Chapman, 7.2）

◦ βエラー消費関数を導入して有効性・無効性試験を同時に行うこともできる（Pampallona, 1994, J of Statistical Planning and Inference, 19-）

◦ “将来の中間解析を行う時期は過去の観測値と独立である”という重要な条件があるある時点での結果を確定しようとして解析プランを変更するとαエラーが保たれない

◦ Pocockでは中止にならないのにLan-DeMetsでは中止になってしまうことは稀にあるかもしれない→これを避けるためにはDesign-Basedな方法を使うべき（でもいつ解析するかわからないよな・・）

Choice of an error spending function◦ design-based α消費関数（Pampallona, 2001, Drug Inf J）◦ ten-look◦ Lan-DeMets (1983, Biometrika)◦ Jennison-Turnbull (1990, Statistical Science)◦ Hwang-Shih-DeCani (1990, Stat Med)

Design-based error spending functions◦ 消費関数による中止境界は群逐次法と同じ式から導かれる

以降、重症敗血症の例でten-look法などの方法と比較する

◦ 群逐次法の結果をα消費関数に変換する

有効性・無効性試験の場合はα・β消費関数に両方変換できる

Ten-look◦ 等しい間隔で10回行う中間解析の境界を使う

O’Brien-Fleming、Pocockなどの方法を利用

◦ 消費関数 OFではDesign-basedの形と似ておりαの消費が遅い

Pではten-lookの方が早期にαを消費する早期終了の可能性が一層高くなる

Lan-DeMets◦ α消費関数の近似式

OF: 2-2Φ(z1-α/2/√t) P: αln(1+(e-1)t)

◦ 性質はten-lookと似ている

Jennison-Turnbull◦ 関数：αtρを利用

ρが大：αの消費が遅い（ρ=3でOFの近似）

ρが小：αの消費が早い（ρ=1でPの近似）

Hwang-Shih-DeCani◦ 関数：α(1-e-ρt)/(1-e-ρ) or αt when ρ=0◦ ρ=-4でOF、ρ=1でPの近似になる◦ （Jennison-Turnbullの方が近似は良いみたい）

有効な治療を早期発見するためのモニタリング 5種のα消費関数繰り返し信頼区間とバイアス補正点推定値◦ 4.2.6, 4.2.7

%EffMonitor◦ SPFUNCTION：α消費関数の指定 1: design-based （RHOを指定）

2: ten-look （RHOを指定）

3: Lan-DeMets （SPRHO=0 or 0.5） 4: Jennison-Turnbull （SPRHOを指定）

5: Hwang-Shih-DeCani （SPRHOを指定）

◦ INFERENCE：治療効果のバイアス補正推定値・信頼区間

Efficacy monitoring in the depression trial using an O’Brien-Fleming plan◦ うつの試験（Depression Trial）

analysis of clinical trials using sas 勉強用 isseing333

Documents

analysis of clinical trials using sas　勉強用 isseing333