gnmt ch13 - kyoto u

32
第 13 ç«  棄华ず怜定 13.1 信じるのが難しい仮説を棄华する―― 3 カテゎリの芳察 これたで、デヌタから倉数の期埅倀や最尀掚定量、信頌区間などを掚定した した。今床は、ある倉数がある倀であるずいう仮説を信じるべきか信じないべ きか、その皋床を数倀で衚す、ずいう話です。仮説を信じる皋床が䜎いずき に、その仮説をある基準で棄华する、ず蚀うので、ここの話は「仮説の棄华」 に぀いおです。 3 カテゎリに぀いお、(10, 7, 3) ず芳枬した堎合を考えたす。3 カテゎリが同 䞀頻床だず仮定したす。N 人が 3 カテゎリに n 1 , n 2 , n 3 人に分かれお芳察する 確率は です。20 人を 3 カテゎリに分ける分け方のすべおに぀いお、その確率を蚈算 しおみたす。 Rの凊理は以䞋の通りですR13-1.R。 N n n n N ! ! ! ! 1 2 3 1 3

Upload: others

Post on 17-Oct-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: GNMT CH13 - Kyoto U

第 13章

棄华ず怜定

13.1 信じるのが難しい仮説を棄华する――3カテゎリの芳察

これたで、デヌタから倉数の期埅倀や最尀掚定量、信頌区間などを掚定したした。今床は、ある倉数がある倀であるずいう仮説を信じるべきか信じないべきか、その皋床を数倀で衚す、ずいう話です。仮説を信じる皋床が䜎いずきに、その仮説をある基準で棄华する、ず蚀うので、ここの話は「仮説の棄华」に぀いおです。

3 カテゎリに぀いお、(10, 7, 3) ず芳枬した堎合を考えたす。3 カテゎリが同䞀頻床だず仮定したす。N人が 3 カテゎリに n1, n2, n3 人に分かれお芳察する確率は

です。20 人を 3 カテゎリに分ける分け方のすべおに぀いお、その確率を蚈算しおみたす。

R の凊理は以䞋の通りですR13-1.R。

Nn n n

N!

! ! !1 2 3

13

Page 2: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定230

R゜ヌス 13.1 R13-1.R3カテゎリの正確確率

1 dpoly<-function(n=c(1,2,3),p=NULL){ # apply()関数で䜿うための関数を䜜る (確率蚈算 ) 2 N<-sum(n) 3 if(is.null(p)){ 4 p<-rep(1/length(n),length(n)) 5 } 6 exp(lgamma(N+1)-sum(lgamma(n+1))+sum(n*log(p))) 7 } 8 DrawHigherLower<-function(g=c(10,7,3),p=NULL){ 9 N<-sum(g)10 x<-0:N;y<-0:N11 xy<-expand.grid(x,y) # x,yの党組み合わせを䜜る12 z<--(xy[,1]+xy[,2])+N13 xyz<-matrix(c(xy[,1],xy[,2],z),nrow=length(z))14 xyz<-xyz[apply(xyz,1,min)>=0,] # xyzのすべおの芁玠は非負15 16 probs<-apply(xyz,1,dpoly,p=p) # xyzの各行 (3数倀 )に぀いお、䞊で定矩した dpoly()関数を適甚する17 probObs<-dpoly(c(10,7,3)) # 芳枬デヌタの確率18 higher<-which(probs>probObs) # 芳枬デヌタの生起確率より倧きい確率の堎合19 lower<-which(probs<=probObs) # 芳察デヌタの生起確率以䞋の確率の堎合20 xyz2<-apply(xyz,1,CoordTriangle)21 x2<-xyz2[1,];y2<-xyz2[2,]22 xlim<-c(0,1);ylim<-c(0,2/sqrt(3))23 # 高確率は黒で、それ以倖は灰色でプロット24 plot(xyz2[1,which(probs>probObs)]/N,xyz2[2, which(probs>probObs)]/N,xlim=xlim,ylim=ylim,col = "black",pch=15)25 par(new=T)26 plot(xyz2[1,which(probs<=probObs)]/N,xyz2[2, which(probs<=probObs)]/N,xlim=xlim,ylim=ylim, col = gray(4/5),pch=15)27 DrawTriangleFrame()28 29 }30 par(mfcol=c(1,2))31 DrawHigherLower(c(10,7,3))32 DrawHigherLower(c(10,7,3),c(0.9,0.05,0.05))33 par(mfcol=c(1,1))

Page 3: GNMT CH13 - Kyoto U

23113.1 信じるのが難しい仮説を棄华する―― 3カテゎリの芳察

(10, 7, 3) ず芳枬した堎合の確率ず比范しお色分けしたのが、図 13.1 のaです。

すべおの点の確率を足し合わせるず 1 になっおいたす。灰色は (10, 7, 3) ず芳枬する確率以䞋の確率で起きるテヌブルを衚しおいたす。この郚分の確率を足し合わせるず 0.177 になるので、(10, 7, 3) ず同皋床か、それよりも珍しいこずが起きる確率は 0.177 です。これは、3 カテゎリが同頻床だずいう仮説のもずで、(10, 7, 3) を芳察する珍しさであり、この倀が小さければ小さいほど珍しく、倧きくなるずその最倧倀は 1 で、最もありふれおいるこずになりたす。

この数倀が正確確率をもずにした p倀です。3 カテゎリが同䞀頻床であるずいう仮説怜定の p倀です。今、芳察される珍しさが䜎い方から 0.05 に含たれれば、仮説を信じるこずをやめるこずにする、ずするずき、0.05 を棄华氎準ず蚀いたす。そしおこの p倀が 0.05 未満であれば、仮説が棄华された、ず蚀いたす。今回は、p = 0.177 ですから、棄华氎準を 0.05 ずすれば、棄华されない

a b

20 人の内蚳が (20, 0, 0), (0, 20, 0), (0, 0, 20) のずきが䞉角圢の頂点。aは、3 芁玠の確率が等しいずしたずきに (10, 7, 3) ず芳枬するより高確率の領域が黒で、䜎確率が灰色。bは、3 芁玠の確率が (0.9, 0.05, 0.05) ずの仮説のもずで (10, 7, 3) ず芳枬するより高確率か䜎確率かで色分けしおいたす。

図 13.1 3芁玠の䞉角プロット

Page 4: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定232

こずがわかりたす。図 13.1aでは、3 カテゎリの頻床が同じであるずいう仮説に基づいお生

起確率を蚈算したしたが、3 カテゎリの頻床が異なるずいう仮説に基づいおも同様に蚈算しお図を描けたす。たた、灰色の郚分を足し合わせるこずもできたす。もしも、3 カテゎリの比率が (0.9, 0.05, 0.05) だずいう仮説に立っおいたら、プロットは図 13.1bのようになりたす。通垞は、このような特別な比率の仮説が棄华されるかどうかは問題にしたせんが、考え方ずしおは同じこずです。

13.2 分割衚怜定

次に、2 カテゎリに぀いお、集団からケヌスG1ずコントロヌルG2ずをサンプリングした堎合を考えたす。芳察デヌタは 2 × 2分割衚ずしお埗られたす。

è¡š 13.1 芳察デヌタ

A a 蚈

G1 n11 = 15 n12 = 25 n1  = 40

G2 n21 = 15 n22 = 45 n2  = 60

蚈 n  1 = 30 n  2 = 70 n  = 100

G1 ず G2 が属する集団には A, a の比率がありたすが、それが今はわからないずしたす。G1 ず G2 のサンプルはどちらも、この集団からランダムに抜き取られたものであるずいう仮説を立おたす。そしお、その仮説に立ったずきに、芳察デヌタがどれくらいありふれたものなのか、珍しいものなのかを評䟡しお、仮説を棄华するかどうかを考えおみたす。

この集団の 2 カテゎリの比率は特定したせんが、倉数を䜿っお、p, 1 - pずしたす。G1, G2 ずもに、この比率からのサンプリングですから、衚のようなサンプリングがなされる確率は、

nn n

nn n

p pn n1

11 12

2

21 22

1 21⋅ ⋅ ⋅ ⋅-!

! !!

! !( )

Page 5: GNMT CH13 - Kyoto U

23313.2 分割衚怜定

です。今、pの倀がなんであれ、ある倀に確定しおいるずすれば、䞎えられた呚蟺床数の条件のもずで n11, n12, n21, n22 ず芳察される確率は、

に比䟋したものになりたす。実際、

ずしおやるず、䞎えられた呚蟺床数のもずで、芳察されうるすべおの nij の堎合に぀いお足し合わせたずきに 1 になるので、pの倀がなんであれ、G1, G2 が同じ集団からのサンプルであるずいう仮定のもずでの、衚の芳察確率は䞊の匏になりたす。これに基づいお、他の芳察されうる衚ず芳察の珍しさを比范しおp倀化すれば、それがこの 2 × 2 衚においお因子の独立に関するフィッシャヌの正確確率怜定ずなりたす。

さお、今、衚 13.1 の呚蟺床数を満足する衚を倉数 d を甚いお、衚 13.2 のように衚したす。

è¡š 13.2 倉数 dを甚いた衚

A a 蚈

G1 n1 = 40

G2 n2 = 60

蚈 n  1= 30 n  2= 70 n = 100

この d を 0 から少しず぀増やしおいきたす。R を甚いお次のように蚈算したすR13-2.R。

R゜ヌス 13.2 R13-2.R正確確率ずカむ自乗怜定

1 # 期埅倀衚を䜜る 2 makeExptable<-function(m = matrix(c(10, 20, 30, 40),

nrow = 2)) {

3 m1 <- apply(m, 1, sum);m2 <- apply(m, 2, sum);

N <- sum(m);etable <- m1 %*% t(m2)/N

nn n

nn n

1

11 12

2

21 22

⋅ ⋅!! !

!! !

nn n

nn n

n nn

1

11 12

2

21 22

1 2⋅ ⋅ ⋅ ⋅

⋅⋅

×!

! !!

! !! !

!

nn nn111 1= +⋅ ⋅

⋅⋅

d nn nn121 2= -⋅ ⋅

⋅⋅

d

nn nn212 1= -⋅ ⋅

⋅⋅

d nn nn222 2= +⋅ ⋅

⋅⋅

d

Page 6: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定234

4 }

5 # 2x2衚の第 1セルを期埅倀からず぀動かしお生起確率を返す 6 ProbDistance <- function(m = matrix(c(10, 20, 30, 40),

nrow = 2)) {

7 # 呚蟺床数・期埅倀衚を䜜る 8 m1 <- apply(m, 1, sum)

9 m2 <- apply(m, 2, sum)

10 etable <- makeExptable(m)

11 N<-sum(etable)

12 d <- seq(from = 0, to = 20, by = 1) # 期埅倀からのずれ13 # 4セルずも正であるような衚の倀を䜜る14 x <- d + etable[1, 1]; y <- -d + etable[1, 2];

z <- -d + etable[2, 1]; w <- d + etable[2, 2]

15 mat <- matrix(c(x, y, z, w), ncol = 4);

mins <- apply(mat, 1, min);matOK <- mat[mins > 0, ]

16 # 生起確率の察数の呚蟺床数郚分17 tmp <- sum(lgamma(m1 + 1)) + sum(lgamma(m2 + 1)) -

lgamma(N)

18 # 衚ごずに正確生起確率を算出19 prob <- exp(-apply(lgamma(matOK+1),1,sum)+tmp)

20 list(x = d[mins > 0], prob = prob)

# xに期埅倀からのずれ、probに生起確率21 }

22 d <- ProbDistance(m = matrix(c(10, 20, 30, 40), nrow = 2))

#c(10,20,30,40)の衚に぀いお実斜23 ylim <- c(0, max(d$prob))

24 plot(d$x, d$prob, ylim = ylim)

25 # optim()関数を䜿っお掚定する関数を䜜る26 fForOptim <- function(x) {

27 a <- x[1]; b <- x[2] ;c<-x[3]# 倉数関数28 # optim()関数が目指すのは、a * exp(-b*x^2) ず芳察倀ずの距離の 自乗を党芳察点に぀いお合算したもの29 sum((d$prob - (a * exp(-b * d$x^2)))^2)

30 }

31 optout <- optim(c(1, 1), fForOptim)

# 掚定する関数の係数の初期倀は 1,1から開始させる32 xfine <- seq(from = min(optout$par), to = max(optout$par),

by = 0.01) # 暪軞の倀33 optprob <- optout$par[1] * exp(-optout$par[2] * xfine^2)

# 掚定関数の倀34 par(new=T) # 衚の正確生起確率に掚定関数を重ねお描く35 plot(xfine, optprob, ylim = ylim, col = "red", type = "l")

Page 7: GNMT CH13 - Kyoto U

23513.2 分割衚怜定

するず G1, G2 が同じ集団からのサンプルだずした堎合の生起確率は、図13.2 の○のようにだんだん小さくなりたす。

この○の䜜るカヌブが䜕かしらの芏則に則っおいるかもしれないず予想しおみたす。d の 2 乗に応じお小さくなっおいくのではないかず、圓たりを぀けおみたす。

に近䌌できるかもしれないずいうこずです。R の optim() 関数※1を甚いお a, bの近䌌倀を求めおみたす。そのようにし

お掚定した関数の曲線が図 13.2 の曲線です。非垞によく䞀臎したす。぀たり、2 × 2 衚の衚の生起確率は、期埅倀からのずれ d の 2 乗に応じお枛じおいくこずがわかりたした。2 乗で枛じるのは、正芏分垃・カむ分垃・カむ自乗分垃

※1 optim()関数は係数ずずもに指定した関数ぞの最適化関数です。help(optim)で確認できる通り、係数の倀の求め方がいく぀か実装されおいたす。第 13 章では、線圢近䌌に䜿甚しおいたす。

a e b× - d2

2 × 2 分割衚を期埅倀衚から少しず぀ずらしお埗られる衚の正確生起確率を○で衚瀺し、そのプロットに近䌌曲線を重ね合わせおいたす。

図 13.2 正確確率ずカむ自乗怜定

Page 8: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定236

の性質でした第 8 章。この性質から、2 × 2 分割衚では期埅倀からのずれをカむ自乗分垃で評䟡できるのです。たた、2 × 2 衚は自由床が 1 の堎合ですが、同様に任意の自由床の衚でも、こうした察応関係があるので、カむ自乗倀を甚いた怜定ピア゜ンの独立性怜定が有甚ずなりたす。

◉ 13.2.1 ピア゜ンの独立性怜定――カむ自乗怜定

N×Mサむズの任意の衚に぀いおピア゜ンの独立性怜定カむ自乗怜定が行えたす。

芳察衚ずその呚蟺床数から独立を仮定しお䜜る期埅倀衚ずの違いを衚 13.3のように数倀化したす。

è¡š 13.3 芳察衚ず期埅地衚

芳察衚 期埅地衚

B1 ... Bj ... BN 蚈 B1 ... Bj ... BN 蚈

A1 n11 ... n1j ... n1N n1・ A1 e11 ... e1j ... e1N n1・

... ... ... ... ... ... ... ... ... ... ... ... ... ...

Ai ni1 ... nij ... niN ni・ Ai ei1 ... eij ... eiN ni・... ... ... ... ... ... ... ... ... ... ... ... ... ...

AM nM1 ... nMj ... nMN nM・ AM eM1 ... eMj ... eMN nM・

蚈 n・1 ... n・j ... n・N n・・ 蚈 n・1 ... n・j ... n・N n・・

独立性の怜定のピア゜ンのカむ自乗倀は次の匏で䞎えられたす。

瞊軞ず暪軞が独立であるずきに、この倀を芳察する確率が自由床 (M - 1)

× (N - 1) のカむ自乗分垃の確率密床分垃ず䌌おいるこずを利甚しお p倀化したす。

R13-3.R から、怜定の蚈算法を読み取っおください。

en n

niji j= . .

..

c22

=-

∑( )

,

n e

eij ij

iji j

Page 9: GNMT CH13 - Kyoto U

23713.2 分割衚怜定

R゜ヌス 13.3 R13-3.Rカむ自乗怜定

1 chisqCalc<-function(m=matrix(c(10,20,30,40),nrow=2)){

# 行列を匕数ずする 2 etable<-makeExptable(m)

3 m1<-length(m[,1]);m2<-length(m[1,]) # 行・列の数 4 chi2<-sum((m-etable)^2/etable)

# 党セルに぀いお、(芳枬倀 -期埅倀 )^2/期埅倀 5 df<-(length(m1)-1)*(length(m2)-1) # 自由床は (N-1)x(M-1) 6 p<-pchisq(chi2,df,lower.tail=FALSE)

# p倀は、カむ自乗分垃から埗る 7 list(chi2=chi2,p=p,df=df)

8 }

9 chisqCalc(m=matrix(c(10,20,30,40),nrow=2))

なお、この関数は、R の関数 "chisq.test(correct=FALSE)" ず同じこずです※2。

◉ 13.2.2 垰無仮説ず最尀仮説を比范しお統蚈量にする――尀床比怜定

13.2 節の冒頭13.2.1 項の前の正確確率怜定では、G1, G2 が同䞀集団からのサンプルであるずいう仮説のもずでの衚の芳察確率を䜿っお珍しさを算出したした。今床は、その裏偎、尀床を䜿いたす。

ある衚が芳察されたずきに、G1, G2 が、因子保有率が異なる 2 集団からのサンプルであるずいう仮説に立ちたす。2 集団の因子保有率には芳察デヌタか

ら埗られる最尀掚定倀     を仮定しお、その仮定のもずで、芳察デヌタ

が芳察される確率をたず考えたす。

※2 “correct=FALSE”ずはむェヌツの連続性補正をしないずいうオプションです。むェヌツの連続性補正ずは、セルの倀が小さめのずきに行うこずが掚奚される補正で、カむ自乗倀を小さめp倀を倧きめにしたす。本曞では、この補正に぀いおは取り扱いたせん。特定の条件の堎合のみに補正を入れるず、本曞で行っおいる方法間の比范に際しお、数倀の敎合性を悪くするなどの圱響があるためです。なお、補正が必芁な堎合には、正確確率怜定によっお、その代甚をするこずを勧めたす。

nnnn

11

1

21

2⋅ ⋅

,

Page 10: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定238

次に、G1, G2 ずが同䞀集団からのサンプルであるずしたずきの、その保有

率の最尀掚定倀  を仮定しお、その仮定のもずで、芳察デヌタが芳察される

確率を考えたす。

G1, G2 が同䞀集団からのサンプルであるずしたずきの尀床の方が小さくなりたすが、その尀床の違いを数倀にしたす。小ささを枬るのに、比をずるこずにしたす。この比を尀床比ず蚀いたす。これは、G1, G2 が異なる集団からのサンプルだずいう仮説を立おお、最も尀床が高くなるようにした堎合ず、G1, G2 が同じ集団からのサンプルだずいう仮説ずを比范したものです。

比をずるず階乗の郚分はきれいになくなっお、

実際、この匏は、           に泚意しお N×Mに䞀般化するず、

ずなるこずが瀺せたす。そしお、この倀の察数の 2 倍が、この衚のピア゜ンのカむ自乗倀ずほが䞀臎したす。したがっお、この倀尀床比の察数の 2 倍を

L G Gnn n

nn n

nn

( )!

! !!

! !1 2 1

11 21

2

12 22

11

1

/= =

⋅ ⋅

⋅

⋅

n nnn

nn

11 12

12

1

21

2⋅⋅ ⋅

=

n nnn

21 22

22

2

nnn n

nn n

n n nn n n⋅ ⋅1

11 21

2

12 22

11 12 2111 12 21!

! !!

! !nn

n n

n

n n22

1 2

22

1 2⋅ ⋅

⋅ ⋅

nn

⋅

⋅⋅

1

L G GL G G

n n n n nn n n n( )( )

1 21 2

11 12 2111 12 21/=

== ⋅⋅

⋅⋅222

1 2 1 2

22

1 2 1 2

n

n n n nn n n n⋅ ⋅ ⋅ ⋅⋅ ⋅ ⋅ ⋅

n n n ni ijj

j iji

⋅ ⋅= =∑ ∑,

L G Gnn n

nn n

nn

( )!! !

!! !

1 2 1

11 21

2

12 22

1

n n n nnn

11 21 12

2222

1 21

11 21

2

12 22

1 2nn n

nn n

n n

n

n n!! !

!! ! nn

L G GL G G

n

eij

ij

n

i

ij( )( )1 21 2 ,,j

Page 11: GNMT CH13 - Kyoto U

23913.3 3぀の怜定方法の比范――正確確率怜定、ピア゜ンの独立性怜定、尀床比怜定

甚いおも、垰無仮説の棄华怜定を行うこずができたす。尀床比怜定ず呌ばれる手法です。

R13-4.R でその凊理を確認しおください。

R゜ヌス 13.4 R13-4.R尀床比怜定

1 likelihoodRatioTest<-function(m=matrix(c(10,20,30,40),

nrow=2)){

2 etable<-makeExptable(m)

3 chi2<-2*sum(log(m/etable)*m)

4 df<-(length(m[,1])-1)*(length(m[1,])-1)

5 p<-pchisq(chi2,df,lower.tail=FALSE)

6 return(list(statistic=chi2,p.value=p,df=df))

7 }

8 likelihoodRatioTest(m=matrix(c(10,20,30,40),nrow=2))

13.3 3぀の怜定方法の比范――正確確率怜定、ピア゜ンの独立性怜定、尀床比怜定

さお、同じ分割衚に 3 皮類の盞互に䌌た結果を返す怜定手法が 3 ぀出おきたした。それぞれの特城を知るために、比范しおみるこずにしたす。p倀で范べたす。

◉ 13.3.1 サンプル数が小さいずきず倧きいずき

1サンプル数が小さいずき

サンプル数が小さいずき (3, 6, 9, 12) ず、倧きいずき (100, 200, 300, 400) の 2通りで、ピア゜ンの独立性怜定、尀床比怜定、フィッシャヌの正確確率怜定の結果を范べおみたす。

図 13.3、図 13.4、図 13.5 を描く R の゜ヌスは掲茉したせんが、ダりンロヌドできる R13-sup1.R です。

たず、サンプル数が小さいずきです。図 13.3 を芋おください。暪軞に第 1セルの倀を、瞊軞に p倀をずりたした。瞊軞を通垞スケヌルにしたaでは、党般的に倧きめの倀が出おいるのが正確怜定で、小さめな倀が出おいおほが䞀臎しおいるのがピア゜ンの方法ず尀床比怜定です。䞀方、瞊軞を察数スケ

Page 12: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定240

a瞊軞p倀が通垞スケヌル

b瞊軞p倀が察数スケヌル

黒の実線が正確怜定。灰色の実線がピア゜ンの独立性怜定、砎線が尀床比怜定。

図 13.3 サンプル数が小さいずき

Page 13: GNMT CH13 - Kyoto U

24113.3 3぀の怜定方法の比范――正確確率怜定、ピア゜ンの独立性怜定、尀床比怜定

ヌルにするずb、暪軞の䞡端p倀が小さい範囲で、尀床比怜定が他の 2法ずずれおいる傟向がありたす。この範囲ではピア゜ン法ず正確法が近くなっおいたす。

このように、サンプル数が小さいずきは正確確率怜定に范べお、カむ自乗分垃になぞらえた怜定ピア゜ンの方法ず尀床比怜定は p倀が小さめに出たす。p倀が小さく出るずいうこずは、「統蚈的に有意」な刀定を䞋しやすいずいうこずから、奜たしくありたせん怜定では、p倀を倧きめに算出するこずを「保守的」ず呌んで、尊重するこずが倚いです。カむ自乗分垃は敎数にも実数にも察応した連続な分垃であるのに、芳察は敎数であるために、離散的なデヌタずずれが生じたす。

サンプル数が倧きくなるず離散的ずは蚀っおも、かなり滑らかな動きになりたすが、サンプル数が小さいず滑らかでなくなるために、連続なカむ自乗分垃による近䌌がうたくいかなくなっおいるわけです。このこずから、サンプル数が小さいずきの、カむ自乗分垃になぞらえた怜定に぀いおは、解釈を慎重にするこずが必芁で、正確怜定を䜿う方が適圓である堎合が生じたす。

たた、正確怜定の倀に近づくように補正する方法などが提唱されたりしおいたす。これは、信頌区間の掚定方法ずしお提案されおいたいく぀かの方法が、やはり、分垃の連続性がもたらす䞍郜合を補正するものなのず同じこずです※3。

2サンプル数が倧きいずき

次に、サンプル数を倧きくした堎合を芋たす。図 13.4 を芋おください。サンプル数が小さいずきずの違いは、グラフが滑らかになっおいる点です。

それ以倖の違いずしおは、瞊軞が通垞スケヌルのずきには、3 法でほずんど差がないこずです。このように、3 皮類の p倀は、サンプルの数を倧きくするずほずんど䞀臎するほどに、䌌おきたす。この、「完党には䞀臎しないけれども、ほが同じずみなせるくらいに䌌おいく」ずいうこずを挞近近䌌ず蚀うので、カむ自乗怜定は挞近近䌌怜定の 1 ぀です。

䞀方、瞊軞を察数スケヌルにするず、p倀が非垞に小さい範囲でずれおいる様子がわかりたす。ずれおいるのがピア゜ンの方法です。正確怜定ず尀床比怜定はほが䞀臎しおいたす。

※3 “correct=FALSE”でコメントしたむェヌツの連続性補正は、サンプル数が小さいずきに起きるこの圱響の補正法です。

Page 14: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定242

a瞊軞p倀が通垞スケヌル

b瞊軞p倀が察数スケヌル

黒の実線が正確怜定、灰色の実線がピア゜ンの独立性怜定、砎線が尀床比怜定。

図 13.4 サンプル数が倧きいずき

Page 15: GNMT CH13 - Kyoto U

24313.3 3぀の怜定方法の比范――正確確率怜定、ピア゜ンの独立性怜定、尀床比怜定

◉ 13.3.2 怜定の察称性

図 13.4bをもう䞀床芋るこずにしたしょう。サンプル数が倧きい堎合で瞊軞を察数スケヌルにしたものです。この図で、p倀が最倧ずなるのは、期埅倀衚x = 120のずきです。そこから、xが 100枛ったずきず 100 増えたずきずを、瞊線で瀺しおありたす。x = 120 + 100 =

220 のずきの 3 ぀の p倀はほが同じですが、その点を通る氎平線を匕くず、ピア゜ンの方法の p倀は、x = 120 - 100 = 20 のずきに同じ倀をずっおいるこずがわかりたす。このこずから、ピア゜ンの方法の p倀は巊右察称であるこずがわかりたす。

他方、尀床比怜定ず正確怜定の p倀は、それよりも小さい倀であるこずがわかりたす。この 2 ぀の手法は巊右が非察称になっおいたす。サンプル数が倧きく、期埅倀衚からさしお遠くない範囲では、この非察称性は問題になりたせんが、手法の性質ずしお察称性のあり・なしずいう違いがあるこずがわかりたす。

図 13.5 pPearson'sピア゜ンの方法の p倀、pLRT尀床比怜定の p倀、pFisherフィッシャヌの正確確率怜定の p倀

Page 16: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定244

サンプル数が倧きい堎合の 3 方法の p倀の䞀臎の様子を察数スケヌルで散

垃図にしおみたす。尀床比怜定ず正確怜定はほが完党䞀臎しおいる様子が芋えたすが、ピア゜ンの方法は、その他 2 法ずの関係で、2 本の線が珟れたす。

この 2 ぀の線のうちの片方は、期埅衚から (1, 1) セルが増える方向の衚に由来し、もう片方の線は、逆に枛る方向の衚に由来しおいたす。

◉ 13.3.3 有限な範囲ず無限の広がりの違い

察称性を確認した図 13.4bを芋るず、別のこずにも気づきたす。x軞の䞡端寄りの郚分では、ピア゜ンの方法の p倀に范べお、正確確率怜定ず尀床比怜定の p倀が小さい傟向がありたす。この傟向は、サンプル数が小さいずきに珟れたせんが、サンプル数が倧きくなるず芋えおきたす。

これは、ピア゜ンの方法が、xの範囲を -∞≩ x≊∞ずしおいるのに察しお、正確確率怜定ず尀床比怜定では、図に衚瀺した xの範囲の倖偎は、ありえない範囲芳察数が負になる、比率が負になるずしおいる、ずいう違いに由来したす。ピア゜ンの方法では、ありえない領域にも小さいながらもある皋床の確率を割り振り、その分、期埅倀に近い領域の確率をほんのわずかず぀ですが小さめにしおいたす。そしお、ありえない領域の確率は芳察デヌタよりも珍しいずしお、p倀の蚈算に足し合わせおいたす。ありえるけれども期埅倀から遠いデヌタの堎合には、このありえない確率の分が無芖できない倧きさずなるために、p倀が倧きめに出おくるわけです。

正確確率怜定ず尀床比怜定ではありえない領域に確率を割り振らないので、この圱響を受けおいたせん。この圱響は、p倀が非垞に小さい堎合にのみ珟れたすが、怜定方法の特性の 1 ぀です。

◉ 13.3.4 蚈算量の違い

この他の倧きな違いに、蚈算量の倚寡がありたす。正確確率怜定はすべおの堎合を数え䞊げるので、サンプル数の自由床乗のオ

ヌダヌで蚈算量が増えたす。したがっお、自由床が倧きい堎合には非垞に蚈算負荷が倧きくなり、実際的ではなくなりたす。

◉ 13.3.5 蚈算量の違いのたずめ

ここたでで芋おきた 3 方法の特城を衚にしたす。

Page 17: GNMT CH13 - Kyoto U

24513.4 仮説に制玄を定めお怜定する

è¡š 13.4 蚈算量の違い

方法 蚈算量 少サンプルのずき 察称性 挞近近䌌 連続・離散

正確確率怜定 倚 保守的・正確 非察称 正確 離散ピア゜ンの方法 少 正確怜定ずの乖離が倧きい 察称 挞近近䌌 連続

尀床比怜定 少 正確怜定ずの乖離が倧きい 非察称 挞近近䌌 連続

13.4 仮説に制玄を定めお怜定する

分割衚に぀いお、行ず列ずが独立であるずいう仮説の棄华をする方法が耇数あるこずを述べおきたした。

本節では、同䞀の分割衚に察しお、察立仮説の立お方にいろいろな制玄を定めた䞊で、怜定するこずを考えたす。察立仮説に定める制玄をモデルずも蚀いたす。モデルず倉数の関係、自由床に぀いお少し話を進めたす。

ある 2 アレル型座䜍で、次のような 2 × 3 衚が埗られたずしたす。

AA Aa aa 蚈

ケヌス n12 = 30 n11 = 55 n10 = 15 n1・= 100

コントロヌル n22 = 16 n21 = 48 n20 = 36 n2・= 100

蚈 n・2 =46 n・1 = 103 n・0 = 51 n・・ = 200

尀床比怜定では、独立仮説ずデヌタから最尀掚定した倉数を仮説ずしお比范の盞手ずしたした。尀床はどんな仮説にも蚈算できたすから、尀床比もさたざたな 2 ぀の仮説に぀いお蚈算するこずが可胜です。しばしば立おる仮説にどんなものがあるかを芋おみるこずにしたす。

仮説 1. ゞェノタむプずフェノタむプに関係がないずいう仮説垰無仮説仮説 2. A は優性遺䌝圢匏でフェノタむプに圱響しおいるずいうモデルに

基づく仮説仮説 3. A は劣性遺䌝圢匏でフェノタむプに圱響しおいるずいうモデルに

基づく仮説仮説 4. A は盞加的遺䌝圢匏でフェノタむプに圱響しおいるずいうモデル

に基づく仮説仮説 5. A は優性遺䌝圢匏・盞加的遺䌝圢匏・劣性遺䌝圢匏のいずれか 1

Page 18: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定246

぀で圱響しおいるずいうモデルに基づく仮説※4

仮説 6. ゞェノタむプずフェノタむプには、どういう圢匏にしろ、なんでもよいので独立ではない関係があるずいう仮説

3 ゞェノタむプのリスクが同䞀であるずいう仮説仮説 1は、ゞェノタむプ頻床を決めるのに 2=3-1倉数、有病率を定めるのに 1 倉数の合蚈 3 倉数で定めるモデル自由床 3です。

仮説 6 は、ケヌスずコントロヌルの盞察危険床を自由に決めるために 2 倉数増やしお、党郚で倉数 5 個を必芁ずするモデルです自由床 5。自由床が 2぀増えたした。優性遺䌝圢匏・劣性遺䌝圢匏では、ヘテロ接合䜓の盞察危険床

RRがリスクホモ接合䜓ず同じか、非リスクホモ接合䜓ず同じなので、自由床は 1 増えるだけで 4 になりたす。

ヘテロ接合䜓のリスクが 2 ぀のホモ接合䜓のリスクの算術平均の堎合仮説5盞加的モデルは、ヘテロ接合䜓のリスクを 2 ぀のホモ接合䜓の「䞭間」に定めおいる仮説ですが、この堎合も、ヘテロ接合䜓のリスクが䞭間に固定されおいるので自由床は 4 です。仮説 5 では、3 ぀の遺䌝圢匏優性・劣性・盞加的がありえるずするモデルですが、以䞋の衚のように、kずいう倉数を甚いお、ヘテロ接合䜓のリスクを衚すこずができお、これによりある皋床の自由がありたす。しかしながら、どんな倀でもずれる、ずいうのに范べ、倧幅に限定的ですから、この堎合は自由な倉数 4 個ず制玄された倉数 1 個ずなり、党䜓の自由床は 4 より倧きいですが、5 よりは小さいです。

è¡š 13.5 6぀の仮説の比范

仮説 AA リスク Aa リスク 自由な倉数の数

限定的な倉数の数

1 0 0 3 02 1  RRAA ≩∞ RRAa = RRAA 4 0

3 1  RRAA ≩∞ 1 4 0

4 1  RRAA ≩∞ RRAa =  (RRAA + 1 4 0

5 1  RRAA ≩∞ RRAa = k(RRAA - 1) +1; k = 0, 0.5, 1 4 1

6 0 ≩ RRAA ≩∞ 0 ≩ RRAa ≩ ∞ 5 0

※4 3 遺䌝圢匏の怜定統蚈量の最倧倀を採甚する方法 MAX3 テストで怜定したす。R ならRassoc パッケヌゞの MAX3() 関数。

12

Page 19: GNMT CH13 - Kyoto U

24713.4 仮説に制玄を定めお怜定する

今、この 6 ぀の仮説から 2 個を取り出しお、それぞれの尀床を蚈算し、それを比范するこずが可胜です。6 仮説同士の比范を衚にするず衚 13.6 のようになりたす。衚の巊䞊から右䞋の察角線の䞊偎には、仮説間の自由床の差が曞き蟌たれ、察角線の䞋偎には、比范・怜定手法の䟋が蚘されおいたす。仮説 5 ずの比范の堎合には、䞍自由な倉数の分の自由床が敎数で衚せないので、その分をαずしおありたす。

è¡š 13.6 6぀の仮説同士の比范

仮説 1 2 3 4 5 6

1 1 1 1 1 + a 2

2 2 × 2 衚ピア゜ンdf = 1 0 0 α 1

3 2 × 2 衚ピア゜ンdf = 1 LR 比范 0 α 1

4 2 × 3 衚傟向性怜定df = 1 LR 比范 LR 比范 α 1

5 MAX3 テスト    1- a

6 2 × 3 衚ピア゜ンdf = 2 LRTdf = 1 LRTdf = 1 LRTdf = 1 

※ LR尀床比、LRT尀床比怜定

◉ 13.4.1 1぀の分割衚にいろいろな怜定を適甚しおみる

仮説 1 ずの比范においおはピア゜ンの独立性怜定が適甚できたす。2 × 2 衚を自由床 1 のカむ自乗怜定する堎合ず、2 × 3 衚を自由床 2 のカむ自乗怜定する堎合ずがありたす。尀床比を甚いお、自由床 kのカむ自乗分垃に埓う統蚈量を算出しお怜定するこずもできたす。自由な倉数の少ない方の仮説の棄华怜定になりたす。

たた、仮説 5盞加的遺䌝圢匏の堎合には、2 × 3 衚に぀いお、3 ゞェノタむプに線圢のリスクを想定しお、傟向性の怜定を実斜するこずず同じです。特に、Cockran-Armitage の傟向性怜定ず呌ぶこずもありたす。優性・劣性・盞加的圢匏は、傟向性の怜定においお、k = 1, 0, 0.5 ずいう係数を䞎えた傟向性怜定ず考えるこずもできたす。

R13-5.R では、Rassoc パッケヌゞの CATT() 関数にその係数を匕数ずしお枡しお算出させおいたす。

Page 20: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定248

R゜ヌス 13.5 R13-5.R2× 3分割衚にいろいろな怜定を行う

1 library(Rassoc)

2 # 2次元平面の座暙から、芳察テヌブルを䜜成する 3 casecontRTheta<-function(R,t,af,f,N){

4 popW<-c(af^2+af*(1-af)*f,2*af*(1-af)*(1-f),

(1-af)^2+af*(1-af)*f)

5 table<-matrix(c(popW*N[1],popW*N[2]),nrow=2,byrow=TRUE)

6 table[1,1]<-table[1,1]-R/2*cos(t)+sqrt(3)/2*R*sin(t)

7 table[2,1]<-table[2,1]+R/2*cos(t)-sqrt(3)/2*R*sin(t)

8 table[1,2]<-table[1,2]+R*cos(t)

9 table[2,2]<-table[2,2]-R*cos(t)

10 table[1,3]<-table[1,3]-R/2*cos(t)-sqrt(3)/2*R*sin(t)

11 table[2,3]<-table[2,3]+R/2*cos(t)+sqrt(3)/2*R*sin(t)

12 return(table)

13 }

14 af<-0.4;f<-0;N<-c(100,100)

# allele frequency,HWE-f,sample size

15 x<-y<-seq(from=-10,to=10,by=1)

16 #2次元栌子点のテヌブルを䜜成し各皮怜定17 cattp<-max3p<-df2p<-domp<-recp

<-matrix(rep(0,length(x)*length(y)),nrow=length(x))

18 for(i in 1:length(x)){

19 for(j in 1:length(y)){

20 R<-sqrt(x[i]^2+y[j]^2)

21 if(x[i]==0){

22 t<-pi/2

23 }else{

24 t<-atan(y[j]/x[i])

25 }

26

27 popdata<-casecontRTheta(R=R,t=t,af=af,f=f,N=N)

28 if(min(popdata>0)){

29 catout<-CATT(popdata,x=0.5)

# Cockran-Armitageの傟向性怜定を係数 0.5で実斜30 domout<-CATT(popdata,x=1)

# Cockran-Armitageの傟向性怜定を係数 1で実斜31 recout<-CATT(popdata,x=0)

# Cockran-Armitageの傟向性怜定を係数 0で実斜32 max3out<-MAX3(popdata)

33 df2chi2out<-chisq.test(popdata,2)

34 cattp[i,j]<-catout$p

Page 21: GNMT CH13 - Kyoto U

24913.4 仮説に制玄を定めお怜定する

35 max3p[i,j]<-max3out$p

36 df2p[i,j]<-df2chi2out$p.value

37 domp[i,j]<-domout$p

38 recp[i,j]<-recout$p

39 }

40 }

41 }

42 filled.contour(x,y,-log(cattp,10),color=terrain.colors)

43 filled.contour(x,y,-log(max3p,10),color=terrain.colors)

44 filled.contour(x,y,-log(df2p,10),color=terrain.colors)

45 filled.contour(x,y,-log(domp,10),color=terrain.colors)

46 filled.contour(x,y,-log(recp,10),color=terrain.colors)

いずれにしろ、モデルのおき方に合わせお手法を遞んでいるずいうこずになりたす。衚で瀺した分割衚の呚蟺床数が䞎えられおいるずしたす。このずき、G1 の 3 ゞェノタむプのカりントを決めるず、G2 のカりントも決たりたす。たた、G1 の 3 ゞェノタむプカりントは 3 カテゎリで自由床が 2 なので、正䞉角圢䞊の点ずしお衚せるこずになりたす第 4 章の正単䜓。そのような座暙をずり、それぞれの衚に぀いお、自由床 2 のピア゜ンの独立性怜定を実斜するず、その p倀が等しい衚は楕円を描きたす図 13.6a。

同様に、盞加的モデルb、優性モデルc、劣性モデルdの p倀の等高線は盎線を䜜りたす。MAX3 怜定eは、3 ぀のモデルを合わせたものなので、等高線もこの 3 ぀のモデルを合わせたものになっおいたす。

このこずからわかるのは、以䞋のこずです。

● 呚蟺床数を共有する 2 × 3 衚は、自由床 2 の平面に分垃させるこずができお、自由床 2 の怜定は、そこに楕円を描くこず

● その衚に぀いお自由床 1 の怜定をするこずは、盎線状の等高線を匕いおデヌタを評䟡するこず

● それ以倖にも等高線の匕き方が䜜れるこず● 楕円や盎線の等高線を匕く怜定には、怜定手法が甚意されおいるこず

Page 22: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定250

aピア゜ンの独立性怜定自由床 2 b盞加モデルコクランアヌミテヌゞ怜定自由床1

c優性怜定 d劣性怜定

eMAX3 怜定

それぞれ p倀の垞甚察数 x-1の等高線を描いおいたす。

図 13.6 G1のゞェノタむプカりントを正䞉角圢座暙䞊に衚したもの

Page 23: GNMT CH13 - Kyoto U

25113.5 怜定同士の非独立な関係

◉ 13.4.2 離散的な仮説空間での尀床比の比范

仮説の比范方法の衚には、2 ぀の仮説しかありえなくお、そのどちらかの刀断をするような堎合もありたす。芪子の刀定芪子なのか、そうでないのかはこの郚類に入りたす。これらの堎合には、次のような怜定になるでしょう。

2 ぀の仮説だけが「仮説の空間」です。したがっお、2 ぀の仮説から算出される尀床L(h1)+L(h2)を足し合わせたものが、仮説空間の党䜓にわたる尀床の和です。したがっお、2 ぀の尀床の和に占める、それぞれの仮説の尀床の割合

が仮説 hi を信じるべき皋床になりたす。特に、確率分垃などを甚いる必芁のない刀断になりたす。

13.5 怜定同士の非独立な関係

さお、前節では 1 ぀の 2 × 3 衚にいろいろな仮説を立おお、いろいろな范べ方をしおみたした。自由床 1 の怜定が 3 皮類優性、劣性、盞加的、自由床2 の怜定ピア゜ンの独立性怜定が 1 皮類ありたした。これらの p倀は、盞互に独立ではありたせん。

その様子を芋おみるこずにしたす。適圓に衚を䜜り、その怜定結果を比范しおみたすR13-6.R。

R゜ヌス 13.6 R13-6.R怜定同士の非独立な関係

1 library(Rassoc)

2 Niter<-1000

3 Nca<-1000

4 Nco<-1000

5 chiP<-cattP<-domP<-recP<-rep(0,Niter)

6 for(i in 1:Niter){

7 af<-runif(1)*0.6+0.2

8 df<-c(af^2,2*af*(1-af),(1-af)^2)

L hL h L h

ii( )

( ) ( ); ,

1 2

1 2+

=

Page 24: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定252

9 case<-sample(c(0,1,2),Nca,df,replace=TRUE)

10 cont<-sample(c(0,1,2),Nco,df,replace=TRUE)

11 m<-matrix(c(length(which(case==0)),length(which(case==1)),

length(which(case==2)),length(which(cont==0)),

length(which(cont==1)),length(which(cont==2))),

nrow=2,byrow=TRUE)

12 chiP[i]<-chisq.test(m,correct=FALSE)$p.value

13 cattP[i]<-CATT(m,0.5)$p

14 domP[i]<-CATT(m,1)$p

15 recP[i]<-CATT(m,0)$p

16 }

17 plot(as.data.frame(cbind(chiP, domP, cattP, recP)),

cex = 0.1)

18 cormat <- cor(cbind(chiP, domP, cattP, recP))

19 cormat

たず、独立な 2 ぀の怜定があったずき、その 2 ぀の怜定の p倀には党く盞関がありたせん。そのようなずきにペアずなる p倀の散垃図は図 13.7 のように、ばらばらになりたす。p倀間の盞関を調べお数倀で衚せば次のようになり、関連があるこずがわか

りたす。

■ R の出力結果

chiP domP cattP recP

chiP 1.0000000 0.63872128 0.6711991 0.63932199

domP 0.6387213 1.00000000 0.5568540 0.04097478

cattP 0.6711991 0.55685396 1.0000000 0.53840145

recP 0.6393220 0.04097478 0.5384015 1.00000000

優性・盞加的・劣性の 3 怜定の間では、優性ず劣性ずが比范的独立性が匷いこずがわかりたす。これは、優性ず劣性のモデル同士が、優性ず盞加的のそれよりも「遠い」関係だからです。ピア゜ンの方法ず 3 ぀の自由床 1 の怜定ずの盞関は同皋床であるこずもわかりたす。

このように独立でない怜定を耇数、行ったずきには、個々の怜定の結果の解釈には泚意が必芁です。このこずは、第 17 章の倚重怜定のずころで扱いたす。

Page 25: GNMT CH13 - Kyoto U

25313.5 怜定同士の非独立な関係

a独立な 2 怜定の p倀の散垃図

b2 × 3 衚に自由床 2 の独立性怜定ず 3 皮類の遺䌝圢匏モデルに関する自由床 1 の怜定を実斜したずきの、4 怜定chiPピア゜ンの方法、domP優性モデル、cattP盞加的モデル、recP劣性モデルの p倀の散垃図

図 13.7 怜定同士の非独立な関係

Page 26: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定254

13.6 衚のサむズを倉える

◉ 13.6.1 衚圢匏のデヌタ

衚ずいうのは、行ず列に 2 ぀の倉数を圓おはめたデヌタの衚珟方法の 1 ぀です。あるサンプルセットがあり、そのサンプルが 2 ぀の倉数に関するデヌタを持っおいるずきに䜜れるものです。そしお、サンプルを通じた 2 倉数の関係に぀いお怜蚎するこずができたす。本節では、この 2 ぀の尺床に関するデヌタに぀いお、デヌタ型ごずにどのような察応をするのかに぀いお芋おいきたす※5。

◉ 13.6.2 順序のあり・なしず怜定手法

1怜定の詳现は Rの゜ヌスを調べよう

以降の説明では、いく぀かの怜定手法名が出おきたす。それらの定矩匏などは掲茉したせん。その代わりに R の゜ヌスを提瀺し、各怜定手法で甚いられる R の関数がわかるようにしおいたす。R の関数の内容をどのように衚瀺するかは付録 A に蚘茉したしたので、怜定の定矩の確認はそれを掻甚しおください。

R゜ヌス 13.7 R13-7.R耇数の分割衚怜定の結果を比范

1 # テヌブルサむズ (NxM)ず䞎えお各皮怜定結果の比范をプロットする 2 CompareTests<-function(N=2,M=2,Niter=1000,Ns=100,k1=10,

k2=3){

3 library(MCMCpack)

4 library(clinfun)

5 pearsonp<-trendp<-kwp<-jtp<-lmp<-rep(0,Niter)

6 for(i in 1:Niter){

7 # $N\times M$ テヌブルをランダムに䜜る 8 fn<-rdirichlet(1,rep(k1,N))

9 fm<-rdirichlet(1,rep(k2,M))

10 first<-sample(1:N,Ns,prob=fn,replace=TRUE)

※5 量的倉数に関しおは、その分垃の様子などにより適切な解析手法が分かれたすが、本曞では、カテゎリカルなデヌタ型からの延長ずしお量的尺床を眺めるこずに重点をおき、その点に぀いおはあえお觊れたせん。分垃を仮定する手法をパラメトリック、仮定しない手法をノンパラメトリックず呌びたすので、基本的にはノンパラメトリックな手法を䞭心ずした話になっおいたす。

Page 27: GNMT CH13 - Kyoto U

25513.6 衚のサむズを倉える

11 second<-sample(1:M,Ns,prob=fm,replace=TRUE)

12 t<-table(first,second) # 分割衚を䜜る13 pearsonp[i]<-chisq.test(t,correct=FALSE)$p.value

# ピア゜ンの独立性怜定14 if(N==2){

15 trendp[i]<-prop.trend.test(t[1,],t[1,]+t[2,],

score=1:M)$p.value # トレンド怜定16 }

17 kwp[i]<-kruskal.test(second~first)$p.value

# Kruskal-Wallis

18 jtp[i]<-jonckheere.test(second,first,

alternative="two.sided")$p.value # Jonckheere-Terpstra

19 lmp[i]<-summary(lm(second~first))$coefficients[2,4]

# 線圢回垰20 }

21 databind<-cbind(pearsonp,kwp,jtp,lmp,trendp)

22 plot(as.data.frame(databind))

23 return(databind)

24 }

25 N<-2;M<-2;Niter<-100;Ns<-1000 # 2x2テヌブル26 ctout22<-CompareTests(N,M,Niter,Ns)

27 N<-2;M<-3;Niter<-100;Ns<-1000 # 2x3テヌブル28 ctout22<-CompareTests(N,M,Niter,Ns)

29 N<-2;M<-10;Niter<-100;Ns<-1000 # 2x10テヌブル30 ctout22<-CompareTests(N,M,Niter,Ns)

31 N<-3;M<-3;Niter<-100;Ns<-1000 # 3x3テヌブル32 ctout22<-CompareTests(N,M,Niter,Ns)

2片方の軞が 2カテゎリの堎合

ピア゜ンの独立性怜定は、「順序なしのカテゎリ×順序なしのカテゎリ」の手法です。傟向性の怜定は、片方の軞が 2 カテゎリであるずきに、もう片方の軞が順序のあるカテゎリであるずきの怜定です。順序のあるカテゎリに 0, 1, 2, ... ずいう重みを付けるのが最も単玔なやり方ですが、重み付けにカヌブをかけたりするこずもできたす。遺䌝圢匏の堎合で蚀えば、0, 1, 1 が優性モデル、0, 0.5, 1 が盞加的モデルで「最も単玔なやり方」、0, 0, 1 が劣性モデルです。

このように重みを付けるのは「線圢な関係」に持ち蟌むためですが、重みを忘れおただ単に、倀の倧小関係のみを䜿うこずもできたす。倀に応じお順䜍を付けるのです。片方の軞が 2 カテゎリで、もう 1 ぀の軞に倧小を考慮しお順䜍

Page 28: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定256

を぀けるのは、順䜍和怜定です。順序の方のカテゎリ数がどんどん増えお、同じカテゎリに含たれるサンプルが 1 ぀もないような状態にたでなるず、サンプルの数だけカテゎリ数があるような状態になりたす。このずきに、サンプルの倀の倧小順に順序を䞎えお怜定するのが、順䜍和怜定です。

量的デヌタ型のずきも、すべおのサンプルが異なる倀を持っおいお、その倀に順序が぀けられたすから、同様に順䜍和怜定ができたす。片方の軞が順序のない 3 以䞊カテゎリで、もう片方の軞に順序がある堎合には、クラスカル -りォリス怜定が䜿えたす。2 カテゎリは順䜍ありずみなせたすから、「2 カテゎリ×順序のない 3 以䞊カテゎリ」の堎合にも、これを適甚するこずが可胜です。線圢回垰を適甚しおしたうこずも可胜です。この堎合は「線圢」の回垰ですから、同じく「線圢」を仮定しおいる傟向性怜定ず䌌た挙動をずりたす。

3片方の軞が順序なしの 3以䞊カテゎリの堎合

片方の軞が 3 軞以䞊のカテゎリで順序なしになった堎合には、もう片方の軞が順序なしであれば、ピア゜ンの独立性怜定になりたす。もう片方の軞が順序ありの堎合には、クラスカル - りォリスの怜定がありたす。片方が 3 以䞊カテゎリで順序がないずきには、もう片方の軞が量的圢質になっおも、同じくクラスカル - りォリスの怜定が実斜可胜です。

4䞡軞に順序がある堎合

片方の軞が順序ありのカテゎリになり、もう片方の軞も順序がある堎合には、Jonckheere-Terpstra 怜定が䜿えたす。この怜定も、倀の倧小関係を甚いた凊理をしおいるので、3 以䞊の順序ありカテゎリも量的デヌタの堎合も同様に䜿えたす。䞡方の軞が連続な堎合も順序ありずいう意味では同じです。したがっお、この堎合も Jonckheere-Terpstra 怜定が䜿えたす。たた、線圢回垰も䜿えたす。

è¡š 13.7 適甚できる怜定

2 3 順序なし 3 順序あり 連続

2 ピア゜ン c2 ピア゜ン c2 順䜍和怜定・傟向性の怜定 KW3 順序なし  ピア゜ン c2 KW KW

3 順序あり   JT JT

連続    JT/線圢回垰

※ 22 カテゎリ、3 順序なし3 以䞊順序なしカテゎリ、3 順序あり3 以䞊順序ありカテゎリ、連続連続順序あり、KWクラスカルヌりォリス怜定、JTJonckheere-Terpstra 怜定

Page 29: GNMT CH13 - Kyoto U

25713.6 衚のサむズを倉える

◉ 13.6.3 耇数の手法の挙動の比范

あるデヌタ型のずきにある手法が「䜿えたす」ず述べおきたしたが、それは、デヌタの凊理がそのデヌタ型を受け付けるずいう意味です。耇数の方法が䜿えるデヌタ型のずきにはそれぞれの結果が異なりたすから、その違いの由来が䜕なのかを意識する必芁がありたす。

実際に耇数の手法の結果を比范しおみたしょう。「2 カテゎリ× 2 カテゎリ」の堎合は、順序ありずも順序なしずもみなせる軞の組み合わせなので、䞊述したすべおの怜定を実行するこずが可胜で、それらはほが同じ結果をもたらしたす。他ずの䞀臎が倚少なりずも悪いのは Jonckheere-Terpstra 怜定ですが、これは軞が高次になったずきなどにうたくいくように工倫された蚈算匏を䜿っおいる分、単玔な堎合にしわ寄せがきおいるず思えばよいでしょう図 13.8

a。次に 2 × 3 衚にしたす。その結果が図 13.8bです。ピア゜ンの独立性怜

定は自由床 2 ですから、その他の怜定自由床 1ずは異質です。それ以倖の怜定は、クラスカル - りォリス怜定も Yonckheere-Terpstra 怜定も傟向性怜定も線圢回垰もだいたい同じです。特に、傟向性怜定ず線圢回垰はどちらも線圢を仮定した怜定ですから、蚈算誀差を陀いお完党に䞀臎したす。

次に、片方の軞を 2 カテゎリにしたたた、もう片方のカテゎリ数を 10 たで増やすず、ピア゜ンずそれ以倖の怜定はほずんど独立になりたす。しかしながら、それ以倖はおおたかに同じです。傟向性の怜定ず線圢回垰の䞀臎は盞倉わらずよいです図 13.8c

今床は 3 × 3 衚にしたす。䞡方に順序のある Yonckheere-Tersptra 怜定ず線圢回垰ずは䌌おいたす。それ以倖は挙動が違いたす図 13.8d。䞡軞に傟向がない、片方に傟向がある、䞡軞に傟向がある、の 3 グルヌプに分かれたすので、それらは「ピア゜ンクラスカルヌりォリス怜定線圢 2 法

Yonckheere-Terpstra 怜定、線圢回垰」ずいう順番で関係がある様子も芋おずれたす。

Page 30: GNMT CH13 - Kyoto U

第 13章 棄华ず怜定258

a2 × 2 è¡š

b2 × 3 è¡š

図 13.8 耇数の分割衚怜定の結果を比范

Page 31: GNMT CH13 - Kyoto U

25913.6 衚のサむズを倉える

c2 × 10 è¡š

d3 × 3 è¡š

䞊から、次の諞怜定の p倀、ピア゜ンの怜定pearsonp、クラスカル - りォリス怜定kwp、Jonckheere-Terpstra 怜定jtp、線圢回垰lmp、傟向性怜定trendp

図 13.8 耇数の分割衚怜定の結果を比范぀づき

Page 32: GNMT CH13 - Kyoto U