el problema de hipotesis multiple edgar acuna universidad de puerto rico en mayaguez
TRANSCRIPT
![Page 1: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/1.jpg)
El problema de hipotesis multiple
Edgar AcunaUniversidad de Puerto Rico en
Mayaguez
![Page 2: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/2.jpg)
EL problema de pruebas de hipotesis multiples
• Prueba simultanea de m hipotesis nulas, una por cada gene j (j=1,…m)
Hj: No hay relacion entre el nivel de expresion del gene j y las distintas condiciones (gene no expresados)
• Debido a que los experimentos con microarreglos monitorean simultaneamente niveles de expresion de miles de genes hay que hacer ajuste a los p-values de las hipotesis individuales.
![Page 3: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/3.jpg)
El p-value en hipotesis simples
Resultado de la prueba (p>): No se rechaza Ho
Resultado de la prueba (p<). Se rechaza Ho
La Ho realmente es verdadera
Especificidad Error Tipo I()
(probabilidad )
La Ho no es verdadera
Error tipo II (probabilidad )
SensitividadEl p-value (nivel de significacion observado) controla la tasa de error tipo I. La probabilidad de rechazar una hipotesis por error no es mayor que (=.05). De 100 pruebas solo 5 serian significativas
![Page 4: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/4.jpg)
Posibilidades en Hipotesis multiples
# no rechazadas
# rechazadas
total
# H ciertas U V (F +) m0
# H no ciertas
T(F-) S m1
total m - R R m
Verdad
Decision
m es fijo, mo y m1 son fijas pero desconocidas, R es aleatorio y observado,
V es aleatorio y no observado.
![Page 5: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/5.jpg)
El problema de multiplicidad
Cuando miles de hipotesis son probadas simultaneamente se incrementa la posibilidad de los falsos positivos
Por ejemplo, en un microarray con 10,000 genes al 5% de significacion se puede esperar que 500 de ellos sean identificados como diferencialmente expresados ( es decir sus p-values serian menores que .05) simplemente por el azar.
Se ha perdido control del error tipo I y los p-values individuales no se pueden usar directamente para concluir que el gen es expresado. Necesitan ser ajustados (corregidos)
![Page 6: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/6.jpg)
Tasas de error tipo I (Falsos Positivos) a controlar
• Tasa de error por familia
PFER = E(V): numero esperado de falsos positivos
• Tasa de error por comparacion PCER = E(V)/m: proporcion esperada de falsos
positivos
• Family-wise Error Rate
FWER = p(V ≥ 1) (probabilidad de al menos un falso positivo)
• False Discovery Rate: FDR = E(V/R)P(R>0) Proporcion esperada de falsos
positivos entre las pruebas que fueron significativas
![Page 7: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/7.jpg)
Comparacion de tasas de error Tipo I
• En general, dado un procedimiento de prueba de hipotesis multiple
PCER FWER PFER, y
FDR FWER,
![Page 8: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/8.jpg)
Tipos de control del error en hipotesis multiples
• Control debil. Se controla el error tipo I asumiendo que todas las hipotesis nulas ( ) son ciertas. Es decir, mo=m. No bria genes diferncialemente expresados.
• Control fuerte. Se controla el error tipo I asumiendo cualquier combinacion de hipotesis nulas y falsas. Algunos genes serian diferencialmente expresados
m
jj
Co HH
1
![Page 9: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/9.jpg)
p-values ajustados (p*)
• Objetivo: dado una tasa de error tipo I , hay que usar un procedimiento para selecionar el conjunto de genes significantes de tal manera que error tipo I sea
• Si el interes es controlar el FWER, entonces el p-value ajustado para la hipotesis Hj is:
pj* = inf {’: Hj is rechazado al FWER }
• Hipotesis Hj es rechazada al FWER si pj*
![Page 10: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/10.jpg)
Notacion
• Para hipotesis Hj, j = 1, …, m
prueba estadistica calculada: tj
p-value no ajustado: pj
• Ordernamiento de tj (absoluto) observado: {rj}
tal que |tr1| |tr2
| … |trm|
• Ordernamiento de pj observado: {rj}
tal que |pr1| |pr2
| … |prm|
![Page 11: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/11.jpg)
Control de la FWER
• Metodo de Sidak
Rechazar Hj con pj1-(1-)1/m, p-value ajustado pj* = 1-(1-pj)m
• Metodo de Bonferroni
Rechazar Hj con pj/m, p-value ajustado pj* = min (mpj, 1)
Los metodos de Sidak y Bonferroni son faciles de calcular pero son muy conservativos. Para un numero grande de genes, el nivel individual de significancia por gene se vuelve bien pequeno bien rapidamente.
Estos metodos son llamados de un solo paso porque usan el mismo ajuste de multiplicidad para todas las hipotesis y no usan el ordenamiento de los p-values observados
Los p-values ajustados pueden ser obtenidos usando la funcion mt.rawp2adjp de la libreria multtest
![Page 12: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/12.jpg)
Control de la FWER• Metodo step-down de Holm (1979)
Los p-values ajustados se definen como
p*r1=mpr1
p*ri=max(p*ri-1,(m-i+1)pri) para 2im
con p*ri 1 tomados como 1.
O sea si j*=min{j:Prj>/(m-j+1)}, rechazar Hj para j=1,…j*-1.
Los p-values ajustados estan dados por:prj* = maxk = 1…i{min ((m-k+1)prk, 1)}
Los p-values ajustados pueden ser obtenidos usando la funcion mt.rawp2adjp de la libreria multtest
![Page 13: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/13.jpg)
Control de la FWER
Por ejemplo supongamos que los 4 primeros p-values ordenados son: 0.0006950, 0.0008659, 0.00149758, 0.00417016 de un total de m=1000 p-values. Entonces los p-values ajustados correspondientes seran: p*1=.6950,
p*2=max(.6950, 999*0.0008659)=0.86510, p*3=max(.86510,998*0.00194758)=1.494585. Luego se toma p*3 =1 pues el p-value no debe exceder a 1.
P*4=max(1,997*0.004170)==1 y todos los que siguen tambien se toman como 1.
![Page 14: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/14.jpg)
Control de la FWER• Metodo step up de Hochberg (1988)
Los p-values ajustados se definen como
p*rm=prm
p*ri=min(p*ri+1,(m-i+1)pri) para i=m-1,…1
con p-values 1 tomados como 1.
O sea si j*=min{j:Prj/(m-j+1)}, rechazar Hj para j=1,…j*.
Los p-values ajustados vienen dados por prj* = mink = j..m {min ((m-k+1)prk, 1) }
Los p-values ajustados pueden ser obtenidos usando la funcion mt.rawp2adjp de la libreria multtest
![Page 15: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/15.jpg)
Control de la FWERP-value ordenado
Sidak Bonferroni Holm Hochberg
pr1 1-(1-)1/m /m /m /m
pr2 1-(1-)1/m /m /(m-1) /(m-1)
…. ……… …….
prj 1-(1-)1/m /m /(m-j+1)
/(m-j+1)
…. ……….. ……
prm 1-(1-)1/m /m
![Page 16: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/16.jpg)
Ejemplo; Aplicacion a datos de Golub
• 38 pacientes de Leucemia, 27 con leucemia aguda linfoblastica (ALL) y 11 con leucemia aguda meloide (AML). Inicialmente hay 6817 genes que se reducen a 3051 aplicando cierto criterios de exclusion para valores de expresion
![Page 17: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/17.jpg)
Ejemplo (cont)histograma de valores t
pruebash$t
Fre
qu
en
cy
-5 0 5 10
01
00
20
03
00
40
05
00
Histogram of pvals
pvals
Fre
qu
en
cy
0.0 0.4 0.8
02
00
40
06
00
80
01
00
0
1045 genes expresados con p-values <.05
![Page 18: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/18.jpg)
Ejemplo (cont)histograma p-values:Sidak
a1$adjp[, 2]
Fre
qu
en
cy
0.0 0.2 0.4 0.6 0.8 1.0
05
00
10
00
15
00
20
00
25
00
histograma p-values:Holm
a3$adjp[, 2]
Fre
qu
en
cy
0.0 0.2 0.4 0.6 0.8 1.0
05
00
10
00
15
00
20
00
25
00
En ambos casos se detectan 98 genes expresados
![Page 19: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/19.jpg)
Top 10 genes
t wilcox sidak bonferroni Holm Hochberg
829 896 829 829 829 829
378 2124 378 378 378 378
2124 829 2124 2124 2124 2124
808 2670 808 808 808 808
2489 2939 2489 2489 2489 2489
394 394 394 394 394 394
2670 766 2670 2670 2670 2670
1009 808 1009 1009 1009 1009
1995 1834 1995 1995 1995 1995
937 2600 937 937 937 937
![Page 20: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/20.jpg)
Pruebas basadas en permutacionesEstimar la distribucion conjunta de los estadisticos de prueba T1,..,Tm ,
donde m es el número de genes, mediante permutaciones de las columnas de la matriz de expression genética
Labels originales de los grupos estadistico t
Labels permutados de los grupos
1.45
1.34
1.89
-1.33
-0.78
2.17
![Page 21: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/21.jpg)
Algoritmo de Permutación para p-values-no ajustados
• Calcular las pruebas tj para cada una de las hipótesis Hj.
• Hacer B permutaciones (B aprox 1000) de las columnas de la matriz de expresión genética
• Para la b-ésima permutacion b=1,2,….B A) Calcular las pruebas estadisticas t1,b,……tm,b
B) El p-value estimado por permutacion para la prueba de hipotesis Hj está dado por la proporcion de |t ib| ‘s que son mayores que |ti|
donde I (.) representa la función indicadoraLa libreria multtest tiene la funcion mt.sample.teststat
que calcula el test estadistico por permutaciones pero lo hace vector por vector
)|||(|1
,
* b
jbjj ttIB
p
![Page 22: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/22.jpg)
Westfall & Young (1993) p-values ajustados
• En cada paso hace pequenos ajustes
• Toma en cuenta la distribucion conjunta (dependencia ) de la pruebas estadisticas
• Menos conservativo que los anteriores metodos de ajustar p-values.
• Puede ser estimado por remuestreo resampling pero tarda bastante (especialmente la version minP)
![Page 23: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/23.jpg)
Metodo maxT de Westfall & Young
• Ordenar los t-values observados
• Para la b-esima (b=1…B) permutacion de las columnas del conjunto de datos calcular
a) los tj,b values para cada Hj (j=1,…m)
b) Calcular los maximos consecutivos de la prueba estadistica.
um,b=|trm,b|
uj,b=max(uj+1,b,|trj,b|) para j=m-1,……1
Calcular los pvalues ajustados usando)|||(|
1,
* b
rbjr jjtuI
Bp
![Page 24: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/24.jpg)
Metodo maxT de Westfall & Young
Tambien es conocido como step-down maxT
Un formula equivalentemente para los p-values ajustados es
prj* = maxk = 1…j { p(maxl{rk…rm} |Tl| ≥ |trk| H0
C )}
Tl es el valor de la prueba estadistica correspondiente a la l-esima hipotesis.
![Page 25: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/25.jpg)
Ejemplo del metodo MaxTgene
|t|
1 0.1 tr5
4 0.2 tr4
5 2.8 tr3
2 3.4 tr2
3 7.1 tr1
Gene
|tb| |ub| I(ub>|t|)
1 1.3 1.3 1
4 0.8 1.3 1
5 3.0 3.0 1
2 2.1 3.0 0
3 1.8 3.0 0
P*=/B
935 .935
876 .876
138 .138
145 .145
48 .048
Genes ordenados segun su valor t
Valores u para la b-esima permutacion
P-Values ajustados
![Page 26: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/26.jpg)
Explicacion de los valores de la tabla
De la primera tabla hay que guardar los indices de los ordenamientos. Esto es, r1=3, r2=2,r3=5,r4=4,r5=1. Luego, de la segunda tabla ur5=|tr5,b|=1.3, Tambien
Ur4=max(ur5,|tr4|)=max(1.3,0.8)=1.3
Ur3=max(ur4,|tr3|)=max(1.3,3.0)=3.0
Ur2=max(ur3,|tr2|)=max(3.0,2.1)=3.0 y
Ur1=max(ur2,|tr1|)=max(3.0,1.8)=2.0
![Page 27: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/27.jpg)
Metodo minP de Westfall & Young
• Tambien llamado step-down minP
En este caso los p-values ajustados vienen dados por:
p*r1=p(minl{r1…rm} Pl pr1 H0C )}
prj* = max(prj-1,p(minl{rj…rm} Pl prj H0C )} para
j=2,…m
Pl es la variable aleatoria para el p-value de la l-esima hipotesis. Por ejemplo, Pl ~U(0,1)
![Page 28: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/28.jpg)
maxT vs. minP
• Los p-values ajustados por maxT y minP son los mismos cuando las pruebas estadisticas son identicamente distribuidas (id)
• maxT es mas rapida computacionalmente que minP
• maxT es mas poderosa en los casos en que el numero de genes m es grande y numero de arreglos n es pequeno.
![Page 29: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/29.jpg)
Top 10 genes
maxT minP
2124 2124
829 829
896 896
766 766
2600 2600
2939 2939
1995 1995
2386 2386
717 717
2489 2489
![Page 30: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/30.jpg)
• El criterio de controlar el FWER es demasiado conservativo esto significa que muchos genes que son diferencialmente expresados podrian no ser detectados.
• Para el ejemplo de Golub solo se detectan 98 genes como expresados con los ajusten de bonferoni y Holm. El maxT de Westfall detecta 91, pero el minP no detecta ninguno.
• El criterio FDR trata de resolver este problema
![Page 31: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/31.jpg)
Control de la FDR• Benjamini & Hochberg (1995): step-up
Asumiendo que el FDR es de nivel , se rechaza Hj para j=1,…j* , donde j*=max{j: prj<=(j/m)}.
El p-value ajustado esta dado porprj* = mink = j…m { min ((m/k) prk, 1) }
• Benjamini & Yuketieli (2001): conservative step-up.
Se rechaza Hj para j=1,…j* , donde j*=max{j: prj<=j/ mj=1
m[1/j]}. Con p-value ajustado dado por
prj* = mink = j…m { min (mj=1m[1/j]/k] prk, 1) }
Los p-values ajustados pueden ser obtenidos usando la funcion mt.rawp2adjp de la libreria multtest
![Page 32: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/32.jpg)
Top 10 genes
BH BY
829 829
378 378
2124 2124
808 808
2489 2489
394 394
2670 2670
1009 1009
1995 1995
937 937
Bejamini y Hocberg detecta 681 genes expresados y Bejnjamini y Yuketilei detecta 269.
Tambien se puede ajustar los p-values obtenidos con maxT o minP
res1=mt.maxT(golub,golub.cl)Rawp=res1$rawp[order(res1$index)]# Permutation adjusted p-values for simple multiple testing proceduresRes2=mt.rawp2adjp(rawp,”BH”)
![Page 33: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/33.jpg)
Otras propuestas para multiple testing
• ‘Significance Analysis of Microarrays (SAM)’ (2 versions)– Tusher et al. (2001)– Efron et al. (2001), basada en empirical Bayes
• SAM tambien estima el ‘FDR’, pero este es definido como E(V|H0
C)/R y no como E(V/R)
• La libreria siggenes de Bioconductor encuentra los genes diferenciados por SAM
![Page 34: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/34.jpg)
Analisis de significancia de Microarrays (SAM)
• Tusher et al. (2001) • Does not assume normal distribution – Instead, p-values computed via
values computed via permutation• Test statistic: similar to t Test
statistic: but with modified with modified variance estimate
– Improved for small experiments.
![Page 35: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/35.jpg)
Analisis de significancia de Microarrays (SAM)
• First, compute test statistic per gene for the observed data.
donde s*p es un estimado de la desviacion estandar combinada y so es el coeficiente de variacion minimo de la expresion de todos los genes.
Compute average of test statistics distribution, over all statistics distribution, over all permutations
– This gives estimate of distribution, if treatment has no effect.• Un gen es considerado significamente diferenciado si su
distancia con respecto a la media de su distribucin excede un threshold
• SAM es facil de implementar• El estimado usa todos los genes, luego si uno deellos se afecta
por el tratamiento tambie se afectara el estimado.• No es confiable en experimentos pequenos.
op
CT
ss
xxt
*
![Page 36: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/36.jpg)
Ejemplo de SAM
Row d.value stdev rawp q.value R.fold1 829 8.165222 0.2958251 0 0 7.27717922 2124 7.964784 0.1778697 0 0 3.39530353 2600 6.102371 0.1911219 0 0 2.66869924 2664 5.975750 0.3918749 0 0 4.72295405 766 5.970848 0.1731333 0 0 2.49722996 2489 -5.726212 0.2154975 0 0 0.34495327 717 -5.704438 0.2068956 0 0 0.34504018 1995 -5.696514 0.1933259 0 0 0.37356879 2939 -5.576921 0.1650727 0 0 0.413292510 2663 5.547021 0.4178283 0 0 5.455152311 378 5.408458 0.3024200 0 0 4.423027812 1778 5.336856 0.2215924 0 0 2.781742613 1911 5.170084 0.1897508 0 0 2.357420714 1413 5.168875 0.2809704 0 0 3.292666815 808 5.139462 0.1819399 0 0 2.4278709
![Page 37: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/37.jpg)
SAM usando empirical Bayes (EBAM)
• Aqui se estima la probabilidad posterior p1(Z) =1-pofo(Z)/f(Z) de que un gen con score Z sea expresado. La razon fo(Z)/f(Z) es estimada usando una regresion logistica basada en las densidades relativas de los scores Zi
![Page 38: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/38.jpg)
Ejemplo de SAM (empirical Bayes)
# El valor optimo del factor a0 is determinado, donde # los posibles valores de a0 son 0 y los quantiles 0, 0.05 y 0.1 # de la desviacion estandard de los genes. Hacer rand=123 find.out=find.a0(golub,golub.cl,alpha=c(0,0.05,0.1),rand=123) # Una vez que se establece el valor optimo de a0,se efectua #un analisis por Empirical Bayes.>ebam.out=ebam(find.out,gene.names=golub.gnames[,3])>cat("\n el numero de genes diferenciados es",length(ebam.out$row.sig.genes),"\n") el numero de genes diferenciados es 714 > cat("\n los top 10 genes son\n") los top 10 genes son> ebam.out$row.sig.genes[1:10] [1] 2489 394 1995 2939 717 1042 2702 523 1811 849
![Page 39: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/39.jpg)
References
• Alizadeh et al. (2000) Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature 403: 503-511
• Benjamini and Hochberg (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing. JRSSB 57: 289-200
• Benjamini and Yuketieli (2001) The control of false discovery rate in multiple hypothesis testing under dependency. Annals of Statistics
• Efron et al. (2000) Microarrays and their use in a comparative experiment. Tech report, Stats, Stanford
• Golub et al. (1999) Molecular classification of cancer. Science 286: 531-537
![Page 40: El problema de hipotesis multiple Edgar Acuna Universidad de Puerto Rico en Mayaguez](https://reader036.vdocuments.site/reader036/viewer/2022062500/5665b49d1a28abb57c92aae4/html5/thumbnails/40.jpg)
References
• Hochberg (1988) A sharper Bonferroni procedure for multiple tests of significance. Biometrika 75: 800-802
• Holm (1979) A simple sequentially rejective multiple testing procedure. Scand. J Statistics 6: 65-70
• Tusher et al. (2001) Significance analysis of microarrays applied to transcriptional responses to ionizing radiation. PNAS 98: 5116 -5121
• Westfall and Young (1993) Resampling-based multiple testing: Examples and methods for p-value adjustment. New York: Wiley
• Yuketieli and Benjamini (1999) Resampling based false discovery rate controlling multiple test procedures for correlated test statistics. J Stat Plan Inf 82: 171-196