estudio cohorte final

16
Artículo de Revista de la Sociedad Científica de la Escuela de Medicina Humana UNSCH 2014; 1(1) ESTUDIO DE COHORTE DISEÑO Y TAMAÑO DE MUESTRA Jimmy Ango 1a 2b , Diego Alca 1c Josué Aguilar 1c Kevin Guillen 1c , RESUMEN En este artículo, se hace una introducción elemental a los conceptos y los métodos estadísticos usados en estos diseños. Se enfoca en las herramientas estadísticas más elementales usadas en los estudios de cohorte variables. Estas herramientas hacen parte de lo que se conoce como “análisis de supervivencia”. Se explica entonces el concepto de censura y se describen las tablas de vida, las funciones de supervivencia, el estimador de Kaplan-Meier Palabras clave: análisis de supervivencia, estimador de Kaplan-Meier, IDENTIFYING, REVIEWING AND DEFINITION OF RESEARCH TOPIC: HUMAN PAPILLOMAVIRUS IN THE CERVICAL CANCER ABSTRACT In this article, an elementary introduction to the concepts and statistical methods used in these designs is introduced. It focuses on the most basic statistical tools used in the study cohort variables. These tools are part of what is known as "survival analysis." It then explains the concept of censorship and life tables describe the functions of survival, Kaplan- Meier estimator Keywords: survival analysis, Kaplan-Meier estimator, INTRODUCCIÓN Un estudio de cohorte consiste en hacerle un seguimiento a grupos de personas para monitorear su salud. El diseño más simple consiste en seguir dos grupos (llamados cohortes), los dos grupos deben tener características similares. Después de determinado período de tiempo, llamado ‘período de seguimiento’, la incidencia de cierta enfermedad se compara entre los dos grupos. El comienzo del estudio se llama 1 EFP de Medicina Humana de la Universidad Nacional de San Cristóbal de Huamanga a a Profesor Auxiliar TP, responsable del Área Académica de Investigación y Salud Pública. 2 Centro de Investigaciones Biológicas “Biocientífica” b b Médico Cirujano UNMSM, especialista en Administración de Salud UPCH c c Estudiante serie 200 1

Upload: jhonatan-a-oz

Post on 12-Jan-2016

217 views

Category:

Documents


0 download

DESCRIPTION

INVESTIGACIÓN CIENTIFICA

TRANSCRIPT

Page 1: Estudio Cohorte Final

Artículo de RevisiónRevista de la Sociedad Científica de la Escuela de Medicina Humana UNSCH 2014; 1(1)

ESTUDIO DE COHORTEDISEÑO Y TAMAÑO DE MUESTRA

Jimmy Ango 1a 2b , Diego Alca1c Josué Aguilar 1c Kevin Guillen 1c ,

RESUMEN

En este artículo, se hace una introducción elemental a los conceptos y los métodos estadísticos usados en estos diseños. Se enfoca en las herramientas estadísticas más elementales usadas en los estudios de cohorte variables. Estas herramientas hacen parte de lo que se conoce como “análisis de supervivencia”. Se explica entonces el concepto de censura y se describen las tablas de vida, las funciones de supervivencia, el estimador de Kaplan-Meier

Palabras clave: análisis de supervivencia, estimador de Kaplan-Meier,

IDENTIFYING, REVIEWING AND DEFINITION OF RESEARCH TOPIC: HUMAN PAPILLOMAVIRUS IN THE CERVICAL CANCER

ABSTRACT

In this article, an elementary introduction to the concepts and statistical methods used in these designs is introduced. It focuses on the most basic statistical tools used in the study cohort variables. These tools are part of what is known as "survival analysis." It then explains the concept of censorship and life tables describe the functions of survival, Kaplan-Meier estimator

Keywords: survival analysis, Kaplan-Meier estimator,

INTRODUCCIÓN

Un estudio de cohorte consiste en hacerle un seguimiento a grupos de personas para monitorear su salud. El diseño más simple consiste en seguir dos grupos (llamados cohortes), los dos grupos deben tener características similares. Después de determinado período de tiempo, llamado ‘período de seguimiento’, la incidencia de cierta enfermedad se compara entre los dos grupos. El comienzo del estudio se llama “tiempo de referencia”. Al finalizar este período de tiempo se comparan las incidencias de los dos grupos. Estos son entonces observados durante un período de tiempo, registrándose aquellos individuos que muestren la enfermedad durante ese período de tiempo. Luego se compara la aparición de la enfermedad coronaria en los dos grupos.

1 EFP de Medicina Humana de la Universidad Nacional de San Cristóbal de Huamanga

aa Profesor Auxiliar TP, responsable del Área Académica de Investigación y Salud Pública.2 Centro de Investigaciones Biológicas “Biocientífica”

bb Médico Cirujano UNMSM, especialista en Administración de Salud UPCHcc Estudiante serie 200

1

Page 2: Estudio Cohorte Final

Rev SOCEMH UNSCH. 2014;1(1) Ango J, et al

DISEÑO COHORTE

Un estudio de cohorte es un estudio epidemiológico, observacional, analítico, longitudinal, prospectivo o retrospectivo (histórico) en el que se selecciona a los individuos que componen los grupos de estudio en función de que se produjera o no determinada exposición o característica y se los sigue durante cierto tiempo. (1) Estos estudios se han de utilizar de manera clásica para determinar la ocurrencia de un evento específico en un grupo de individuos inicialmente libres del evento o enfermedad en estudio. (2)

Es muy importante establecer una definición operacional y objetiva del efecto en estudio. Antes de identificar a las personas expuestas, es necesario definir explícitamente los grados y la duración mínima de la exposición. El criterio de evaluación ha de ser uniforme en todos los participantes en el estudio. Los 2 grupos de comparación, expuestos y no expuestos, pueden seleccionarse de poblaciones diferentes; para la recogida de la información, se ha de usar las mismas fuentes de información y los mismos criterios en los individuos expuestos y no expuestos para no comprometer la validez del estudio. Dicha información se ha de obtener de la misma manera y con métodos comparables en todos los participantes para lograr una clasificación no sesgada con relación a la exposición. (3)

Los individuos no expuestos han de ser similares a los expuestos excepto en que no han estado sometidos a la exposición en estudio. Deben tener, también, el mismo riesgo potencial de sufrir el efecto y las mismas oportunidades que los expuestos de ser diagnosticados del efecto en estudio. (1) Además, pueden fijarse criterios de inclusión; en el estudio los individuos de la cohorte son clasificados de acuerdo con las características (Factores de riesgo) que podrían guardar relación con el resultado. (3) Un factor de riesgo es una variable relacionada con una alta probabilidad de aparición de la enfermedad. Un factor pronóstico es una variable relacionada con el curso y el resultado de la enfermedad, que en general depende de la intervención terapéutica a la que se encuentra sometido el paciente durante el curso de la enfermedad. (1)

Al presentar el efecto, el individuo deja de estar en riesgo, por lo que ya no cumple con el criterio de permanencia en la cohorte (su seguimiento termina). El perıodo de seguimiento depende de la duración de la latencia y la frecuencia del efecto en estudio, lo que puede abarcar días, semanas, meses o años. Dos momentos clave definen el perıodo de seguimiento: el examen inicial (medición basal) y el final del seguimiento. El seguimiento, en función del efecto en estudio, puede ser activo (en el que se utilizan contactos repetidos por diversos medios: nueva entrevista y obtención de muestras, cuestionarios auto- aplicables o llamadas telefónicas) o pasivo (se realiza mediante búsqueda sistemática de sistemas de información en registros preestablecidos de morbilidad y mortalidad). (3) La pérdidas durante el seguimiento pueden originarse por varias razones (abandono del estudio, muerte por causa distinta del efecto en estudio), pero deben ser cuantificadas para evaluar la validez del estudio (su distribución debería ser similar en el grupo de expuestos y en el de no expuestos). (2)

Figura 1 : Diseño de clásico de un estudio de cohorte

2

Page 3: Estudio Cohorte Final

Helicobacter pyloriRev SOCEMH UNSCH. 2014;1(1)

Los estudios de cohorte tienen ciertas ventajas y desventajas respecto a otro tipo de estudios epidemiológicos(5).

Ventajas Desventajas Permite mejor establecer relación de

causalidad Permite obtener incidencias y riesgo

relativo Puede combinar el estudio de varios

daños a la salud

Tiempo prolongado de estudio Frecuentemente costoso Requiere un mayor número de sujetos No es adecuado para enfermedades

de baja frecuencia Adolece el problema de pérdida de

sujetos durante el seguimiento

Con relación al tipo de población, las cohortes construidas pueden ser fijas, también llamadas cerradas, y dinámicas, (3) una cohorte es fija cuando, una vez seleccionados los sujetos que formaran parte de ella, no se permite la incorporación de nuevos individuos a la misma. Por lo contrario, es dinámica si se aceptan nuevos participantes a lo largo del tiempo, conforme los sujetos van reuniendo los criterios de elegibilidad para ser introducidos en la investigación. La elección de la población de estudio se realiza mediante la selección de una muestra de los sujetos de la población de referencia que reúnen las características adecuadas para poder ser elegidos (población elegibles), los que participen de estos formaran la población de estudio. (2)

La utilidad de los diseños de cohortes se resume en: a) la descripción de la historia natural de la enfermedad; b) el contraste de hipótesis sobre factores causales; c) el estudio de tendencias seculares de los factores de riesgo y su relación con la morbilidad y; d) la evaluación pronostica de la enfermedad, y e) la observación de la efectividad de las intervenciones y los procedimientos a escala poblacional. (1)

CLASIFICACIÓN DE LOS ESTUDIOS DE COHORTE

Dependiendo de la relación temporal del inicio del estudio respecto a la ocurrencia del evento, los estudios de cohorte se han clasificado como: prospectivos, y retrospectivos (o históricos) y ambispectivos(o bidireccionales). (3)

La principal ventaja de los estudios de cohorte prospectivos es que, cuando son bien controlados, se puede establecer una relación de causa-efecto entre el factor de riesgo y la enfermedad investigada, al inicio del estudio la exposición al factor puede haber ocurrido o no, pero lo que aún no ha sucedido es la aparición del efecto en estudio, por lo que se requiere un perıodo de seguimiento en el futuro para determinar su frecuencia. En ellas, los investigadores pueden controlar la calidad de las mediciones, lo cual facilita la interpretación de los resultados. (1)

Los estudios de cohorte retrospectivos reconstruyen la experiencia de la cohorte en el tiempo, por esta razón dependen de la disponibilidad de registros para establecer exposición y resultado, la validez del estudio dependerá en gran medida de la calidad de los registros utilizados. (3) Estos estudios, tienen limitaciones debidas a la dificultad que los individuos pueden tener para recordar fechas y para recordar la presencia de factores de riesgo en su pasado. Además, puede ocurrir que algunos de los individuos que hayan estado sometidos a cierto factor de riesgo ya hayan muerto a causa de ese factor, lo cual impide que pertenezcan a la muestra que se está recogiendo actualmente, lo cual produce una subestimación del riesgo debido a ese factor.(5) Sin embargo, los estudios de cohorte retrospectivos son útiles en ciertos casos, por ejemplo, cuando el factor de riesgo sólo puede identificarse varios años después del tiempo de referencia. Es el caso de muchos factores de riesgo genéticos, los cuales se manifiestan fenotípicamente sólo años después de haber nacido el individuo (en este caso, la fecha de nacimiento sería el tiempo de referencia. (1)

Una aplicación frecuente de una cohorte histórica son los estudios de exposición ocupacional, donde se reconstruye la exposición y frecuencia de eventos en un grupo ocupacional o empresa durante un periodo determinado. En contraste, en las cohortes prospectivas es el investigador quien documenta la ocurrencia del evento en tiempo venidero en la población en estudio, por lo que la exposición y resultado se valoran de manera concurrente, y la calidad de las mediciones puede ser controlada por los investigadores(3) , los diseños retrospectivos, al igual que en los prospectivos, la expresión “tiempo de referencia” (baseline) se refiere al instante de tiempo a partir del cual se comienza a contar el tiempo de supervivencia.(2)

En las cohortes bidireccionales los datos se recogen de forma retrospectiva y prospectiva simultáneamente. Respecto al tipo de población seleccionada, las cohortes(1)

3

Page 4: Estudio Cohorte Final

Rev SOCEMH UNSCH. 2014;1(1) Ango J, et al

SESGOS:

Todo estudio epidemiológico está sujeto a un cierto margen de error (sesgo), por lo que será muy importante conocer cuáles son sus fuentes principales y los diferentes procedimientos que pueden ser utilizados para minimizar su impacto en los resultados.(6) A pesar de reconocer que los estudios de cohorte representan un diseño menos sujeto a error sistemático o sesgo en comparación con otros estudios observacionales, no es menos cierto que se deben tener en consideraciones algunas fuentes que pueden distorsionar los resultados que se deriven de ellos.(7) Existen un gran número de sesgos definidos, característicos del diseño de cohorte. Sin embargo, la mayoría puede incluirse: de selección, de medición y de confusión:

SESGOS DE SELECCIÓN: Estos sesgos pueden introducirse en un estudio cuando hay diferencias sistemáticas entre los participantes en los grupos de tratamiento diferentes. Estos sesgos relacionado con el procedimiento utilizado para conformar la cohorte o población en estudio: cuando la población en estudio se constituye con voluntarios, la representatividad que este grupo pueda tener de la población blanco (de la población a la cual se pretende generalizar los resultados) puede estar limitada por el hecho de que los voluntarios son diferentes en algunos aspectos de la población general. (7) Los sesgos de selección pueden ocurrir en cualquier estudio epidemiológico, sin embargo, ocurren con mayor frecuencia en estudios retrospectivos (6)

SESGOS DE SEGUIMIENTO: estos sesgos consisten principalmente por el problema de las pérdidas a lo largo de la duración del estudio y por la observación deferencial en las distintas cohortes.Cuando las personas que se pierden difieren de aquellas que quedan con respecto a la exposición y al desenlace, cualquier asociación observada puede estar sesgada; además, si no se siguen los pacientes por un tiempo adecuado hasta la aparición del desenlace, la asociación puede estar subestimada. (7)

SESGOS DE CONFUNCIÓN: Es detectado por la existencia de factores de confusión. Un factor de confusión es un variable que actúa como factor de riesgo para la enfermedad sometida a estudio, muestra una asociación con el factor de riesgo que se está valorando y no es una variable intermediaria en la cadena causal del factor de riesgo sometido a estudio. El factor de confusión es, con mayor frecuencia, el resultado de relaciones específicas existentes entre las variables de una base de datos. El factor de confusión está con frecuencia presente a pesar de los esfuerzos que se hacen para evitarlo. Una misma variable (p. ej., el sexo) puede ser un factor de confusión en una base de datos (de un estudio determinado) y no serlo en otra. (8)

SESGOS DE INFORMACIÓN: Estos sesgo se presenta cuando la información se obtiene de manera diferente en los grupos estudiados(9). Una posible fuente de sesgo de medición puede ser cualquier factor que influya de manera diferencial sobre la calidad de las mediciones que se realizan en los grupos expuesto y no expuesto en el contexto de los estudios de cohortes (7)

ANALISIS DE SUPERVIVENCIASe denomina análisis de supervivencia al conjunto de técnicas que permiten estudiar la variable tiempo hasta que ocurre un evento y su dependencia de otras posibles variables explicativas teniendo en cuenta la información parcial contenida en las censuras. (10) La palabra “sobrevivir” no necesariamente se refiere a no morir, sino que también se puede referir a no experimentar la enfermedad que se estudia. En general, sobrevivir significa no experimentar el evento de interés en el estudio. Un sujeto que no experimente el evento de interés antes de concluir el estudio se llama “censurado”, y los datos suministrados por dicho sujeto se llaman “datos censurados”. Así, aquellos sujetos que terminan el estudio en buen estado de salud son censurados. (11).El análisis de la supervivencia es una técnica muy apropiada para analizar respuestas binarias en estudios longitudinales o de seguimiento que se caractericen por:

1. Duración variable del seguimiento: los estudios de seguimiento tienen fechas muy bien definidas de inicio y de cierre, pero los sujetos se incorporan al estudio en momentos diferentes.

2. En cuanto al análisis, a pesar de que la variable tiempo hasta un evento es continua, su análisis suele presentar dos dificultades que impiden realizarlo con las técnicas estadísticas generales para las variables continuas, tales como la “t” de Student, el análisis de la varianza, o los modelos de regresión lineal. En

4

Page 5: Estudio Cohorte Final

Helicobacter pyloriRev SOCEMH UNSCH. 2014;1(1)

Figura 3. Esquema temporal de un estudio para observar tiempos de espera para un evento, por ejemplo, supervivencia tras un diagnóstico de cáncer. El estudio empezó el 1 de enero de 1990 y acabó el 1 de enero de 2002. En A el eje temporal representa años de calendario y en B años desde el diagnóstico. Con el círculo en blanco se representan los tiempos censurados y con el cuadrado negro las muertes (ocurrencia del evento). El individuo A al que se le diagnosticó en enero de 1990, desaparece del estudio en enero de 1993 (sería una censura a los 3 años por pérdida de seguimiento). El B, también diagnosticado en enero de 1990, fallece en junio de 1992 (muerte a los 2,5 años). El C sigue vivo al acabar el estudio (sería un dato censurado a los 12 años por fin del estudio). El D, al que se le diagnostica en febrero de 1991, fallece en marzo de 1999, el tiempo de supervivencia sería de 8 años. El E, que fue diagnosticado en noviembre de 1993, fallece en accidente de tráfico en julio de 1997 (sería una muerte, o un dato censurado, a los 3,7 dependiendo de la definición de evento de interés –véase texto–). El F, al que se le diagnosticó al principio de 1996, sigue vivo al cabar el estudio, sería un dato censurado a los 6 años por fin del estudio.

primer lugar, en la mayor parte de los estudios, la variable tiempo no tiene la distribución normal que esas técnicas exigen, más bien suele tener una distribución asimétrica, en la que típicamente los eventos ocurren con mayor frecuencia al principio que al final del período de seguimiento y en segundo lugar y más relevante, en general, al final del período de seguimiento siempre hay individuos en los que no se ha podido observar el evento y, por tanto, en los que el tiempo hasta su ocurrencia es desconocido, si bien se tiene una información parcial sobre él, es mayor o igual que el tiempo observado.(10)

EL CENSURADO HACE AL ANÁLISIS DE SUPERVIVENCIA DIFERENTE:

El análisis de supervivencia tiene una característica que lo diferencia claramente de otros análisis estadísticos, y es que algunos individuos experimentan el evento terminal y otros no, lo que hace que el tiempo de supervivencia de los que no lo han experimentado sea un tiempo desconocido.(12) explicado como tiempo censurado; existen tres motivos por los que pueden aparecer las censuras: por fin del estudio, pérdida del seguimiento y la última causa de censura es la ocurrencia de un evento competitivo que impida la observación del evento, por ejemplo, muerte por alguna otra causa ajena al estudio. Es ésta la causa de censura a la que hay que prestar más atención en el diseño de los estudios, como se comentará más adelante. Todos estos tiempos censurados infraestiman el tiempo hasta el evento, que siempre ocurrirá, asumiendo que ocurra, en un tiempo posterior.

La forma más directa de estudiar el análisis de supervivencia sería conformar una cohorte de sujetos con el EI que se encuentren en un mismo punto del curso de éste y someterlos a observación hasta que todos presenten el resultado de interés, graficando dicha información en una curva; lo que resulta impracticable. Para ello, existen los denominados análisis de supervivencia, cuyo método habitual se conoce como curvas de Kaplan-Meier; y que pueden aplicarse a cualquier variable dicotómica que se produzca una sola vez durante el seguimiento (por ejemplo muerte, recurrencia, etc.). Estas curvas, representan de forma gráfica el análisis de supervivencia (Figura 4); de tal forma que en el eje de ordenadas se muestra la probabilidad de supervivencia estimada y en el eje de abscisas el período de tiempo transcurrido desde el inicio de la observación. De este modo, la probabilidad de sobrevivir en un punto del tiempo se calcula a partir de la probabilidad acumulada de sobrevivir en cada uno de los intervalos de tiempo que lo precedieron (Tabla 1). Ahora bien, si en el curso del seguimiento se pierden sujetos por razones

distintas al resultado de interés, estos se consideran "censurados" y dejan de contabilizarse en el denominador De este modo, el eje de las ordenadas representa la probabilidad estimada de SV de los integrantes de una cohorte hipotética y no el porcentaje de supervivientes de una cohorte real; entendiendo que los puntos de una curva representan la mejor estimación de un conjunto de datos, de la probabilidad de SV de los integrantes de una cohorte, dependiendo del número de sujetos en estudio (precisión de la estimación). Por lo que la precisión a la

5

Page 6: Estudio Cohorte Final

Rev SOCEMH UNSCH. 2014;1(1) Ango J, et al

Figura 4. Curva de Kaplan-Meier graficada con los valores de la Tabla 1, en que se aprecia la probabilidad de SV en el tiempo, medida en meses.

Tabla 1. Método para calcular curva de supervivencia de Kaplan-Meier

izquierda de la curva tiende a ser mayor que a la derecha de la curva cuando existe un mayor número de individuos en riesgo. (Figura 4). (13)

TABLAS DE VIDA Y FUNCIONES DE SUPERVIVENCIA:

Una tabla de vida es una presentación tabular del progreso de una cohorte a través del tiempo. El primer paso para construir una tabla de vida es dividir el período de seguimiento en intervalos consecutivos de tiempo. Luego se calculan las siguientes cantidades:nt = número de sobrevivientes en el tiempo t.et = número de eventos que ocurren en el intervalo de tiempo que comienza en el tiempo t.pt = probabilidad de sobrevivir durante el intervalo de tiempo que comienza en el tiempo t.qt = probabilidad de que ocurra el evento de interés durante el intervalo que comienza en el tiempo t.st = probabilidad de sobrevivir desde el comienzo del estudio hasta el final del intervalo que comienza en t probabilidad de supervivencia acumulada).Note que el tiempo de referencia (comienzo del estudio) es t = 0 y n0 es entonces el tamaño muestral. Además, los intervalos de tiempo no tienen que tener la misma longitud. Observe queqt = et /nt Pt =1- qt

6

Page 7: Estudio Cohorte Final

Helicobacter pyloriRev SOCEMH UNSCH. 2014;1(1)

Figura 5. Probabilidades de supervivencia acumuladas versus la edad de comienzo de fumar diariamente en 50 pacientes esquizofrénicos. Las probabilidades fueron calculadas usando el método de Kaplan-Meier.

st = p0 p1 p2.... p t.

Un problema de la fórmula anterior para st es que no tiene en cuenta el número de retiros en cada intervalo.Una manera de corregir este problema es calcular qt con la fórmula alternativa (11)

EL ESTIMADOR DE KAPLAN-MEIER

Otra de las sorpresas cuando se explica el análisis de supervivencia es que no es sinónimo de Kaplan-Meyer.La probabilidad de supervivencia se puede estimar de manera no paramétrica basándose en los tiempos de observación (censurados y no censurados) usando el método de Kaplan-Meyer (12). Pero también puede estimarse la Probabilidad de supervivencia con otros métodos como el actuarial. En esencia, este estimador se halla construyendo una tabla de vida con los intervalos más pequeños posibles. En efecto, suponga que el evento de interés ocurre en los D tiempos distintos t1 < t2 <…< tD-1 < tD. El estimador KM es una curva de supervivencia calculada en la forma descrita en la sección 2, usando los intervalos semiabiertos [t1 , t2 ), [ t2 , t3 ), …, [ tD-1 , tD). Sin embargo, el estimador de KM no realiza ninguna corrección debida a censura. (11)

La Figura 5 muestra resultados de un análisis de Kaplan- Meier de SPSS para la edad de comienzo del fumar diariamente en los pacientes esquizofrénicos. Obsérvese que el despliegue tabular es muy grande, lo cual es el resultado de trabajar con los intervalos más pequeños posibles. La figura 5 muestra el estimador de Kaplan-Meier de la función de supervivencia. Los círculos negros sobre la curva muestran los puntos donde se presentaron censuras

TAMAÑO DE MUESTRA

El objetivo de estos estudios es la comparación de 2 grupos distintos, el cual uno de ellos es sometido a un factor o variable de exposición. La comparación se basa en la principal variable respuesta, íntimamente ligada al objetivo del estudio. En particular, se desea comparar un parámetro que resuma la variable respuesta principal del estudio (14).

El cálculo del tamaño muestra, por tanto, permite al investigador precisar el número de pacientes a estudiar para detectar como significativos el efecto de la magnitud del parámetro determinado. El no hacerlo, o el no conocer cuántos pacientes necesitamos para detectar un efecto como significativo podría llevarnos a no encontrar diferencias cuando sí las hay (15). Fallas en detectar diferencias entre tratamientos con bastante frecuencia se relacionan con un tamaño inadecuado del estudio. Se suele advertir sobre el riesgo de efectuar estudios con muestras muy grandes, donde puede ocurrir que pequeñas diferencias, probablemente sin trascendencia clínica, serán detectadas como significativas (16). En principio, hay que rechazar la idea demasiado extendida de que la muestra debe ser proporcional al tamaño de la población. El tamaño de la muestra (representada generalmente con “n”) está en relación directa con la desviación típica de las puntuaciones en las características de la variable que se investiga. Cuanto más se agrupen los valores individuales de la variable estudiada alrededor de un valor central, se requerirá un menor tamaño de la muestra (14). En general, en todo estudio ocurre que hay elementos seleccionados para la muestra de los que no se obtiene la información requerida según los objetivos; por este motivo, una vez que se ha realizado el cálculo del tamaño de la muestra, se corrige frecuentemente para

7

Page 8: Estudio Cohorte Final

Rev SOCEMH UNSCH. 2014;1(1) Ango J, et al

contemplar que un determinado porcentaje de elementos no fueron entrevistados. También es preciso detallar los datos a estimar para nuestras formulas; y para ello es necesario examinar la bibliografía adecuada y observar los resultados que se obtuvieron en estudios similares, aproximarlos con nuestros criterios de seguimiento y con la duración.

Como ya se ha comentado, el cálculo del tamaño muestral está relacionado con la estimación. Debemos considerar entonces dos situaciones, los dos problemas fundamentales que estudia la Inferencia Estadística que nos permitirá extraer conclusiones válidas de la población a partir de los resultados muestrales: estimación de parámetros (dependerá de la variabilidad del parámetro) y el contraste de hipótesis (básicamente para estudios comparativos) (17). La estimación de parámetros es el cálculo aproximado del valor poblacional de cierto parámetro de interés a partir de los valores observados en la muestra, mientras que el contraste de hipótesis se detallara a continuación:

Para llevar a cabo dicha prueba debemos plantear dos hipótesis, la hipótesis nula H0, que recoge las opciones: no existe diferencia o asociación, o cualquier diferencia observada se debe al azar, y la hipótesis alternativa H1, existe diferencia o asociación, la diferencia observada no se debe al azar. Un aspecto muy importante a considerar es si el tamaño de la muestra se está estimando para la verificación de una hipótesis uni o bilateral. Esto se refiere a que si al comparar dos grupos los resultados diferirán sin poder predecir de seguro cuál grupo resulta mejor o más favorable (bilateral, porque A puede ser mejor que B o viceversa), o definitivamente se postula que, específicamente, uno de los grupos dará mejores resultados (18) (19). Cuando realizamos una prueba de hipótesis podemos cometer dos tipos de errores: el error tipo I o nivel alfa, que se produce cuando rechazamos la hipótesis nula cuando es cierta en la población, y el error tipo II o nivel beta, que se comete cuando se acepta H0 siendo falsa en la población. Se denomina potencia estadística al valor 1-β, que representa la probabilidad de observar en la muestra una diferencia o asociación que existe en la población (17).

En primer lugar se describe cómo calcular el tamaño muestral mínimo necesario para detectar un determinado riesgo relativo cuando se dispone de información acerca del estatus final del paciente pero no de su tiempo de seguimiento. Posteriormente, se detalla una manera de calcular el tamaño muestral en estudios de supervivencia (análisis de las proporciones acumuladas de supervivencia) cuando la importancia pronóstica del factor a estudio se investiga por medio de un modelo de regresión de Cox. La regresión de Cox es el método apropiado para realizar el análisis cuando existen datos censurados (el paciente censurado es el que durante este seguimiento no ha presentado el evento de interés) permitiendo, a partir de los coeficientes estimados, calcular el riesgo relativo asociado a cada uno de los factores incluidos en el modelo (15).

CALCULO DEL TAMAÑO MUESTRAL PARA LA ESTIMACIÓN DE RIESGOS RELATIVOS

Se utiliza la fórmula de comparación de proporciones independientes en un contraste bilateral. La característica que la distingue está en la forma de calcular la proporción P1 (grupos expuestos) y la proporción P2 (grupos no expuestos) a partir del riesgo relativo (RR) (14), así como el nivel de confianza (1-α), generalmente de 95% y la precisión (ε), que es la oscilación mínima (error muestral) con la que se quiere estimar el RR correspondiente, expresada como porcentaje del valor real esperado para ese riesgo. Con estos datos, el cálculo del tamaño muestral se puede realizar mediante la fórmula (14):

Como ejemplo, se planea realizar un estudio prospectivo en el que se recogerá el estatus de los sujetos (vivos o muertos) al cabo de un año de ser tratados. Si se desea probar la hipótesis nula (RR = 3, IC del 95% y potencia de la prueba del 80%), la pregunta es ¿cuántos sujetos deberán estudiarse en cada grupo? A partir de experiencias previas, se estima que la probabilidad de fallecer entre los sujetos expuestos es de un 10%. En cada grupo son necesarios 55 sujetos.

CALCULO DEL TAMAÑO MUESTRAL EN ESTUDIOS DE SUPERVIVENCIA

8

Page 9: Estudio Cohorte Final

Helicobacter pyloriRev SOCEMH UNSCH. 2014;1(1)

Esta sección se refiere a los estudios diseñados para probar la hipótesis de que las tasas reales de incidencia de un trastorno o una característica en dos grupos de individuos son iguales. Los sujetos tienen en común la fecha de inclusión en el estudio y son seguidos hasta que presentan la característica investigada o hasta que no se los puede seguir más o son incluidos en el estudio cuando se puede pero sólo son objeto de seguimiento hasta una fecha determinada (20). Si se dispone de información no sólo acerca del estatus final de los pacientes en cada uno de los dos grupos, sino que además estamos en condiciones de conocer el tiempo de supervivencia de cada uno de ellos. Si, con este procedimiento, deseamos calcular el tamaño muestral mínimo necesario para detectar un determinado riesgo relativo, deberemos conocer (15):

Una idea del valor aproximado del riesgo relativo que se desea detectar (RR), la proporción de expuestos al factor de estudio (p), es decir, en nuestro caso, la proporción de enfermos habitualmente tratados o expuestos, el porcentaje de observaciones censuradas que se espera en el total de la muestra (Ψ), el nivel de confianza o seguridad con el que se desea trabajar (1-α), el poder que se quiere para el estudio (1-β).

Con estos datos, el cálculo del tamaño muestral puede abordarse mediante la fórmula (21):

Supóngase que se planea estudiar un tratamiento contra el cáncer de pulmón (exposición) y que suele aplicarse al 70% de los sujetos que presentan ese tipo de cáncer. Así, para detectar un RR de 3, con un porcentaje de observaciones censuradas de 20%, con un IC del 95% y con una potencia de la prueba del 80%, se necesitaran recoger información de 47 sujetos.

El factor , normalmente llamado “factor de inflación de la varianza”, donde denota al coeficiente de correlación de Pearson entre el factor a estudio y aquella otra variable que incluiremos en el modelo de regresión de

cox. En el caso en el que se ajuste por más de otro factor en el modelo, lo más sencillo es considerar   como el mayor coeficiente de correlación entre el factor a estudio y todas las variables incluidas. Este coeficiente de correlación, cuanto mayor sea, más incrementará el valor del factor de inflación de la varianza y, por tanto, se incrementará el tamaño de la muestra a estudiar (15).

En este supuesto, la fórmula para el cálculo del tamaño muestral vendrá dada por (13)(14):

MANEJO DEL SOFTWARE ESTADISTICO EPIDAT 4.1

En Epidat 4, el cálculo del tamaño de muestra para estudiar si existe asociación entre la exposición y la enfermedad en un estudio de cohortes se basa en la prueba ji-cuadrado de Pearson, con o sin corrección de Yates; se aplica cuando aproximamos una variable discreta a una distribución continua, la corrección consiste en añadir y substraer 0,5 a la variable en cuestión (23g). Las herramientas de cálculo asociados a las formulas en el presente artículo precisan del Nivel de confianza y la potencia. Los factores que intervienen en el cálculo son:

ESTUDIO DE COHORTE ESTUDIO DE SUPERVIVENCIA

Riesgo en expuestos (P1). Riesgo en no expuestos (P2). Razón entre el número de no expuestos

Número de curvas que se comparan. Probabilidad de supervivencia para cada curva, en

9

Page 10: Estudio Cohorte Final

Rev SOCEMH UNSCH. 2014;1(1) Ango J, et al

y el de expuestos (R) porcentaje. Proporción de pérdidas en el seguimiento de los

pacientes. Razón entre los tamaños de los grupos, en el caso

de dos curvas. Si se comparan tres o más curvas, se asume que los tamaños de los grupos son iguales.

Nivel de confianza de la prueba: complemento del error de primer tipo que se estaría dispuesto a admitir (en porcentaje).

BIBLIOGRAFIA

10

Page 11: Estudio Cohorte Final

Helicobacter pyloriRev SOCEMH UNSCH. 2014;1(1)

1. Bel Ferré MN, Inglés Novell M, Piñol Moreso JL. Estudios de cohorte. Fisioterapia. septiembre de 2009;31(5):218-23.

2. Bueno Cavanillas, A. GV R. MEDICINA PREVENTIVA Y SALUD PUBLICA [Internet]. 1992 [citado 30 de noviembre de 2014]. Recuperado a partir de: http://www.facmed.unam.mx/deptos/salud/censenanza/planunico/spii/antologia2012/7.pdf

3. Lazcano-Ponce E, Fernández E, Salazar-Martínez E, Hernández-Avila M. Estudios de cohorte. Metodología, sesgos y aplicación. Salud Pública México. junio de 2000;42(3):230-41.

4. OPS. Manual sobre el enfoque de riesgo en la atencion maternoinfantil. OPS (Organizacion Panamericana de la Salud); 1999. 265 p.

5. Ceballos D, Javier F. Introducción a los estudios de cohorte en epidemiología y al análisis de supervivencia. MedUNAB. 2005;8(1):43-53.

6. 8-sesgo.pm - ContentServer.pdf [Internet]. [Citado 30 de noviembre de 2014]. Recuperado a partir de: file:///D:/SESGOS/salsa%20vernis/ContentServer.pdf

7. Revista Septiembre - v33n3a07.pdf [Internet]. [Citado 30 de noviembre de 2014]. Recuperado a partir de: http://www.scielo.org.co/pdf/rcp/v33n3/v33n3a07.pdf

8. Jokin de Irala MÁM-G. ¿Qué es una variable de confusión? Med Clínica. 2001;117(10).

9. Lazcano-Ponce E, Fernández E, Salazar-Martínez E, Hernández-Avila M. Estudios de cohorte. Metodología, sesgos y aplicación. Salud Pública México. junio de 2000;42(3):230-41.

10. Análisis del tiempo hasta un evento (supervivencia) - 10.1016_S1138-3593(04)74306-3.pdf [Internet]. [citado 30 de noviembre de 2014]. Recuperado a partir de: http://lib.gen.in/next/MTAuMTAxNi9zMTEzOC0zNTkzKDA0KTc0MzA2LTM=/10.1016_S1138-3593%2804%2974306-3.pdf

11. Ceballos D, Javier F. Introducción a los estudios de cohorte en epidemiología y al análisis de supervivencia. MedUNAB. 2005;8(1):43-53.

12. Rebasa P. Conceptos básicos del análisis de supervivencia. Cir Esp. Octubre de 2005;78(4):222-30.

13. Manterola D C, Santander A C, Otzen H T. Cómo valorar e interpretar un artículo sobre pronóstico. Rev Chil Cir. febrero de 2013;65(1):77-84.

14. Araya Alpízar C, Galindo Villardon MP. Tamaño de la muestra en investigación clínica. Med Clínica. 2009 Jun;133(1):26–30.

15. Díaz SP, Fernández SP. Cálculo del tamaño muestral para la determinación de factores pronósticos. Cad Aten Primaria. 2002;9(1):30–3.

16. Edmiston CE, Josephson A, Pottinger J, Ciacco-Tsivitis M, Palenik C. The numbers game: Sample-size determination. Am J Infect Control. 1993 Jun 1;21(3):151–4.

17. Seoane T, Martín JLR, Martín-Sánchez E, Lurueña-Segovia S, Alonso Moreno FJ. Capítulo 5: Selección de la muestra: técnicas de muestreo y tamaño muestral. SEMERGEN - Med Fam. 2007 Agosto;33(7):356–61.

18. Duffau T. G. Tamaño muestral en estudios biomédicos. Rev Chil Pediatría. 1999 Jul;70(4):314–24.

19. Dennis RJ. Como estimar el tamano de la muestra en investigacion con humanos. Acta Méd Colomb. 1989 Apr;14(2):92–9.

11

Page 12: Estudio Cohorte Final

Rev SOCEMH UNSCH. 2014;1(1) Ango J, et al

20. Lwanga SK, Lemeshow S, Organization WH. Determinación del tamaño de las muestras en los estudios sanitarios : manual práctico. Sample size determination in health studies : a practical manual [Internet]. 1991 [cited 2014 Nov 30]; Available from: http://apps.who.int//iris/handle/10665/37589

21. Schoenfeld DA. Sample-size formula for the proportional-hazards regression model. Biometrics. 1983 Jun;39(2):499–503.

22. Schmoor C, Sauerbrei W, Schumacher M. Sample size considerations for the evaluation of prognostic factors in survival analysis. Stat Med. 2000 Feb 29;19(4):441–52.

23 Corrección de Yates [Internet]. Wikipedia, la enciclopedia libre. 2014 [cited 2014 Nov 30]. Available from:

http://es.wikipedia.org/w/index.php?title=Correcci%C3%B3n_de_Yates&oldid=64783139

El análisis de supervivencia es un conjunto de métodos estadísticos muy apropiado cuando lo que estamos investigando es el tiempo hasta que algo ocurre. Precisa recoger como mínimo dos variables: el tiempo y la ocurrencia o no del evento terminal. Los datos pueden presentarse como función de supervivencia y como función de riesgo. Disponemos de pruebas que permiten comparar dos curvas de supervivencia.

12