métodos avanzados de investigación y datos en salud...

24
Español Obstetrics & Gynecology 1 Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists Series de Especialidad Clínica Métodos Avanzados de Investigación y Datos en Salud de la Mujer Analítica de Datos Masivos, Estudios Adaptativos y el Camino por Recorrer Christian R. Macedonia, MD, Clark T. Johnson, MD, MPH, y Indika Rajapakse, PhD ________________________________________________________________________________________________________________________________________________________________________________ Los avances técnicos en la ciencia han tenido amplias implicaciones en la salud reproductiva y salud de la mujer. Las recientes innovaciones en la recolección y almacenamiento de datos de población han puesto a disposición una cantidad sin precedentes de información para análisis, mientras que la tecnología informática ha evolucionado para permitir el procesamiento de datos que antes se consideraban demasiado densos para ser estudiados. "Datos masivos" es un término utilizado para describir datos que son una combinación de volumen, complejidad y escala dramáticamente mayores. El número de variables en la investigación típica de datos masivos puede ser fácilmente de miles, desafiando los límites de las metodologías tradicionales de investigación. Independientemente de cómo se la conozca, métodos avanzados de datos, analítica predictiva, o datos masivos, esta revolución sin precedentes en la exploración científica tiene el potencial de ayudar dramáticamente a la investigación de todo el contenido en general de la obstetricia y ginecología. Sin embargo, antes de implementar metodologías de investigación de datos masivos, los posibles investigadores y expertos deben estar conscientes de las fortalezas, estrategias, métodos de diseño de estudio y posibles escollos. El examen de los ejemplos de investigación de datos masivos contenidos en este artículo ayuda a comprender mejor el potencial y las limitaciones de esta revolución en la ciencia de los datos y las vías prácticas para su aplicación útil. (Obstet Gynecol 2017;129:249–64) DOI: 10.1097/AOG.0000000000001865 ________________________________________________________________________________________________________________________________________________________________________________ Del Departamento de Ginecología y Obstetricia, Escuela de Medicina de la Universidad Johns Hopkins, Baltimore, Maryland; y el Departamento de Medicina Computacional y Bioinformática, Escuela de Medicina de la Universidad de Michigan, Ann Arbor, Michigan. Para consultar el “Glosario de Métodos Avanzados de Datos en la Investigación Biomédica” relacionado con este artículo, ver Apéndice 1 en línea en http://links.lww.com/AOG/A915 Reconocimiento de educación médica continua disponible para este artículo en http://links.lww.com/AOG/A916. Cada autor ha indicado que él o ella han cumplido con los requisitos de autoría para la revista. Autor a quien se puede remitir correspondencia: Christian R. Macedonia, MD, Suite 200, 694 Good Drive, Lancaster, PA 17601; email: [email protected]. ______________________________________________________________________________________________________________ Declaración Financiera Los autores no informaron de conflicto potencial de interés alguno. ______________________________________________________________________________________________________________ © 2016 por The American College of Obstetricians and Gynecologists. Publicado por Wolters Kluwer Health, Inc. Todos los derechos reservados. ISSN: 0029-7844/ 17 _____________________________________________________________________________________________________________________

Upload: doancong

Post on 25-Sep-2018

253 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 1

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

Series de Especialidad Clínica

Métodos Avanzados de Investigación y Datos en Salud de la Mujer Analítica de Datos Masivos, Estudios Adaptativos y el Camino por Recorrer

Christian R. Macedonia, MD, Clark T. Johnson, MD, MPH, y Indika Rajapakse, PhD ________________________________________________________________________________________________________________________________________________________________________________

Los avances técnicos en la ciencia han tenido amplias implicaciones en la salud reproductiva y salud de la mujer. Las recientes innovaciones en la recolección y almacenamiento de datos de población han puesto a disposición una cantidad sin precedentes de información para análisis, mientras que la tecnología informática ha evolucionado para permitir el procesamiento de datos que antes se consideraban demasiado densos para ser estudiados. "Datos masivos" es un término utilizado para describir datos que son una combinación de volumen, complejidad y escala dramáticamente mayores. El número de variables en la investigación típica de datos masivos puede ser fácilmente de miles, desafiando los límites de las metodologías tradicionales de investigación. Independientemente de cómo se la conozca, métodos avanzados de datos, analítica predictiva, o datos masivos, esta revolución sin precedentes en la exploración científica tiene el potencial de ayudar dramáticamente a la investigación de todo el contenido en general de la obstetricia y ginecología. Sin embargo, antes de implementar metodologías de investigación de datos masivos, los posibles investigadores y expertos deben estar conscientes de las fortalezas, estrategias, métodos de diseño de estudio y posibles escollos. El examen de los ejemplos de investigación de datos masivos contenidos en este artículo ayuda a comprender mejor el potencial y las limitaciones de esta revolución en la ciencia de los datos y las vías prácticas para su aplicación útil. (Obstet Gynecol 2017;129:249–64) DOI: 10.1097/AOG.0000000000001865

________________________________________________________________________________________________________________________________________________________________________________

Del Departamento de Ginecología y Obstetricia, Escuela de Medicina de la Universidad Johns Hopkins, Baltimore, Maryland; y el Departamento de Medicina Computacional y Bioinformática, Escuela de Medicina de la Universidad de Michigan, Ann Arbor, Michigan. Para consultar el “Glosario de Métodos Avanzados de Datos en la Investigación Biomédica” relacionado con este artículo, ver Apéndice 1 en línea en http://links.lww.com/AOG/A915 Reconocimiento de educación médica continua disponible para este artículo en http://links.lww.com/AOG/A916. Cada autor ha indicado que él o ella han cumplido con los requisitos de autoría para la revista. Autor a quien se puede remitir correspondencia: Christian R. Macedonia, MD, Suite 200, 694 Good Drive, Lancaster, PA 17601; email: [email protected]. ______________________________________________________________________________________________________________ Declaración Financiera Los autores no informaron de conflicto potencial de interés alguno. ______________________________________________________________________________________________________________© 2016 por The American College of Obstetricians and Gynecologists. Publicado por Wolters Kluwer Health, Inc. Todos los derechos reservados. ISSN: 0029-7844/ 17 _____________________________________________________________________________________________________________________

Page 2: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 2

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

xisten muchos recursos a nuestra disposición en el campo de las ciencias biomédicas y específicamente en las ciencias de la salud reproductiva, pero ningún recurso es más preciado que los datos. La forma en que usamos, recopilamos, tratamos, comprendemos y analizamos los datos

tiene un enorme efecto en nuestro campo y en la vida de nuestras pacientes. Es en tal entendimiento que nuestros esfuerzos de investigación deben siempre reevaluar críticamente cualquier método utilizado con el fin de procesar datos para la creación de conocimiento.1 El mundo de la investigación de la salud de la mujer relacionada con poblaciones vulnerables (ej., mujeres embarazadas, parejas infértiles, pacientes terminales con cáncer) tiene desafíos específicos a este respecto. La intención de este artículo es revisar estas oportunidades, desafíos y obstáculos. Una frase a menudo escuchada entre los médicos académicos y médicos de práctica privada por igual es "yo me baso en datos". A pesar de que los datos pueden ser el verdadero conductor de la medicina basada en evidencia, son la analítica y el buen juicio aplicado a los datos los que dirigen nuestro diagnóstico y planes de tratamiento. Las críticas sobre la dependencia de métodos tradicionales de investigación, incluyendo el estudio controlado aleatorio (ECA), han cuestionado su efectividad en cambiar la práctica entera.2 En algunos campos de la ciencia como la astrofísica y la ciencia atmosférica, los métodos de datos masivos y la computación a petaescala (computadoras que calculan a mil billones de operaciones de coma flotante por segundo; Fig. 1) han demostrado ser indispensables para resolver problemas que se creían imposibles usando técnicas tradicionales.3 En este artículo nos centramos en técnicas analíticas y diseños de estudio más nuevos y en obligar a los lectores a pensar críticamente sobre los métodos de investigación más allá del χ2 y el ECA como condición absolutamente indispensable de la comprobación científica en medicina.

Fig.1. La supercomputadora Mira en el Laboratorio Nacional Argonne cerca de Chicago, Illinois. Es una de las computadoras de alto desempeño más rápidas del mundo, que opera a 10 petaflops. Las supercomputadoras como ésta son un recurso nacional compartido, gestionado por el Departamento de Energía de los EE.UU., a disposición de los investigadores en todas las disciplinas científicas. Reimpreso con permiso del Laboratorio Nacional Argonne. Mira: Mira ushers in a new era of scientific supercomputing. Disponible en: https://www.alcf.anl.gov/mira. Descargado el 2 de noviembre de 2016. Macedonia. Advanced Research and Data Methods in Women’s Health. Obstet Gynecol 2017.

E

Page 3: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 3

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

Este artículo no pretende ser un tutorial exhaustivo sobre todas las nuevas e increíbles herramientas analíticas que se han puesto a disposición de los científicos en las últimas tres décadas. Su modesto objetivo es exponer al especialista en ginecobstetricia a nuevas herramientas científicas analíticas que tienen el potencial de mejorar los diseños de estudio considerados tradicionalmente. DÓNDE NOS ENCONTRAMOS: REGLAS DE ORO, ANALÍTICA Y HERRAMIENTAS DE INVESTIGACIÓN "Los conceptos que han demostrado ser útiles para ordenar las cosas logran fácilmente tal autoridad sobre nosotros que olvidamos sus orígenes terrenales y los aceptamos como supuestos inalterables." –Albert Einstein, 19164 Durante un siglo, las ciencias biológicas han dependido de una clase particular de analítica considerada la "regla de oro" en la comprobación científica, arraigada en el empirismo griego.5 Bajo este estándar, el investigador debe realizar una serie de pasos para aislar un fenómeno natural en el cual todas las variables principales de una población de estudio dada se mantienen constantes, excepto las variables de estudio. El comportamiento de estas variables se compara después con el comportamiento esperado basado en un modelo estándar, generalmente una curva de campana de un tipo u otro. Es necesario que el investigador tenga una hipótesis comprobable estrechamente definida antes del inicio del estudio. Este tipo de estudio puede ser mejorado a través de métodos tales como el uso de datos aleatorios y estudios ciegos. En medicina clínica, la aproximación más cercana a la regla de oro es el ECA, la metodología de investigación tradicionalmente predilecta para la investigación en salud reproductiva de la mujer.6 Hasta hace poco, la idea de llevar a cabo una investigación a gran escala en las ciencias biomédicas sin canalizar en última instancia la investigación en un ECA era considerada un acto de herejía científica, que contrariaba las jerarquías de la medicina basada en la evidencia7. Los esfuerzos en las últimas dos décadas para cambiar los paradigmas existentes han necesitado literalmente de una ley del Congreso. La Iniciativa de Camino Crítico de la Administración de Alimentos y Medicamentos de los Estados Unidos (FDA), creada bajo las autoridades otorgadas por el Congreso de los Estados Unidos en virtud de la Ley de Honorarios por la Prescripción de Medicamentos al Usuario, prevé la aceptación de nuevos métodos de análisis incluyendo el Diseño Bayesiano de Estudios Adaptativos.8-10 A pesar de este cambio modesto en nuestra cultura, los métodos tradicionales de diseño de estudios, como el ECA, siguen dominando nuestras revistas científicas.11

Ya sea que se trate de un investigador biomédico o simplemente de alguien que se mantiene asiduamente informado con los artículos más recientes de las revistas, es probable que haya sido

entrenado en un sistema que da valor a preguntas científicas expresadas en una representación binaria que se responden por un estudio clínico de gran tamaño. Los avances en la tecnología y los métodos

para analizar grandes depósitos de datos cuestionan este enfoque tradicional; pero al mismo tiempo, estas nuevas herramientas son sólo conceptos y herramientas útiles; no soluciones milagrosas. Vale la pena señalar que aunque nuestros métodos actuales no deben ser venerados como una regla de oro,

tampoco se deben descartar como obsoletos; pero es importante entender cómo se convirtieron en el estánder de facto y cuáles son sus límites.

La mayor ventaja de nuestro método de investigación biomédica que más se usa actualmente es que los cálculos para demostrar la comprobación o refutación pueden ser usados por prácticamente cualquier persona con acceso a los datos y un libro de texto de estadística básica. Si se es diestro con una regla de cálculo o una tabla de búsqueda, este tipo de análisis se puede realizar sin siquiera hacer uso de la electricidad. Su fortaleza número uno radica en su simplicidad y su facilidad para demostrar la veracidad.12,13 Sin embargo, existen supuestos significativos (algunas veces sin fundamento) que limitan esta estrategia. Consideremos las limitaciones de los ECA. En primer lugar, existe el supuesto de un cierto grado de "normalidad" de los datos, lo que significa que los datos biológicos en cuestión debe seguir una distribución normal en forma de campana.14,15 Las fórmulas tales como el χ2 de Pearson se basan en este supuesto. Ciertamente, para muchos fenómenos naturales, vemos distribuciones en forma de campana,

Page 4: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 4

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

pero con frecuencia los fenómenos biológicos no se distribuyen de manera estrictamente normal.16,17 Hay, para ser justos, modificaciones de estas técnicas básicas que son más robustas contra la no normalidad pero que asumen que el investigador y el especialista en bioestadística están conscientes de la no normalidad. Estos métodos también dependen de la idea de que las variables biológicas pueden aislarse de todas las demás variables. Estos supuestos, incluso cuando son aplicables en la generación de un protocolo, producen una restricción en el tipo de investigación que se puede realizar y todavía cumplir con el estándar aceptado. Existen muchos fenómenos que simplemente no pueden ser asignados al azar contra un placebo. Por ejemplo, cualquier intervención que produzca una señal obvia (ej., dolor, olor, cicatriz) es difícil de ocultar ya sea al paciente o al profesional de la salud.18,19 Además, puede haber una razón ética convincente para evitar el estudio mediante ECA porque la intervención existente se considere tan efectiva que un control con placebo esté simplemente descartado e incluso un estudio de comparación pueda ser detenido por una junta institucional de análisis debido a inquietudes respecto a impedir una intervención que salve la vida.20 La investigación obstétrica tiene un desafío mucho mayor en el uso de los ECA debido a la ética y al derecho público. Las cuestiones relacionadas con el consentimiento de las madres y los fetos dan lugar a muy grandes áreas de investigación que están efectivamente vedadas para las mujeres embarazadas y las pacientes fetales.21 Como cuestión práctica, esto ha causado que la comunidad obstétrica dependa en gran medida del examen retrospectivo de publicaciones históricas o, peor aún, de practicar la medicina de acuerdo a opiniones de expertos y conjeturas.22 Estas metodologías sólo llenan parcialmente un vacío creado por las dificultades para desarrollar grandes estudios clínicos. También debemos recordar que estos estudios son intrínsecamente costosos de llevar a cabo.23 Incluso cuando existen ECA más pequeños, su formulación para evaluación mediante meta análisis tiene sus propias limitaciones para la implementación clínica.24 Debido a estos desafíos, puede valer la pena explorar nuevos métodos de investigación, incluyendo la llamada "Analítica de Datos Masivos". ANALÍTICA DE DATOS MASIVOS: ¿QUÉ ES? Sin duda ha escuchado el término "datos masivos" o "analítica de datos masivos". No se preocupe si sólo tiene una idea vaga de lo que es la analítica de datos masivos, pues incluso los expertos en este campo realmente no saben con exactitud cómo definirlo. Para fines de nuestra discusión, la analítica de datos masivos (o "métodos avanzados de datos" para aquellos que sienten que "datos masivos" es una palabra de moda) incluye subtemas tales como analítica predictiva, aprendizaje múltiple, reducción de dimensionalidad, aprendizaje de máquina, aprendizaje profundo y visualización de datos. Como con cualquier campo en rápida expansión, la definición sigue evolucionando. Piense en el término "analítica de datos masivos" de la misma manera en que podría pensar en el término "oncología". Así como usted no trataría a un paciente con oncología sino más bien con algún método derivado de la investigación oncológica, de la misma manera trataríamos los datos; no con analítica de datos masivos, sino con algún método o métodos dentro de este campo. De hecho, la analítica de datos masivos, o algunos dirían los métodos avanzados de datos, están emergiendo como una clase indispensable de herramientas científicas. El término original "datos masivos" fue acuñado por John Mashey, ex director científico de la compañía de tecnología de California, Silicon Graphics, al final de los años noventa.25 El término, sin embargo, se ha transformado con el tiempo. Ahora se ha convertido en sinónimo de analítica de datos masivos o analítica de negocios. Un problema de datos masivos generalmente se considera un análisis de volúmenes de datos mayores a un terabyte (1012 bytes). Los problemas de datos masivos son grandes no sólo en términos de volumen, sino también en su complejidad con respecto a las variables y los resultados. Lo que ofrecen los datos masivos es la capacidad de abordar la mayor debilidad de realizar un análisis utilizando métodos tradicionales en bases de datos relacionales: la capacidad de trabajar con datos no estructurados a tráves de alta dimensionalidad y escala.27 Sin saberlo, usted utiliza con frecuencia datos masivos en su práctica médica. Si realiza una búsqueda en Internet u ordena una prueba de detección de ADN libre de células, está utilizando indirectamente la capacidad de los datos masivos. De acuerdo con Google, su búsqueda típica se filtra por 60 billones de páginas web en aproximadamente 250 milisegundos y la compañía realiza casi 4,000 de

Page 5: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 5

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

estas búsquedas cada segundo.26 Si usted ordena pruebas de detección de ADN libre de células en su práctica clínica, debería darse cuenta de que las tecnologías de computación que apuntalan el análisis de fragmentos de muchas de estas pruebas, en particular las que se basan en la secuenciación de siguiente generación y las búsquedas empalmadas de bibliotecas, se fundamentan en la analítica de alta dimensión.27Aunque el genoma humano tiene sólo alrededor de 0.71 gigabytes (7.1×108 bytes, lo suficientemente pequeño para caber en un CD-ROM), los depósitos digitales de datos y bibliotecas utilizados para almacenar toda la información sobre variantes genéticas que se utilizan en el análisis del ADN libre de células son de varios órdenes de magnitud mayor cuando se aplican a cualquier muestra individual. El conjunto de datos de lecturas cortas de una muestra típica de sangre del primer trimestre para un sólo secuenciador de ADN se encuentra en el orden de los 200 gigabytes (2×1011 bytes). En el momento de la redacción de este artículo, había 2,477 estudios indexados en PubMed con el término datos masivos en el título. Noventa por ciento de estos fueron escritos en los últimos 3 años. El primero de ellos específicamente relacionado con las ciencias biológicas apareció en la revista Nature en 2008.28 No hay indicación de que las publicaciones que aplican métodos avanzados de datos a las ciencias biológicas se estén desacelerando y, de hecho, se espera que las investigaciones clínicas futuras implementen métodos de datos masivos para optimizar los descubrimientos de las ciencias médicas en el futuro previsible (Fig. 2).

Fig.2. Este gráfico del Instituto Nacional de Investigación del Genoma Humano muestra los dos conductores más importantes de la revolución de datos masivos en la atención a la salud: En primer lugar, La Ley de Moore (la predicción en 1965 por Gordon Moore, fundador de Intel, en cuanto a que la densidad de los procesadores se duplicaría y por tanto el precio por procesador se reduciría aproximadamente a la mitad cada 18 meses) se representa como una línea blanca. En segundo lugar, el precio decreciente por secuencia genómica completa se representa en verde. Nótese que este es un gráfico logarítmico, que hace que los índices de disminución en costos sean más impresionantes. Datos de Wetterstrand KA. DNA Sequencing Costs: Modificado con permiso del Instituto Nacional de Investigación del Genoma Humano. The cost of sequencing a human genome. Disponible en: https://www.genome.gov/27565109/the-costof-sequencing-a-human-genome. Descargado el 1 de noviembre de 2016. Cortesía: Instituto Nacional de Investigación del Genoma Humano. Macedonia. Advanced Research and Data Methods in Women’s Health. Obstet Gynecol 2017.

Costo por Genoma

Ley de Moore

Page 6: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 6

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

ANALÍTICA DE DATOS MASIVOS: UN DESPERTAR EN LA INVESTIGACIÓN SOBRE SALUD DE LA MUJER Existe un vasto panorama en las ciencias biológicas sin descubrir, a la espera de ser explorado, si sólo hubiese una mayor competencia en métodos científicos capaces de analizar las partes más complicadas, más interconectadas, menos normalmente distribuidas y estadísticamente más desorganizadas de las ciencias biológicas.29 Los factores genéticos de variables múltiples desafían las metodologías tradicionales de investigación. Los datos a nivel poblacional analizados con la ayuda de la computación de alto rendimiento tienen el potencial de responder a preguntas anteriormente inimaginables; sin embargo, los datos de hecho están desorganizados. Cuando decimos "desorganizados", no estamos hablando simplemente de datos altamente complicados, sino también del hecho de que estos datos se recopilan en investigaciones que se relacionan con fenómenos de tipo altamente emocional o que plantean problemas éticos, que no son fáciles de convertir en estudios ciegos o asignados aleatoriamente debido a la naturaleza misma del trabajo. Esto es particularmente problemático en un campo en el que estudiamos temas tales como fertilidad, sexualidad, el feto y cáncer pélvico.30 La cuestión de la naturaleza desorganizada de los datos se conoce desde hace más de un siglo. De hecho, el padre de la prueba de χ2 y gigante de la bioestadística, Karl Pearson, afirmó que "en muchos casos de física y biología, sin embargo, la variable "independiente" está sujeta a tanta desviación o error como la variable "dependiente".31-33 Continuó entonces recomendando un método matemático que hoy llamamos análisis de componentes principales, el cual permite la transformación de grandes conjuntos de variables en componentes que se pueden puntuar y donde la dimensionalidad de fenómenos altamente complejos se puede reducir. Aunque Pearson expuso el proceso matemático de este tipo de análisis, la informática necesaria para llevar a cabo los cálculos resultó ser el mayor obstáculo. Por esta razón, había permanecido latente y en gran medida sin utilizarse en nuestro campo aunque los métodos de hecho se describieron en 1904.33 El análisis de componentes es el centro de muchos de los paquetes de programas actuales de analítica de datos en la banca, el comercio, el arbitraje informático y la física de alta energía.33,34 Estos métodos también se están abriendo camino en las ciencias biológicas, principalmente a través del área de la genómica.35,36 Posiblemente ha visto mapas de calor o diagramas de expresión de genes mostrados como gráficos coloridos37 (Fig. 3). Estas técnicas de visualización de datos se usan a menudo para ilustrar el análisis de componentes en revistas médicas. Los avances en la visualización de datos son una forma de hacer accesible el análisis de datos masivos tanto para los lectores como para los investigadores.

Cabe señalar que para los ginecobstetras, los métodos de datos masivos tienen su fundamento en nuestras raíces científicas. En todo caso, se trata del despertar de una revolución iniciada por el brillante pero tristemente malentendido ginecobstetra húngaro del siglo XIX, Ignatz Semmelweis.38 Probablemente uno de los mayores proyectos iniciales de las aplicaciones de la ciencia de datos a los complejos problemas médicos lo llevó a cabo Semmelweis a mediados de los años 1800 al analizar datos del Hospital General de Viena y el Hospital de Maternidad de Dublín. En una serie de elaborados análisis matemáticos procedentes de grandes cantidades de información de las pacientes, pudo demostrar definitivamente los comportamientos causales raíz asociados a la sepsis puerperal (malas prácticas de higiene personal entre los médicos en ese momento). Esta investigación se llevó a cabo en una época en la que la mayoría de los científicos médicos dudaba de la existencia de microbios infecciosos. Aunque reconocemos su trabajo pionero en la era moderna, los contemporáneos de Semmelweis despreciaron sus análisis. Su trabajo era contrario a la cultura y a menudo no entendían muchas de sus complejas (para la época) técnicas matemáticas.39

Otro genio científico mal entendido y contemporáneo de Semmelweis fue Ada Lovelace, a quien se da crédito como la madre fundadora del campo de la analítica informática. Ella no sólo acuñó el término "analista" en computación, sino que predijo el uso de las computadoras para una amplia gama de desafíos científicos y matemáticos. Lovelace escribió el primer algoritmo informático del mundo y predijo que las computadoras no sólo realizarían cálculos matemáticos, sino que también almacenarían y manipularían otros datos.40 Irónicamente, murió de cáncer uterino a la edad de 36 años en 1852. Es notable que los métodos de procesamiento de datos que ayudó a impulsar hace casi 200 años estén ahora al frente de la comprensión de este cáncer ginecológico.41

Page 7: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 7

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

Fig.3. Diagrama biespacial tridimensional de etapas de preimplantación de embriones de ratón derivadas de análisis de componentes principales (ACP) que utiliza herramientas públicamente disponibles de los Institutos Nacionales de la Salud. Esta gráfica muestra la relación entre patrones altamente complejos de expresión genética en el embrión y las etapas de desarrollo antes de la implantación de formas que hacen estas complejas relaciones más accesibles al lector. Reimpreso con permiso de NIA Array Analysis Tool. General description of NIA array analysis tool. National Institute on Aging, National Institutes of Health. Disponible en: http://lgsun.grc.nia.nih.gov/ANOVA/help.html. Descargado el 2 de noviembre de 2016. Macedonia. Advanced Research and Data Methods in Women’s Health. Obstet Gynecol 2017. Los datos masivos representan una siguiente generación del trabajo fundamental que Semmelweis y Lovelace propusieron. Imagine que los datos de todas las pacientes de un hospital de maternidad, en red con muchos otros hospitales de maternidad, cada uno con cientos si no miles de variables representando todo, desde factores ambientales hasta variantes genéticas, se aprovecharan para curar nuestros más asediantes desafíos en la salud de la mujer. Ese es el reto actual al que nos enfrentamos. Cientos de miles de millones de puntos de datos generados por registros médicos electrónicos afloran cada año.42,43 EL HALLAZGO DE FÁRMACOS MÁS SEGUROS EN EL EMBARAZO: EJEMPLO DE UN RETO DE LA CIENCIA DE DATOS El Instituto de Medicina, ahora conocido como División de Salud y Medicina de las Academias Nacionales de Ciencias, Ingeniería y Medicina, enfrentó el problema de cómo las agencias gubernamentales podrían facilitar la aprobación de contramedidas farmacológicas para el bioterrorismo y las pandemias como una prioridad nacional, mediante la convocatoria a un congreso sobre este tema en 2011 en colaboración con la FDA y los Centros para el Control y la Prevención de Enfermedades.44,45 El bioterrorismo y las pandemias representan retos únicos para la política de salud pública porque estas amenazas pueden requerir una rápida implementación de terapia que puede no estar probada en subpoblaciones vulnerables (como lactantes y mujeres embarazadas). Durante el congreso del Instituto de Medicina se presentó el caso mundial real del incidente "Amerithrax" de 2001. Poco después de los ataques del 11 de septiembre, varios socorristas, incluyendo mujeres embarazadas, habían estado en contacto con ántrax utilizado como arma.46 Casi todas estas mujeres fueron tratadas con ciprofloxacina basándose

4células

Intensidad de detección

2células

1célula

No fertilizada

Blastocisto de 8 células

Page 8: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 8

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

exclusivamente en la opinión de expertos.47 Aunque era claramente superior a cualquier otro tratamiento farmacológico para el ántrax en ese momento, su etiquetado farmacológico desalentaba su uso en el embarazo como resultado de los riesgos teóricos de teratogénesis. La justificación fue que la mayoría de los tratamientos obstétricos se utilizan fuera del uso indicado de todos modos y, basándose en esta opinión de expertos, los beneficios (evitar contraer una enfermedad mortal) se percibían suficientemente buenos como para tener más importancia que el daño potencial (anomalías de articulaciones y extremidades fetales). En la reunión del Instituto de Medicina de 2011, los expertos señalaron ejemplos de cómo los métodos avanzados de datos y diseños de investigación podrían llenar el vacío donde los ECA son poco prácticos o insostenibles. Aunque los reguladores nacionales que asistieron a la reunión expresaron su simpatía en las sesiones por tema de interés en cuanto a la necesidad de vías especiales de aprobación de fármacos que no requieran estudios doble ciego controlados con placebo, varios funcionarios de la FDA expresaron en privado que era nuestra propia comunidad, la comunidad de los obstetras académicos, la que se había resistido al cambio (comunicación personal, 2011). Cabe mencionar que, por el contrario, la comunidad pediátrica ha sido proactiva en el establecimiento de vías reguladoras, dando permiso claro a la FDA y a los Centros para el Control y Prevención de Enfermedades para utilizar esas técnicas avanzadas según la Ley de Mejores Fármacos para Niños y la Ley de Equidad de Investigación Pediátrica.48,49 Aún al simplemente considerar la creación de grandes registros de exposición farmacéutica para el embarazo y el parto, la FDA y la Agencia Europea de Medicamentos han encontrado deficientres los sistemas existentes.50 Aunque el tema de la promulgación de una nueva legislación o la creación de registros de fármacos está más allá del alcance de este artículo, una recomendación muy importante que vale la pena analizar de este congreso del Instituto de Medicina de 2011 fue el fuerte respaldo a la Iniciativa de Ruta Crítica de la FDA y en particular al uso más amplio del diseño de estudio adaptativo. El diseño de estudio adaptativo es, en muchos sentidos, el puente para el uso de métodos avanzados de datos en estudios prospectivos.51 Es un concepto considerado en obstetricia con muy poca frecuencia, pero vale la pena tomar un momento para ponderar su uso, particularmente en combinación con métodos avanzados de datos. DISEÑO DE ESTUDIO ADAPTATIVO Y MÉTODOS AVANZADOS DE DATOS ¿Qué es diseño de estudio adaptativo? Es simplemente un diseño de estudio que, siguiendo un conjunto predeterminado de reglas de adaptación, permite a los investigadores cambiar los parámetros de estudio y las variables de estudio basándose en la experiencia después de una vez iniciada la incorporación de casos.52 Se permite que un estudio comience y entre en contacto con el problema, se revisan los datos iniciales buscando los detalles más prometedores del estudio y se modifican o adaptan los parámetros de estudio (ej., asignación al azar, tamaño de la muestra, terminación temprana por efecto y futilidad, dosificación, duración, término, población) para precisar el rango del problema. En teoría, esto permite que los estudios comiencen explorando primero las variables de tratamiento más dominantes o importantes que se encuentran en el análisis provisional, reducir la población general requerida para completar el estudio y acelerar el descubrimiento a un costo menor.53 Actualmente, el diseño de estudio adaptativo se utiliza efectivamente en enfermedades minoritarias o huérfanas y cánceres con baja frecuencia en la población.54,55 Los diseños de estudio adaptativos se ven reforzados por la analítica de datos masivos, particularmente en la identificación de variables clave de estudio.56 El Consejo Presidencial de Asesores en Ciencia y Tecnología en 2012 abogó por "el uso de protocolos bayesianos y adaptativos cuando fuera factible; sistemas de información integrados de alta calidad que permitan el manejo, agrupación y análisis eficiente de datos entre sitios; capacidades permanentes para manejar muestras de pacientes; y mecanismos de rendición de cuentas para la ejecución de estudios clínicos oportunos, de alta calidad y éticamente sólidos adecuados para el registro de nuevos fármacos".57 Es interesante observar que este grupo de asesores vinculó el diseño de estudio adaptativo con métodos avanzados de datos para el descubrimiento rápido de nuevos medicamentos. Aunque los centros de cáncer como el MD Anderson han aceptado esta estrategia y llevan a cabo un tercio de sus estudios utilizando el diseño de estudio adaptativo en combinación con métodos avanzados de datos, las ciencias de la salud reproductiva hacen uso de estos métodos con muy poca frecuencia.58 Una

Page 9: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 9

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

publicación reciente sobre salud de la mujer que utiliza este método de investigación fue informada por Warner y colaboradores59 en Edimburgo el año pasado en un estudio sobre el tratamiento con dexametasona para la menorragia. Esto representa la proverbial punta de lanza en términos del potencial que tienen estos métodos para dar forma a la investigación en salud reproductiva. El diseño de estudio adaptativo se puede utilizar para evaluar el efecto de acontecimientos tales como la ingesta de un producto farmacéutico durante el embarazo, pero no es sin riesgo. La mayor inquietud para los reguladores es la posible expansión de la probabilidad de introducir un error de tipo I (encontrar un efecto positivo o correlación donde no lo hay). Esta es una de las razones por las que es clave tener una metodología aprobada prospectivamente para la adaptación real de cualquier estudio con el fin de reducir esta fuente conocida de sesgo.60 Evitar totalmente cualquier uso de diseño de estudio adaptativo puede, sin embargo, dejarnos con sólo métodos de investigación prohibitivamente caros. El resultado práctico puede ser que el desarrollo de fármacos en salud de la mujer se vuelva aún más similar al desarrollo de fármacos huérfanos. Algunos dirían que ya se está en esa categoría. ANALÍTICA DE DATOS MASIVOS EN SALUD DE LA MUJER: UN IMPERATIVO ÉTICO PARA TRABAJAR CON CIENTÍFICOS DE DATOS El campo de la obstetricia y la ginecología tiene una gran oportunidad en este punto de transición en las ciencias de los datos. Nuestro campo está lleno de preguntas científicas que implican temas altamente complicados. Las complejidades se presentan en una diversidad de formas. En algunos casos, estudiamos las interacciones de individuos genéticamente distintos (madre y feto). En otros casos, nos enfrentamos al desafío ético de diseñar estudios que traten de discernir efectos farmacológicos en situaciones en las que sería inmoral o anti ético dar placebos a los pacientes. Sin embargo otros casos implican tratar de identificar redes de genes en lugar de genes individuales implicados en procesos de enfermedad o en el desarrollo de la salud. En muchos de estos casos, la única manera de estudiar efectivamente los fenómenos es con analítica de datos masivos. Los datos están allí, asentados en bancos biológicos, depósitos de datos y archivos electrónicos de registros médicos, pero el conocimiento que debe derivarse de estas fuentes está rezagado porque pocos investigadores en nuestro campo están capacitados en estas técnicas informáticas avanzadas. No es práctico esperar que todos los ginecobstetras se conviertan en expertos en métodos avanzados de datos. Aunque un pequeño grupo selecto pueda equilibrar ambos campos con un alto grado de capacidad, la mayoría de nosotros tenemos suficientes desafíos simplemente para mantener la destreza en un campo extraordinariamente exigente. Como especialistas en salud de la mujer, reconocer a los especialistas en la ciencia de los datos como nuevos y valiosos colaboradores junto con los especialistas en bioestadística puede permitirnos explorar mejor las muchas preguntas sin respuesta y hasta ahora irresolubles.61 Eso no significa que los métodos avanzados de datos se conviertan en una proverbial caja negra. Los mejores científicos de datos se oponen enérgicamente a la idea de que el análisis de datos masivos sea un proceso en que grandes volúmenes de datos entren en la parte superior de una máquina y surjan conocimientos mágicos de la parte inferior.62 Una apreciación mutua de la capacidad de la analítica de datos masivos producirá una cooperación significativa con los científicos de datos para tener expectativas realistas y contar con resultados generalizables. Para que los científicos de datos ayuden a los ginecobstetras a contestar preguntas, se deben establecer y comprender claramente los papeles que desempeña cada uno. Los métodos de datos masivos continúan beneficiándose de la formación de hipótesis y pueden facilitarla.63 El científico médico necesita tener una idea clara de qué pregunta desea resolver y proporcionar a los científicos de datos tanta información de fondo y comprensión básica de la estructura del problema como sea posible.64 Esto no es diferente a la relación que tenemos con los especialistas en bioestadística y, de hecho, los científicos de datos, los médicos y los especialistas en bioestadística deben trabajar en equipo.65 Trabajando juntos, el clínico investigador, el especialista en bioestadística y el científico de datos tienen el imperativo ético de formular un plan de investigación que utilice apropiadamente los nuevos métodos en la ciencia de datos. Estas nuevas herramientas presentan nuevas oportunidades, pero no todas éstas son necesariamente positivas. Hay oportunidades para ensombrecer, elegir lo más favorable y para equivocarse. Hemos incluido una tabla (la Tabla 1) que enumera varios de los principales escollos que creemos que todos los equipos que realizan estos proyectos de investigación de datos masivos deben

Page 10: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 10

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

revisar y considerar antes de decidir si un abordaje de analítica de datos masivos es el correcto para responder a sus hipótesis. Tabla 1. Tabla de Preguntas Críticas, Cuestionamientos y Consideraciones para Proyectos de Investigación de Datos Masivos

Cuestionamientos y Preguntas Respecto a Estudios de Datos Masivos

Problema del Mundo Real

Técnicas de la Ciencia de Datos para Mitigar el Problema

Referencia(s)

¿Existen sesgos inherentes en la manera en que se recolectan los datos y cuáles son los controles para la precisión de estos datos?

En estudios de investigación prospectivos estrechamente

controlados, los estándares de recolección de datos están por lo general a un nivel más alto que la

recolección de datos en la atención clínica de rutina

Los estudios piloto se pueden llevar a cabo en datos clínicos de rutina, mientras que los estudios más avanzados pueden ser

llevados a cabo por “redes de investigación” que se adhieran a niveles

estándar de ingreso de datos para toda la atención a la salud; los científicos de datos cuentan con herramientas de “limpieza de

datos” y marcos de validación que restringen la analítica para trabajar sólo con datos que hayan sido validados por

computadora

99, 100

Por lo general es más fácil cometer errores tipo I en estudios grandes con múltiples variables. ¿Qué mecanismos están establecidos para impedir este fenómeno?

Si un umbral simple de P<.05 se usa para evaluar la

comprobación, las leyes de promedios estadísticos

predecirían una correlación falsa en una de cada 20 pruebas

efectuadas al azar con datos normalmente distribuidos. ¿No sería posible que la analítica de

datos masivos que filtra miles de variables encontrara tal vez

puntajes de relaciones falsamente correlacionadas?

No hay método alguno de computación o método de diseño de estudio que elimine

el error tipo I, ni en estudios convencionales, ni en estudios analíticos

de datos masivos; el proceso de eliminación del error tipo I por lo general

implica algún tipo de correlación avanzada de datos; los métodos por computadora

generalmente implican algún tipo de correlación de variables múltiples que utiliza técnicas de matriz algebraica;

aumentar el tamaño del muestreo o la dimensionalidad del problema también

puede ayudar (ej., análisis de desequilibrio de ligamiento); finalmente, establecer

valores P más restrictivos es una técnica de filtro tosca pero efectiva para la reducción

de error tipo I

101, 102

Como resultado del tamaño de los conjuntos de datos, ¿no es más probable que se identifiquen falsas correlaciones sin utilidad clínica alguna?

Comúnmente con estudios de asociación en todo el genoma, se

encuentran muchos polimorfismos no correlacionados con enfermedad conocida alguna y su significancia no es clara; no

sólo los hallazgos no son clínicamente útiles, sino que

pueden llevar también a costos incrementados por pruebas

adicionales

La utilidad clínica, al 2016, aún no es un problema que pueda ser resuelto por las

computadoras, sino más bien por especialistas clínicos y científicos; las

computadoras pueden analizar y filtrar datos, pero finalmente es un equipo de personas quienes tienen que juzgar la

utilidad clínica y valor de cualquier hallazgo en particular, sea de un descubrimiento

hecho por otro humano o por una máquina

103, 104

Datos incompletos, ¿cómo se resuelve esto?

Entre miles o incluso millones de registros, a menudo hay vacíos de

datos creados mediante documentación incompleta o por

falta de recolección de información en primer lugar

Los datos escasos o incompletos son un problema conocido en la ciencia de los

datos fuera de la medicina; ésta es un área donde las técnicas de la analítica de datos

masivos han resultado ser de gran beneficio; algunos científicos de datos se

especializan en esta importante subespecialidad del campo; las técnicas incluyen ponderación de probabilidad inversa,bootstrapping, e imputación

múltiple

105, 106

Page 11: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 11

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

Falta de atención estandarizada. Sin estándares uniformes de tratamiento, ¿cómo se pueden hacer comparaciones?

En el diseño típico de un estudio controlado al azar, la

intervención o plan de tratamiento por lo general se

detalla explícitamente y se difunde igualmente a todos los

investigadores

Los estándares nacionales e internacionales de atención sí existen,

por lo general como protocolos de práctica emitidos por consejos

profesionales y organismos certificadores; a medida que se acelera

la consolidación de los cuidados a la salud, lo hace también la presión por

adoptar protocolos de práctica clínica, frecuentemente impuestos al especialista

clínico mediante el registro médico electrónico; por supuesto, dado un

conjunto suficientemente grande de datos, los registros se pueden filtrar

para lograr uniformidad tanto en calidad de datos como en adherencia a los

lineamientos de la práctica

107

¿No es cierto que los registros electrónicos de salud contienen grandes cantidades de datos falsos?

Los registros médicos electrónicos contienen muchos datos ajenos que tienen poco o nada que ver

con la salud del paciente

Desechar datos ajenos o “basura” es uno de los primeros pasos en la limpieza

de datos y el más fácil de lograr con métodos de extracción de datos de alto

desempeño

108, 109

LA ANALÍTICA DE DATOS MASIVOS NO FUNCIONA PARA TODO: ¿POR DÓNDE DEBEMOS COMENZAR? Presentamos y analizamos tres áreas generales de investigación en salud reproductiva donde los métodos avanzados de datos ofrecen una promesa particular sobre la metodología tradicional. No sólo explicamos por qué los métodos de datos masivos son apropiados para estas áreas, sino que en cada sección se proporcionan enlaces a tres artículos de ejemplo. Estas áreas de estudio científico incluyen: 1) estudios en genómica, incluyendo cáncer, desarrollo fetal y predicción de enfermedades; 2) estudios que implican intervenciones y relaciones longitudinales durante el embarazo; y 3) estudios relacionados con fuentes heterogéneas de datos, especialmente aquellos que hacen uso de nuestros registros médicos electrónicos en rápida evolución. MÉTODOS AVANZADOS DE DATOS EN GENÓMICA DEL CÁNCER, GENÓMICA NO RELACIONADA CON EL CÁNCER Y PREDICCION DE LA ENFERMEDAD Hasta los albores del siglo XXI, la genómica era una ciencia arraigada en los laboratorios universitarios, donde los estudiantes de postgrado se encorvaban sobre los mesones, pipeta en mano, llenando diligentemente pocillos de plástico. El Proyecto del Genoma Humano cambió esto.66,67 De hecho, la pipeta no ha desaparecido, pero el ingrediente esencial para el éxito de la investigación no está en las técnicas húmedas de laboratorio, sino en la manera en que todo el proceso se paralelizó masivamente.68 La necesidad de secuenciar los tres mil millones de pares del genoma humano y de encontrarle sentido a los datos requirió que los métodos de laboratorio se alinearan con la analítica de datos69 (Figura 4).

Page 12: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 12

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

Fig. 4. Una gráfica longitudinal que demuestra el número de menciones registradas al hacer una búsqueda en PubMed con las palabras “Datos Masivos” en el título, de 2005 a 2016. *Los datos de 2016 están representados hasta octubre de 2016. Macedonia. Advanced Research and Data Methods in Women’s Health. Obstet Gynecol 2017.

El campo científico de la genómica, en particular la genómica del cáncer, esencialmente ha abandonado la idea de que la única manera de probar algo es llevando a cabo un ECA.70 Los estudios observacionales en oncología han disfrutado de un renacimiento como un tipo valioso de métodos de investigación que utilizan datos masivos. Esto ha permitido la realización de estudios de asociación de todo el genoma, estudios de población que comparan la secuencia de información de muchos individuos y el hallazgo de asociaciones entre variaciones de secuencia y fenotipos o enfermedades. Los estudios de genómica observacional correctamente ejecutados no son "expediciones de pesca" o "P-Hacking" (piratería informática), como se les llama peyorativamente. Más bien, si se ejecutan apropiadamente, estos estudios siguen un proceso deliberado.71 El proceso de PICO/PECO (Problema/Población, Intervención/Exposición, Control, Resultado, por sus siglas en inglés) de la práctica basada en la evidencia forma el marco de trabajo de la investigación de genómica observacional.72,73 Este marco de trabajo requiere estándares de recopilación de datos, anotación y origen para reducir la probabilidad de errores estadísticos y para alentar la participación en el establecimiento de grandes depósitos anónimos de datos.74 Así como confiamos en un sistema bancario que utiliza sólidos principios contables, evita el lavado de dinero y proporciona privacidad a los clientes y transparencia a los reguladores, es más probable que utilicemos un sistema de datos similar al de la banca que se adhiere a un estricto código de normas y prácticas. Estos depósitos de datos, creados con el apoyo significativo de entidades tales como el Instituto Nacional de Investigación del Genoma Humano, el Instituto Nacional del Cáncer o la Biblioteca Nacional de Medicina, proporcionan una amplia gama de herramientas estadísticas y analíticas validadas para la genómica de descubrimiento75. (Fig. 5)

La categoría general de las técnicas computacionales utilizadas en la genómica de descubrimiento se denomina "reducción de la dimensionalidad" y se utiliza para resolver problemas de "aprendizaje de máquina".76 En estas técnicas, las computadoras están programadas para encontrar características singulares dentro de grandes depósitos de datos y, en un proceso similar al descubrimiento humano, estas máquinas aprenden a extraer conocimiento. En la mayoría de los problemas de descubrimiento biológico, el primer paso es encontrar el conjunto de variables que son las principales conductoras del fenómeno biológico en estudio. De los cientos o miles de variables de un conjunto de datos genómicos, se necesita identificar a las pocas variables no aleatorias (variables principales) dentro de un conjunto de variables mayormente aleatorias. Este paso es el paso de reducción

Page 13: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 13

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

de dimensionalidad. Los algoritmos de aprendizaje de máquina son programas informáticos que aprenden a encontrar patrones en los datos sin estar explícitamente programados para hacerlo. Los pequeños problemas de investigación genómica pueden resolverse utilizando una computadora portátil, mientras que los más grandes deben resolverse en plataformas o clústeres de computación de alto rendimiento (Cuadro 1).

Fig. 5. Árbol de diferentes tipos de estudios (Q1, 2 y 3 se refieren a las tres preguntas). PO, Paciente, Población, o Resultado del Problema; PICO, Problema, Intervención, Control, Resultado; PECO, Población, Exposición, Control, Resultado. Reimpreso con permiso del Centro de Medicina Basada en Evidencia. Study designs. Disponible en: http://www.cebm.net/study-designs. Descargada el 2 de noviembre de 2016. Macedonia. Advanced Research and Data Methods in Women’s Health. Obstet Gynecol 2017. ESTUDIOS QUE IMPLICAN INTERVENCIONES Y RELACIONES LONGITUDINALES DURANTE EL EMBARAZO El embarazo es una condición dentro de la cual dos o más fisiologías humanas se entrelazan intercambiando nutrientes, fragmentos genómicos, hormonas y fármacos. Debido a que uno de estos individuos es reconocido jurídicamente como quien toma las decisiones de facto y el(los) otro(s) no, se imponen cargas éticas adicionales en la conducta de la investigación relacionada con el embarazo.77 Es importante destacar que la morbilidad y la mortalidad relacionada con el embarazo y la obstetricia se encuentran entre las áreas más extensas de litigios por negligencia en los Estados Unidos, agravando los riesgos y aumentando el interés en un diseño meticuloso de investigación.78 Todos estos elementos convergen para dificultar la investigación necesaria en este campo. Los avances en informática han permitido recientemente la realización de investigaciones que no son posibles con las técnicas tradicionales. Esto incluye el análisis de estudios radiológicos o ultrasonográficos realizados para extraer objetivamente datos de tratamiento útiles a partir de extensos conjuntos de datos usando algoritmos de red neuronal artificial, llamados "aprendizaje profundo"79,80 (Cuadro 2).

Page 14: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 14

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

Cuadro 1. Tres Ejemplos de Publicaciones en el Área de los Métodos Avanzados de Datos en Genómica 1. Nik-Zainal S, Davies H, Staaf J, Ramakrishna M, Glodzik D, Zou X, et al. Landscape of somatic mutations in 560 breast cancer whole-genome sequences. Nature 2016;534:47–54.

Este estudio pudo utilizar estudios de asociación de todo el genoma y métodos avanzados de datos para identificar cinco nuevos genes de cáncer, así como identificar posibles pistas respecto a riesgos ambientales y en el estilo de vida para el desarrollo de cánceres de mama.

2. Triche EW, Uzun A, DeWan AT, Kurihara I, Liu J, Occhiogrosso R, et al. Bioinformatic approach to the genetics of preeclampsia. Obstet Gynecol 2014;123:1155–61.

Este artículo explora la efectividad del análisis de clústeres y del aprovechamiento de datos semánticos para hacer filtrado a través de vastos depósitos de estudios previos en cierto campo, con el fin de encontrar variantes genéticas (tanto en el feto como en la madre) estrechamente relacionadas con la preeclampsia.

3. Laisk-Podar T, Lindgren CM, Peters M, Tapanainen JS, Lambalk CB, Salumets A, et al. Ovarian physiology and GWAS: biobanks, biology, and beyond. Trends Endocrinol Metab 2016;27:516–28.

Esta reseña describe una serie de innovaciones en el campo de la endocrinología reproductiva, específicamente con respecto a la genética de la función ovárica. Explica las razones del uso de grandes depósitos de datos y métodos avanzados de datos y medicina personalizada para el mejoramiento de los tratamientos en la menopausia, falla ovárica y otros temas relacionados con la fertilidad.

Cuadro 2. Tres Ejemplos de Publicaciones en el Área de la Analítica de Datos Masivos en la Evaluación de Intervenciones o Exposiciones y Riesgos del Embarazo 1. Smyser CD, Dosenbach NU, Smyser TA, Snyder AZ, Rogers CE, Inder TE, et al. Prediction of brain maturity in infants using machine-learning algorithms. Neuroimage 2016;136:1–9.

Este artículo aplica algoritmos de máquina de vectores soporte para clasificar diferencias sutiles en los datos de imágenes de resonancia magnética entre neonatos nacidos a término y aquéllos nacidos pretérmino, que ayudan a comprender mejor el neurodesarrollo de los neonatos prematuros, lo cual no era factible estudiar previamente utilizando técnicas analíticas convencionales.

2. Bhat G, Williams SM, Saade GR, Menon R. Biomarker interactions are better predictors of spontaneous preterm birth. Reprod Sci 2014;21:340–50.

Los investigadores en este estudio utilizaron técnicas de reducción de la dimensionalidad para identificar interacciones de biomarcadores múltiples relacionados con parto pretérmino y mostrar diferencias entre grupos étnicos que no se hubieran podido constatar al estudiar biomarcadores únicos.

3. Chandra RS, Orazem J, Ubben D, Duparc S, Robbins J, Vandenbroucke P. Creative solutions to extraordinary challenges in clinical trials: methodology of a phase III trial of azithromycin and chloroquine fixed-dose combination in pregnant women in Africa. Malar J 2013;12:122.

Los autores describen los grandes retos relacionados con grandes estudios farmacéuticos en mujeres embarazadas y el uso que hacen del diseño de estudio adaptativo para minimizar el riesgo. También refuerza la necesidad de que las comunidades científicas y regulatorias adquieran competencias y ofrezcan un marco de trabajo para estudios como este en el futuro.

Page 15: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 15

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

MÉTODOS AVANZADOS DE DATOS EN ESTUDIOS RELACIONADOS CON FUENTES HETEROGÉNEAS DE DATOS, ESPECIALMENTE LAS QUE HACEN USO DE NUESTROS REGISTROS MÉDICOS ELECTRÓNICOS QUE ESTÁN EN RÁPIDA EVOLUCIÓN En la práctica, virtualmente todos los ginecobstetras trabajan con poblaciones heterogéneas y con registros médicos con diferentes niveles de detalle. El nuestro es un mundo de analítica de multivariables que se realiza a menudo con datos desigualmente escasos.81 Actualmente estamos inundados de datos transmitidos por los registros de salud electrónicos que exige el gobierno, los sistemas de información radiológica, e incluso los medios de comunicación social 82. La mayoría de estos datos constituyen interferencia para el proceso de toma de decisiones en general.83 Más datos no necesariamente equivalen a mejores datos o mejores resultados y este es un reto reconocido para los ginecobstetras tanto jóvenes como mayores.84,85 ¿Cómo pueden ayudar entonces los métodos de datos avanzados al especialista clínico promedio a hacer uso de su registro médico electrónico? Con el advenimiento del expediente médico electrónico existía la esperanza de que la magia de las computadoras produciría conjuntos de datos fácilmente digeribles para los estudios de investigación.86 Aunque la implementación de los registros médicos electrónicos ha sido engorrosa en el mejor de los casos, el simple tamaño de los datos y las variables recolectadas en estas bases de datos virtuales podría tener la posibilidad de ser un recurso enorme para la investigación en salud reproductiva.87 Como cuestión práctica, extraer valor de estos sistemas requiere herramientas analíticas mucho más allá de las que se encuentran en un programa común de una hoja de cálculo que los investigadores biomédicos han usado durante las últimas décadas. Todos los datos tienen la posibilidad de ser analizados en computadoras y, por tanto, son recursos potencialmente útiles más allá de su valor intrínseco individual.88 Idealmente, los datos del registro médico electrónico pueden analizarse continuamente y proporcionar retroalimentación verificable. Este es exactamente el enfoque adoptado con el proyecto ARTEMIS, que según se informa ha mejorado los resultados clínicos de la unidad de cuidados intensivos neonatales, como el diagnóstico de sepsis neonatal de aparición tardía en el Hospital para Niños Enfermos de Toronto (Fig. 6).89,90 No es difícil imaginar este modelo siendo utilizado en labor y parto donde el análisis y retroalimentación rápidos de información crítica asistidos por computadora podrían mejorar la atención del nacimiento.

Fig. 6. Representación esquemática del sistema de apoyo a la toma de decisiones de la plataforma Artemis en el Hospital para Niños Enfermos, Toronto, Canadá. Reimpreso con permiso de McGregor C. Reimpreso con permiso de McGregor C. Big data in neonatal intensive care. Computer. June 2013. Disponible en: http://lifesciences.ieee.org/article-archive/technology-spotlight-and-featurearticles/big-data-in-neonatal-intensive-care/. Descargado el 30 de noviembre de 2016. Macedonia. Advanced Research and Data Methods in Women’s Health. Obstet Gynecol 2017.

Adquisición de datos Análisis en Línea

Presentación de resultados

Persistencia de datos Extracción de conocimiento Redistribución

Sistema de información

clínica

Servidor Capsule

Tech

Nodo de datos

médicos

Servidor de configuración

Adaptador CIS Inter

fase d

e usu

ario

Tiempo de ejecución InfoSphere Streams

Servidor de despliegue Administrador de integración de datos Extracción de conocimiento

Extractor de Datos

Modificador de reglas dirigido por ontología

Movilizador de datos Transmisión Paciente

Page 16: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 16

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

Sabiendo que gran parte de los datos de un sistema de registro médico electrónico es vinculable a otros datos, los científicos de datos pueden hacer uso de estas conexiones superiores o "metadatos" para obtener información sobre estados patológicos, hasta ahora inalcanzable usando técnicas estadísticas convencionales.91,92 Cabe recordar que la intención original de la ruta de "uso significativo" establecida por los Centros de Servicios de Medicare y Medicaid era inducir a los profesionales de la salud para hacer uso de las funciones de sus registros médicos electrónicos para mejorar los resultados clínicos.93 Aunque los especialistas clínicos están recopilando diligentemente más datos, no están viendo necesariamente que éstos se estén convirtiendo en conocimientos aplicables, a menos que su hospital haya hecho la inversión en los paquetes analíticos apropiados. En cardiología, los investigadores se han centrado en el entorno rico en datos del expediente médico electrónico, especialmente para los aspectos relacionados con la analítica predictiva.92,94,95 En un artículo reciente de la Clínica Mayo, los cardiólogos fueron capaces de encontrar y clasificar las características de insuficiencia cardíaca y estratificar subpoblaciones específicas basándose en algoritmos de aprendizaje de máquina.96 Esto ha llevado a mejorar la atención clínica mediante la combinación de datos de registros médicos electrónicos con datos de genómica para descubrir nuevos conocimientos sobre este trastorno (Cuadro 3).

ANÁLISIS Estamos en el advenimiento de una era de métodos avanzados de datos combinados con la analítica predictiva que se puede llamar "la era de los datos masivos en la salud de la mujer". Sea como se le llame, el uso de métodos avanzados de datos computacionalmente intensivos para hacer nuevos descubrimientos no es una moda pasajera ni una vía para el éxito de una publicación. Los métodos avanzados de datos en nuestro campo abrirán nuevas oportunidades en aguas hasta ahora desconocidas del descubrimiento. La adopción de nuevos métodos de datos y diseños de investigación será perturbadora, tanto positiva como negativamente. La rápida y desigual adopción de la detección del ADN libre de células y la cirugía robótica en la práctica de la salud de la mujer también puede ofrecer una advertencia para todos

Cuadro 3. Tres ejemplos de Publicaciones en el Área de Métodos Avanzados de Datos para el Análisis de Grandes Conjuntos Heterogéneos de Datos en Salud de la Mujer 1. Mani S, Ozdas A, Aliferis C, Varol HA, Chen Q, Carnevale R, et al. Medical decision support using machine learning for early detection of late-onset neonatal sepsis. J Am Med Inform Assoc 2014;21:326–36.

Este artículo muestra la manera en que las herramientas de aprendizaje de máquina se pueden usar para hacer filtrado de datos en registros médicos electrónicos para desarrollar nuevos modelos predictivos de estados patológicos. Una vez capacitados, estos modelos pueden mejorar el desempeño de los especialistas clínicos para predecir enfermedades y tomar decisiones de tratamiento más informadas, en este caso, para la sepsis neonatal de aparición tardía.

2. Beim PY, Elashoff M, Hu-Seliger TT. Personalized reproductive medicine on the brink: progress, opportunities and challenges ahead. Reprod Biomed Online 2013;27:611–23.

Este estudio crítico analiza la aplicación de la analítica de datos masivos a la fertilidad. Plantea específicamente las razones del uso de métodos de datos masivos aplicados a los registros médicos electrónicos para mejorar el éxito de los tratamientos de fertilidad al mismo tiempo que se reducen costos.

3. Erekson EA, Iglesia CB. Improving patient outcomes in gynecology: the role of large data registries and big data analytics. J Minim Invasive Gynecol 2015;22:1124–9.

Los ginecólogos han usado registros de datos desde mucho antes de la era de los datos masivos. Este artículo describe la manera en que estos registros están tomando aún mayor importancia ahora que se están utilizando los métodos avanzados de datos.

Page 17: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 17

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

nosotros.97,98 Si se da una proliferación de tecnología sin el esfuerzo de educar y abrir el análisis libre sobre los méritos, complejidades, responsabilidades, e implicaciones de la tecnología, es probable que haya confusión o incluso daño. Los cambios rápidos en la tecnología de la información que afectan la práctica han ido llegando y lo seguirán haciendo ya sea que el profesional de la salud, el investigador, o la sociedad profesional estén preparados… o no. Hemos revisado las cuestiones históricas, legales, éticas y prácticas relacionadas con la adopción de métodos de datos masivos en nuestro campo a la vez que presentamos los conceptos, definiciones, escollos y promesas básicos. Nos pareció importante ofrecer al lector una serie de artículos de referencia, así como un punto de lanzamiento para cualquier persona interesada en explorar oportunidades en su propio trabajo. Nuestro campo, centrado en la salud de la mujer y en traer nuevas vidas al mundo, trata fundamentalmente acerca del futuro. La decisión de construir un mejor sistema de investigación médica no es simplemente cuestión de poner de manifiesto nuevas herramientas. También lleva consigo la responsabilidad de permanecer fieles a ciertos valores fundamentales, que son válidos independientemente de los métodos de investigación y análisis elegidos. Ellos incluyen: el respeto por la recolección de datos, por los beneficios del trabajo en equipo, por la importancia del juicio en la elección de una hipótesis de investigación y por el valor del diálogo abierto. Así como los nuevos padres asumen la responsabilidad de la crianza de los miembros de la siguiente generación, nosotros también tenemos la responsabilidad de construir un sistema de investigación médica cada vez mejor, que pueda crecer y adaptarse a las demandas progresivamente complejas del futuro. Ser francos e imperturbables nos permitirá, tanto a los pacientes como a los especialistas, transitar con seguridad el camino que tenemos por delante. REFERENCIAS 1. Coomarasamy A, Khan KS. What is the evidence that postgraduate teaching in evidence based medicine changes anything? A systematic review. BMJ 2004;329:1017. 2. Cohen AM, Stavri PZ, Hersh WR. A categorization and analysis of the criticisms of evidence-based medicine. Int J Med Inform 2004;73:35–43. 3. Mendes CL, Bode B, Bauer GH, Enos J, Beldica C, Kramer WT. Deployment and testing of the sustained petascale Blue Waters system. J Comput Sci 2015;10:327–37. 4. Einstein A. Collected papers. Vol 6. Princeton (NJ): Princeton University Press; 1987. p. 142. 5. Plackett RL. Karl Pearson and the Chi-squared test. Int Stat Rev 1983;51:59–72. 6. Kuroki LM, Allsworth JE, Peipert JF. Methodology and analytic techniques used in clinical research: associations with journal impact factor. Obstet Gynecol 2009;114:877–84. 7. Bates DW, Kuperman GJ, Wang S, Gandhi T, Kittler A, Volk L, et al. Ten commandments for effective clinical decision support: making the practice of evidence-based medicine a reality. J Am Med Inform Assoc 2003;10:523–30. 8. Mahajan R, Gupta K. Food and drug administration’s critical path initiative and innovations in drug development paradigm: challenges, progress, and controversies. J Pharm Bioallied Sci 2010;2:307–13. 9. Pitts PJ. FDA and the critical path to twenty-first-century medicine. J Med Philos 2008;33:515–23. 10. U.S. Food and Drug Administration. The critical path initiative. Report on key achievements in 2009. Silver Spring (MD): U.S. Food and Drug Administration.

Page 18: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 18

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

11. Bothwell LE, Podolsky SH. The emergence of the randomized, controlled trial. N Engl J Med 2016;375:501–4. 12. Altman DG, Royston P. The cost of dichotomising continuous variables. BMJ 2006;332:1080. 13. Cox DR. The analysis of multivariate binary data. Appl Stat 1972;21:113–20. 14. Curran PJ, West SG, Finch JF. The robustness of test statistics to nonnormality and specification error in confirmatory factor analysis. Psychol Methods 1996;1:16–29. 15. Pearson K. Mathematical contributions to the theory of evolution. Vol 13. London (UK): Dulau and Co; 1904. 16. Zuur AF, Ieno EN, Elphick CS. A protocol for data exploration to avoid common statistical problems. Methods Ecol Evol 2010;1:3–14. 17. Auer PL, Reiner AP, Leal SM. The effect of phenotypic outliers and non-normality on rare-variant association testing. Eur J Hum Genet 2016;24:1188–94. 18. Nahin RL, Straus SE. Research into complementary and alternative medicine: problems and potential. BMJ 2001; 322:161–4. 19. Madhok R, Handoll HH. Randomised trials in surgery. Integrated approach is needed. BMJ 2002;325:658. 20. Gifford F. Community-equipoise and the ethics of randomized clinical trials. Bioethics 1995;9:127–48. 21. Chervenak FA, McCullough LB. Clinical guides to preventing ethical conflicts between pregnant women and their physicians. Am J Obstet Gynecol 1990;162:303–7. 22. Grimes DA. Introducing evidence-based medicine into a department of obstetrics and gynecology. Obstet Gynecol 1995;86:451–7. 23. Grimes DA, Schulz KF. False alarms and pseudo-epidemics: the limitations of observational epidemiology. Obstet Gynecol 2012;120:920–7. 24. Scifres CM, Iams JD, Klebanoff M, Macones GA. Metaanalysis vs large clinical trials: which should guide our management? Am J Obstet Gynecol 2009;200:484.e1–5. 25. Mashey JR. Big data and the next wave of infraS-tress. Berkeley (CA): Computer Science Division Seminar, University of California; 1997. 26. Google Inside Search. How search works. From algorithms to answers. Available at: https://www.google.com/insidesearch/howsearchworks/thestory/. 27. O’Driscoll A, Daugelaite J, Sleator RD. ‘Big data,’ Hadoop and cloud computing in genomics. J Biomed Inform 2013; 46:774–81. 28. Howe D, Costanzo M, Fey P, Gojobori T, Hannick L, Hide W, et al. Big data: the future of biocuration. Nature 2008;455:47–50.

Page 19: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 19

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

29. Johnson PL, Slatkin M. Inference of population genetic parameters in metagenomics: a clean look at messy data. Genome Res 2006;16:1320–7. 30. Schroder KE, Carey MP, Vanable PA. Methodological challenges in research on sexual risk behavior: I. Item content, scaling, and data analytical options. Ann Behav Med 2003; 26:76–103. 31. Pearson K. London, Edinburgh, Dublin Philosophical Magazine J Sci, 6th Series 1901;2:559. 32. Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine Series 5 1900; 50:157–75. 33. Back AD, Weigend AS. A first application of independent component analysis to extracting structure from stock returns. Int J Neural Syst 1997;8:473–84. 34. Seljak U, Slosar A, McDonald P. Cosmological parameters from combining the lyman-a forest with CMB, galaxy clustering and SN constraints. J Cosmology Astroparticle Phys 2006; 2006:014. 35. Waldron D. Population genomics: genomic analysis of South American ancestry. Nat Rev Genet 2016;17:66. 36. Loh PR, Bhatia G, Gusev A, Finucane HK, Bulik-Sullivan BK, Pollack SJ, et al. Contrasting genetic architectures of schizophrenia and other complex diseases using fast variance-components analysis. Nat Genet 2015;47:1385–92. 37. NIH array analysis tool. General description of NIA array analysis tool. Available at: http://lgsun.grc.nia.nih.gov/ANOVA/help.html. Retrieved October 22, 2016. 38. Best M, Neuhauser D. Ignaz Semmelweis and the birth of infection control. Qual Saf Health Care 2004;13:233–4. 39. Noakes TD, Borresen J, Hew-Butler T, Lambert MI, Jordaan E. Semmelweis and the aetiology of puerperal sepsis 160 years on: an historical review. Epidemiol Infect 2008;136:1–9. 40. Robinson A. The enchantress of numbers. Science 2015;350:1323. 41. Cheng TH, Thompson DJ, O’Mara TA, Painter JN, Glubb DM, Flach S, et al. Five endometrial cancer risk loci identified through genome-wide association analysis. Nat Genet 2016; 48:667–74. 42. Chute CG. Invited commentary: observational research in the age of the electronic health record. Am J Epidemiol 2014;179:759–61. 43. Austin C, Kusumoto F. The application of big data in medicine: current implications and future directions. J Interv Card Electrophysiol 2016;47:51–9. 44. Fain BA, Koonin LM, Stoto MA, Shah UA, Cooper SR, Piltch-Loeb RN, et al. Facilitating access to antiviral medications and information during an influenza pandemic: engaging with the public on possible new strategies. Biosecur Bioterror 2014;12:8–19. 45. Institute of Medicine (US) Forum on Drug Discovery, Development, and Translation; Institute of Medicine (US) Forum on Medical and Public Health Preparedness for Catastrophic Events. Advancing regulatory science for medical countermeasure development: workshop summary. Washington, DC: National Academies Press; 2011.

Page 20: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 20

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

46. Polyak CS, Macy JT, Irizarry-De La Cruz MI, Lai JE, McAuliffe JF, Popovic T, et al. Bioterrorism-related anthrax: International response by the Centers for Disease Control and Prevention. Emerging Infect Dis 2002;8:1056–9. 47. Moran GJ. Update on emerging infections from the Centers for Disease Control and Prevention. Bioterrorism alleging use of anthrax and interim guidelines for management—United States, 1998. Ann Emerg Med 1999;34:229–32. 48. Christensen ML. Best pharmaceuticals for children act and pediatric research equity act: time for permanent status. J Pediatr Pharmacol Ther 2012;17:140–1. 49. Ren Z, Zajicek A. Review of the Best Pharmaceuticals for Children Act and the Pediatric Research Equity Act: what can the obstetric community learn from the pediatric experience? Semin Perinatol 2015;39:530–1. 50. Charlton R, Vries Cd. Systematic overview of data source for drug safety in pregnancy research. Consultancy EMA/2010/29/CN. London (UK): European Medicines Agency; 2012. 51. Luce BR, Connor JT, Broglio KR, Mullins CD, Ishak KJ, Saunders E, et al. Using Bayesian adaptive trial designs for comparative effectiveness research: a virtual trial execution. Ann Intern Med 2016;165:431–8. 52. Coffey CS, Levin B, Clark C, Timmerman C, Wittes J, Gilbert P, et al. Overview, hurdles, and future work in adaptive designs: perspectives from a national institutes of health-funded workshop. Clin Trials 2012;9:671–80. 53. Bowalekar S. Adaptive designs in clinical trials. Perspect Clin Res 2011;2:23–7. 54. Bax R, Green S. Antibiotics: the changing regulatory and pharmaceutical industry paradigm. J Antimicrob Chemother 2015;70:1281–4. 55. Gagne JJ, Thompson L, O’Keefe K, Kesselheim AS. Innovative research methods for studying treatments for rare diseases: methodological review. BMJ 2014:349:g6802. 56. Tsimberidou AM. Targeted therapy in cancer. Cancer Chemother Pharmacol 2015;76:1113–32. 57. Report to the President on propelling innovation in drug discovery, development, and evaluation. Available at: https://www.whitehouse.gov/sites/default/files/microsites/ostp/pcast-fdafinal.pdf. Retrieved July 10, 2016. 58. Donald A. Berry Bayesian adaptive: clinical trials: past, present, and future. Available at: https://www.mdanderson.org/education-and-research/departments-programs-and-labs/ departments-and-divisions/division-of-quantitative-sciences/pdf/bbbc2014-berry-shortcourse-bayesianadaptiveclinicaltrials–compatibility-mode-.pdf. Retrieved July 2016. 59. Warner P, Weir CJ, Hansen CH, Douglas A, MadhraM, Hillier SG, et al. Low-dose dexamethasone as a treatment for women with heavy menstrual bleeding: protocol for response-adaptive randomized placebo-controlled dose-finding parallel group trial (DexFEM). BMJ Open 2015;5:e006837. 60. Graf AC, Bauer P, Glimm E, Koenig F. Maximum type 1 error rate inflation in multiarmed clinical trials with adaptive interim sample size modifications. Biom J 2014;56:614–30.

Page 21: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 21

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

61. Hesse-Biber S. Doing interdisciplinary mixed methods health care research: working the boundaries, tensions, and synergistic potential of team-based research. Qual Health Res 2016;26:649–58. 62. Wade TD. Refining gold from existing data. Curr Opin Allergy Clin Immunol 2014;14:181–5. 63. Dai L, Gao X, Guo Y, Xiao J, Zhang Z. Bioinformatics clouds for big data manipulation. Biol Direct 2012;7:43. 64. Antman EM, Benjamin EJ, Harrington RA, Houser SR, Peterson ED, Bauman MA, et al. Acquisition, analysis, and sharing of data in 2015 and beyond: a survey of the landscape: a conference report from the American Heart Association data summit 2015. J Am Heart Assoc 2015;4:e002810. 65. Birney E. The making of ENCODE: lessons for big-data projects. Nature 2012;489:49–51. 66. Collins FS, MorganM, Patrinos A. The human genome project: lessons from large-scale biology. Science 2003;300:286–90. 67. Venter JC, Smith HO, Adams MD. The sequence of the human genome. Clin Chem 2015;61:1207–8. 68. Hood L, Rowen L. The human genome project: big science transforms biology and medicine. Genome Med 2013;5:79. 69. Tucker T, Marra M, Friedman JM. Massively parallel sequencing: the next big thing in genetic medicine. Am J Hum Genet 2009;85:142–54. 70. Alyass A, Turcotte M, Meyre D. From big data analysis to personalized medicine for all: challenges and opportunities. BMC Med Genomics 2015;8:33. 71. Bruns SB, Ioannidis JP. p-Curve and p-hacking in observational research. PLoS One 2016;11:e0149144. 72. Russell R, Chung M, Balk EM, et al. Issues and challenges in conducting systematic reviews to support development of nutrient reference values: workshop summary: nutrition research series. Vol 2. Rockville (MD): Agency for Healthcare Research and Quality; 2009. 73. University of Portsmouth. Asking answerable questions—PICO/PECO. Available at: http://www.solent.nhs.uk/_store/documents/step_1_3_picohandout.pdf. Retrieved July 15, 2016. 74. Bollinger JM, Scott J, Dvoskin R, Kaufman D. Public preferences regarding the return of individual genetic research results: findings from a qualitative focus group study. Genet Med 2012;14:451–7. 75. NIH, U.S. National Library of Medicine. NIH data sharing repositories. Available at: https://www.nlm.nih.gov/NIHbmic/nih_data_sharing_repositories.html. Retrieved July 15, 2016. 76. Moore JH, Andrews PC. Epistasis analysis using multifactor dimensionality reduction. Methods Mol Biol 2015;1253:301–14. 77. Chervenak FA, McCullough LB. Perinatal ethics: a practical method of analysis of obligations to mother and fetus. Obstet Gynecol 1985;66:442–6. 78. Jena AB, Seabury S, Lakdawalla D, Chandra A. Malpractice risk according to physician specialty. N Engl J Med 2011;365:629–36.

Page 22: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 22

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

79. Hardy JR. Full 40: the quest to study gestational age and child development with big data. BJOG 2015;122:1312. 80. Yaqub M, Kelly B,Papageorghiou AT, Noble AB. Guided random forests for identification of key fetal anatomy and image categorization in ultrasound scans. International conference on medical image computing and computer-assisted intervention. Cham (Switzerland): Springer International Publishing; 2015. 81. Lasko TA, Denny JC, Levy MA. Computational phenotype discovery using unsupervised feature learning over noisy, sparse, and irregular clinical data. PLoS One 2013;8:e66341. 82. Ventola CL. Social media and health care professionals: benefits, risks, and best practices. Pharm Ther 2014;39:491–520. 83. Buery-Joyner SD, Dalrymple JL, Abbott JF, Craig LB, Forstein DA, Graziano SC, et al. Overcoming electronic medical record challenges on the obstetrics and gynecology clerkship. Obstet Gynecol 2015;126:553–8. 84. Eden KB, Messina R, Li H, Osterweil P, Henderson CR, Guise JM. Examining the value of electronic health records on labor and delivery. Am J Obstet Gynecol 2008;199:307.e1–9. 85. McCoy MJ, Diamond AM, Strunk AL; American Congress of Obstetricians and Gynecologists’ Committee on Ambulatory Practice Operations. Special requirements of electronic medical record systems in obstetrics and gynecology. Obstet Gynecol 2010;116:140–3. 86. Jha AK. The promise of electronic records: around the corner or down the road? JAMA 2011;306:880–1. 87. Angus DC. Fusing randomized trials with big data: the key to self-learning health care systems? JAMA 2015;314:767–8. 88. Schneeweiss S. Learning from big health care data. N Engl J Med 2014;370:2161–3. 89. Khazaei H, Mench-Bressan N, McGregor C, Pugh JE. Health informatics for neonatal intensive care units: an analytical modeling perspective. IEEE J Transl Eng Health Med 2015; 3:3000109. 90. McGregor C, Catley C, James A. Computer-based medical systems (CBMS), 2012 25th international symposium on. In: Variability analysis with analytics applied to physiological data streams from the neonatal intensive care unit. New York (NY): IEEE; 2012. 91. Amir A, Beymer D, Grace J, Greenspan H, Gruhl D, Hobbs A, et al. AALIM: a cardiac clinical decision support system powered by advanced multi-modal analytics. Stud Health Technol Inform 2009;160:846–50. 92. Mandl KD, Kohane IS, McFadden D, Weber GM, Natter M, Mandel J, et al. Scalable collaborative infrastructure for a learning healthcare system (SCILHS): architecture. J Am Med Inform Assoc 2014;21:615–20. 93. Slight SP, Berner ES, Galanter W, Huff S, Lambert BL, Lannon C, et al. Meaningful use of electronic health records: experiences from the field and future opportunities. JMIR Med Inform 2015;3:e30.

Page 23: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 23

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

94. Suinesiaputra A, Medrano-Gracia P, Cowan BR, Young AA. Big heart data: advancing health informatics through data sharing in cardiovascular imaging. IEEE J Biomed Health Inform 2015;19:1283–90. 95. Goff DC Jr, Lloyd-Jones DM, Bennett G, Coady S, D’Agostino RB, Gibbons R, et al. 2013 ACC/AHA guideline on the assessment of cardiovascular risk circulation: a report of the American College of Cardiology/American Heart Association Task Force on Practice Guidelines. Circulation 2014;129 (suppl 2):S49–73. 96. Panahiazar M, Taslimitehrani V, Pereira N, Pathak J. Using EHRs and machine learning for heart failure survival analysis. Stud Health Technol Inform 2015;216:40–4. 97. Yurkiewicz IR, Korf BR, Lehmann LS. Prenatal wholegenome sequencing—is the quest to know a fetus’s future ethical? N Engl J Med 2014;370:195–7. 98. Barbash GI, Glied SA. New technology and health care costs— the case of robot-assisted surgery. N Engl J Med 2010;363:701–4. 99. Dinov ID, Heavner B, Tang M, Glusman G, Chard K, Darcy M, et al. Predictive big data analytics: a study of Parkinson’s disease using large, complex, heterogeneous, incongruent, multi-source and incomplete observations. PLoS One 2016; 11:e0157077. 100. George BJ, Sobus JR, Phelps LP, Rashleigh B, Simmons JE, Hines RN, et al. Raising the bar for reproducible science at the us environmental protection agency office of research and development. Toxicol Sci 2015:145:16–22. 101. LoParo D, Waldman ID. The oxytocin receptor gene (OXTR) is associated with autism spectrum disorder: a meta-analysis. Mol Psychiatry 2015;20:640–6. 102. Cabral RM, Kurban M, Wajid M, Shimomura Y, Petukhova L, Christiano AM. Whole-exome sequencing in a single proband reveals a mutation in the CHST8 gene in autosomal recessive peeling skin syndrome. Genomics 2012;99:202–8. 103. Khoury MJ, Ioannidis JP. Big data meets public health. Science 2014;346:1054–5. 104. Ahmad T, Testani JM, Desai NR. Can big data simplify the complexity of modern medicine? Prediction of right ventricular failure after left ventricular assist device support as a test case. JACC Heart Fail 2016;4:722–5. 105. McIsaac M, Cook R. Statistical methods for incomplete data: some results on model misspecification. Stat Methods Med Res 2014 July 25 [Epub ahead of print]. 106. Yuan L, Wang Y, Thompson PM, Narayan VA, Ye J; Alzheimer’s Disease Neuroimaging Initiative. Multi-source feature learning for joint analysis of incomplete multiple heterogeneous neuroimaging data. Neuroimage 2012;61:622–32. 107. Welch BM, Kawamoto K. Clinical decision support for genetically guided personalized medicine: a systematic review. J Am Med Inform Assoc 2013;20:388–400. 108. Hersh WR, Weiner MG, Embi PJ, Logan JR, Payne PR, Bernstam EV, et al. Caveats for the use of operational electronic health record data in comparative effectiveness research. Med Care 2013;51(suppl 3):S30–7.

Page 24: Métodos Avanzados de Investigación y Datos en Salud …journals.lww.com/greenjournal/Documents/Feb2017_Translation... · Las recientes innovaciones en la recolección y almacenamiento

Español Obstetrics & Gynecology 24

Macedonia, Johnson, y Rajapakse Métodos Avanzados de Investigación y Datos en Salud de la Mujer (Obstet Gynecol 2017;129:249–64) www.greenjournal.org © 2017 The American College of Obstetricians and Gynecologists

109. Cohen KB, Glass B, Greiner HM, Holland-Bouley K, Standridge S, Arya R, et al. Methodological issues in predicting pediatric epilepsy surgery candidates through natural language processing and machine learning. Biomed Inform Insights 2016;8:11–8.