the 10k big data in brain imaging of valencia region

Post on 04-Aug-2015

90 Views

Category:

Science

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Caracterización de Estructuras Cerebrales de la Población de la Comunidad Valenciana

10K - BDBI 4 CV

Jorge Isnardo Altamirano, MSc.María de la Iglesia Vayá, PhD.Ángel Fernández-Cañada Vilata, MSc.

The 10K Big Data in Brain Imaging of Valencia Region

● Caso de uso dentro del Banco digital de Imagen Médica de la Comunidad Valenciana (BIMCV).

● BIMCV: repositorio orientado a favorecer avances tecnológicos en imagen médica que proporciona servicios de cobertura tecnológica para proyectos I+D.

El proyecto 10K y BIMCV

basado en cbrain

Objetivos del Banco digital de Imagen Médica de la Comunidad Valenciana

● Desarrollar e implementar estrategias para prevenir y/o tratar efectivamente las enfermedades mediante una infraestructura de investigación en imagen asociada a grandes estudios poblacionales (Big Data).

● Proporcionar recursos, datos, y herramientas para realizar estudios epidemiológicos avanzados en imagen.

Big Data en imagen cerebral poblacional

● Big Data: conjuntos de datos muy grandes y complejos, los cuales son inviables de procesar con las herramientas TIC habituales.

● Cada estudio de investigación publicado genera en término medio 20 GB de información sin incluir los datos generados durante el procesamiento y el análisis estadístico.

Arquitectura de BIMCV

● Se trata de una instancia de XNAT.

¿Qué es XNAT?

● XNAT es una plataforma software de código abierto cuya finalidad es la de ayudar a llevar a cabo la investigación basada en imágenes.

● Permite importar, archivar, procesar y distribuir de forma segura las imágenes y los datos de sus estudios y/o proyectos de investigación.

¿Por qué XNAT?

● Plataforma software de código abierto.

● Funcionalidades básicas esenciales implementadas.

● Comunidad involucrada.

Ventajas de XNAT

● Al publicarse en abierto su código es posible introducir modificaciones particulares.

● Ofrece las herramientas básicas que cualquier proyecto de investigación basado en análisis de imagen puede necesitar inicialmente.

● Cuenta con documentación actualizada.

● Su curva de aprendizaje es media-baja.

● La comunidad que lo sustenta es activa.

Desventajas de XNAT

● Para su correcto uso y/o funcionamiento precisa de un equipo mixto (informático / investigador).

● Parte de la documentación orientada al desarrollo de nuevas funcionalidades no es muy precisa.

The 10K Big Data in Brain Imaging of Valencia Region

● Caso de uso basado en las imágenes neurológicas del Biobanco del Sistema de Salud Pública de Valencia.

● Objetivos:

o Mejorar la infraestructura, datos, metodologías y algoritmos para analizar y controlar la evolución de diferentes enfermedades neurológicas.

o Realizar avances en el procesamiento posterior de las imágenes neurológicas.

The 10K Big Data in Brain Imaging of Valencia Region

● Comparación del grosor cortical y estructura del volumen con sus valores de referencia.

The 10K Big Data in Brain Imaging of Valencia Region

● Fase 1: Recepción de las imágenes en bruto.

● Fase 2: Almacenamiento de las imágenes.

● Fase 3: Parcelación y segmentación de estructuras cerebrales.

● Fase 4: Modelado poblacional (Obtención de parámetros de normalidad)

● Fase 5: Visualización y cuantificación referencial (Brain Imaging Geographic Information System of Valencia Region)

Fase 1: Recepción de las imágenes en bruto

● Departamentos de Salud de la Comunitat Valenciana:

o Dpto. 17: H. Universitario San Juan de Alicante.

Fase 1: Recepción de las imágenes en bruto

Query/Retrieve, or Q/R for short, is the DICOM service for searching images on the PACS and getting a copy of them to the workstation where they can be displayed.

Fase 1: Recepción de las imágenes en bruto

22419 imágenes | abril_201430532 imágenes | agosto_201476496 imágenes | diciembre_2014_enero_201545852 imágenes | julio_201436980 imágenes | junio_201417385 imágenes | marzo_201419692 imágenes | mayo_201415558 imágenes | noviembre_2014_parte_131469 imágenes | noviembre_2014_parte_241470 imágenes | octubre_201432570 imágenes | septiembre_2014

Total: 370423 imágenes (127 GB)

Fase 2: Almacenamiento de las imágenes

● Lectura de las cabeceras DICOM de las imágenes recibidas (scripts python, librería pydicom)

o Descartar imágenes:

▪ corruptas (no se pueden leer)▪ no deseadas (modality != MR)▪ patient_id no accesible y no numérico.▪ patient_name no accesible.▪ study_description no accesible.

o De-identificación de las imágenes válidas.

o Eliminación de cualquier símbolo no deseado de las etiquetas protocol_name y/o series_description (Evita problemas posteriores en XNAT)

* Los scripts permiten la incorporación de nuevos sujetos aun después de haber procesado la primera tanda de imágenes sin empezar desde cero.

Fase 2: Almacenamiento de las imágenes

● Creación de un índice de sujetos (Para saber qué información se tiene realmente)

o 509 Subjects.

o 525 MR Sessions.

o 16 Subjects with 2 MR Sessions.

Fase 2: Almacenamiento de las imágenes

Fase 2: Almacenamiento de las imágenes

● Organización de las imágenes en directorios por patient_id.

Fase 2: Almacenamiento de las imágenes

● Envío de las imágenes a XNAT.

o Anonimización de las tags del estándar DICOM del nivel de aplicación básica del perfil de confidencialidad:

▪ DICOM PS3.6 2015a - Data Dictionary.

▪ DICOM PS3.15 2015a - Security and System Management Profiles.

● E Attribute Confidentiality Profiles (which attributes should be anonymized)

http://dicom.nema.org/medical/dicom/current/output/

Fase 2: Almacenamiento de las imágenes

Anonimizaciónde metadatos.

Fase 2: Almacenamiento de las imágenes

Defacing.

Fase 2: Almacenamiento de las imágenes

● Generación de las sentencias para el envío automatizado (DicomRemap, scripts das, DicomEdit language)

Fase 3: Parcelación y segmentación de estructuras cerebrales

● recon-all: Performs all, or any part of, the FreeSurfer cortical reconstruction process.

Fase 3: Parcelación y segmentación de estructuras cerebrales

La importancia de cómputo

Operaciones matemáticas muy complejas que requieren de hardware específico.

The faster, the better!

Pero obviamente más caro y con más inconvenientes (calor)

chinese bitcoin mining farm

Fase 4: Modelado poblacional (Obtención de parámetros de normalidad)

● Empleando lenguajes de programación tales como ‘R’.

- Por ejemplo para hallar diferencias significativas entre grupos entre una o varias variables de interés.

● En esta etapa se vuelve a justificar la existencia de un equipo mixto (investigador / estadístico / informático).

Fase 5: Visualización y cuantificación referencial● Brain Imaging Geographic Information System of Valencia Region.

Gracias por su atención

top related