aplicaciones cientificas en grid 2/10 nombre y apellido aplicaciones cientificas en grid
TRANSCRIPT
APLICACIONES CIENTIFICAS EN GRID
2/10Nombre y Apellido
APLICACIONES CIENTIFICAS EN GRID
APLICACIONES CIENTIFICAS EN GRID
José SALTIFIC (Valencia)
Contenidos:
1.- Introducción2.- ¿qué tipos de aplicaciones son apropiadas para el GRID?3.- Aplicaciones en EGEE4.- Aspectos del GRID para el soporte de aplicaciones5.- Ejemplos de aplicaciones del EGEE6.- Conclusiones
APLICACIONES CIENTIFICAS EN GRID
José Salt 2
1.- INTRODUCCION
APLICACIONES CIENTIFICAS EN GRID
José Salt 3
Los avances científicos responden a las metodologías de especialización y a los conocimientos adquiridos en dichas disciplinas– pero, las tecnologías influyen en hacer que los instrumentos, herramientas y medios
utilizados en la obtención de los resultados se realice más eficientemente y en entornos colaborativos esenciales en la ciencia del siglo XXI
– el GRID Computing es una tecnología que está cambiando la forma de trabajo de los científicos y un elemento básico donde se plasma es en el momento de elaborar las APLICACIONES CIENTIFICAS
Metodología científica y aplicaciones
APLICACIONES CIENTIFICAS EN GRID
José Salt 4
1) Algunas disciplinas científicas se han organizado durante las decadas
pasadas en grandes colaboraciones científicas que agrupan una gran cantidad de científicos al ser la única manera de alcanzar logros de alto nivel que no sería viable con grupos de trabajo reducidos
2) Estos grupos han obtenido resultados y descubrimientos científicos de gran repercusión y normalmente han estado ligados a la resolución de retos tecnológicos importantes (ejemplo: experimentos del LEP, Proyecto Genoma, etc)
2) En aspectos computacionales y tecnologías de la información, se ha evolucionado desde soluciones de mainfraims , pasando por la solución de clusters de ordenadores y ha desembocado en el paradigma GRID.
APLICACIONES CIENTIFICAS EN GRID
José Salt 5
E-Ciencia: a la ciencia a gran escala que se llevará a cabo de forma creciente a través de colaboraciones globales distribuidas y posibilitadas mediante Internet.
Típicamente, una característica de tales empresas colaborativas científicas es que requerirán el acceso a grandes colecciones de datos, a recursos de cálculo a gran escala y visualizacíón de altas prestaciones de vuelta a los científicos utilizadores
El GRID es una arquitectura propuesta para llevar a término todos estos temas y hacer realidad esta visión de e-Ciencia.
E-científicos y e-Infraestructuras trabajando con las aplicaciones
APLICACIONES CIENTIFICAS EN GRID
José Salt 6
2.-¿QUÉ TIPO DE APLICACIONES SONAPROPIADAS PARA EL GRID?
APLICACIONES CIENTIFICAS EN GRID
José Salt 7
En la primera clase establecimos los pilares básicos de la computación GRID: estos pueden también ser las condiciones que se pueden establecer para el nivel de conveniencia de que determinadas aplicaciones se desplieguen en un entorno GRID:– Posibilidad y necesidad de compartir recursos
– Tener un acceso seguro
– El uso eficiente de los recursos
– Redes de comunicación fiables
– Open source Estas características no son privativas de unas determinadas áreas
temáticas cientifico-tecnológicas y de Humanidades ( por ejemplo, en estudios filológicos, arqueología, etc)
Dos posibles perspectivas de las aplicaciones: interactivas o no interactivas
APLICACIONES CIENTIFICAS EN GRID
José Salt 8
Interactividad El GRID está resolviendo bastante bien el
trabajo en batch La interactividad esta sujeta a debate:
– Grado de receptividad- proceso de comunicación en el que cada mensaje está relacionado con el mensaje previo intercambiado, y de estos con los precedentes.
– Sheizaf Rafeili: ‘ es una expresión en el contexto de que una serie dada de intercambios de comunicación, cualquier otra transmisíón está relacionada en cierto grado con los intercambios previos referidas a transmisiones anteriores (1986)’
– Se refiere al software que acepta y responde a inputs de humanos, por ejemplo, datos o comandos
... ....
APLICACIONES CIENTIFICAS EN GRID
José Salt 9
El caso de Física Experimental de Altas Energías
Una comunidad de físicos que trabajan en una COLABORACION internacional, usando recursos de cálculo distribuidos;
Que necesitan manejar un gran volumen de datos (INFORMACION)
Para visualizarlos, simularlos, compararlos, modelarlos, testearlos; esto es, COMPRENDER los datos;
Con el fin último de tomar una DECISION sobre la verificación de un nuevo descubrimiento
Y mostrar los resultados y conclusiones a otros colegas, autoridades científicas, publico en general (DISSEMINATION)
APLICACIONES CIENTIFICAS EN GRID
José Salt 10
El GRID interactivo desarrollado por CROSSGRID independiente del experimento donde se aplique
ATLAS posee una utilidades para el análisis interactivo pero falta poder trabajar ‘a la GRID’. Se están invirtiendo grandes esfuerzos en tener un sistema de análisis distribuido de datos utilizando el GRID
Presentaciones relacionadas con ATLAS ( Santi, Julio y Loli)
APLICACIONES CIENTIFICAS EN GRID
José Salt 11
APLICACIONES CIENTIFICAS EN GRID
José Salt 12
3.-APLICACIONES EN EGEE
APLICACIONES CIENTIFICAS EN GRID
José Salt 13
Aplicaciones Piloto: se utilizan para hacer tests de Mw y evaluar rendimientos. Dentro de NA4
Aplicaciones ‘internas’: proceden de dentro del proyecto en el sentido que involucran a socios de EGEE en colaboración con institutos externos al proyecto. Ejemplos: GPCALMA (mamografía) liderado por el INFN, experimentos más allá de LHC (BaBar, D0, etc). Buena experiencia en Mw . Dependientes de interoperabilidad entre el proyecto y las iniciativas nacionales
Aplicaciones “externas”: proceden de colaboraciones externas al proyecto y necesitan soporte para el despliegue de EGEE
Clasificación de Aplicaciones en EGEE
APLICACIONES CIENTIFICAS EN GRID
José Salt 14
3 grupos de aplicaciones– Pilotos de Altas Energías– Pilotos de Aplicaciones Biomédicas– Aplicaciones genéricas
Multiples infrastructuras, 2 middlewares– Infraestructura de producción EGEE LCG2– Infraestructura de integración GILDA LCG2/gLite – testbeds de gLite (desarrollo /testing/certificación)
Gran número de usuarios– Amplio espectro de necesidades– Diferentes comunidades con diferentes background y
organizaciones internas
Aplicaciones Piloto (EGEE-NA4)
APLICACIONES CIENTIFICAS EN GRID
José Salt 15
Faltan 630 días para las primeras colisiones en LHC
LCG
The LHC Computing Grid
A Global Computing Facility
for Physics
APLICACIONES CIENTIFICAS EN GRID
Física Experimental de Altas Energías
José Salt 16
LHC DATA
This is reduced by online computers that filter out a few hundred “good” events per sec.
The accelerator generates 40 million particle collisions (events) every second at the centre of each of the four experiments’ detectors
The LHC accelerator – the largest superconducting installation in the world 27 kilometres of magnets cooled to – 300o C colliding proton beams at an energy of 14 TeV
Which are recorded on disk and magnetic tapeat 100-1,000 MegaBytes/sec ~15 PetaBytes per year
APLICACIONES CIENTIFICAS EN GRID
José Salt 17
– Gran comunidad internacional muy experta Involucrados en muchos proyectos mundiales y usuarios de
varias GRID ( por ejemplo, todos los experimentos del LHC usan grid multiples al mismo tiempo para sus DC)
– Infrastructura de Producción (LCG/EGEE) Uso intensivo
• Por ejemplo, LHCb, > 3500 jobs concurrentes durante largos períodos (semanas), ATLAS: mas de 6000 jobs usando multiples GRIDs – LCG, GRID3, NorduGrid
• Campañas de simulaciones complejas usando servicios de alto nivel desarrollados en la comunidad de HEP para la coordinación general , distribución de datos, monitor, uso de grids heterogeneos
• Se ha comenzado el Uso de infraestructura de LCG2 para análisis (sistema expuesto a usuarios finales). Ejemplo: en CMS
• Actividad en otros experimentos HEP usando LCG2 (BaBar, CDF, D0, …)
APLICACIONES CIENTIFICAS EN GRID
José Salt 18
– Papel de ARDA en el desarrollo de aplicaciones y en test de middleware: Ayudando a la evolución de mw específico de experimentos hacia el
uso de análisis: Gran esfuerzo en los prototipos de los 4 experimentos Prototipo de CMS migrada a la versión 1 de gLite y expuesto a
varios usuarios Reacción inmediata sobre la utilización del prototipo de gLite justo
desde el principio de EGEE. Contribution to the common testing effort together with JRA1, SA1 and
NA4-testing Contribucióon al esfuerzo de test común junto con la labor de test de JRA1, SA1 y NA4
• Medidas detalladas de performance/funcionalidad.• Ayuda a nuevos colegas a conseguir experiencia (mini tutorial)
ARDA= A Realisation of Distributed Analysis for LHC
APLICACIONES CIENTIFICAS EN GRID
José Salt 19
Ejemplo: trabajo GRID ATLAS (Jul 2004 Julio-Marzo 05)
0
2000
4000
6000
8000
10000
12000
Jo
bs/d
ay
LCG/CondorGLCG/OriginalNorduGrid
Grid3
DC2 (long jobs period)
DC2 (short jobs period)
Mix of jobs
Prep for ‘Rome’
•~ 660K jobs total in (LCG,Nordugrid,US Grid3)•~400 kSI2k years of CPU•In latest period average ~7K jobs/day with ~5K in LCG
APLICACIONES CIENTIFICAS EN GRID
José Salt 20
LCG Deployment Schedule
SC2SC3
LHC Service OperationFull physics run
2005 20072006 2008
First physicsFirst beams
cosmics
June05 - Technical Design Report
Sep05 - SC3 Service Phase
May06 –SC4 Service Phase starts
Sep06 – Initial LHC Service in stable operation
SC4
Apr07 – LHC Service commissioned
Apr05 – SC2 Complete
Jul05 – SC3 Throughput Test
Apr06 – SC4 Throughput Test
Dec05 – Tier-1 Network operational
preparationsetupservice
SC2SC2SC3SC3
LHC Service OperationLHC Service OperationFull physics run
2005 20072006 2008
First physicsFirst beams
cosmicsFull physics run
2005 20072006 20082005 20072006 2008
First physicsFirst beams
cosmics
June05 - Technical Design Report
Sep05 - SC3 Service Phase
May06 –SC4 Service Phase starts
Sep06 – Initial LHC Service in stable operation
SC4SC4
Apr07 – LHC Service commissioned
Apr05 – SC2 Complete
Jul05 – SC3 Throughput Test
Apr06 – SC4 Throughput Test
Dec05 – Tier-1 Network operational
preparationsetupservice
preparationsetupservice
APLICACIONES CIENTIFICAS EN GRID
José Salt 21
Los retos de Biomed se centran más en: (a) conseguir un acceso transparente a diferentes Bases de Conocimiento (b) que se respeten los requisitos de privacidad de datos (anonimización de los individuos), c ) incorporar nuevos requerimientos para poder usar imágenes y señales
Comunidad científica con un ‘acoplamiento más debil’ que la de FAE
Han tenido que recorrer un largo camino para conseguir tener más agilidad:
– VO creation and core services installation
– Creación de VO e instalación de servicios CORE
– Puesta en marcha de un grupo de expertos-
– Se han unido recientemente al User Support al nivel de apliaciones
Aplicaciones Biomédicas
APLICACIONES CIENTIFICAS EN GRID
José Salt 22
situación en aplicaciones:– Lista en la web:
• http://egee-na4.ct.infn.it/biomed/applications.html
– Hay 12 aplicaciones corriendo acualmente Nuevas aplicaciones:
– Imágenes médicas, Bioinformática, Filogenética, estructuras moleculares y descubrimiento de fármacos Grown to a significant infrastructure usage
– 29kCPU horas y 24000 jobs declarados en Enero
APLICACIONES CIENTIFICAS EN GRID
José Salt 23
Aplicación Biomédica con cálculo intensivo
Aplicación para el descubrimiento de fármacos (usando EGEE)– Colaboración entre LPC (CNRS, Francia) – SCAI (Fraunhofer Alemania)
collaboration– Targets de la enfermedad de la malaria ( 1 millón de muertes/año)
Planes para los Data Challenges (durinte el verano)
Evaluación de millones de fármacos potenciales en pocas semanas
Numero de ‘blancos’
Numero de fármacos candidatos
Total tiempo CPU
Ganancia en tiempo
Realizado
1
10^5
188 days
149
Reto
5
3 10^6
80 years?
?
APLICACIONES CIENTIFICAS EN GRID
José Salt 24
Dr. Martin Hoffmann: “ The GRID could be the catalyst for drug development that brings together the actors – biochemists, physicians and computacional chemists- and pushes then In the same direction”
APLICACIONES CIENTIFICAS EN GRID
José Salt 25
Biomedical ApplicationsDescriptions
APLICACIONES CIENTIFICAS EN GRID
José Salt 26
Objetivo de NA4. Identificación y soporte de aplicaciones incluyendo tareas tales como soporte de aplicaciones piloto e identificando nuevos usuarios
. Identificar a través de los socios de divulgación y los procesos de integración bien definidos una ‘cartera’ de aplicaciones procedentes de un amplio espectro de especialidades;
Mantener el uso de desarrollo y producción de todas estas aplicaciones en la infraestructura de EGEE y establecer una base fuerte de usuarios sobre la que construir un comunidad amplia.
Inicialmente EGEE se ha focalizado en dos áreas bien definidas: Física de Partículas y Ciencias de la Vida
Aplicaciones Genéricas (NA4)
APLICACIONES CIENTIFICAS EN GRID
José Salt 27
APLICACIONES CIENTIFICAS EN GRID
José Salt 28
Criterios usados para las recomendaciones:
El EGAAP ( EGEE Generic Applications Advisory Panel): se encarga de facilitar el despliegue de potenciales nuevas aplicaciones en la infraestructura GRID del EGEE. Esta comisión utilizará los siguientes criterios para elaborar sus recomendaciones:
1) Interés científico del trabajo propuesto, con énfasis en el valor añadido de GRID
2) Valor añadido para EGEE al tener esta aplicación ‘corriendo’ en su infraestructura
3) Coordinación de la comunidad implicada4) Motivación y disponibilidad GRID de dicha comunidad5) Al menos un pequeño equipo siga el training de EGEE6) Dedicación de esta comunidad a dicha aplicación7) Que suscriban los acuerdos de políticas de EGEE, especialmente lasde
seguridad y de reserva de recursos
APLICACIONES CIENTIFICAS EN GRID
José Salt 29
4.-ASPECTOS DEL GRID PARA EL SOPORTE DE APLICACIONES
APLICACIONES CIENTIFICAS EN GRID
José Salt 30
Actividad en los prototipos experimentales– Esperar a que se despliegue gLite 1.0 en una infraestructura
mayor ( servicio de pre-producción)
– Trabajo de preparación (migración) sobre el prototipo
Aspectos relevantes para FAE– Esfuerzo especial en el prototipo de CMS. Se han implicado a
varios usuarios.
– Rediseño importante de GANGA ( prototipo de LHCb) Major redesign of Ganga (LHCb prototype).
Prototipos para los experimentos
APLICACIONES CIENTIFICAS EN GRID
José Salt 31
Test de gLite mediante aplicaciones biomédicas – Comprobaciones genéricas: dificultades en testear en un entorno
de desarrollo, se necesita de una infraestructura estable de preproducción;
– VOMS, Gestión de datos, instalación…
– Despliegue de aplicaciones: empezará con un número limitado de aplicaciones
Test de gLite mediante aplicaciones genéricas– Despliegue adecuado de gLite en GILDa
– Ya se han enviado jobs de tests
– Se hara ‘porting’ pronto de aplicaciones genéricas en gLite
APLICACIONES CIENTIFICAS EN GRID
José Salt 32
Perspectivas ( con vistas a EGEE-2)
– Test intensivo para FAE
– Integración de la nueva VO de Biomed
– Acceso de comunidades genéricas facilitado por GILDA
– Definir una capa de aplicaciones comunes de alto nivel:• Continuan muchos requisitos de alto nivel (scheduling de nivel de
aplicación, interactividad, workflows, integración de datos ...)
• necesidad de integración de otras herramientas de proyectos o desarrollos de nivel de aplicaciones
• Construir aplicaciones multidisciplinarias encima de los servicios de lato nivel:
– facilitar que se desarrollen nuevas aplicaciones
– Traspasar fronteras entre areas de aplicación
APLICACIONES CIENTIFICAS EN GRID
José Salt 33
5.-OTROS EJEMPLOS DE APLICACIONES DEL EGEE
APLICACIONES CIENTIFICAS EN GRID
José Salt 34
GPS@
GPS@: Grid Protein Sequence Analysis – NPSA es un portal web que oferta bases de datos de proteinas
y algoritmos de análisis de secuencias para los bioinformáticos
– GPS@ es una versión gridificada con un potencia computacional incrementado
– Necesidad de procesado de un gran número de pequeños trabajos
• Colas cortas para trabajos cortos
– Necesidad de un acceso eficiente de ficheros• protocolo de aceso de datos tipo fichero
http://gpsa.ibcp.fr/
APLICACIONES CIENTIFICAS EN GRID
José Salt 35
Descubrimiento de nuevas drogas plataforma de docking para enfermedades
tropicales– Descubrimiento de drogas ‘in silico’ para enfermedades
( malaria)
– Search for potential drugs in a database of 3.3 millions ligands
– Búsqueda de drogas potenciales en una base de datos de 3.3 millones de agragaciones
– cálculo de docking molecular
– necesidad de procesar bases de datos muy grandes: registro de millones de ficheros
– Nrecesidad de procesar muchos ficheros para un trabajo dado:• JDLTrabajos con miles de ficheros I/o
APLICACIONES CIENTIFICAS EN GRID
José Salt 36
análisis de imágenes médicas 3D
gPTM3D– herramienta interactiva para segmentación y
análisis de imágenes medicas– ya se ha distribuido una versión no gridificada
por varios hospitales– necesidad de un scheduling rápido para tareas
interactivas• scheduler de nivel de aplicación
implementado– Necesidad de conectividad para interactividas:
APLICACIONES CIENTIFICAS EN GRID
José Salt 37
6.-CONCLUSIONES
APLICACIONES CIENTIFICAS EN GRID
José Salt 38
Las aplicaciones son el motor de los avances del GRID
Las diferentes áreas científicas poseen unas características propias cuando plantean sus aplicaciones y el GRID aporta soluciones a los problemas que surgen en su elaboración.
El GRID no solo es una solución a una serie de problemas de la sociedad de la Información, también proporciona un entorno y un cambio en la forma de de seguir las metodologías científicas utilizadas hasta el momento
Middleware y aplicaciones están intimamente relacionados. Las actualizaciones y tests de middleware se plantean en función de las nuevas funcionalidades de las aplicaciones
APLICACIONES CIENTIFICAS EN GRID
José Salt 39
Se está avanzando en la implantación del GRID en diferentes disciplinas científicas (genéricas) aunque se encuentran en niveles muy diferentes
Importancia en establecer aplicaciones científicas multidisciplinares
APLICACIONES CIENTIFICAS EN GRID
José Salt 40