construction de chaines d'analyses automatisÉes (galaxy) yvan le bras [email protected]...
TRANSCRIPT
CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY)
Yvan Le Bras [email protected]
Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin
Plateforme Bio-informatique GenOuestCNRS UMR 6074 IRISA-INRIA, Campus de Beaulieu, 35042 Rennes Cedex
INTRODUCTIONConcepts, principes, principaux outils
Life Sciences Research evolution
http://en.genomics.cn/navigation/show_navigation.action?navigation.id=143Technological Evolutions
Uses Evolution
High Performance Computing
Data quantity
Data sizeData heterogeneity
Life sciences data = digital
Evolution de la recherche
Données digitales
Capteurs
AnalyseursUtilisateurs
Séquenceur
Caméra sous marine
Microscopes électronique
Puce à ADN
Spectromètre de masse
IRM
Sondeurs
GPS
Concepts• Google : Requête « workflow + bio-informatique »• Galaxy• Biorigami
• Wokflow ou automatisation de processus• Pérennisation des processus analytiques• Sortir de la logique « projet »• Création de processus d’analyses génériques
• Outil permettant d’exécuter un ensemble de processus de façon automatique
• Pipelines très présents en bio-info même si peu utilisés!• Permet aux chercheurs en Biologie d’analyser leurs données de façon
relativement transparente et quasiment sans l’aide d’informaticiens
Principes• Génériques• Automatisation des processus d’analyse (outil/composant) en les reliant
dans un pipeline• Lancer des analyses sur des architectures matérielles complexes• Cluster• Grilles de calculs• Cloud
• Formalisation du processus d’analyse• Enchaînement de boîtes
Exemples d’outils• Faciles à prendre en main mais moins flexibles• Galaxy• Mobyle• Taverna• Knime• BioMOBY• …
• Difficiles à prendre en main mais plus flexibles• Ergatis• Pegasys• WildFire• Kepler• …
Principes
extrait de « Accelerating the scientific exploration process with scientific workflows«Ilkay Altintas et al 2006 J. Phys.: Conf. Ser. 46 468 doi:10.1088/1742-6596/46/1/065
Workflow pour la Biologie
Bio-informatique
Biologie
Informatique
-Trouver des biomarqueurs
-Comprendre la structure génétique de populations
-Modéliser le comportement d’un système
-Créer un outil de comparaison de séquences
-Développer de nouvelles méthodologies
-Concevoir un portail web dédié à l’analyse
-Proposer des ressources techniques fiables
et adaptées
GALAXY BY GENOUESTRetours d’expérience
Galaxy• Faciliter l’intégration d’outils • Pas de développement « graphique »• Création d’un descripteur• Liaison avec le logiciel ou le script• Supporte de nombreux langages dont Bash, Python, Perl, R, …
• Faciliter l’analyse par des non-bio-informaticiens• Pas besoin de connaitre des langages de programmation• Enchaînements d’outils différents (provenance, type de langage, …) dans
une même interface• Gain de temps -> à utiliser pour mieux connaître le fonctionnement des
outils• Faciliter le partage• jeux de données, historiques, visualisations, workflows, pages, …• Optimisation des ressources informatiques
Galaxy• Orientation principalement NGS• mais flexible!• Protéomique, Métabolomique, Génétique quantitative, Bio-imagerie, SHS, …
• La fonctionnalité de workflow : La cerise sur le gâteau!• Galaxy = Environnement complet• Analyse, Visualisation, Workflows, Partage, …
• Vision simplifiée mais efficace• Prise en main intuitive• Rapidité et simplicité
• Outil essentiel dans le cadre du 4ième paradigme• Accessibilité• Reproductibilité• Transparence• Optimisation
Galaxy• Workflows et… workflows• Coût de développement variable• Création en 10 minute. Un workflow = 1 outil!• Projet de collaboration sur x années
• Portée variable • nombre d’utilisateurs• nombre de communautés utilisatrices
WORKLOW IN GALAXYFonctionnement
Des données au workflow : L’historique
Provenance des données Suivi des traitements Conversion vers un workflow
Notion d’historique Notion de workflow
Créer un workflow
GALAXY BY GENOUESTAvantages, limites et verrous identifiés
Avantages• Gestion de l’édition• Visualisation• Mécanisme d’intégration
Avantages• Gestion des composants• Liens entre composants• Ajout, modification, suppression facilité
• Ajout/suppression de composants
Avantages• Gestion des métadonnées• Exploitation au niveau des composants• Type de données d’entrée et sortie• Annotation de l’outil
Avantages• Gestion des actions• Modification des actions d’un composant• Renommer la sortie• Changer le format de donnée• Assigner des colonnes• Notification par email
• Sorties d’outils = sorties de workflow?• Si oui, le préciser• Si non, les sorties seront cachées
Avantages• Gestion de l’accessibilité• Reproductibilité
Avantages• Gestion de l’accessibilité• Partage, échange, publication
Avantages• Gestion de l’accessibilité• Partage, échange, publication
Avantages• Gestion d’exécution• Dans Galaxy
Avantages• Gestion d’exécution• Dans Galaxy• Gestion des jobs sur un cluster
Avantages• Gestion d’exécution• Dans Galaxy• Gestion des jobs sur un cluster• À distance : API
Avantages• Gestion d’exécution• Dans Galaxy• Gestion des jobs sur un cluster• À distance : API• Cloud
Avantages• Administration
Limites et verrous• Quelques difficultés• Version des outils
Limites et verrous• Quelques difficultés• Version des outils
Limites et verrous• Quelques difficultés• Version des outils• Simplifié… donc• Difficulté à gérer les entrées et sorties multiples• Modifications lors du lancement possibles mais limitées
Limites et verrous• Quelques difficultés• La parallélisation
Pistes : Utilisation de l’API et du cloud…
Solutions proposées• Local, en ligne ou via le cloud• Interface utilisateur uniquement via un serveur web• Installation locale en moins de 10 minutes
Solutions proposées• Local, en ligne ou via le cloud• Interface utilisateur uniquement via un serveur web• Installation locale en moins de 10 minutes• Mais nécessite• De s’occuper de l’administration complète• la présence des outils (liens vides souvent)
• Perte des avantages du système• Notre vision• Pas ou peu fait pour une utilisation locale• Privilégier le cloud
Références• Galaxy
• Page d’accueil wiki : http://wiki.galaxyproject.org/FrontPage• Vidéos : http://wiki.galaxyproject.org/Learn• Workflows publics : https://usegalaxy.org/workflow/list_published• J. Goecks, A. Nekrutenko, J. Taylor, and The Galaxy Team, Galaxy: a comprehensive approach for
supporting accessible, reproducible, and transparent computational research in the life sciences.Genome Biol, 25;11(8):R86, 2010.
• Biorigami• Galaxy : un workflow pour l’analyse bioinformatique 12/2011 http://www.biorigami.com/?p=1480• Workflows : http://www.biorigami.com/?s=workflows&submit.x=-1117&submit.y=-218
• MyExperiment• Find, use and share scientific workflows : http://www.myexperiment.org/
• Solutions logicielles• KNIME : http://www.knime.org/• BioKepler : http://www.biokepler.org/• Taverna : http://www.taverna.org.uk/
• Solutions en ligne de commande• Makeflow: http://www3.nd.edu/~ccl/software/makeflow/
• …..