construction de chaines d'analyses automatisÉes (galaxy) yvan le bras [email protected]...

36
CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras [email protected] Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin Plateforme Bio-informatique GenOuest CNRS UMR 6074 IRISA-INRIA, Campus de Beaulieu, 35042 Rennes Cedex

Upload: francine-pastor

Post on 04-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY)

Yvan Le Bras [email protected]

Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Plateforme Bio-informatique GenOuestCNRS UMR 6074 IRISA-INRIA, Campus de Beaulieu, 35042 Rennes Cedex

Page 2: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

INTRODUCTIONConcepts, principes, principaux outils

Page 3: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Life Sciences Research evolution

http://en.genomics.cn/navigation/show_navigation.action?navigation.id=143Technological Evolutions

Uses Evolution

High Performance Computing

Data quantity

Data sizeData heterogeneity

Life sciences data = digital

Page 4: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Evolution de la recherche

Données digitales

Capteurs

AnalyseursUtilisateurs

Séquenceur

Caméra sous marine

Microscopes électronique

Puce à ADN

Spectromètre de masse

IRM

Sondeurs

GPS

Page 5: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Concepts• Google : Requête « workflow + bio-informatique »• Galaxy• Biorigami

• Wokflow ou automatisation de processus• Pérennisation des processus analytiques• Sortir de la logique « projet »• Création de processus d’analyses génériques

• Outil permettant d’exécuter un ensemble de processus de façon automatique

• Pipelines très présents en bio-info même si peu utilisés!• Permet aux chercheurs en Biologie d’analyser leurs données de façon

relativement transparente et quasiment sans l’aide d’informaticiens

Page 6: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Principes• Génériques• Automatisation des processus d’analyse (outil/composant) en les reliant

dans un pipeline• Lancer des analyses sur des architectures matérielles complexes• Cluster• Grilles de calculs• Cloud

• Formalisation du processus d’analyse• Enchaînement de boîtes

Page 7: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Exemples d’outils• Faciles à prendre en main mais moins flexibles• Galaxy• Mobyle• Taverna• Knime• BioMOBY• …

• Difficiles à prendre en main mais plus flexibles• Ergatis• Pegasys• WildFire• Kepler• …

Page 8: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Principes

extrait de « Accelerating the scientific exploration process with scientific workflows«Ilkay Altintas et al 2006 J. Phys.: Conf. Ser. 46 468 doi:10.1088/1742-6596/46/1/065 

Page 9: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Workflow pour la Biologie

Bio-informatique

Biologie

Informatique

-Trouver des biomarqueurs

-Comprendre la structure génétique de populations

-Modéliser le comportement d’un système

-Créer un outil de comparaison de séquences

-Développer de nouvelles méthodologies

-Concevoir un portail web dédié à l’analyse

-Proposer des ressources techniques fiables

et adaptées

Page 10: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

GALAXY BY GENOUESTRetours d’expérience

Page 11: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Galaxy• Faciliter l’intégration d’outils • Pas de développement « graphique »• Création d’un descripteur• Liaison avec le logiciel ou le script• Supporte de nombreux langages dont Bash, Python, Perl, R, …

• Faciliter l’analyse par des non-bio-informaticiens• Pas besoin de connaitre des langages de programmation• Enchaînements d’outils différents (provenance, type de langage, …) dans

une même interface• Gain de temps -> à utiliser pour mieux connaître le fonctionnement des

outils• Faciliter le partage• jeux de données, historiques, visualisations, workflows, pages, …• Optimisation des ressources informatiques

Page 12: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Galaxy• Orientation principalement NGS• mais flexible!• Protéomique, Métabolomique, Génétique quantitative, Bio-imagerie, SHS, …

• La fonctionnalité de workflow : La cerise sur le gâteau!• Galaxy = Environnement complet• Analyse, Visualisation, Workflows, Partage, …

• Vision simplifiée mais efficace• Prise en main intuitive• Rapidité et simplicité

• Outil essentiel dans le cadre du 4ième paradigme• Accessibilité• Reproductibilité• Transparence• Optimisation

Page 13: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Galaxy• Workflows et… workflows• Coût de développement variable• Création en 10 minute. Un workflow = 1 outil!• Projet de collaboration sur x années

• Portée variable • nombre d’utilisateurs• nombre de communautés utilisatrices

Page 14: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

WORKLOW IN GALAXYFonctionnement

Page 15: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Des données au workflow : L’historique

Provenance des données Suivi des traitements Conversion vers un workflow

Notion d’historique Notion de workflow

Page 16: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Créer un workflow

Page 17: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

GALAXY BY GENOUESTAvantages, limites et verrous identifiés

Page 18: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion de l’édition• Visualisation• Mécanisme d’intégration

Page 19: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion des composants• Liens entre composants• Ajout, modification, suppression facilité

• Ajout/suppression de composants

Page 20: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion des métadonnées• Exploitation au niveau des composants• Type de données d’entrée et sortie• Annotation de l’outil

Page 21: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion des actions• Modification des actions d’un composant• Renommer la sortie• Changer le format de donnée• Assigner des colonnes• Notification par email

• Sorties d’outils = sorties de workflow?• Si oui, le préciser• Si non, les sorties seront cachées

Page 22: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion de l’accessibilité• Reproductibilité

Page 23: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion de l’accessibilité• Partage, échange, publication

Page 24: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion de l’accessibilité• Partage, échange, publication

Page 25: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion d’exécution• Dans Galaxy

Page 26: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion d’exécution• Dans Galaxy• Gestion des jobs sur un cluster

Page 27: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion d’exécution• Dans Galaxy• Gestion des jobs sur un cluster• À distance : API

Page 28: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Gestion d’exécution• Dans Galaxy• Gestion des jobs sur un cluster• À distance : API• Cloud

Page 29: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Avantages• Administration

Page 30: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Limites et verrous• Quelques difficultés• Version des outils

Page 31: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Limites et verrous• Quelques difficultés• Version des outils

Page 32: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Limites et verrous• Quelques difficultés• Version des outils• Simplifié… donc• Difficulté à gérer les entrées et sorties multiples• Modifications lors du lancement possibles mais limitées

Page 33: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Limites et verrous• Quelques difficultés• La parallélisation

Pistes : Utilisation de l’API et du cloud…

Page 34: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Solutions proposées• Local, en ligne ou via le cloud• Interface utilisateur uniquement via un serveur web• Installation locale en moins de 10 minutes

Page 35: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Solutions proposées• Local, en ligne ou via le cloud• Interface utilisateur uniquement via un serveur web• Installation locale en moins de 10 minutes• Mais nécessite• De s’occuper de l’administration complète• la présence des outils (liens vides souvent)

• Perte des avantages du système• Notre vision• Pas ou peu fait pour une utilisation locale• Privilégier le cloud

Page 36: CONSTRUCTION DE CHAINES D'ANALYSES AUTOMATISÉES (GALAXY) Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Olivier Quenez, Mathieu Bahin, Olivier Collin

Références• Galaxy

• Page d’accueil wiki : http://wiki.galaxyproject.org/FrontPage• Vidéos : http://wiki.galaxyproject.org/Learn• Workflows publics : https://usegalaxy.org/workflow/list_published• J. Goecks, A. Nekrutenko, J. Taylor, and The Galaxy Team, Galaxy: a comprehensive approach for

supporting accessible, reproducible, and transparent computational research in the life sciences.Genome Biol, 25;11(8):R86, 2010.

• Biorigami• Galaxy : un workflow pour l’analyse bioinformatique 12/2011 http://www.biorigami.com/?p=1480• Workflows : http://www.biorigami.com/?s=workflows&submit.x=-1117&submit.y=-218

• MyExperiment• Find, use and share scientific workflows : http://www.myexperiment.org/

• Solutions logicielles• KNIME : http://www.knime.org/• BioKepler : http://www.biokepler.org/• Taverna : http://www.taverna.org.uk/

• Solutions en ligne de commande• Makeflow: http://www3.nd.edu/~ccl/software/makeflow/

• …..