1 cib : centre intégré de bioinformatique e-g. talbi cib – génopole de lille
TRANSCRIPT
1
CIB : Centre Intégré de
BioinformatiqueE-G. Talbi
CIB – Génopole de Lille
2
Maladies multi-factorielles
Plate-formes
3
Qui
: - Comité pilotage : E-G. Talbi, C. Dhaenens, R. Beuscart- Ingénieurs : J. Soula, V. Cognat, B. Planquelle, M-P. Vanhoecke- Support logistique et scientifique du LIFL et du CERIM
Bi-localisation
:
- LIFL – USTL- CERIM - Services à la Faculté de Médecine
InstitutionsUSTL - Lille2 - CNRS
CIB : Plateforme CIB : Plateforme BioinformatiqueBioinformatique
Travaux réalisés : 2001-2003
4
Plan présentationPlan présentation
Organisation matérielle
Formation, Service
CIB – Séquencage & génotypage
CIB – Protéomique
CIB - Transcriptome
5
Architecture du réseauArchitecture du réseau
Firewall
Zone sécurisée
(Créé « from scratch ») - Cluster de 2 Quadriprocesseurs ALPHA Unix Tru 64 (4*667Mhz),- Espace de Stockage de 432 Giga Byte (RAID 1 et RAID 5)- SGBD Oracle 8i (134 utilisateurss) Renater network access 12 Mbits/s
Serveur web
6
Réseau physiqueRéseau physique
Autre machine utilisée : IBM SP3 au CRI (64 proc) – Intelligent Miner
7
FormationsFormations
Formations générales Bioinformatique (CIB – CNRS)
Autour du Web – 1 jour - 13 personnes
UNIX / Réseau – 2 jours - 18 personnes
Banque de données – 2 jours - 31 personnes
Base de données – 2 jours - 15 personnes
Analyse de séquences – 2 jours - 26 personnes
Phylogénie – 2 jours - 18 personnes
Enseignement DESS Bioinformatique (Depuis 2001)
Encadrement de stagières (Ingénieurs, DESS, Maitrise, DEA, …)
8
Analyse statistiques de données issues des biopucesAnalyse statistiques de données issues des biopuces 10 au 12 septembre 2003
Objectifs de la formation : donner aux biologistes les bases suffisantes en statistiques pour comprendre et appréhender les différentes méthodes d’analyse des données de biopuces. Les aider dans la mise en place d’un protocole d’analyse des données.
Public visé : biologistes lillois utilisant la technologie des puces à ADN
Programme : Alternance Cours / TP- Représentation et Normalisation des données- Analyse différentielle des données- Classification supervisée et non supervisée
Formateurs :- Jacques Van Helden, Université Libre de Bruxelles- Stéphane Robin, OMIM - INA-PG de Versailles- Cyrille Dalmasso, INSERM - Villejuif
Nombre de participants :- 27 inscrits en cours - 17 inscrits en TP
Formation spécifique (CIB – CNRS – INSERM)Formation spécifique (CIB – CNRS – INSERM)
9
Mise à disposition d’outilsMise à disposition d’outils Base de données :
• Human Genome Data Base (online) : Santa Cruz (CA)
• Ensembl
• Gene Ontology
Logiciels : 180 Open Source Software (online) : alignement,
phylogeny, sequence analysis, …
Site Web : Outil de communication et d’échanges : forum de discussion, listes de diffusion, serveur ftp, newgroups,
10
Coopération entre plateformesCoopération entre plateformes
Bioinformatique Protéomique
Transcriptome
Séquençage et génotypage
Sélection d’attributs et Clustering : Recherche de facteurs de prédisposition de maladie multifactorielles (obésité, diabètes de type II).
LGMM (Lab. Génétique des Maladies Multifactorielles), IBL – P. Froguel, S. Gallina
11
Contexte :
Etudes familiales
Analyses d’interaction : co-transmission de gènes
Objectif
Localiser un ou plusieurs gènes de prédisposition
à certaines maladies : diabète ou obésité
Données :
Pour chaque famille : comparaison de l’héritage de gènes (marqueurs) et de facteurs environnementaux
3652 marqueurs génétiques et 2 facteurs environnementaux pour une centaine d’individus
Interactions génétiques et Interactions génétiques et environnementalesenvironnementales
12
Hypothèses :
Beaucoup d’attributs (loci et facteurs environnementaux)
Existence de valeurs manquantes
Contexte d’apprentissage non supervisé
Objectif :
Découvrir des groupes d’attributs cause de la maladie
(corrélations entre attributs)
Groupe 1 : loci 1 et loci 20 et loci 50
Groupe 2 : loci 17 et loci 43 et loci 75
Interactions génétiques et Interactions génétiques et environnementalesenvironnementales
13
Selection
d’attributs Clustering
N attributs
Groupes
m attributs
N >> m
Réalisation
Algorithmegénétique
K-mean ou algorithme génétique
Approche 2 phasesApproche 2 phases
14
Chapitre d’ouvrage : L. Jourdan, C. Dhaenens, E-G. Talbi, "Discovery of genetic and
environmental interactions in disease data using evolutionary computation", Evolutionary Computation in Bioinformatics, Edited by G. B. Fogel and D. W. Corne, Morgan Kauffmann Publishers, USA, 2002.
Journaux : L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, “A data mining approach
to discover genetic and environmental factors involved in multi-factorial diseases”, Knowledge-based Systems, Vol.15, No.4, pp.235-242, May 2002.
Conférences : L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, "A branch and bound
procedure to analyze multifactorial diseases", European Mathematical Genetics Meeting EMGM’2001, Lille, April 2001.
L. Jourdan, C. Dhaenens, E-G . Talbi, S. Gallina, “An optimization approach to mine genetic data”, Int. Conf. On Mathematics and Engineering Techniques in Medecine and Biological Sciences METMBS’2001, Edited by F. Valafar, Las-Vegas, USA, June 2001.
PublicationsPublications
15
Coopération entre plateformesCoopération entre plateformes
Bioinformatique Protéomique
Transcriptome
Règles d’association : Etude de déséquilibre de liaison (linkage desequilibrium)
LGMM (Lab. Génétique des Maladies Multifactorielles), IBL – P. Froguel, C. Dina
Séquençage et génotypage
16
Objectif :
Trouver des ensembles d’haplotypes
pouvant expliquer le diabète de type II
Données :
Pour chaque individu : La valeur de ces SNPs et son statut
Pour chaque SNP: fréquence allélique
Pour chaque combinaison de SNPs: leur déséquilibre
Contraintes :
Snips d’un haplotype doivent être indépendants : Différence de fréquence < threshold1.
Linkage disequilibrium > threshold2.
Etude de linkage disequilibriumEtude de linkage disequilibrium
17
Méthode de recherche : Algorithme génétique adaptatif multi-
population
Fonction d’évaluation spécifique basée sur deux logiciels classiques :
CLUMP et EH-DIALL
Résultat
Règles telles que :
SNP10
=1-2 ET SNP20
=2-2 ALORS Status=ill
SNP17
=1-1 ET SNP45
=2-2 ALORS Status=ill
Publication
L. Jourdan, C. Dhaenens, E-G. Talbi, “Discovering haplotypes in linkage
disequilibrium mapping with an adaptive genetic algorithm”, EvoBio’2003,
EuroGP2003, LNCS 2611, pp. 66-75, 2003.
ApprocheApproche
18
Coopération entre plateformesCoopération entre plateformes
Bioinformatique Protéomique
Transcriptome
Séquençage et génotypage
Classification : Analyses de spectres (glycannes, proteines)
Centre Commun de Spectrométrie de Masse – J. Lemoine, C. Rollando.
19
Analyse de spectres Reconstruction de l’arbre du glycanne à partir d’un spectre
Haut débit : 80 Go/mois de nouvelles données
Gel 2D (Electrophorèses)
Spectrum
Interprétation de spectres de glycannesInterprétation de spectres de glycannes
20
Intégration contraintes biologiques Utilisation d’évaluations heuristiques
Besoin de paralléliser et distribuer l’algorithme Utilisation support d’exécution sur GRILLES
Moteur d’interprétationMoteur d’interprétation
• Recherche Combinatoire: coûteux en temps et espace
• Données incertaines
• Nombreuses solutions théoriques
Algorithme Branch and Bound
Brevet déposé
21
BD spectres de
glycannes
Relation avec banque
de données publiques
(internet)
Interface de
visualisation et Edition
Moteur d’interprétation
Plateforme visuelle pour l’interprétation de Plateforme visuelle pour l’interprétation de glycannesglycannes
Disponible sur demande
22
Coopération entre plateformesCoopération entre plateformes
Bioinformatique Protéomique
Transcriptome
Séquençage et génotypage
Base de données : Gels bidimentionnels
Laboratoire de Biologie du Développement (CNRS) – H. Hondermarck,
23
Banque de Gels Bidimensionnels
publiées dans la littérature
donnant accès à
Données « Publiques »
Données « Privées »
propres à chaque équipe et confidentielles
pour les équipes de la génopole ET pour des équipes extérieures
accès sécurisé accès publique
Gels Bi-dimensionnelsGels Bi-dimensionnelsObjectifObjectif
Mettre en place une plate-forme permettant de stocker et d’exploiter la
masse de données disponibles
24
Pour chaque gel, on dispose donc : d’une ou plusieurs images de listes des spots (rapports)
de spectres de masses (identification, séquençage des protéines)
Gels Bi-dimensionnelsGels Bi-dimensionnelsNature des donnéesNature des données
25
• Base de données associée : MySQL, Interface PHP
• Contrôle/sécurisation des accès aux informations
(contraintes base publiques/privées) : Utilise l’annuaire
LDAP de la génopole
• Outils permettant d’effectuer des recherche à partir
des données stockées
• Formulaires d’affichage et d’ajout/modification
d’informations : images de gel, listes des spots, carte
d’identité des protéines, spectre de masse, …
Gels Bi-dimensionnelsGels Bi-dimensionnelsRéalisationsRéalisations
26
Gels Bi-dimensionnelsGels Bi-dimensionnelsInterfaceInterface
Disponibilité : www.genopole-lille.fr
27
Gels Bi-dimensionnelsGels Bi-dimensionnelsFormulaire affichageFormulaire affichage
28
Coopération entre plateformesCoopération entre plateformes
Bioinformatique Protéomique
Transcriptome
Séquençage et génotypage
Classification visualisation du protéome : DIACELL
Laboratoire de Biologie du Développement – H. Hondermarck.
29
Visualisateur DIACELLVisualisateur DIACELL
Trois types de cellules (cancer du sein)• Normales• Cancéreuses non
métastasiques (MCF-7)• Cancéreuses métastasiques• (MDA-MB-231)
3 types de visualisation• Projection 2D• Enveloppe convexe• Projection 3D
30Recherche de l’enveloppe convexe (données non précises)Recherche de l’enveloppe convexe (données non précises)
2D 3D
31
Coopération entre plateformesCoopération entre plateformes
Bioinformatics Protéomique
Transcriptome
Séquençage et génotypage
GdlArray : Base de données, outils de design de puces et outils d’analyse de
données (datamining)
2 plateformes de biopuces : Institut Pasteur de Lille, Lille 2 (INSERM, CHR)
32
GdLarrayGdLarray
Bases de données régionales
pour les biopuces
et sa suite logicielle
33
Plateforme BiopucesPlateforme Biopuces
Base de donnéesBiopuces GdLarray
Sélection de Clones
XX-Frag Sélectiond’oligos
1. Sélection des sondes
2. Design des expériences
Matériel biologique & puces
(contrôle du schéma de spottage)
ImageneJaguar Outils du
CIB
3. Traitement des données(normalisation, …)
Bases de donnéesmédicales
Base de données Publiques
(NCBI, EMBL, …) Fonctions, annotations,
bibliographie
PathwayGenespring
4. DATA MINING
(clustering, règles XW-Apriori, …)
34
Etudes des recommandations MIAME (Mars 2002)
Ebauche d’un schéma conceptuel en réponse aux besoins
des équipes de la Génopole (Mai 2002)
Adaptation de la plateforme BASE (MySQL, PHP,
normalisation, clustering, visualisation) sous Oracle 8i
(version 1.0.6 en Mars 2003 / version 1.2.7 en Septembre
2003)
Formation des biologistes à son utilisation : octobre 2003
Création de la Base de données Création de la Base de données Etapes du projetEtapes du projet
35
Création de la Base de données Création de la Base de données Étude des données et du schémaÉtude des données et du schéma
WIZZZARDUSERWIZZZARDOWNERid: WIZZZARD
OWNERref: WIZZZARDgr: OWNER
WIZZZARDIDOWNERid: IDgr: OWNER
WELLIDPARENTPLATEPROBEid: IDref: PARENTref: PLATEref: PROBE
VECTORIDid: ID
USERSEARCHITEMSEARCHid: SEARCH
ref ref: ITEM
UPLOADIDOWNERid: IDgr: OWNER
TRANSFORMATIONSEARCHITEMSEARCHid: SEARCH
ref ref: ITEM
TRANSFORMATIONIDOWNERBIOASSAYSETid: IDref: BIOASSAYSETgr: OWNER
TISSUEIDid: ID
TEMPLATEBIOASSAYSETPOSGENEBIOASSAYSETMOLECULEPOSITIONCNTid: BIOASSAYSET
POSITIONMOLECULE
ref: MOLECULE
TEMPLATEBIOASSAYSETGENEBIOASSAYSETMOLECULECNTid: BIOASSAYSET
MOLECULEref: MOLECULE
TEMPLATEBIOASSAYDATABIOASSAYPOSITIONMOLECULEid: BIOASSAY
POSITIONref: BIOASSAYref: MOLECULE
SUBMITTERIDLASTEXPERIMENTLASTEXPLOREDSETLASTPLATETYPELASTPLATETYPECREATED
SOFTWAREIDOWNERid: IDgr: OWNER
SHAREDUPLOADOWNERITEMid: OWNER
ITEMref: ITEMgr: OWNER
SHAREDSAMPLEOWNERITEMid: OWNER
ITEMref: ITEMgr: OWNER
SHAREDRAWBIOASSAYOWNERITEMid: OWNER
ITEMref: ITEMgr: OWNER
SHAREDLABELEDEXTRACTOWNERITEMid: OWNER
ITEMref: ITEMgr: OWNER
SHAREDHYBRIDIZATIONOWNERITEMid: OWNER
ITEMref: ITEMgr: OWNER
SHAREDEXTRACTOWNERITEMid: OWNER
ITEMref: ITEMgr: OWNER
SHAREDARRAYBATCHOWNERITEMid: OWNER
ITEMref: ITEMgr: OWNER
SEARCHCRITERIONSEARCHPOSITIONid: SEARCH
POSITIONref: SEARCH
SEARCHIDid: ID
SCHEMAVERSIONBASEVERSIONSCHEMAVERSION
SAMPLETISSUEIDPARENTid: IDref: PARENT
SAMPLEANNOTATIONTYPEIDid: ID
SAMPLEANNOTATIONSAMPLEANNOTATIONTYPEid: SAMPLE
ANNOTATIONTYPEref: SAMPLEref: ANNOTATIONTYPE
SAMPLEIDTISSUEOWNERid: IDref: TISSUEgr: OWNER
RAWBIOASSAYHEADERRAWBIOASSAYid: RAWBIOASSAY
ref
RAWBIOASSAYDATARAWBIOASSAYPOSITIONELEMENTMOLECULEid: RAWBIOASSAY
POSITIONref: RAWBIOASSAYref: ELEMENTref: MOLECULE
RAWBIOASSAYIDOWNERIMAGEACQUISITIONLABELEDCH1LABELEDCH2FEATURESOFTWARESPOTSid: IDref: FEATURESOFTWAREref: LABELEDCH2ref: LABELEDCH1ref: IMAGEACQUISITIONgr: OWNER
PROTOCOLTYPEIDid: ID
PROTOCOLIDETYPESUBMITTERid: IDref: ETYPEgr: SUBMITTER
PROGRAMPARAMETERPROGRAMPOSITIONid: PROGRAM
POSITIONref: PROGRAM
PROGRAMIDOWNERid: IDgr: OWNER
PROBEIDMOLECULEid: IDref: MOLECULE
PRESETSEARCHOWNERid: SEARCH
ref gr: OWNER
PLATETYPEIDOWNERWELLSid: IDref: WELLSgr: OWNER
PLATEPARENTPARENTPLATEref: PLATE
PLATEEVENTTYPEIDPLATETYPEPROTOCOLTYPEid: IDref: PROTOCOLTYPEref: PLATETYPE
PLATEEVENTPLATEETYPEPROTOCOLid: PLATE
ETYPEref: PROTOCOLref: ETYPE
PLATEIDPLATETYPEOWNERid: IDref: PLATETYPEgr: OWNER
NEWSIDOWNERid: IDgr: OWNER
MOLECULEIDVECTORTISSUELIBRARYid: IDref: LIBRARYref: TISSUEref: VECTOR
LIBRARYIDid: ID
LABELEDEXTRACTIDOWNEREXTRACTPROTOCOLid: IDref: PROTOCOLref: EXTRACTgr: OWNER
JOBSETTINGJOBPOSITIONid: JOB
POSITIONref: JOB
JOBFILESECTIONJOBFILESECTIONid: JOBFILE
SECTIONref: SECTIONref: JOBFILE
JOBFILEIDJOBid: IDref: JOB
JOBIDPROGRAMTRANSFORMATIONEXPERIMENTid: IDref: EXPERIMENTref: PROGRAMref: TRANSFORMATION
ITEMIDOWNERid: IDgr: OWNER
IMAGEACQUISITIONIDOWNERHYBRIDIZATIONSCANNERid: IDref: SCANNERref: HYBRIDIZATIONgr: OWNER
IMAGEIDOWNERIMAGEACQUISITIONid: IDref: IMAGEACQUISITIONgr: OWNER
HYBRIDIZEDLABELEDHYBRIDIZATIONPOSITIONLABELEDid: HYBRIDIZATION
POSITIONref: HYBRIDIZATIONref: LABELED
HYBRIDIZATIONIDOWNERPROTOCOLid: IDref: PROTOCOLgr: OWNER
HARDWAREIDOWNERid: IDgr: OWNER
GENELISTGENEGENELISTMOLECULEref: GENELISTref: MOLECULE
GENELISTIDOWNEREXPERIMENTGENESid: IDref: GENESref: EXPERIMENTgr: OWNER
EXTRACTIDPROTOCOLSAMPLEOWNERid: IDref: SAMPLEref: PROTOCOLgr: OWNER
EXPERIMENTRAWBIOASSAYEXPERIMENTRAWBIOASSAYref: RAWBIOASSAYref: EXPERIMENT
EXPERIMENTIDOWNERid: IDgr: OWNER
EVENTLOGIDid: ID
ELEMENTIDARRAYTYPEWELLid: IDref: WELLref: ARRAYTYPE
COOKIECOOKIEOWNERid: COOKIEgr: OWNER
BIOASSAYSETSEARCHITEMSEARCHid: SEARCH
ref ref: ITEM
BIOASSAYSETEXPLOREBIOASSAYSETMOLECULEid: BIOASSAYSET
ref ref: MOLECULE
BIOASSAYSETCREATIONBIOASSAYSETid: BIOASSAYSET
ref
BIOASSAYSETIDOWNEREXPERIMENTTRANSFORMATIONid: IDref: TRANSFORMATIONref: EXPERIMENTgr: OWNER
BIOASSAYIDOWNERRAWBIOASSAYSAMPLE1SAMPLE2BIOASSAYSETPARENTEXPERIMENTid: IDref: EXPERIMENTref: PARENTref: SAMPLE2ref: SAMPLE1ref: RAWBIOASSAYref: BIOASSAYSETgr: OWNER
BASEFILESECTIONIDid: ID
ARRAYTYPEPLATEARRAYTYPEPOSITIONPLATEid: ARRAYTYPE
POSITIONref: ARRAYTYPEref: PLATE
ARRAYTYPEIDOWNERPROTOCOLid: IDref: PROTOCOLgr: OWNER
ARRAYBLOCKARRAYTYPEBLOCKNUMid: ARRAYTYPE
BLOCKNUMref: ARRAYTYPE
ARRAYBATCHIDARRAYTYPEOWNERPROTOCOLid: IDref: PROTOCOLref: ARRAYTYPEgr: OWNER
ARRAYIDBATCHHYBRIDIZATION[0-1]id: IDref: BATCHref: HYBRIDIZATION
SCHEMA/1
36
Deux modes d’administration En mode graphique : TORA (ToolKit for Oracle) – GNU GPL En mode ligne : Scripts shell/SQL
Gestion des utilisateurs (sécurité, confidentialité) Par le mécanisme de rôles Oracle
Création de la Base de données Création de la Base de données Développement d’outils d’administrationDéveloppement d’outils d’administration
• CLUSTER 2 quadri processeurs ES40 Alpha• Oracle 8i Entreprises• Plusieurs unités de disques en RAID1 et 5
Architecture 3-tiers
37
La base est accessible sur le site web de la Génopole :http://www.genopole-lille.fr/fr/logiciel/microarray/index.html
38
Outils de design de pucesOutils de design de puces
1. Sélection de sondes : XXfrag
2. Sélection de clônes
3. Sélection d’oligos
4. Sélection de primers : FindExpress
5. Outil de positionnement des sondes
39
Sélection de sondes - XXfragSélection de sondes - XXfrag
Ce programme permet de :
• Récupérer des fragments appartenant aux régions d’intérêt du génome(chromosome, bras).
• Choisir les fragments selon le type de puce que l´on désire créer (cDNA, génomique..).
• Sélectionner ces fragments selon leur taille, la distance entre chacun ou leur nombre.
• Vérifier la spécificité des fragments sélectionnés afin d´éviter les hybridations croisées.
XXfrag : Design de fragments d’ADNc le long des chromosomes du génome Humain
Application à l’Hybridation Génomique Comparative (CGH)(INSERM, CHR)
40
Sélection de sondes - XXfragSélection de sondes - XXfrag
http://ribosome.genopole-lille.fr/fr/fragments/
Publication :C. Hubans, J-P. Kerkaert, M-P. Vanhoecke, “XX_FRAG : Design of cDNA sequences for microarrays-application to CGH”, ECCB’2002 European Conference on Computational Biology, Saarbrucken, Germany, Oct 2002
41
• Sélection de clones : Sélection de clones d’intérêt dans la banque du CNS – Application à la maladie d’Alzheimer (IPL)
Principe : la sélection de clones spécifiques est basée sur la recherche de similarité (BLAST) entre les séquences de clones et les séquences des loci d’intérêt.
Programme : Entrée : liste des identifiants de loci dans LocusLink Choix des paramètres :
- paramètres de Blast - seuil de similarité- seuil de spécificité
Programmes complémentaires : - Recherche de similarité entre loci- Annotation des séquences choisies à partir des données fonctionnelles issues
de Gene Ontology
Sélection de clonesSélection de clones
42
Sélection des clones :BLAST des séquences de clones contre la
banque de loci(seuil de similarité de 50%)
Annotation des clones par le CNS
Clone-ORFs pair (A)
Loci d’intérêt
Détermination des couples Clone-ORFs (B)
Couples Clone-ORFs trouvés par BLAST
(B)
Couples Clone-ORFs communs CNS+BLAST
(A) + (B)
Couples Clone-ORFs trouvés uniquement dans le fichier d’annotation du CNS (A)
BLAST sans seuil de similarité
Couples Clone-ORFs trouvés par BLAST
Couples Clone-ORFs non trouvés
Spécificité :BLAST entre les séquences de clones sélectionnés et les séquences d’ARNm humains
(Seuil de similarité à 30%)
Couples Clone-ORFs spécifiques Couples Clone-ORFs non spécifiques
43
http://ribosome.genopole-lille.fr/fr/clones/select_clone_form.html
Sélection de clonesSélection de clones
Publication : Lambert JC, Testa T, Cognat V, Soula J, Hot D, Lemoine Y, Gaypay G, Amouyel P., “Interest and limitation of public databases for microarray design: a critical approach of gene predictions” The Pharmacogenomics Journal, in press.
44
• Sélection d’oligos : Aide à la sélection d’oligo chez Qiagen et MWG – Application à la maladie d’Alzheimer (IPL)
Principe : les oligos d’intérêts sont sélectionnés dans la liste d’oligo de fournisseurs (Qiagen & MWG) à partir d’une liste d’identifiants de loci LocusLink ou de séquences Refseq et/ou Genbank
http://ribosome.genopole-lille.fr/fr/oligo/
Sélection d’oligosSélection d’oligos
45
• FindExpress : Sélection de primers (octamères) dans des amplicons (Laboratoire des Biopuces – IPL)
Objectifs : Recherche d’un minimum d’octamères - spécifiques aux régions amplifiées par PCR- ne matchant pas l’ADN ribosomique- Couvrant tous les amplicons
Primers PCR
Recherche des amplicons
Recherche de tous les octamères
Oter ceux matchant ADN ribosomique
Recherche du minimum d’octamères permettant de recouvrir tous les amplicons
Gènes
Sélection de primers - FindExpressSélection de primers - FindExpress
http://ribosome.genopole-lille.fr/fr/logiciel/findexpress/
46
• Outil pour le positionnement des sondes : - Laboratoire des Biopuces - IPL
Cet outil permet :
1. De visualiser le positionnement des sondes sur la puce à partir du schéma des microplaques et des paramètres de spotting
2. De définir le contenu des microplaques à partir du schéma voulu de la puce (position spécifique de sondes et paramètres de spotting)
Outil développé en java. Installation locale dans les laboratoires Robot étudié : GMS 417 Affymetrix
Outil de positionnement des sondesOutil de positionnement des sondes
47
i
j
u
Lame
Micro plaque
Le Robot prend les gènes dans les puits de la microplaque et les dépose sur la lame. on veut prévoir ou fixer d’avance la position de certains gènes sur la lame
Contrôle du schéma de spottageContrôle du schéma de spottagePositionnement du problèmePositionnement du problème
48
Placement de gènes à des points particuliers
Calcul de la microplaque associée au schéma
Aide au design de pucesAide au design de pucesFonctionnalitésFonctionnalités
49
Traitement et analyse de Traitement et analyse de donnéesdonnées
1. Normalisation
2. Extraction des connaissances (Data
mining)1. Clustering
2. Règles d’association
50
Liens vers des outils de Normalisation disponibles sur le web à partir du site de la génopole
Développement d’un outil permettant :• Correction des données• Plusieurs méthodes de normalisation :
(Régression linéaire uniforme, Lowess, Normalisation de Chen, Newton, Chursap)
• Représentation graphique• Normalisation par secteur• Analyse des réplicats (lame, spots) Utilisation de R (Outil Statistique présentant un module « statistiques pour biopuces »)
Développement d’une interface graphique
Normalisation des donnéesNormalisation des données
51
Données d’entrées
Interface Graphique
1. Saisie des données et choix de la méthode
Méthodes de Clustering
2. envoi des données pour méthode choisie
3. Envoi résultats Du clustering
Résultats
6. Envoi d’un fichier de résultats à l’utilisateur
4. envoi des données et résultats pour exécution analyse statistique
Analyses Statistiques
5. envoi des résultats statistiques pour affichage
Bibliothèque de clusteringBibliothèque de clusteringSchéma généralSchéma général
Méthodes développées : Algorithmes évolutionnaires,
hiérarchiques, partitionnement, …
52
Décrire le clustering obtenu et juger sa qualité
Analyse de fréquenceAnalyse fréquences globales sur les données d’entrée.Analyse de fréquences relativement à chaque Cluster.
Analyse de la variance S’applique aux variables numériques. Mesure l’influence du Clustering sur cette variable.
Inertie intra ClustersMesure la compacités des clusters.
Inertie inter ClustersMesure la séparation des clusters
PC
cIIntra )(
Bibliothèque de clusteringBibliothèque de clusteringAnalyses statistiquesAnalyses statistiques
))(,(1
)( cgxdn
cI iCi
)),(( gcgdn
nInter
PC
c
53
Browse...
Bibliothèque de clusteringBibliothèque de clusteringApplication internetApplication internet
54
Règles d’associationRègles d’association
55
Généralité de l’approcheGénéralité de l’approche
Données d’expression souvent traitées par classification/clustering
Mais 3 inconvénients majeurs:
1. Un gène participants à plusieurs relations sera classé dans un et
un seul groupe
2. Impossible de mettre en évidence des relations entre gènes
appartenant à un même groupe
3. Classification effectuée par rapport à l’ensemble des conditions
expérimentales
Les règles d’association permettent de dépasser ces inconvénients
56
Les règles d’associationLes règles d’association
Objectif : Découvrir des motifs, corrélations, à partir d’ensembles
d’items (attributs) contenus dans des bases de données.
Forme : if C then P
C (Condition) = terme1 et terme2 et… et termen
P (Conséquence) = termen+1
termei = <attributj, op, valeur>
2 mesures principales
BDPC
Support&
)R( % de transactions qui contiennent simultanément C et P
Support(C)P)Support(C&
CC&PR)Confiance(
57
Problématique(s)Problématique(s)
Règles d’association peuvent fournir différents résultats
• Traitement Expression de certains gènes
Tr1 {Gène A , Gène B } [Creighton - Hanash, 03]
• Relations entre gènes (cas général)
{Gène A , Gène B , Gène C } Gène D [Kotala et al, 01]
• Relations entre gènes (pour certaines situations) [Becquet et al, 02]
{(Gène A , Gène B ) dans situation y} Gène D dans situation y
• Comportement de gènes Caractéristiques fonctionnelles
Caractéristiques structurelles
{Gène dans situation y} Fonction X [OPAC, IT-Omics, 03]
58
Approches de résolutionApproches de résolution
Problème combinatoirede grande taille
Méthodes exactes
Approches heuristiques
Problèmes de petites tailles
Problèmes de grandes tailles
Enumérationintelligente
AlgorithmeApriori
Heuristiquesdédiées
Métaheuristiques
Intégration des deux approches au sein du CIB(parallèle, grid computing)
nombre d’attributs
59
Partenaires : LIFL – Lille,Prism – Versailles, ID-IMAG - Grenoble
Projet ACI Projet ACI
Projet ACI-GRID (2000-2003) :« Challenges en Optimisation combinatoire sur Grilles de machines »
60
Objectif : repousser les limites quant à la taille des problèmes traités (GRID computing)
Eclat [Zaki95] – Version améliorée• Pas besoin de re-parcourir la base de données à
chaque étape
• Pas besoin de faire plusieurs passes sur la base de données
• Variante plus efficace • Exploitation verticale de la base
• Découpage de la base de données en partitions indépendantes sur la base de la notion de préfixe
XW-AprioriXW-AprioriDéveloppement d’Apriori sur XtremWebDéveloppement d’Apriori sur XtremWeb
61
• Calcul distribué pair à pair (peer to peer, Grid computing)
• Modèle de vol de cycles
• Support sécurisé (Sandbox, SSL, Coordinator authentication)
• Indépendant du système d’exploitation (Linux, Windows, MacOS)
• Tolérance aux pannes (Sauvegarde / restauration des applications)
• Migration de fichiers binaires
• Ordonnancement dynamique des tâches
XW-AprioriXW-AprioriXtremWeb - CaractéristiquesXtremWeb - Caractéristiques
62
• Un ensemble de machines exécutant des démons XtremWeb
Un serveur
Plusieurs workers volontaires pour l’exécution de tâches
• Un ensemble de clients pouvant soumettre des tâches au serveur
Worker
WorkerWorker Worker
Client
ClientInternet
Server
XtremWeb networkHôtes répartis
sur Internet
XW-AprioriXW-AprioriXtremWeb - ArchitectureXtremWeb - Architecture
63
http://ribosome.genopole-lille.fr/fr/private/XtremWeb/admin.php3
64
Publications (Parallélisme / Grid computing pour la génomique)
E-G. Talbi, C. Dhaenens, N. Melab, S. Cahon, “Towards grid data mining : Application for genomics”, 1st HealthGrid Conference, France, Jan 2003.
S. Cahon, E-G. Talbi, "PARADISEO : A parallel and distributed library for metaheuristics", PAREO’2002 Parallel Processing in Operations Research, Guadeloupe, France, Mai 2002.
E-G. Talbi, “Grid combinatorial optimization”, Tutorial GRID School, Aussois, Dec 2002.
XW-AprioriXW-Apriori
65
Limitations de AprioriLimitations de Apriori
Méthode de type énumérative
Basée essentiellement sur le Support et la Confiance
Impossible de trouver les règles rares dans un grand espace de recherche
66
Approche multicritèreApproche multicritèreEvaluation des règlesEvaluation des règles
Règles d’association
Problème classique de datamining
Etudié par différentes communautés : statistique, apprentissage,
optimisation combinatoire,…
de multiples indicateurs ont été proposés pour
mesurer la qualité des règles
[Hilderman et Hamilton, 1999], [Tan et Kumar, 2002], [Adomavicius, 2002],
[Lenca et al, 2003],…
Comment choisir le bon indicateur ?Pas de critère universel
67
Quelques principaux critèresQuelques principaux critères
Mesure Formule Effet
Support S % transactions qui contiennent C et P
Confiance C Probabilité conditionnelle
Intérêt I Privilégie les motifs rares
(ayant un support faible)
Conviction V Mesure la faiblesse de (C, not P)
V >> :: P se passe avec C
Piatetsky-
Shapiro’s PS
Mesure la dépendance
Surprise R Cherche des règles étonnantes
Mesure l’infirmation(C, NOT P)
PC
PetC
C
PetC
PetC
PC
P
PetCPetC
N
PetC
PCPetC
68
Processus completProcessus complet
Analyse statistique : ACP (Analyse en Composantes Principales):
support, confiance, interet, surprise,
conviction, biological criteria, …
Modele multicritère du problème
Design d’algorithmes distribués
d’optimisation multicritères Pareto
Utilisation de la plateforme ParadisEO
Problème d’optimisationà grandes échelles
69
La plate-forme EO en quelques motsLa plate-forme EO en quelques mots
Contributions : Geneura TEAM (Espagne), INRIA (France), LIACS
(Pays-bas), LIFL (France)
Une librairie Open Source C++ «tout objet » (Template)
Indépendante de tout paradigme (métaheuristique)
Flexible / problème traité
Composants génériques (opérateurs de recherche, sélection,
remplacement, terminaison, …)
Nombreux services
• Visualisation,
• Définition de paramètres en ligne,
• Sauvegarde/reprise de l’état d’exécution, …
70
Contributions (OPAC-LIFL)Contributions (OPAC-LIFL)EO (bibliothèque d’algorithmes évolutionnaires : AG, GP, ES, …)
Extension aux algorithmesà base de solutions uniques
Méthodes de descente
Recuit simulé
Recherche tabou
Coopération(hybridation synchrone, asynchrone, …)Ex. Coopération insulaire
ParadisEO (Métaheuristiquesparallèles et distribuées)
Parallélisme(Partitionnement des solutions, données, recherches, …)
• Parallélisme : Accélérer le temps de recherche + S’attaquer à des problèmes de grandes tailles
• Coopération : Améliorer la qualité des solutionset la robustesse
AE pour l'Optimisation multicritère
71
Règles d’association : La Règles d’association : La visualisation 3Dvisualisation 3D
72
Règles d’association : Le N-Règles d’association : Le N-Dimensional LineDimensional Line
73
Règles d’association : Le Double Règles d’association : Le Double Decker PlotDecker Plot
74
Journaux : L. Jourdan, C. Dhaenens, E-G. Talbi, « ASGARD : un algorithme
génétique pour les règles d’association », Extraction de Connaissance et Apprentissage, ECA Hermès, Vol.16(6), pp.657-683, 2003.
Conférences : • M. Khabzaoui, L. Jourdan, C. Dhaenens, E-G. Talbi, “Approche
évolutionnaire multicritère pour les règles d’association en génomique”, ROADEF, 2003.
• M. Khabzaoui, C. Dhaenens, A. N‘Guessan, E-G. Talbi, “Etude exploratoire des critères de qualité des règles d’association”, Journées de statistique, 2003
• L. Jourdan, C. Dhaenens, E-G. Talbi, « Rules extraction in linkage disequilibrium mapping with an adaptive genetic algorithm», ECCB’2003, European Conference on Computational Biology, Paris, France, Sept 2003.
PublicationsPublications
75
Un exemple concretUn exemple concret
• Expérimentations sur puces à ADN
Puces à façon / puces Affymetrix
2748 / 33 000 gènes étudiés
15 patients et 15 témoins
• Comparaison des deux approches
Rechercher de façon spécifique dans les locis d’intérêt
Rechercher de façon systématique
Utiliser plusieurs technologies de micropuces
Projet ACI / IMPG (Soumis en sept 2003)
“Alzheimine : Recherche de gènes d’intérêt pour la maladie d’Alzheimer”,
LIFL, Pasteur Lille (P. Amouyel, Y. Lemoine, J-C.. Lambert, D. Hot), LRI (M. Sebag).
76
Un exemple concret Un exemple concret
• Recherche de marqueurs prédisposition maladies cardiovasculaires
• Expérimentations sur puces à ADN
Puces Affymetrix
22 000 gènes étudiés
10 patients plus ou moins à risque
• Mise en correspondance de données hétérogènes
Expérimentations sur puces à ADN
Données structurelles (localisation cytogénétique, …) BD publiques
Données fonctionnelles (Groupe GO, Famille PFAM, …) GENBANK,
Action Bioingénierie – GenHomme Network (2001-2003)
“Data mining platform from heterogeneous data for cardiovascular diseases”,
IT-OMICS, GENFIT, LIFL.
77
PerspectivesPerspectives
Recherche multicritère de règles d’association
(données hétérogènes : expression génique,
médicales, fonctionnelles, structurelles, …)
Prise en compte d’attributs multivalués• Groupe GO : Les gènes peuvent appartenir à plusieurs groupes GO
• Famille PFAM (Protein Families)
Analyse post-optimale des règles• Comment représenter la connaissance extraite à l’aide des règles
• Comment déduire de l’ensemble des règles produites, les plus intéressantes pour le problème
78
PerspectivesPerspectives
Perspectives court-terme :
Données Biopuces Clusters, Règles Prédiction de fonction
d’un gène, Recherche de motifs dans les régions promotrices.
Perspectives moyen-terme :
Des règles d’association à l’inférence de réseaux géniques
Identification “optimale” de modèles (weight matrices, boolean
network model, équations différentielles, …) pour les réseaux de
régulation en utilisant des méthodes d’optimisation.
Gene 1Gene x
Gene 4Gene 3Gene 2
Positive regulation
Negative regulation