1 cib : centre intégré de bioinformatique e-g. talbi cib – génopole de lille

1

CIB : Centre Intégré de

BioinformatiqueE-G. Talbi

CIB – Génopole de Lille

2

Maladies multi-factorielles

Plate-formes

3

Qui

: - Comité pilotage : E-G. Talbi, C. Dhaenens, R. Beuscart- Ingénieurs : J. Soula, V. Cognat, B. Planquelle, M-P. Vanhoecke- Support logistique et scientifique du LIFL et du CERIM

Bi-localisation

:

- LIFL – USTL- CERIM - Services à la Faculté de Médecine

InstitutionsUSTL - Lille2 - CNRS

CIB : Plateforme CIB : Plateforme BioinformatiqueBioinformatique

Travaux réalisés : 2001-2003

4

Plan présentationPlan présentation

Organisation matérielle

Formation, Service

CIB – Séquencage & génotypage

CIB – Protéomique

CIB - Transcriptome

5

Architecture du réseauArchitecture du réseau

Firewall

Zone sécurisée

(Créé « from scratch ») - Cluster de 2 Quadriprocesseurs ALPHA Unix Tru 64 (4*667Mhz),- Espace de Stockage de 432 Giga Byte (RAID 1 et RAID 5)- SGBD Oracle 8i (134 utilisateurss) Renater network access 12 Mbits/s

Serveur web

6

Réseau physiqueRéseau physique

Autre machine utilisée : IBM SP3 au CRI (64 proc) – Intelligent Miner

7

FormationsFormations

Formations générales Bioinformatique (CIB – CNRS)

Autour du Web – 1 jour - 13 personnes

UNIX / Réseau – 2 jours - 18 personnes

Banque de données – 2 jours - 31 personnes

Base de données – 2 jours - 15 personnes

Analyse de séquences – 2 jours - 26 personnes

Phylogénie – 2 jours - 18 personnes

Enseignement DESS Bioinformatique (Depuis 2001)

Encadrement de stagières (Ingénieurs, DESS, Maitrise, DEA, …)

8

Analyse statistiques de données issues des biopucesAnalyse statistiques de données issues des biopuces 10 au 12 septembre 2003

Objectifs de la formation : donner aux biologistes les bases suffisantes en statistiques pour comprendre et appréhender les différentes méthodes d’analyse des données de biopuces. Les aider dans la mise en place d’un protocole d’analyse des données.

Public visé : biologistes lillois utilisant la technologie des puces à ADN

Programme : Alternance Cours / TP- Représentation et Normalisation des données- Analyse différentielle des données- Classification supervisée et non supervisée

Formateurs :- Jacques Van Helden, Université Libre de Bruxelles- Stéphane Robin, OMIM - INA-PG de Versailles- Cyrille Dalmasso, INSERM - Villejuif

Nombre de participants :- 27 inscrits en cours - 17 inscrits en TP

Formation spécifique (CIB – CNRS – INSERM)Formation spécifique (CIB – CNRS – INSERM)

9

Mise à disposition d’outilsMise à disposition d’outils Base de données :

• Human Genome Data Base (online) : Santa Cruz (CA)

• Ensembl

• Gene Ontology

Logiciels : 180 Open Source Software (online) : alignement,

phylogeny, sequence analysis, …

Site Web : Outil de communication et d’échanges : forum de discussion, listes de diffusion, serveur ftp, newgroups,

10

Coopération entre plateformesCoopération entre plateformes

Bioinformatique Protéomique

Transcriptome

Séquençage et génotypage

Sélection d’attributs et Clustering : Recherche de facteurs de prédisposition de maladie multifactorielles (obésité, diabètes de type II).

LGMM (Lab. Génétique des Maladies Multifactorielles), IBL – P. Froguel, S. Gallina

11

Contexte :

Etudes familiales

Analyses d’interaction : co-transmission de gènes

Objectif

Localiser un ou plusieurs gènes de prédisposition

à certaines maladies : diabète ou obésité

Données :

Pour chaque famille : comparaison de l’héritage de gènes (marqueurs) et de facteurs environnementaux

3652 marqueurs génétiques et 2 facteurs environnementaux pour une centaine d’individus

Interactions génétiques et Interactions génétiques et environnementalesenvironnementales

12

Hypothèses :

Beaucoup d’attributs (loci et facteurs environnementaux)

Existence de valeurs manquantes

Contexte d’apprentissage non supervisé

Objectif :

Découvrir des groupes d’attributs cause de la maladie

(corrélations entre attributs)

Groupe 1 : loci 1 et loci 20 et loci 50

Groupe 2 : loci 17 et loci 43 et loci 75

Interactions génétiques et Interactions génétiques et environnementalesenvironnementales

13

Selection

d’attributs Clustering

N attributs

Groupes

m attributs

N >> m

Réalisation

Algorithmegénétique

K-mean ou algorithme génétique

Approche 2 phasesApproche 2 phases

14

Chapitre d’ouvrage : L. Jourdan, C. Dhaenens, E-G. Talbi, "Discovery of genetic and

environmental interactions in disease data using evolutionary computation", Evolutionary Computation in Bioinformatics, Edited by G. B. Fogel and D. W. Corne, Morgan Kauffmann Publishers, USA, 2002.

Journaux : L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, “A data mining approach

to discover genetic and environmental factors involved in multi-factorial diseases”, Knowledge-based Systems, Vol.15, No.4, pp.235-242, May 2002.

Conférences : L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, "A branch and bound

procedure to analyze multifactorial diseases", European Mathematical Genetics Meeting EMGM’2001, Lille, April 2001.

L. Jourdan, C. Dhaenens, E-G . Talbi, S. Gallina, “An optimization approach to mine genetic data”, Int. Conf. On Mathematics and Engineering Techniques in Medecine and Biological Sciences METMBS’2001, Edited by F. Valafar, Las-Vegas, USA, June 2001.

PublicationsPublications

15



Transcriptome

Règles d’association : Etude de déséquilibre de liaison (linkage desequilibrium)

LGMM (Lab. Génétique des Maladies Multifactorielles), IBL – P. Froguel, C. Dina


16

Objectif :

Trouver des ensembles d’haplotypes

pouvant expliquer le diabète de type II

Données :

Pour chaque individu : La valeur de ces SNPs et son statut

Pour chaque SNP: fréquence allélique

Pour chaque combinaison de SNPs: leur déséquilibre

Contraintes :

Snips d’un haplotype doivent être indépendants : Différence de fréquence < threshold1.

Linkage disequilibrium > threshold2.

Etude de linkage disequilibriumEtude de linkage disequilibrium

17

Méthode de recherche : Algorithme génétique adaptatif multi-

population

Fonction d’évaluation spécifique basée sur deux logiciels classiques :

CLUMP et EH-DIALL

Résultat

Règles telles que :

SNP10

=1-2 ET SNP20

=2-2 ALORS Status=ill

SNP17

=1-1 ET SNP45

=2-2 ALORS Status=ill

Publication

L. Jourdan, C. Dhaenens, E-G. Talbi, “Discovering haplotypes in linkage

disequilibrium mapping with an adaptive genetic algorithm”, EvoBio’2003,

EuroGP2003, LNCS 2611, pp. 66-75, 2003.

ApprocheApproche

18



Transcriptome


Classification : Analyses de spectres (glycannes, proteines)

Centre Commun de Spectrométrie de Masse – J. Lemoine, C. Rollando.

19

Analyse de spectres Reconstruction de l’arbre du glycanne à partir d’un spectre

Haut débit : 80 Go/mois de nouvelles données

Gel 2D (Electrophorèses)

Spectrum

Interprétation de spectres de glycannesInterprétation de spectres de glycannes

20

Intégration contraintes biologiques Utilisation d’évaluations heuristiques

Besoin de paralléliser et distribuer l’algorithme Utilisation support d’exécution sur GRILLES

Moteur d’interprétationMoteur d’interprétation

• Recherche Combinatoire: coûteux en temps et espace

• Données incertaines

• Nombreuses solutions théoriques

Algorithme Branch and Bound

Brevet déposé

21

BD spectres de

glycannes

Relation avec banque

de données publiques

(internet)

Interface de

visualisation et Edition

Moteur d’interprétation

Plateforme visuelle pour l’interprétation de Plateforme visuelle pour l’interprétation de glycannesglycannes

Disponible sur demande

22



Transcriptome


Base de données : Gels bidimentionnels

Laboratoire de Biologie du Développement (CNRS) – H. Hondermarck,

23

Banque de Gels Bidimensionnels

publiées dans la littérature

donnant accès à

Données « Publiques »

Données « Privées »

propres à chaque équipe et confidentielles

pour les équipes de la génopole ET pour des équipes extérieures

accès sécurisé accès publique

Gels Bi-dimensionnelsGels Bi-dimensionnelsObjectifObjectif

Mettre en place une plate-forme permettant de stocker et d’exploiter la

masse de données disponibles

24

Pour chaque gel, on dispose donc : d’une ou plusieurs images de listes des spots (rapports)

de spectres de masses (identification, séquençage des protéines)

Gels Bi-dimensionnelsGels Bi-dimensionnelsNature des donnéesNature des données

25

• Base de données associée : MySQL, Interface PHP

• Contrôle/sécurisation des accès aux informations

(contraintes base publiques/privées) : Utilise l’annuaire

LDAP de la génopole

• Outils permettant d’effectuer des recherche à partir

des données stockées

• Formulaires d’affichage et d’ajout/modification

d’informations : images de gel, listes des spots, carte

d’identité des protéines, spectre de masse, …

Gels Bi-dimensionnelsGels Bi-dimensionnelsRéalisationsRéalisations

26

Gels Bi-dimensionnelsGels Bi-dimensionnelsInterfaceInterface

Disponibilité : www.genopole-lille.fr

27

Gels Bi-dimensionnelsGels Bi-dimensionnelsFormulaire affichageFormulaire affichage

28



Transcriptome


Classification visualisation du protéome : DIACELL

Laboratoire de Biologie du Développement – H. Hondermarck.

29

Visualisateur DIACELLVisualisateur DIACELL

Trois types de cellules (cancer du sein)• Normales• Cancéreuses non

métastasiques (MCF-7)• Cancéreuses métastasiques• (MDA-MB-231)

3 types de visualisation• Projection 2D• Enveloppe convexe• Projection 3D

30Recherche de l’enveloppe convexe (données non précises)Recherche de l’enveloppe convexe (données non précises)

2D 3D

31


Bioinformatics Protéomique

Transcriptome


GdlArray : Base de données, outils de design de puces et outils d’analyse de

données (datamining)

2 plateformes de biopuces : Institut Pasteur de Lille, Lille 2 (INSERM, CHR)

32

GdLarrayGdLarray

Bases de données régionales

pour les biopuces

et sa suite logicielle

33

Plateforme BiopucesPlateforme Biopuces

Base de donnéesBiopuces GdLarray

Sélection de Clones

XX-Frag Sélectiond’oligos

1. Sélection des sondes

2. Design des expériences

Matériel biologique & puces

(contrôle du schéma de spottage)

ImageneJaguar Outils du

CIB

3. Traitement des données(normalisation, …)

Bases de donnéesmédicales

Base de données Publiques

(NCBI, EMBL, …) Fonctions, annotations,

bibliographie

PathwayGenespring

4. DATA MINING

(clustering, règles XW-Apriori, …)

34

Etudes des recommandations MIAME (Mars 2002)

Ebauche d’un schéma conceptuel en réponse aux besoins

des équipes de la Génopole (Mai 2002)

Adaptation de la plateforme BASE (MySQL, PHP,

normalisation, clustering, visualisation) sous Oracle 8i

(version 1.0.6 en Mars 2003 / version 1.2.7 en Septembre

2003)

Formation des biologistes à son utilisation : octobre 2003

Création de la Base de données Création de la Base de données Etapes du projetEtapes du projet

35

Création de la Base de données Création de la Base de données Étude des données et du schémaÉtude des données et du schéma

WIZZZARDUSERWIZZZARDOWNERid: WIZZZARD

OWNERref: WIZZZARDgr: OWNER

WIZZZARDIDOWNERid: IDgr: OWNER

WELLIDPARENTPLATEPROBEid: IDref: PARENTref: PLATEref: PROBE

VECTORIDid: ID

USERSEARCHITEMSEARCHid: SEARCH

ref ref: ITEM

UPLOADIDOWNERid: IDgr: OWNER

TRANSFORMATIONSEARCHITEMSEARCHid: SEARCH

ref ref: ITEM

TRANSFORMATIONIDOWNERBIOASSAYSETid: IDref: BIOASSAYSETgr: OWNER

TISSUEIDid: ID

TEMPLATEBIOASSAYSETPOSGENEBIOASSAYSETMOLECULEPOSITIONCNTid: BIOASSAYSET

POSITIONMOLECULE

ref: MOLECULE

TEMPLATEBIOASSAYSETGENEBIOASSAYSETMOLECULECNTid: BIOASSAYSET

MOLECULEref: MOLECULE

TEMPLATEBIOASSAYDATABIOASSAYPOSITIONMOLECULEid: BIOASSAY

POSITIONref: BIOASSAYref: MOLECULE

SUBMITTERIDLASTEXPERIMENTLASTEXPLOREDSETLASTPLATETYPELASTPLATETYPECREATED

SOFTWAREIDOWNERid: IDgr: OWNER

SHAREDUPLOADOWNERITEMid: OWNER

ITEMref: ITEMgr: OWNER

SHAREDSAMPLEOWNERITEMid: OWNER


SHAREDRAWBIOASSAYOWNERITEMid: OWNER


SHAREDLABELEDEXTRACTOWNERITEMid: OWNER


SHAREDHYBRIDIZATIONOWNERITEMid: OWNER


SHAREDEXTRACTOWNERITEMid: OWNER


SHAREDARRAYBATCHOWNERITEMid: OWNER


SEARCHCRITERIONSEARCHPOSITIONid: SEARCH

POSITIONref: SEARCH

SEARCHIDid: ID

SCHEMAVERSIONBASEVERSIONSCHEMAVERSION

SAMPLETISSUEIDPARENTid: IDref: PARENT

SAMPLEANNOTATIONTYPEIDid: ID

SAMPLEANNOTATIONSAMPLEANNOTATIONTYPEid: SAMPLE

ANNOTATIONTYPEref: SAMPLEref: ANNOTATIONTYPE

SAMPLEIDTISSUEOWNERid: IDref: TISSUEgr: OWNER

RAWBIOASSAYHEADERRAWBIOASSAYid: RAWBIOASSAY

ref

RAWBIOASSAYDATARAWBIOASSAYPOSITIONELEMENTMOLECULEid: RAWBIOASSAY

POSITIONref: RAWBIOASSAYref: ELEMENTref: MOLECULE

RAWBIOASSAYIDOWNERIMAGEACQUISITIONLABELEDCH1LABELEDCH2FEATURESOFTWARESPOTSid: IDref: FEATURESOFTWAREref: LABELEDCH2ref: LABELEDCH1ref: IMAGEACQUISITIONgr: OWNER

PROTOCOLTYPEIDid: ID

PROTOCOLIDETYPESUBMITTERid: IDref: ETYPEgr: SUBMITTER

PROGRAMPARAMETERPROGRAMPOSITIONid: PROGRAM

POSITIONref: PROGRAM

PROGRAMIDOWNERid: IDgr: OWNER

PROBEIDMOLECULEid: IDref: MOLECULE

PRESETSEARCHOWNERid: SEARCH

ref gr: OWNER

PLATETYPEIDOWNERWELLSid: IDref: WELLSgr: OWNER

PLATEPARENTPARENTPLATEref: PLATE

PLATEEVENTTYPEIDPLATETYPEPROTOCOLTYPEid: IDref: PROTOCOLTYPEref: PLATETYPE

PLATEEVENTPLATEETYPEPROTOCOLid: PLATE

ETYPEref: PROTOCOLref: ETYPE

PLATEIDPLATETYPEOWNERid: IDref: PLATETYPEgr: OWNER

NEWSIDOWNERid: IDgr: OWNER

MOLECULEIDVECTORTISSUELIBRARYid: IDref: LIBRARYref: TISSUEref: VECTOR

LIBRARYIDid: ID

LABELEDEXTRACTIDOWNEREXTRACTPROTOCOLid: IDref: PROTOCOLref: EXTRACTgr: OWNER

JOBSETTINGJOBPOSITIONid: JOB

POSITIONref: JOB

JOBFILESECTIONJOBFILESECTIONid: JOBFILE

SECTIONref: SECTIONref: JOBFILE

JOBFILEIDJOBid: IDref: JOB

JOBIDPROGRAMTRANSFORMATIONEXPERIMENTid: IDref: EXPERIMENTref: PROGRAMref: TRANSFORMATION

ITEMIDOWNERid: IDgr: OWNER

IMAGEACQUISITIONIDOWNERHYBRIDIZATIONSCANNERid: IDref: SCANNERref: HYBRIDIZATIONgr: OWNER

IMAGEIDOWNERIMAGEACQUISITIONid: IDref: IMAGEACQUISITIONgr: OWNER

HYBRIDIZEDLABELEDHYBRIDIZATIONPOSITIONLABELEDid: HYBRIDIZATION

POSITIONref: HYBRIDIZATIONref: LABELED

HYBRIDIZATIONIDOWNERPROTOCOLid: IDref: PROTOCOLgr: OWNER

HARDWAREIDOWNERid: IDgr: OWNER

GENELISTGENEGENELISTMOLECULEref: GENELISTref: MOLECULE

GENELISTIDOWNEREXPERIMENTGENESid: IDref: GENESref: EXPERIMENTgr: OWNER

EXTRACTIDPROTOCOLSAMPLEOWNERid: IDref: SAMPLEref: PROTOCOLgr: OWNER

EXPERIMENTRAWBIOASSAYEXPERIMENTRAWBIOASSAYref: RAWBIOASSAYref: EXPERIMENT

EXPERIMENTIDOWNERid: IDgr: OWNER

EVENTLOGIDid: ID

ELEMENTIDARRAYTYPEWELLid: IDref: WELLref: ARRAYTYPE

COOKIECOOKIEOWNERid: COOKIEgr: OWNER

BIOASSAYSETSEARCHITEMSEARCHid: SEARCH

ref ref: ITEM

BIOASSAYSETEXPLOREBIOASSAYSETMOLECULEid: BIOASSAYSET

ref ref: MOLECULE

BIOASSAYSETCREATIONBIOASSAYSETid: BIOASSAYSET

ref

BIOASSAYSETIDOWNEREXPERIMENTTRANSFORMATIONid: IDref: TRANSFORMATIONref: EXPERIMENTgr: OWNER

BIOASSAYIDOWNERRAWBIOASSAYSAMPLE1SAMPLE2BIOASSAYSETPARENTEXPERIMENTid: IDref: EXPERIMENTref: PARENTref: SAMPLE2ref: SAMPLE1ref: RAWBIOASSAYref: BIOASSAYSETgr: OWNER

BASEFILESECTIONIDid: ID

ARRAYTYPEPLATEARRAYTYPEPOSITIONPLATEid: ARRAYTYPE

POSITIONref: ARRAYTYPEref: PLATE

ARRAYTYPEIDOWNERPROTOCOLid: IDref: PROTOCOLgr: OWNER

ARRAYBLOCKARRAYTYPEBLOCKNUMid: ARRAYTYPE

BLOCKNUMref: ARRAYTYPE

ARRAYBATCHIDARRAYTYPEOWNERPROTOCOLid: IDref: PROTOCOLref: ARRAYTYPEgr: OWNER

ARRAYIDBATCHHYBRIDIZATION[0-1]id: IDref: BATCHref: HYBRIDIZATION

SCHEMA/1

36

Deux modes d’administration En mode graphique : TORA (ToolKit for Oracle) – GNU GPL En mode ligne : Scripts shell/SQL

Gestion des utilisateurs (sécurité, confidentialité) Par le mécanisme de rôles Oracle

Création de la Base de données Création de la Base de données Développement d’outils d’administrationDéveloppement d’outils d’administration

• CLUSTER 2 quadri processeurs ES40 Alpha• Oracle 8i Entreprises• Plusieurs unités de disques en RAID1 et 5

Architecture 3-tiers

37

La base est accessible sur le site web de la Génopole :http://www.genopole-lille.fr/fr/logiciel/microarray/index.html

38

Outils de design de pucesOutils de design de puces

1. Sélection de sondes : XXfrag

2. Sélection de clônes

3. Sélection d’oligos

4. Sélection de primers : FindExpress

5. Outil de positionnement des sondes

39

Sélection de sondes - XXfragSélection de sondes - XXfrag

Ce programme permet de :

• Récupérer des fragments appartenant aux régions d’intérêt du génome(chromosome, bras).

• Choisir les fragments selon le type de puce que l´on désire créer (cDNA, génomique..).

• Sélectionner ces fragments selon leur taille, la distance entre chacun ou leur nombre.

• Vérifier la spécificité des fragments sélectionnés afin d´éviter les hybridations croisées.

XXfrag : Design de fragments d’ADNc le long des chromosomes du génome Humain

Application à l’Hybridation Génomique Comparative (CGH)(INSERM, CHR)

40

Sélection de sondes - XXfragSélection de sondes - XXfrag

http://ribosome.genopole-lille.fr/fr/fragments/

Publication :C. Hubans, J-P. Kerkaert, M-P. Vanhoecke, “XX_FRAG : Design of cDNA sequences for microarrays-application to CGH”, ECCB’2002 European Conference on Computational Biology, Saarbrucken, Germany, Oct 2002

41

• Sélection de clones : Sélection de clones d’intérêt dans la banque du CNS – Application à la maladie d’Alzheimer (IPL)

Principe : la sélection de clones spécifiques est basée sur la recherche de similarité (BLAST) entre les séquences de clones et les séquences des loci d’intérêt.

Programme : Entrée : liste des identifiants de loci dans LocusLink Choix des paramètres :

- paramètres de Blast - seuil de similarité- seuil de spécificité

Programmes complémentaires : - Recherche de similarité entre loci- Annotation des séquences choisies à partir des données fonctionnelles issues

de Gene Ontology

Sélection de clonesSélection de clones

42

Sélection des clones :BLAST des séquences de clones contre la

banque de loci(seuil de similarité de 50%)

Annotation des clones par le CNS

Clone-ORFs pair (A)

Loci d’intérêt

Détermination des couples Clone-ORFs (B)

Couples Clone-ORFs trouvés par BLAST

(B)

Couples Clone-ORFs communs CNS+BLAST

(A) + (B)

Couples Clone-ORFs trouvés uniquement dans le fichier d’annotation du CNS (A)

BLAST sans seuil de similarité

Couples Clone-ORFs trouvés par BLAST

Couples Clone-ORFs non trouvés

Spécificité :BLAST entre les séquences de clones sélectionnés et les séquences d’ARNm humains

(Seuil de similarité à 30%)

Couples Clone-ORFs spécifiques Couples Clone-ORFs non spécifiques

43

http://ribosome.genopole-lille.fr/fr/clones/select_clone_form.html

Sélection de clonesSélection de clones

Publication : Lambert JC, Testa T, Cognat V, Soula J, Hot D, Lemoine Y, Gaypay G, Amouyel P., “Interest and limitation of public databases for microarray design: a critical approach of gene predictions” The Pharmacogenomics Journal, in press.

44

• Sélection d’oligos : Aide à la sélection d’oligo chez Qiagen et MWG – Application à la maladie d’Alzheimer (IPL)

Principe : les oligos d’intérêts sont sélectionnés dans la liste d’oligo de fournisseurs (Qiagen & MWG) à partir d’une liste d’identifiants de loci LocusLink ou de séquences Refseq et/ou Genbank

http://ribosome.genopole-lille.fr/fr/oligo/

Sélection d’oligosSélection d’oligos

45

• FindExpress : Sélection de primers (octamères) dans des amplicons (Laboratoire des Biopuces – IPL)

Objectifs : Recherche d’un minimum d’octamères - spécifiques aux régions amplifiées par PCR- ne matchant pas l’ADN ribosomique- Couvrant tous les amplicons

Primers PCR

Recherche des amplicons

Recherche de tous les octamères

Oter ceux matchant ADN ribosomique

Recherche du minimum d’octamères permettant de recouvrir tous les amplicons

Gènes

Sélection de primers - FindExpressSélection de primers - FindExpress

http://ribosome.genopole-lille.fr/fr/logiciel/findexpress/

46

• Outil pour le positionnement des sondes : - Laboratoire des Biopuces - IPL

Cet outil permet :

1. De visualiser le positionnement des sondes sur la puce à partir du schéma des microplaques et des paramètres de spotting

2. De définir le contenu des microplaques à partir du schéma voulu de la puce (position spécifique de sondes et paramètres de spotting)

Outil développé en java. Installation locale dans les laboratoires Robot étudié : GMS 417 Affymetrix

Outil de positionnement des sondesOutil de positionnement des sondes

47

i

j

u

Lame

Micro plaque

Le Robot prend les gènes dans les puits de la microplaque et les dépose sur la lame. on veut prévoir ou fixer d’avance la position de certains gènes sur la lame

Contrôle du schéma de spottageContrôle du schéma de spottagePositionnement du problèmePositionnement du problème

48

Placement de gènes à des points particuliers

Calcul de la microplaque associée au schéma

Aide au design de pucesAide au design de pucesFonctionnalitésFonctionnalités

49

Traitement et analyse de Traitement et analyse de donnéesdonnées

1. Normalisation

2. Extraction des connaissances (Data

mining)1. Clustering

2. Règles d’association

50

Liens vers des outils de Normalisation disponibles sur le web à partir du site de la génopole

Développement d’un outil permettant :• Correction des données• Plusieurs méthodes de normalisation :

(Régression linéaire uniforme, Lowess, Normalisation de Chen, Newton, Chursap)

• Représentation graphique• Normalisation par secteur• Analyse des réplicats (lame, spots) Utilisation de R (Outil Statistique présentant un module « statistiques pour biopuces »)

Développement d’une interface graphique

Normalisation des donnéesNormalisation des données

51

Données d’entrées

Interface Graphique

1. Saisie des données et choix de la méthode

Méthodes de Clustering

2. envoi des données pour méthode choisie

3. Envoi résultats Du clustering

Résultats

6. Envoi d’un fichier de résultats à l’utilisateur

4. envoi des données et résultats pour exécution analyse statistique

Analyses Statistiques

5. envoi des résultats statistiques pour affichage

Bibliothèque de clusteringBibliothèque de clusteringSchéma généralSchéma général

Méthodes développées : Algorithmes évolutionnaires,

hiérarchiques, partitionnement, …

52

Décrire le clustering obtenu et juger sa qualité

Analyse de fréquenceAnalyse fréquences globales sur les données d’entrée.Analyse de fréquences relativement à chaque Cluster.

Analyse de la variance S’applique aux variables numériques. Mesure l’influence du Clustering sur cette variable.

Inertie intra ClustersMesure la compacités des clusters.

Inertie inter ClustersMesure la séparation des clusters

PC

cIIntra )(

Bibliothèque de clusteringBibliothèque de clusteringAnalyses statistiquesAnalyses statistiques

))(,(1

)( cgxdn

cI iCi

)),(( gcgdn

nInter

PC

c

53

Browse...

Bibliothèque de clusteringBibliothèque de clusteringApplication internetApplication internet

54

Règles d’associationRègles d’association

55

Généralité de l’approcheGénéralité de l’approche

Données d’expression souvent traitées par classification/clustering

Mais 3 inconvénients majeurs:

1. Un gène participants à plusieurs relations sera classé dans un et

un seul groupe

2. Impossible de mettre en évidence des relations entre gènes

appartenant à un même groupe

3. Classification effectuée par rapport à l’ensemble des conditions

expérimentales

Les règles d’association permettent de dépasser ces inconvénients

56

Les règles d’associationLes règles d’association

Objectif : Découvrir des motifs, corrélations, à partir d’ensembles

d’items (attributs) contenus dans des bases de données.

Forme : if C then P

C (Condition) = terme1 et terme2 et… et termen

P (Conséquence) = termen+1

termei = <attributj, op, valeur>

2 mesures principales

BDPC

Support&

)R( % de transactions qui contiennent simultanément C et P

Support(C)P)Support(C&

CC&PR)Confiance(

57

Problématique(s)Problématique(s)

Règles d’association peuvent fournir différents résultats

• Traitement Expression de certains gènes

Tr1 {Gène A , Gène B } [Creighton - Hanash, 03]

• Relations entre gènes (cas général)

{Gène A , Gène B , Gène C } Gène D [Kotala et al, 01]

• Relations entre gènes (pour certaines situations) [Becquet et al, 02]

{(Gène A , Gène B ) dans situation y} Gène D dans situation y

• Comportement de gènes Caractéristiques fonctionnelles

Caractéristiques structurelles

{Gène dans situation y} Fonction X [OPAC, IT-Omics, 03]

58

Approches de résolutionApproches de résolution

Problème combinatoirede grande taille

Méthodes exactes

Approches heuristiques

Problèmes de petites tailles

Problèmes de grandes tailles

Enumérationintelligente

AlgorithmeApriori

Heuristiquesdédiées

Métaheuristiques

Intégration des deux approches au sein du CIB(parallèle, grid computing)

nombre d’attributs

59

Partenaires : LIFL – Lille,Prism – Versailles, ID-IMAG - Grenoble

Projet ACI Projet ACI

Projet ACI-GRID (2000-2003) :« Challenges en Optimisation combinatoire sur Grilles de machines »

60

Objectif : repousser les limites quant à la taille des problèmes traités (GRID computing)

Eclat [Zaki95] – Version améliorée• Pas besoin de re-parcourir la base de données à

chaque étape

• Pas besoin de faire plusieurs passes sur la base de données

• Variante plus efficace • Exploitation verticale de la base

• Découpage de la base de données en partitions indépendantes sur la base de la notion de préfixe

XW-AprioriXW-AprioriDéveloppement d’Apriori sur XtremWebDéveloppement d’Apriori sur XtremWeb

61

• Calcul distribué pair à pair (peer to peer, Grid computing)

• Modèle de vol de cycles

• Support sécurisé (Sandbox, SSL, Coordinator authentication)

• Indépendant du système d’exploitation (Linux, Windows, MacOS)

• Tolérance aux pannes (Sauvegarde / restauration des applications)

• Migration de fichiers binaires

• Ordonnancement dynamique des tâches

XW-AprioriXW-AprioriXtremWeb - CaractéristiquesXtremWeb - Caractéristiques

62

• Un ensemble de machines exécutant des démons XtremWeb

Un serveur

Plusieurs workers volontaires pour l’exécution de tâches

• Un ensemble de clients pouvant soumettre des tâches au serveur

Worker

WorkerWorker Worker

Client

ClientInternet

Server

XtremWeb networkHôtes répartis

sur Internet

XW-AprioriXW-AprioriXtremWeb - ArchitectureXtremWeb - Architecture

63

http://ribosome.genopole-lille.fr/fr/private/XtremWeb/admin.php3

64

Publications (Parallélisme / Grid computing pour la génomique)

E-G. Talbi, C. Dhaenens, N. Melab, S. Cahon, “Towards grid data mining : Application for genomics”, 1st HealthGrid Conference, France, Jan 2003.

S. Cahon, E-G. Talbi, "PARADISEO : A parallel and distributed library for metaheuristics", PAREO’2002 Parallel Processing in Operations Research, Guadeloupe, France, Mai 2002.

E-G. Talbi, “Grid combinatorial optimization”, Tutorial GRID School, Aussois, Dec 2002.

XW-AprioriXW-Apriori

65

Limitations de AprioriLimitations de Apriori

Méthode de type énumérative

Basée essentiellement sur le Support et la Confiance

Impossible de trouver les règles rares dans un grand espace de recherche

66

Approche multicritèreApproche multicritèreEvaluation des règlesEvaluation des règles

Règles d’association

Problème classique de datamining

Etudié par différentes communautés : statistique, apprentissage,

optimisation combinatoire,…

de multiples indicateurs ont été proposés pour

mesurer la qualité des règles

[Hilderman et Hamilton, 1999], [Tan et Kumar, 2002], [Adomavicius, 2002],

[Lenca et al, 2003],…

Comment choisir le bon indicateur ?Pas de critère universel

67

Quelques principaux critèresQuelques principaux critères

Mesure Formule Effet

Support S % transactions qui contiennent C et P

Confiance C Probabilité conditionnelle

Intérêt I Privilégie les motifs rares

(ayant un support faible)

Conviction V Mesure la faiblesse de (C, not P)

V >> :: P se passe avec C

Piatetsky-

Shapiro’s PS

Mesure la dépendance

Surprise R Cherche des règles étonnantes

Mesure l’infirmation(C, NOT P)

PC

PetC

C

PetC

PetC

PC

P

PetCPetC

N

PetC

PCPetC

68

Processus completProcessus complet

Analyse statistique : ACP (Analyse en Composantes Principales):

support, confiance, interet, surprise,

conviction, biological criteria, …

Modele multicritère du problème

Design d’algorithmes distribués

d’optimisation multicritères Pareto

Utilisation de la plateforme ParadisEO

Problème d’optimisationà grandes échelles

69

La plate-forme EO en quelques motsLa plate-forme EO en quelques mots

Contributions : Geneura TEAM (Espagne), INRIA (France), LIACS

(Pays-bas), LIFL (France)

Une librairie Open Source C++ «tout objet » (Template)

Indépendante de tout paradigme (métaheuristique)

Flexible / problème traité

Composants génériques (opérateurs de recherche, sélection,

remplacement, terminaison, …)

Nombreux services

• Visualisation,

• Définition de paramètres en ligne,

• Sauvegarde/reprise de l’état d’exécution, …

70

Contributions (OPAC-LIFL)Contributions (OPAC-LIFL)EO (bibliothèque d’algorithmes évolutionnaires : AG, GP, ES, …)

Extension aux algorithmesà base de solutions uniques

Méthodes de descente

Recuit simulé

Recherche tabou

Coopération(hybridation synchrone, asynchrone, …)Ex. Coopération insulaire

ParadisEO (Métaheuristiquesparallèles et distribuées)

Parallélisme(Partitionnement des solutions, données, recherches, …)

• Parallélisme : Accélérer le temps de recherche + S’attaquer à des problèmes de grandes tailles

• Coopération : Améliorer la qualité des solutionset la robustesse

AE pour l'Optimisation multicritère

71

Règles d’association : La Règles d’association : La visualisation 3Dvisualisation 3D

72

Règles d’association : Le N-Règles d’association : Le N-Dimensional LineDimensional Line

73

Règles d’association : Le Double Règles d’association : Le Double Decker PlotDecker Plot

74

Journaux : L. Jourdan, C. Dhaenens, E-G. Talbi, « ASGARD : un algorithme

génétique pour les règles d’association », Extraction de Connaissance et Apprentissage, ECA Hermès, Vol.16(6), pp.657-683, 2003.

Conférences : • M. Khabzaoui, L. Jourdan, C. Dhaenens, E-G. Talbi, “Approche

évolutionnaire multicritère pour les règles d’association en génomique”, ROADEF, 2003.

• M. Khabzaoui, C. Dhaenens, A. N‘Guessan, E-G. Talbi, “Etude exploratoire des critères de qualité des règles d’association”, Journées de statistique, 2003

• L. Jourdan, C. Dhaenens, E-G. Talbi, « Rules extraction in linkage disequilibrium mapping with an adaptive genetic algorithm», ECCB’2003, European Conference on Computational Biology, Paris, France, Sept 2003.

PublicationsPublications

75

Un exemple concretUn exemple concret

• Expérimentations sur puces à ADN

Puces à façon / puces Affymetrix

2748 / 33 000 gènes étudiés

15 patients et 15 témoins

• Comparaison des deux approches

Rechercher de façon spécifique dans les locis d’intérêt

Rechercher de façon systématique

Utiliser plusieurs technologies de micropuces

Projet ACI / IMPG (Soumis en sept 2003)

“Alzheimine : Recherche de gènes d’intérêt pour la maladie d’Alzheimer”,

LIFL, Pasteur Lille (P. Amouyel, Y. Lemoine, J-C.. Lambert, D. Hot), LRI (M. Sebag).

76

Un exemple concret Un exemple concret

• Recherche de marqueurs prédisposition maladies cardiovasculaires

• Expérimentations sur puces à ADN

Puces Affymetrix

22 000 gènes étudiés

10 patients plus ou moins à risque

• Mise en correspondance de données hétérogènes

Expérimentations sur puces à ADN

Données structurelles (localisation cytogénétique, …) BD publiques

Données fonctionnelles (Groupe GO, Famille PFAM, …) GENBANK,

Action Bioingénierie – GenHomme Network (2001-2003)

“Data mining platform from heterogeneous data for cardiovascular diseases”,

IT-OMICS, GENFIT, LIFL.

77

PerspectivesPerspectives

Recherche multicritère de règles d’association

(données hétérogènes : expression génique,

médicales, fonctionnelles, structurelles, …)

Prise en compte d’attributs multivalués• Groupe GO : Les gènes peuvent appartenir à plusieurs groupes GO

• Famille PFAM (Protein Families)

Analyse post-optimale des règles• Comment représenter la connaissance extraite à l’aide des règles

• Comment déduire de l’ensemble des règles produites, les plus intéressantes pour le problème

78

PerspectivesPerspectives

Perspectives court-terme :

Données Biopuces Clusters, Règles Prédiction de fonction

d’un gène, Recherche de motifs dans les régions promotrices.

Perspectives moyen-terme :

Des règles d’association à l’inférence de réseaux géniques

Identification “optimale” de modèles (weight matrices, boolean

network model, équations différentielles, …) pour les réseaux de

régulation en utilisant des méthodes d’optimisation.

Gene 1Gene x

Gene 4Gene 3Gene 2

Positive regulation

Negative regulation

1 cib : centre intégré de bioinformatique e-g. talbi cib – génopole de lille

Documents