formation rng - 24-28 octobre 2005 aide à linterprétation des données virginie defamie
TRANSCRIPT
Formation RNG - 24-28 octobre 2005
Aide à l’interprétation des données
Virginie Defamie
Formation RNG - 24-28 octobre 2005
- Quantification des intensités de fluorescence
- Normalisation des données
- Tests statistiques
Liste de gènes significativement
modulés
25 000 gènes
200 gènes modulés
dizaine connus
reste
Comment utiliser sa liste de gènes modulés?
Formation RNG - 24-28 octobre 2005
Informations sur les gènes
OMIM (Online Mendelian Inheritance in Man)http://www.ncbi.nlm.nih.gov.gate1.inist.fr/entrez/query.fcgi?CMD=search&DB=omim
DAVID (Database for Annotation, Visualisation and Integarted Discovery)
Permet d’obtenir des infos sur les gènes, les classer par fonction et les inclure dans des voies de signalisation via un lien vers KEGG.
http://apps1.niaid.nih.gov/david/
KEGG: Kyoto Encyclopedia of Genes and Genomes
Schémas des voies de signalisation impliquées dans divers processus cellulaires et maladies humaines.
http://www.genome.jp/kegg/
Formation RNG - 24-28 octobre 2005
Informations sur les gènes
http://www.ncbi.nih.gov/entrez/query.fcgi?db=gene
Entrez Gene sur NCBI
Permet d’obtenir des infos sur les gènes, leur différents symboles, position chromosomique, accès à la littérature, lien vers KEGG
Formation RNG - 24-28 octobre 2005
Le clustering
DéfinitionOrganiser les gènes, dont les profils d’expression sont identiques, en groupes (clusters)
But
Révéler la fonction putative de certains gènes encore non caractérisée
gènes co-exprimés peuvent être reliés fonctionnellement
Identifier les gènes co-régulés
Identifier rapidement un groupe de gènes régulés selon une pathologie ou un traitement
Formation RNG - 24-28 octobre 2005
Le clustering
Clustering hiérarchique : analyse non supervisée
Techniques de clusterisation: d’après la Manchester Metropolitan University
1 détermination des distances entre les gènes (méthode euclidienne)2 liaison des gènes les plus proches (arbre hiérarchique)
http://149.170.199.144/multivar/ca_alg.htm
Formation RNG - 24-28 octobre 2005
Le clustering
Clustering hiérarchique : analyse non supervisée
Formation RNG - 24-28 octobre 2005
Le clustering
Le k means clustering : analyse supervisée
Permet le classement des gènes dans un nombre fixe de classe (k) défini par l’utilisateur.
Les gènes sont classés en clusters et dans chaque cluster la distance moyenne entre les gènes est la plus petite possible.
Les gènes sont déplacés de clusters en clusters jusqu’à que tout changement n’améliore plus le système.
Le logiciel minimise la variabilité au sein des clusters et maximise la variabilité entre clusters.
SOM (self organizing map) : analyse supervisée
Principe similaire au k means mais calculs par rapport au centroids.
Le centroid de chaque cluster est redéfini jusqu’à ce que les clusters restent dans des localisations stables.
Formation RNG - 24-28 octobre 2005
Le clustering
Set de 50 microarray homme.
min max
Identification de gènes tissu ou cellule spécifiques.
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Leuco. Ker.Nas.ep. Liver
Chaque ligne correspond au niveau d’expression d’un gène dans les différents types cellulaires.
Niveau d’expression :
Formation RNG - 24-28 octobre 2005
Le clustering
http://www.tm4.org/mev.html
MeV: MultiExperiment Viewer
Logiciels disponibles sur le web
http://www.tigr.org/software/microarray.shtml
Genesis
http://genome.tugraz.at/
J-express
http://www.ii.uib.no/~bjarted/jexpress/
Formation RNG - 24-28 octobre 2005
EASE (Expression Analysis Systematic Explorer)
http://david.niaid.nih.gov/david/ease.htm
EASE disponible sur le web:
Permet de définir des familles fonctionnelles à partir d’une liste de gènes d’intérêt.
EASE utilise les bases de données DAVID, KEGG, Entrez Gene…
Formation RNG - 24-28 octobre 2005
EASE (Expression Analysis Systematic Explorer)
Liste gène modulés sous format .txt
Formation RNG - 24-28 octobre 2005
EASE (Expression Analysis Systematic Explorer)
Liste gène présents sur la puce sous format .txt
Formation RNG - 24-28 octobre 2005
EASE (Expression Analysis Systematic Explorer)
Formation RNG - 24-28 octobre 2005
EASE (Expression Analysis Systematic Explorer)
Étude des gènes modulés lors de la régénération hépatique chez la souris.
Cinétique de régénération 0, 2, 16 et 40 heures post hépatectomie.
Formation RNG - 24-28 octobre 2005
EASE (Expression Analysis Systematic Explorer)
Identification des thèmes biologiques les plus important grâce à EASE en donnant un score statistique EASE ou FISHER.
Conclusion: réorganisation du cytosquelette surexpression des protéines impliquées dans la synthèse d’ADN au
profit des protéines de fonctionnement hépatique
Formation RNG - 24-28 octobre 2005
PAM (Prediction Analysis of Microarrays)
http://www.cran.r-project.org/
1 Installation de R (cours Pascal Barbry)
3 Exécution du programme sur Excel
2 PAM
http://www-stat.stanford.edu/˜tibs/PAM
Objectifs: identifier un set de gènes modulés en fonction des condition asthme vs témoin
diagnostic prédictif de nouveaux patients rhinite ou asthme?
Exemple biologique
Formation RNG - 24-28 octobre 2005
PAM (Prediction Analysis of Microarrays)
Formation RNG - 24-28 octobre 2005
PAM (Prediction Analysis of Microarrays)
Formation RNG - 24-28 octobre 2005
PAM (Prediction Analysis of Microarrays)
% erreur dans la prédiction
Trouver le juste milieu entre un nombre de gènes prédictifs satisfaisant et % d’erreur le plus petit possible
Formation RNG - 24-28 octobre 2005
PAM (Prediction Analysis of Microarrays)
Entrée des données dont le diagnostique des patients est inconnu (Rhinite ou asthme?)
Formation RNG - 24-28 octobre 2005
PAM (Prediction Analysis of Microarrays)
Formation RNG - 24-28 octobre 2005
Genomatix
Logiciel payant disponible sur http://www.genomatix.de/
Formation RNG - 24-28 octobre 2005
Genomatix
1. Créer des liens entre les gènes de la liste de gènes modulés
2. Voies de signalisation et voies métaboliques
3. Étude des facteurs de transcription et de leurs cibles
Formation RNG - 24-28 octobre 2005
Genomatix
Analyse des promoteurs
Identifier les gènes co-réguler
Formation RNG - 24-28 octobre 2005
Conclusion
Il existe plusieurs façons d’aborder ses données selon la question biologique posée.
Analyse gène par gène
Analyse globale (gènes corégulés…)
Dégager un set de gènes prédictifs d’une pathologie