transcriptome introduction aux biopuces et à lanalyse du transcriptome emmanuel prestat

66
Transcriptome Introduction aux biopuces et à l’analyse du transcriptome Emmanuel Prestat

Upload: josephine-billy

Post on 04-Apr-2015

113 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Introduction aux biopuces et à l’analyse du transcriptome

Emmanuel Prestat

Page 2: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Les différentes puces

• Mesures d’expression

• Etude du nombre de copies

• Analyse de polymorphisme

• Puces à tissus, à cellules, à immunoprécipition

Page 3: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Mesures d’expression

• Biopuces les plus utilisées à ce jour (premières auxquelles on pense, quand on parle de puces à ADN)

• Principe :– les sondes, petits fragments d’ADN (20 à 50 nt)

complémentaires à chaque gène ciblé, sont déposées sur une lame de verre, type lame de microscope ;

– Les cibles, ARNm ou ADNc issus d’ARNm, sont marquées (radioactivité ou fluorescence) puis hybridées avec la lame sur laquelle les sondes sont déposées

Page 4: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Transcription

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Page 5: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

La technologie des puces bifluorescentes

Page 6: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Dépôt des sondes (« spotting »)

Page 7: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Dépôt des sondes (« spotting »)

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Page 8: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Puces à oligo : pas de « spotting » !

Procédé Affymetrix (et NimbleGene…)

Page 9: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Particularités des puces Affymetrix

• La fabrication in situ des sondes• Leur ultra-haute densité : jusqu’à 1,3

millions d’objets• Leur design :

– Objets carrés– Pas d’espace entre eux– Concept de probeset– Concept de PM et MM

Page 10: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Puces Affymetrix

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Page 11: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Préparation des échantillons (cibles)

• Extraction d’ARNKit

• AmplificationPCR

• Marquage– Radioactivité (S35, P32)– Fluorescence (Cy3 - vert, Cy5 - rouge)

En général réalisé en même temps que l’amplification: utilisation d’une amorce de PCR marquée

• Digestion (λ-exonucléase) ADN simple brin

Page 12: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

L’hybridation• Séchage des cibles et reprise dans un tampon

d’hybridation

• Volume d’hybridation : 3 à 50 μl (entre lame et lamelle) attention à l’évaporation ! à répartir sur l’ensemble de la surface de la puce

• Température d’hybridation45 65°C– + la température ↑, + le signal d’hybridation ↓– + la température ↓, + l’hybridation aspécifique ↑

• Temps d’hybridation1h 12h

dans une chambre d’hybridation

Page 13: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Le lavage

• Après hybridation, lavage de la lame, pour éviter – L’adsorption de fluorescence sur le support

– Les hybridations aspécifiques

• Conditions de lavage :– Dans des solutions de plus en plus stringentes

• Evaluation de la qualité du lavage (et de l’hybridation)– Témoins positifs et négatifs

– Répartition aléatoire sur la lame

vérification : pas d’effet de localisation, de bord

Page 14: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Acquisition des images

Extraction des données

Excitation

Amplification du signal (PMT)

Émission

Laser 1 Laser 2

Fluorescence verte

Fluorescence rouge

(Ech 1) (Ech 2)

Page 15: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Acquisition des imagesEtat excité

Etat stable

Spectre d’excitation&

Spectre d’émission

Page 16: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Choix des fluorochromes

Fluorescence verte

Fluorescence rouge

Page 17: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

« Vrais » images et images d’« interprétation »

Page 18: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Pas si simple…

Page 19: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Pas si simple…

Queues de comètes Bavures

Mauvais blocage du processus pendant la phase d’hybridation

Sondes/Cibles

Spotting ? Lavage ?

Page 20: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Pas si simple……etc

Page 21: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Différences avec les puces radioactives

• Marquage radioactif (!)• Une seule condition expérimentale• Le support est une membrane• Maximum : 2400 dépôts par

membrane (on les appelle parfois les macroarrays)

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

Page 22: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Extraction des données à partir de l’image

1. Adressage – Localisation

2. Segmentation

3. Extraction de l’information (pour chaque spot)

- signal d’intérêt

- bruit local (autour de chaque spot)

- morphologie (surface, périmètre…)

Page 23: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Méthodes de segmentation

Cercles fixes

Page 24: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Méthodes de segmentation

Cercles fixes / rotation & distorsions !

Cercles fixes / variabilité du spot

GenePix Pro 4.0

Page 25: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Méthodes de segmentation

Cercles adaptables :

modifier position du cercle

modifier la taille du cerle

Page 26: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Méthodes de segmentation

Dérivée seconde

Détection de contours

Page 27: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Méthodes de segmentation

Détection de contours vs cercles fixes

Page 28: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Méthodes de segmentation

Adams R et Bishof 1994

http://www.ch.embnet.org/…..

Détection de régions (graines ou agrégation de pixels)

Page 29: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Méthodes de segmentation

Détection de régions : seuillage (ou histogrammes)

Détection de régions (Watershed Function) Morphologie mathématique

Page 30: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Mesure du bruit de fond

Page 31: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Quelques chiffresDiamètre des spots : 100-600 µmCapacité totale : 30000 spots / lame ; 2-10 ng ac.nucl./spotDistance entre les spots : 100 µm – 600 µm

Durée de conservation : 9 moisConditions optimum de conservation : 2 – 8 °CDurée totale de préparation : 3 joursPréparation d’un échantillon : 2 joursHybridation : 16 heuresLavage : 1 heureScan : 5 - 15 minutes

Page 32: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Normalisation de biopuces : pourquoi ?

«Traitement visant à ajuster les données selon les effets des variations dues à la technologie plutôt qu’à des différences biologiques » Yang et al. 2002

Page 33: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Normalisation de biopuces : pourquoi ?

Page 34: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Normalisation de biopuces : pourquoi ?

QuickTime™ et undécompresseur TIFF (LZW)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (LZW)

sont requis pour visionner cette image.

Effet microplaque (ou aiguille)

Page 35: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Normalisation de biopuces : pourquoi ?

Page 36: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Normalisation de biopuces : pourquoi ?

Après normalisation qui tient compte de la variabilité due aux différentes aiguilles du « spotter ».

Rmq : la normalisation inter-lames observe le même principe

Page 37: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Analyse de données

• Identification de gènes DE– Fold change– Tests statistiques

• Identification de gènes DE (plus de 2 conditions)

• Répétitions (quel type, combien ?)

Page 38: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Fold change

• Avantage : sens pour un biologiste• Fold Change =expression value sample 1/ expression value

sample 2

• Décision :– Quel seuil ?– Même pour tous les gènes

• Inconvénients– Seulement les valeurs moy, sans tenir compte de la

variabilité sont considérées– Les gènes ayant une expression très variable, ont plus de

chance de dépasser le seuil aléatoirement

Page 39: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Tests à un facteur

Page 40: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Tests à un facteur

• Paramétriques– Condition de normalité

Transormation Log

=> Transformer les données !

Page 41: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Tests à un facteur

• Tests non paramétriques– Ne supposent pas la normalité– Ne supposent pas l’homoscédasticité– L’utilisation des rangs à la place des

valeurs d’intensité :• Diminue l’effet des outliers• Ne sont pas affectés par la log-transformation

– Pas recommandés si les échantillons ont peu de répétitions

Page 42: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Volcano plot• Combine les p-values et fold

changes• Qu’est-ce qui est

biologiquement important ?– La significativité des

différences– Leur valeur

• Quels seuils ?– Combien veut-on identifier de

gènes ?– Où sont les contrôles ?

• Le t-test modéré fait quelque-chose de similaire

Page 43: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Quel seuil de p-value choisir ?• Dépend du type d’erreur

– Type 1• Faux positifs

• => identifie des gènes différentiellement exprimés alors qu’ils ne le sont pas

– Type 2• Faux négatifs

• => ne détecte pas certains gènes pourtant différentiellement exprimés dans la réalité

Page 44: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Correction des tests multiples

• Le problème…– Ho = l’expression moyenne du gène X est la même pour

toutes les populations comparées– Identification des gènes DE : autant de tests à faire que de

gènes considérés– Nombre moyen de faux positifs : G.

• Exemple– G = 25000 gènes = 0.05

=> G. = 1250 faux positifs…

Page 45: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Correction des tests multiples

• Méthodes de correction des p-values– Correction FWER (Family-Wise Error Rate)

• FWER = proba- d’obtenir au moins 1 faux positif• Méthodes utilisées :

– Bonferroni– Bonferroni step-down (Holm)– Westfall and Young permutation

– Correction FDR (False Discovery Rate)• FDR = taux attendu de faux positifs• Méthode utilisée

– Benjamini et Hochberg

Page 46: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Lequel utiliser ?

• FWER: ne tolère pas de faux positifs (Ho est difficilement rejeté) => procédure très conservative

• FDR : moins conservatif, on estime le pourcentage de FP parmi les gènes « appelés »

• Aucun : le pourcentage de FP est estimé sur l’ensemble des gènes testés

Page 47: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Tests bi-facteurs

• ANOVA– Comme un t-test avec + de deux conditions– Mesure les effets de différents facteurs ainsi que leurs

interactions– ANOVA 2

• Test deux facteurs

• 3 tests– Temps– Traitement– Interaction entre les 2 (additif ? Multiplicatif ?)

Page 48: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Importance des répétitions

QuickTime™ et undécompresseur TIFF (LZW)

sont requis pour visionner cette image.

Page 49: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Classification

• But :Regrouper une collection d’objets de façon à

ce que les objets d’une partition soient plus liés entre eux qu’avec les objets d’une autre partition

• Analyse discriminante (classification supervisée) : les classes sont définies

• Classification (non-supervisée) : on ne connaît pas les classes

Page 50: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Classification

• Exemples :– Traitement/contrôle, malade/normal,

thérapie efficace/sans succès,…– Si on a des informations sur la façon de

classer les échantillons, elles devraient être intégrées dans la méthode

Page 51: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Les données

Genes(thousands)

Experimental conditions (from tens up to no more than a few houndreds)

A B C

Expression profile of a gene across the experimental conditions

Expression profile of all the genes for a experimental condition (array)

Different classes of experimental conditions, e.g. Cancer types, tissues, drug treatments, time survival, etc.

• La plupart des gènes sont non-informatifs pour le trait étudier

• Le nombre de variables est plus important (plusieurs ordres de magnitude) que le nombre d’expériences

Caractéristiques

Page 52: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Classification : corrélations et distances

• Corrélations :– Pearson : corrélation entre les valeurs– Sperman : corrélation de rangs (réduit l’effet des variations

extrèmes)=> Prend en compte les tendances

• Spearman confidence (mesure de similarité) = 1 - p-value

• Distance euclidienne => différences entre coordonnées

• Distance de manhattan (somme des différences absolues pour toutes les coordonnées du vecteur) => plus robuste

Page 53: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Classification hiérarchique

• Arbre des gènes

• Arbre des conditions

Exemple : UPGMA

Alizadeh et al., Nature 2000

Page 54: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Classification non-hiérarchique

• K-means : minimisation de la variance intra-classe (le nombre de classes est une instance)

• ACP : rotation de la base maximisant les variances

• SOM (Self Organising Maps)

Page 55: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Classification supervisée = « class prediction »

• Quelques méthodes:– Bayes– Analyse discriminante linéaire– Les k plus proches voisins (k-NN)– Les arbres de classification (CART)

Page 56: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Autre type de puce analysant le transcriptome

• Puces à exons :

Analyse de l’épissage

Page 57: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Principe du CGH

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Page 58: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Analyse des puces CGH

Page 59: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Objectifs de l’étude statistiques

Page 60: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Analyse de polymorphisme

• Les Single Nucleotide Polymorphims (S.N.P) désignent des variations d'une seule paire de base du génome, entre individus d'une même espèce (e.g. 1/1000 paire de bases dans le génome humain).

• On parlera de formes alléliques synonymes dans le cas où plusieurs formes d'un SNP mènent à la même séquence polypeptidique, et de formes non-synonymes dans le cas où les séquences produites diffèrent.

• Les SNP qui se retrouvent dans des régions non-codantes peuvent avoir des conséquences sur l'épissage, les facteurs de transcription, ou sur les séquences d'ARN non-codant

Page 61: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Une séquence d'ADN contenant un site SNP. Les allèles A et G sont illustrés.

Une région chromosomique où seuls les SNP sont montrés. Trois haplotypes sont illustrés. Les deux SNP colorés suffisent à identifier (marquer) chacun des haplotypes. Par exemple, si les deux sites SNP marqueurs du chromosome portent les allèles A et T, on peut déduire qu'il s'agit du premier haplotype.

Les SNP

Page 62: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

Puces SNP

• Exemple : Affymetrix Genome-Wide Human SNP Array 6.01.8 million markers for genetic variation

• 900 000 single nucleotide polymorphisms (SNPs)

• 946,000 probes for the detection of copy number variation

Page 63: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome

ChIP-on-Chip (étude des points de contacts entre une protéine et tout le génome)

Page 64: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome 64

Problématique biologique du TP• Buchnera est une bactérie symbiotique intracellulaire associée à la

majorité des pucerons. L’association est très ancienne (250 Ma). Les partenaires sont devenus dépendants.

• Buchnera possède un génome de taille très réduite (400 à 600 kb), très riche en bases A et T et incluant de nombreuses mutations délétères

(adaptatives ?). -> Bon modèle d’étude à un niveau théorique (simple)-> très difficile à manipuler expérimentalement (incultivable)

• Le génome de Buchnera est « dégénéré »-> Comment Buchnera régule-t-elle l’expression des ces gènes ?-> Comment Buchnera s’adapte-t-elle aux variations des besoins

nutritionnels de l’hôte ?

Page 65: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome 65

La puce Buchnera

aiguille1

aiguille2

aiguille3

aiguille4

= =

bloc (12 x 16)

Contrôles (+ et -)

Doublets de spotsOligo 5’

Oligo 3’

3ème oligo

Superposition des 2 images (R et G)

Page 66: Transcriptome Introduction aux biopuces et à lanalyse du transcriptome Emmanuel Prestat

Transcriptome 66

• Approche comparative (non cinétique)

– Expérience Naas (16 lames) :

Milieu équilibré Milieu déséquilibré

en AA en AA

riche en saccharose A B

pauvre en sacharose C D

2 répétitions indépendantes de 8 lames :

A/B, B/C, C/D, D/A, A/C, B/D, D/B, C/A

A B

CD

-> Les données ont été acquises par N. Reymond (expérience naas.tri analysée en TP)

Plan expérimental du TP