atelier epigénétique université pierre et marie...

Post on 12-Feb-2020

8 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Stéphane Le Crom (stephane.le_crom@upmc.fr)

Laboratoire de Biologie du Développement (UPMC) Plateforme Génomique de la Montagne Sainte Geneviève

Atelier Epigénétique Université Pierre et Marie Curie

Le séquençage à haut débit Juin 2012

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Le séquençage par la méthode Sanger

• Méthode par synthèse enzymatique inventée en 1977 par Frédérick Sanger (Angleterre, nobel de Chimie 1980).

• Initiation de la polymérisation de l’ADN à l'aide d'une amorce complémentaire.

• Élongation de l’amorce par des ADN polymérases thermostables (PCR).

• Addition des quatre désoxyribonucléotides (dATP, dCTP, dGTP, dTTP) et d’une faible concentration de l'un des quatre didésoxynucléotides (ddATP, ddCTP, ddGTP ou ddTTP).

• Ces ddNTP une fois incorporés dans le nouveau brin synthétisé, empêchent la poursuite de l’élongation. La terminaison se fait de manière statistique sur toutes les positions possibles.

D’après The Scientist

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Lecture de la séquence

• On obtient un mélange de fragments d’ADN de tailles croissantes qui se terminent tous au niveau d'une des bases dans la séquence.

• Ces fragments sont séparés par électrophorèse sur gel de polyacrylamide.

• La détection des fragments synthétisés se fait en incorporant un traceur dans l'ADN synthétisé.

• Initialement ce traceur était radioactif, attachés soit à l'oligonucléotide, soit au didésoxyribonucléotide.

• Environ 1 kb d’ADN par lecture en 6-8 heures. Une lecture par échantillon.

A C G T Du plus grand

Au plus petit

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les séquenceurs à capillaires

• Les séquenceurs capillaires sont apparus dans les années 90 grâce au remplacement du marqueur radioactif par un marqueur fluorescent.

• Utilisation des tubes capillaires de verre de seulement quelques microns de diamètre, sur plusieurs dizaines de centimètres de longueur (30 à 50 cm), pour séparer l'ADN durant l'électrophorèse.

• Les quatre nucléotides passent dans le même tube capillaire à l’aide de quatre marqueurs fluorescents différents.

• 300 kb d’ADN par lecture en 3 heures. Un grand nombre d’échantillons en parallèle.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les nouvelles méthodes de séquençage à haut débit

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Historique des technologies en présence

• Principe : obtention de séquences courtes en très grand nombre.

• Roche : 454 GS FLX

• Illumina/Solexa : Genome Analyzer

• Applied Biosystems : SOLiD

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie 454 (préparation)

• Fractionnement aléatoire de l’ADN de l’échantillon à analyser en morceaux de 300 à 800 pb pour obtenir une banque d’ADN simple brin matrice.

• Préparation en ajoutant des adaptateurs spécifiques des extrémités 3' et 5’.

• Immobilisation de chaque brin sur une bille. Un fragment d’ADN = une bille.

• Émulsion des billes avec les produits d’amplification dans un mélange eau-huile. Création de microréacteurs contenant une seule bille.

• PCR en émulsion. Amplification de chaque séquence dans son microréacteur. Amplification de toute la banque en parallèle. Plusieurs millions de copies par bille.

Mardis (2008) Trends Genet.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie 454 (séquençage)

• Purification et chargement des fragments sur plaque. Le diamètre des puits ne permet qu’une seule bille à la fois.

• Ajout des enzymes de séquençage et envoi des nucléotides individuels les uns après les autres.

• Les bases complémentaires du brin matrice s’ajoutent une ou plusieurs à la fois.

• Le signal chimie luminescent est enregistré par une caméra CCD.

• Séquençage par synthèse avec émission de lumière, on parle de pyroséquençage.

Mardis (2008) Trends Genet.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie 454 (lecture)

• La lecture est effectuée en simultanée sur plusieurs bases incorporées. Le « flowgram » est alors lu pour obtenir la séquence.

• On obtient : - 400 000 lectures ; - chacune de 250 bases ; - 100 Mb par run.

• Les erreurs majeures de séquences proviennent avec cette méthode des homopolymères.

http://www.454.com/

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie Illumina/Solexa (préparation)

• Génération d’une banque d’ADN double brin à partir de l’échantillon à analyser par fractionnement aléatoire en morceaux de 200 pb.

• Ajout d’adaptateurs spécifiques aux extrémités.

• Dénaturation de l’ADN en simple brin.

• Fixation de l’extrémité des simples brins aléatoirement à la surface du « flowcell ».

• PCR « bridge » en phase solide. Création d’un double brin. Dénaturation et création de groupes (clusters) denses où les fragments sont amplifiés.

http://www.illumina.com/

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie Illumina/Solexa (séquençage)

• Le premier cycle de séquençage commence en ajoutant les 4 terminateurs réversibles marqués, les amorces et l’ADN polymérase.

• Après excitation par un laser, la fluorescence émise par chaque cluster est récupérée et la première base est lue.

• Le cycle suivant continue en ajoutant les 4 terminateurs réversibles marqués.

• Après excitation l’image est acquise de la même façon et la deuxième base est lue.

• Les cycles de séquences sont répétés pour lire chaque base les unes après les autres.

http://www.illumina.com/

Vidéo présentation Illumina/Solexa

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie Illumina/Solexa (lecture)

• La lecture est effectuée à chaque position sur toutes les séquences en parallèle.

• On obtient : - 45 000 000 de lectures ; - chacune de 36 bases ; - 1 Gb par run.

• Les erreurs majeures de séquences proviennent d’erreur de séquençage (99%)

http://www.illumina.com/

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie SOLiD (préparation)

• Fabrication de deux types de banque : classique ou « mate-paired ».

• Ajout d’adaptateurs.

• PCR par émulsion comme dans la méthode 454.

• Enrichissement des billes amplifiées.

• Modification en 3’ pour permettre la fixation covalente sur une lame.

• Dépôts des billes sur la lame qui peut-être séparée en chambres.

http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiDSystemSequencing/

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie SOLiD (séquençage)

• Séquençage par ligation.

• Des amorces s’hybrident sur les adaptateurs présents sur la matrice.

• Un jeu de 4 sondes de 2 bases marquées en fluorescence sont associées aux amorces.

• La spécificité des sondes de 2 bases s’effectue avec les 1ère et 2nd bases de chaque réaction de ligation.

• Plusieurs cycles de ligation, détection et clivages sont effectués.

• Les produits d’extension sont retirés et une nouvelle amorce complémentaire de la positon n-1 est utilisée pour un second tour de ligations.

http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiDSystemSequencing/

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie SOLiD (séquençage)

• Cinq tours de remise à zéro des amorces sont effectués pour chaque séquence.

• À chaque nouvelle mise à jour le primer utilisé interroge la position n-1.

• Dans ce processus chaque base est interrogée dans deux réactions de ligation indépendantes par deux différentes amorces.

• Par exemple la base en position 5 est mesurée par l’amorce 2 dans le cycle de ligation 2 et par l’amorce 3 dans le cycle de ligation 1.

http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiDSystemSequencing/

Vidéo présentation SOLiD

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie SOLiD (séquençage)

• Le codage des résultats est effectué sur 2 bases dans un espace de 4 couleurs.

• La lecture des séquences est effectuée dans un espace de couleur.

• À partir du moment où l’on connaît la première base, la conversion de l’espace des couleurs vers celui des bases est possible.

• La séquence de référence est codée dans l’espace de couleur. L’alignement et la séquence consensus sont aussi effectués dans cet espace.

http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiDSystemSequencing/

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie SOLiD (lecture)

• Le système de codage de la lecture sur deux bases permet une très grande fidélité de la lecture des résultats.

• Avec ce système on peut faire la différence entre les erreurs de séquençages et les variants réels (SNP, insertions et délétions).

• On obtient : - 80 000 000 de lectures ; - chacune de 30 bases ; - 3 Gb par run.

• Le système de codage dans l’espace de couleur rend l’analyse informatique relativement complexe.

Mardis (2008) Trends Genet.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Comparaison des différentes technologies

Mardis (2008) Trends Genet. Et http://www.agencourt.com/services/nextgen/

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les améliorations actuelles

• Augmentation de la densité des éléments (puits, clusters, billes).

• Amélioration des logiciels de détections.

• Utilisation du système « paired-end tags » (PET) ou « mate-pair ».

Fullwood (2009) Genome Res.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les séquences Paired-End

• Détection des associations à plus longue distance.

• Facilite la détection des évènements de transcription.

• Dans le cas des analyses génomiques, les séquences Paired-End permettent de trouver les variants structuraux et de passer pas dessus les régions répétées des génomes.

Ozsolak & Milos (2009) Nat. Rev. Genet.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Comparaison des derniers modèles

454 GS FLX SOLiD 5500XL HiSeq 2000 Run Time 10 heures 10 jours 8 jours

Taille des lectures (pb) 1000 2x 75 2x 100

Nombre de lectures 1 106 1,4 109 3 109

Données générées 1 Gb 300 Gb 600 Gb

Débit 1 Gb/jour 30 Gb/jour 75 Gb/jour

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

L’évolution des technologies de séquençage

Stratton (2009) Nature

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

L’évolution des technologies de séquençage

Stratton (2009) Nature

109

1010

108

107

106

105

104

103

Coû

t du

séqu

ença

ge d

u gé

nom

e hu

mai

n (e

n $)

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La troisième génération

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Le séquençage en temps réel

• Technologie de séquençage en temps réel sur molécule unique grâce à l’immobilisation au fond d’un puits d’une molécule d’ADN polymérase.

• L’incorporation de chaque base associée à un fluorochrome est mesuré en temps réel grâce à une caméra CDD placée sous la plaque support.

Eid (2009) Science

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Pacific Biosciences

Vidéo de présentation de Pacific Biosciences http://www.pacificbiosciences.com/

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La technologie nanopore

• Un système nanopore permet la détection de molécules uniques en faisant passer des molécules en solution à travers un pore à l’échelle nanométrique.

Branton (2008) Nat. Biotech.

• Le système facilite l’analyse d’une molécule d’ADN à haut débit en analysant les bases qui le compose les unes après les autres.

• La détection s’effectue à l’échelle du kilobase. Plusieurs types de molécules peuvent être détectées (ADN ou ARN) avec ce système sans amplification.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les applications

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Elles recouvrent les techniques précédentes

Kahvejian et al. (2008) Nat. Biotech.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Elles peuvent se regrouper en 2 catégories

Rothberg et Leamon (2008) Nat. Biotech.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Le séquençage de novo

• Les nouvelles technologies permettent de séquencer plus vite et pour moins cher qu’avec la méthode de Sanger.

• Seulement les lectures sont plus petites et chaque méthode à ses propres limites.

• La combinaison de plusieurs méthodes différentes permet pour de petits génomes d’obtenir des brouillons de bonne qualité.

=> Combinaison 454 et Illumina.

• Taux d’erreur faible et couverture uniforme car absence des biais introduits par le clonage dans la méthode Sanger.

• Les erreurs sont différentes entre les deux méthodes.

Aury et al. (2008) BMC Genomics

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les applications de reséquençage

• Leurs buts : analyser différents génomes en les comparant à une souche de référence.

• Recherche de polymorphismes dans une population, d’identification de mutations en biotechnologie, d’analyse d’évolution d’organismes, de différenciation d’une cellule au cours du temps, de la découverte d’ADN anciens …

• Métagénomique : caractériser les différents génomes présents dans un échantillon.

• Le champs des applications de cette approche est important : caractériser les micro-organismes pathogènes présents chez un patient (sang, tissus, …), définir l’ensemble des espèces présents dans l’environnement (écologie, dépollution, …), comprendre l’évolution des espèces, …

http://www.jgi.doe.gov/News/lake_washington_microbes.jpg

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les applications fonctionnelles

Wold et al. (2008) Nat. Methods

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Les nouvelles technologies de séquençage • Avantages

• Pas de sous-clonage ni d’utilisation de bactérie comme hôte :

- plus de biais ; - banques plus simples.

• Chaque séquence provient d’une molécule d’ADN unique :

- quantification ; - gamme dynamique plus grande.

• Résolution importante pour un très grand nombre de types d’expériences différentes.

• Amélioration considérable dans la vitesse et dans le coût comparé à la méthode de Sanger.

• Inconvénients

• Les séquences obtenues sont plus courtes :

- par rapport à Sanger ; - paramètres du « base calling » ; - analyses bioinfo à repenser.

• La quantité de données générées pose de vrai problème d’informatique :

- plusieurs To par run ; - utilisation de temps CPU ; - Choisir ce qui doit être archivé.

• La technologie évolue sans cesse ce qui pose des problèmes pour l’amortissement des appareils.

• La fabrication des banques n’est pas une étape si simple.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Le traitement informatique

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

L’analyse des données

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Stockage des lectures : le format fastq

• Format de fichier texte qui stocke les séquences des lectures ainsi que leur qualité.

• Stockage sur 4 lignes

1. @ Identifiant de la séquence

2. Séquence brute

3. + Identifiant (optionnel)

4. Qualité de la séquence

http://en.wikipedia.org/wiki/FASTQ_format

@HWI-EAS285:1:1:35:1578#0/1!GCGGTATCCTNGTCTAAGAATCCGGTAAGNTNTATC!+HWI-EAS285:1:1:35:1578#0/1!a`a`Z\a`aaB^\^a`]Z^_`^[]TUS\QBaB[^__!@HWI-EAS285:1:1:35:195#0/1!GCCAGAGCGGNGAGGGCAAGGGCAACAAANGNGGGC!+HWI-EAS285:1:1:35:195#0/1!aaaa`_X`[QB`a`[aa`\`YMXaa_UBBBBBBBBB!@HWI-EAS285:1:1:35:1320#0/1!CGAATACGAGNCACACACATACCGCACTTCTTCCCA!+HWI-EAS285:1:1:35:1320#0/1!ab^]aaab\aBaaaa_aaaaaa`aa```__`____a!@HWI-EAS285:1:1:35:1010#0/1!CTTTGAAAAAATTAGAGTGCTCAAGTCAGGCCTATG!+HWI-EAS285:1:1:35:1010#0/1!aabb\^^\^`aaaa[`P]P]_``aWVa^NRa_``_S!

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Stockage des alignements : le format SAM

• Les résultats de l’alignement des lectures sur le génome de référence est stocké dans un fichier de type texte au format SAM (Sequence Alignment/Map).

http://samtools.sourceforge.net/

• Format de gestion des alignements générique (plus que le fastq).

• Supporte différentes plateformes de séquençage et différentes tailles de lecture.

• Des lignes d’en-têtes peuvent être ajoutées pour décrire les données et les traitements effectués. Elles commencent par @.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

La baisse des coûts du séquençage =

Le début de la génomique « personnelle »

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Le séquençage des génomes individuels

Wheeler et al. (2008) Nature

• Encore plus rapide avec les nouveaux séquenceurs

• Premier génome humain séquencer avec les nouvelles méthodes à haut débit.

• Génome de James Watson.

• Navigateur génomique public et accessible à tous.

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Applications disponibles

• Séquençage de transcriptome entier : RNA-Seq

• Matériel de départ : ARN total • Contrôle qualité des échantillons d’ARN • Préparation des banques

-  Illumina TruSeq, purification polyA - 1 µg (min 500 ng) -  ou Epicentre ScriptSeq (directionnel), déplétion ribosomique - 2 µg (min 1 µg)

+ amplification des ARN (pour les faibles quantités de matériel de départ) -  NuGEN Ovation system - 10 ng (min 500 pg)

• Chromatine IP et séquençage : ChIP-Seq

• Matériel de départ : ADN immunoprécipité et fragmenté (< 500 bp) • Contrôle qualité des échantillons d’ADN • Préparation des banques

-  NEXTflex (Bioo Scientific) - 30 ng (min 10 ng)

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Séquençage

• Contrôle qualité et normalisation des banques

• Séquençage -  Lectures simples de 50 bases -  ou lectures associées (Paired-End) de 2x100 bases -  Multiplexage des banques (2-4 échantillons / ligne)

• Spécifications des derniers runs (SR 50 V3) -  1.3 109 lectures totales (passant les filtres illumina) -  168 106 (± 45 106) lectures par ligne en moyenne -  95% des lectures avec une qualité >Q30

(erreur de détection de base < 0.1%)

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Analyses bioinformatiques

• Analyses des données depuis les sorties brutes du séquenceur (fichiers fastq compressés en bzip2).

• Génération de rapports de qualité.

• Alignement des lectures sur un génome de référence.

• Création de fichiers BAM indexés et triés pour la visualisation dans un navigateur de génome (IGV).

+ RNA-Seq

-  Estimation de l’abondance des transcrits.

-  Analyse statistique (normalisation et expression différentielle).

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

Exemple de tarif • Protocole RNA-Seq non directionnel à partir d’ARN total.

• Toutes les étapes sont incluses jusqu’à la liste des gènes différentiellement exprimés.

Prix HT / échantillon Contrôle qualité des échantillons 8 €

Fabrication de la banque RNA-Seq 170 €

Contrôle et normalisation des banques 18 €

Séquençage Single Read 50 bases (multiplexage : 3 échantillons par ligne) 330 €

Analyse bioinformatique 90 €

Total 616 €

• Pour toute question, contactez nous :

sgdb@biologie.ens.fr

Montagne Sainte Geneviève Plateforme Génomique

http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012

top related