alexis dereeper

19
Alexis Dereeper Formation Bio-informatique Apimet 2013 Recherche et analyse de polymorphismes SNP

Upload: baina

Post on 30-Jan-2016

36 views

Category:

Documents


0 download

DESCRIPTION

Recherche et analyse de polymorphismes SNP. Alexis Dereeper. Formation Bio-informatique Apimet 2013. But du TP. Variations alléliques. A/G 1998 T/C 2341 T/G. Liste de SNP. Ind1 ATTGTGTCG T AACGTATGTCATGTCGT Ind2 ATTGTGTCG G AACGTATGTCATGTCGT Ind3 ATTGTGTCG K AACGTATGTCATGTCGT. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Alexis Dereeper

Alexis Dereeper Formation Bio-informatique Apimet 2013

Recherche et analysede polymorphismes SNP

Page 2: Alexis Dereeper

• Connaître et manipuler des packages/outils disponibles pour la recherche de SNP et INDEL à partir de données NGS (assemblage de données NGS)

• Réfléchir sur les difficultés rencontrées liées aux nouvelles technologies de séquençage(différencier erreur de séquençage, paralogues et variation allélique)

• Détecter les SNP et pouvoir affecter les génotypes aux différentes positions polymorphes

• Exploiter simplement les données de polymorphismes via une application Web(diversité génétique, DL)

• Obtenir un jeu de données exploitables à envoyer pour le design d’une puce SNP haut-débit(technologie Illumina VeraCode)

Short reads Solexa

Mapping SAM

Exploitation des données de polymorphismes

Design de puces Illumina

Assignation des génotypes

Ind1 ATTGTGTCGTAACGTATGTCATGTCGTInd2 ATTGTGTCGGAACGTATGTCATGTCGTInd3 ATTGTGTCGKAACGTATGTCATGTCGT

Variations alléliques

Liste de SNP1

A/G1998

T/C2341

T/G

But du TP

Page 3: Alexis Dereeper

Alexis Dereeper

Tablet

• Outil graphique de visualisation d’assemblage de données NGS

• Accepte différents formats:ACE, SAM, BAM

Formation Bio-informatique Apimet 2013

Page 4: Alexis Dereeper

Alexis Dereeper

GATK (Genome Analysis ToolKit)

• Librairie logicielle pour l'analyse de données NGS.

• Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas)

• Inclut des outils d'analyse de profondeur, recalibrateur de score de qualité, détection de SNP/InDel

• Complémentaire des 2 autres packages: SamTools, PicardTools

PREPROCESS:

* Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores

FOR EACH SAMPLE:

1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer)

Formation Bio-informatique Apimet 2013

Page 5: Alexis Dereeper

Alexis Dereeper

Détection automatique de SNP à partir d’assemblage SAM

SAM assembly

FastQ Groomer

Mapping BWA GATK

PicardTools

FastqExemple de chaine de traitement réalisable avec Galaxy SouthGreen:

IndelRealigner

UnifiedGenotyper

VCF file

Formation Bio-informatique Apimet 2013

DepthOfCoverage

Add or Replace Groups

BAM assembly including ReadGroups

Depth file

Page 6: Alexis Dereeper

Global BAM with read group

FastQ Groomer

Mapping BWA

IndelRealigner

UnifiedGenotyper

VCF file

Fastq (RC1)

BAM with read group

FastQ Groomer

Mapping BWA

Fastq (RC2)

BAM with read group

FastQ Groomer

Mapping BWA

Fastq (RC3)

BAM with read group

FastQ Groomer

Mapping BWA

Fastq (RC4)

BAM with read group

….

mergeSam

Add or Replace GroupsAdd or Replace Groups Add or Replace Groups Add or Replace Groups

DepthOfCoverage

Depth file

Page 7: Alexis Dereeper

Alexis Dereeper

Format VCF (Variant Call Format)

##fileformat=VCFv4.0##fileDate=20090805##source=myImputationProgramV3.1##reference=1000GenomesPilot-NCBI36##phasing=partial##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">##FILTER=<ID=q10,Description="Quality below 10">##FILTER=<ID=s50,Description="Less than 50% of samples have data">##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,5120 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3

Avantages: description des variations pour chaque position + assignation aux génotypes

Formation Bio-informatique Apimet 2013

Page 8: Alexis Dereeper

Global BAM with read group

FastQ Groomer

Mapping BWA

IndelRealigner

UnifiedGenotyper

VCF file

Fastq (RC1)

BAM with read group

FastQ Groomer

Mapping BWA

Fastq (RC2)

BAM with read group

FastQ Groomer

Mapping BWA

Fastq (RC3)

BAM with read group

FastQ Groomer

Mapping BWA

Fastq (RC4)

BAM with read group

….

mergeSam

Add or Replace GroupsAdd or Replace Groups Add or Replace Groups Add or Replace Groups

DepthOfCoverage

Depth fileReadBackedPhasing

VariantFiltration

Phased VCF

Filtered VCF

Page 9: Alexis Dereeper

Alexis Dereeper

Autres fonctionalités GATK• Module DepthOfCoverage:Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et chaque individu

• Module ReadBackedPhasing:Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype) quand il y a hétérozygotie…

Et non AGGGGA

Formation Bio-informatique Apimet 2013

Page 10: Alexis Dereeper

Alexis Dereeper

SNiPlay: application Web pour l’analyse du polymorphisme

http://sniplay.cirad.fr

Formation Bio-informatique Apimet 2013

Page 11: Alexis Dereeper

Global BAM with read group

FastQ Groomer

Mapping BWA

IndelRealigner

UnifiedGenotyper

VCF file

Fastq (RC1)

BAM with read group

FastQ Groomer

Mapping BWA

Fastq (RC2)

BAM with read group

FastQ Groomer

Mapping BWA

Fastq (RC3)

BAM with read group

FastQ Groomer

Mapping BWA

Fastq (RC4)

BAM with read group

….

mergeSam

Add or Replace GroupsAdd or Replace Groups Add or Replace Groups Add or Replace Groups

DepthOfCoverage

Depth file

Page 12: Alexis Dereeper

Options de SNiPlay

Cocher format VCF

Charger fichier VCFCharger référence

Sélectionner génome du Riz

Charger fichier de profondeur

Page 13: Alexis Dereeper

Alexis Dereeper

Coordonnées cartésiennes

Fichier de génotypage

Fichier de soumission pour Illumina

Analyse avec le logiciel BeadStudio

Design de puces Illumina

Formation Bio-informatique Apimet 2013

Page 14: Alexis Dereeper

Alexis Dereeper

Individu, groupInd1, TableInd2, TableInd3, TableInd4, EastInd5, EastInd6, EastInd7, EastInd8, West

External file (optional)

Partage d’allèles entre groupes

Formation Bio-informatique Apimet 2013

Page 15: Alexis Dereeper

Alexis Dereeper

Annotation des SNPs

Formation Bio-informatique Apimet 2013

Page 16: Alexis Dereeper

Alexis Dereeper

Annotation des SNPs

Formation Bio-informatique Apimet 2013

Page 17: Alexis Dereeper

Alexis Dereeper

@DARwin 5.0 - ALLELIC - 233 20N° 50 50 122 122 218 218 245 245 261 261 290 290 3561 1 1 1 1 3 3 3 3 4 4 2 2 22 1 1 1 1 3 3 1 3 4 4 2 2 23 1 1 1 1 3 3 3 3 4 4 2 2 24 1 1 1 1 3 3 3 3 4 4 2 2 2

3310P 49 121 217 244 260 289SSSSSSSSSS#cARBA A G G T C C A T TA A G G T C C A T T#cSYRA A G A T C C A T CA A G G T C C A T T

• Format PED

• Format DARwin

• Format .inp pour Phase • Format pour TASSEL (génétique d’association)

cARB 1 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4cSYR 2 0 0 1 0 1 1 1 1 3 3 1 3 4 4 2 2 2 2 1 1 4 4 2 4cARA 3 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4

33 10:250 122 218 245 261 290 356 461 467 560cARB A:A A:A G:G G:G T:T C:C C:C A:A T:T T:TcSYR A:A A:A G:G A:G T:T C:C C:C A:A T:T C:TcARA A:A A:A G:G G:G T:T C:C C:C A:A T:T T:TcORL A:A A:A G:G G:G T:T C:C C:C A:A T:T T:TcLAR A:G A:G A:G A:G C:T C:C C:C A:A T:T C:T

Fichiers alléliques

Formation Bio-informatique Apimet 2013

Page 18: Alexis Dereeper

Librairie SeqLib

Analyse de diversité

Page 19: Alexis Dereeper

Alexis Dereeper

Réseaux d’haplotypes

Haplotypes fréquents

Haplotype peufréquent

Distribution des groupesAu sein de cet haplotype

Distance séparant les 2 haplotypes (nb de mutations)

Formation Bio-informatique Apimet 2013