calkan tubitak-yazokulu
Post on 02-Jul-2015
270 Views
Preview:
DESCRIPTION
TRANSCRIPT
Yeni Nesil DNA Dizileme
Analizi
Can Alkan
Bilgisayar Mühendisliği Bölümü,
Bilkent Üniversitesi
Kavramlar
Gen: kalıtsal bilgiyi taşıyan, kromozomlar içinde bulunan
ve DNA’dan oluşan diziler.
Genetik: kalıtım ile geçen fenotiplerin incelenmesi
Genotip: bir organizmanın genetik yapısı
Fenotip: bir organizmanın fiziksel özelikleri
Genom: bir organizmadaki tüm kalıtsal bilgilerin tamamı
Genomiks: tüm genomun analizi (çoğu canlı için DNA,
retrovirüsler için RNA)
Trankriptom: tüm RNA moleküllerinin kümesi
Proteom: tüm protein moleküllerinin kümesi
Yaşam 3 moleküle dayalıdır
DNA ‘sabit disk’
Hücrenin nasıl çalıştığına dair bilgileri tutar
RNA ‘RAM’
Protein sentezi için şablon
Kısa bilgi parçalarını (DNA’dan) hücrenin değişik kısımlarına taşır
Protein ‘robot kolu, anakart bus, vs.’
Vücudun temel yapıtaşları
Diğer hücrelere sinyal yollayan ve gen aktivitesini düzenleyen
enzimleri oluşturur
Bilgisayar mühendisleri açısından bu moleküller üç
alfabeden üretilmiş karakter dizileridir
Alfabeler
DNA: (bazlar)
∑ = {A, C, G, T}
A ve T; G ve C eşleşir
RNA: (bazlar)
∑ = {A, C, G, U}
A ve U; G ve C eşleşir
Protein: (amino asitler)
∑ = {A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
B = N | D
Z = Q | E
X = herhangi
Baz çiftleşme kuralı: A ve T veya U 2 hidrojen bağı ile, and G ve C is
3 hidrojen bağı ile tutulur.
Not: Bazı RNA molekülleri RNA olarak kalır (örn tRNA,rRNA,
miRNA, snoRNA, vb.).
DNA pre-mRNA mRNA
protein
Splicing
Spliceosome
Translasyon
Transkripsiyon
Çekirdek
Ribozom
Biyolojinin temel dogması
Genom
Bir canlının tüm DNA’sındaki kalıtımsal
şifrelerin tamamı
İnsan genomu 6 milyar baz çiftinden oluşur, anne
ve babadan 3’er milyar baz çifti gelir
4 çeşit baz: adenin (A), sitozin (C), guanin (G),
timin (T)
Genom büyüklükleri
Organism Genom Uzunluğu
(Baz)
Tahmini gen
sayısı
İnsan (Homo sapiens) 3.2 milyar 25,000
Fare (M. musculus) 2.6 milyar 25,000
Hardal otu(A. thaliana) 100 milyon 18,000
Solucan (C. elegans) 97 milyon 16,000
Sirke sineği (D.
melanogaster)137 milyon 12,000
Maya (S. cerevisiae) 12.1 milyon 5,000
Bakteri (E. coli) 4.6 milyon 3,200
HIV 9700 9
Referans genomu
Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya,
Almanya, Fransa)
4 bireyden oluşturulan 3.2 milyar baz çiftlik “referans genomu” Son versiyon: “NCBI GRCh37” = “hg19”
http://genome.ucsc.edu
İnsan genomu “içeriği”
Genler (~%35; ama sadece %1’lik kısmı protein
kodlayan ekzonlar)
Pseudogenler: kodlama/anlatım özelliğini yitirmiş genler
Evrimsel kayıplar
“İşlenmiş” pseudogenler (processed pseudogenes)
Tekrarlar (~%50)
Mobil DNA (Transposable elements): kendi kendilerini kopyalayıp
yapıştırabilen DNA dizileri. Genelde virüs temelli.
Satelitler (short tandem repeats [STR]; variable number of
tandem repeats [VNTR]). 2-171 baz arasında ardışık tekrar eden
DNA dizileri
Büyük duplikasyonlar (Segmental duplications) (%5)
İçlerinde gen ve tekrarlar barındırabilirler
DNA dizisinin RNA’ya kopyalanabilen (transkripsiyon) kısımları
Düzenleyici bölgeler: 50 kb’ye kadar başlangıçtan önceki bölüm
Ekzon: protein kodlayan kısımlar
genlerde 1 - 178 ekzon (ortalama 8.8)
ekzon uzunluğu 8 – 17000 baz (ortalama145 baz)
Intron: ekzonlar arasında kalan kısım; translasyon öncesinde kesilir (splicing)
uzunluk 1 kb – 50 kb arası
Gen uzunluğu: en uzunu – 2.4 Mb (Dystrophin). Ortalama – 27 kb.
Gen
Genom - Gen
atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg
acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga
tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga
gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga
tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag
gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa
cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat
aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta
ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag
ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga
chr22:41,295,343-42,660,744
http://genome.ucsc.edu
İnsan genom çeşitliliği
1 bp 1 kromozom
Sık
lık
Tek Nükleotid Polimorfizm (TNP [SNP])
Kromozomal
(trizomi/monozomi)
Kopya Sayısı Varyasyonu (KSV [CNV])
ve Yapısal Varyasyon (YV [SV])
Değişken büyüklüğü
1 kbp 1 Mbp
Genetik farklılık türleri
Array-CGH
Karyotipleme
Yeni nesil dizileme
SNP genotipleme/Sanger dizileme
1 bpV
erim
lilik
1 kbp 1 Mbp
Değişken büyüklüğü
Nasıl bulunur?
1 kromozom
Tek nükleotidlik ve kısa değişimlerTNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklarKısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler
referans: C A C A G T G C G C - Tbirey: C A C C G T G - G C A T
substitüsyon silinme eklenme(TNP / SNP) (indel)
Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel
Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler
Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi)
Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS)
Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn:
hiperkolesterol)
Kısa tekrar (mikrosatelit) polimorfizmi
Adli tıpta ve babalık testlerinde kullanılır
Bazı hastalıklara yol açabilir:
Kırılgan X Sendromu (Fragile X Syndrome)
Huntington hastalığı
Tekrar eden ardışık tekrarlardaki değişim
referans: C A G C A G C A G C A Gbirey: C A G C A G C A G C A G C A G
Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME
(deletion) (novel sequence ins.) (transposon insertion)
Alu/L1/SVA
ARDARDA KOPYA AYRIŞIK KOPYA
(tandem duplication) (interspersed duplication)
İNVERSİYON TAŞINMA
(inversion) (translocation)
Kopya sayısı
Varyasyonu
(copy number
variation)
Dengeli
Varyasyon
(balanced
rearrangement)
Yapısal ve Kopya Sayısı Çeşitlilikleri
SilinmeÇevrilme (inversion)
Eklenme
‘Bireysel olarak ender, toplu
olarak yaygın’
Kişi başına yaklaşık 15-20
milyon baz çiftini etkiler
Çoğunun etkisi yok ya da
azdır, genlerin silinmesi ya da
kesintiye uğraması
durumunda hastalığa yol
açabilir:
Silinme: otizm, zeka geriliği,
Crohn hastalığı
Kopyalanma: şizofreni, sedef
hastalığı
Taşınma: CLL (lösemi)
Transpozon: hemofili
Kidd et al., Nature, 2008
Genomik farklılık keşif projeleri
Uluslararası HapMap Projesi
4 toplumdan 270 birey
İnsan Genomu Çeşitlilik Projesi (HGDP)
52 toplumdan 1050 birey
Dizileme projeleri:
1000 Genom Projesi
29 toplumdan 2500 birey (planlanan)
Analizi amamlanan: 14 toplumdan 1092 birey (Kasım
2012)
2500 birey dizilenmesi tamamlandı, analiz sürüyor
Bağımsız projeler:
Güney Afrika, Kore, Hindistan, Japonya, İngiltere, Suudi
Arabistan, İran, İrlanda, Hollanda, vs.
Genom dizileme maliyeti
$1,000
$10,000
$100,000
$1,000,000
$10,000,000
$100,000,00001
/09
/01
01
/12
/01
01
/03
/02
01
/06
/02
01
/09
/02
01
/12
/02
01
/03
/03
01
/06
/03
01
/09
/03
01
/12
/03
01
/03
/04
01
/06
/04
01
/09
/04
01
/12
/04
01
/03
/05
01
/06
/05
01
/09
/05
01
/12
/05
01
/03
/06
01
/06
/06
01
/09
/06
01
/12
/06
01
/03
/07
01
/06
/07
01
/09
/07
01
/12
/07
01
/03
/08
01
/06
/08
01
/09
/08
01
/12
/08
01
/03
/09
01
/06
/09
01
/09
/09
01
/12
/09
01
/03
/10
01
/06
/10
01
/09
/10
01
/12
/10
01
/03
/11
01
/06
/11
http://www.genome.gov/SequencingCosts/
Tarih
Maliy
et
Dizileme: eski ve yeni nesil
Cihaz Nesil YöntemDizi parça uzunlugu Hata oranı (%) Cihaz fiyatı ($)
Dizileme (Mb) maliyeti ($)
AB 3730xl 1 Sanger 1000 0.1 376,000 1,500
454 FLX 2 Sentez 700 1 500,000 7
Illumina HiSeq2000 2 Sentez 100 0.1 690,000 0.04
SOLiD 5500 2 Ligasyon 75 0.1 595,000 0.07
Pacific Biosciences 3 Sentez 1500 15 695,000 11
Ion Torrent 3 Sentez 200 1 50,000 0.95
Beklenen teknolojiler: Oxford Nanopore, Starlight, Halcyon, v.d.
2011 ortası itibarıyla
Genom dizileme
Örneklenen
genom Rastgele parçalama
Eşli dizileme (paired-end seq.)
Dizi parçacığı (read) hizalamaReferans
Genomu
(İGP) Biyoenformatik analiz
Bulunan farklılıklar
Sonuçlar
Deneysel doğrulama
Varyasyon
Dizileme
hataları
Kapsama (coverage)
Genom uzunluğu: L
Parçacık sayısı: n
Ortalama parçacık uzunluğu: l
Kapsama / dizileme derinliği (coverage / sequencing depth): Genomdaki her baza denk gelen ortalama parçacık sayısı
Kapsama K = n l / L
30X kapsama = baz başına ortalama 30 parçacık
Lander-Waterman modeli:
Tekbiçim dağılım (uniform distribution) varsayımı ile, K=10 ise her 1 milyon nükleotidde 1 boş bölge kalır
K
Ekzom ya da tüm genom
Ekzom dizileme sadece protein kodlayan kısımları
inceler
Genomun %1’i
Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için
genelde iyi sonuç verir
> 60X kapsama gerekir
Tüm genom dizileme ile intronlar, UTR’lar,
promotörlerdeki hastalık nedeni mutasyonlar da
bulunabilir
Crohn hastalığı: McCarroll 2008, Bekpen 2009
ALS-FTD: Renton, 2011
> 30X kapsama gerekir
Biyoenformatik analizler
Tekrar dizileme (resequencing): elde bir
referans genomu varsa karşılaştırılma yapılır
(örn. İnsan, fare, şempanze, vs.)
Parçacık hizalama (read mapping): Her
parçacığın referans genomuna mümkün olan en
az değişiklik ile eşleştirilmesi
Yeni dizileme (de novo sequencing): referans
genomu olmayan türlerin analizinde (örn: inci
kefali)
Tekrar dizileme analizi
Dizileme
parçacıklar
BWA, Bowtie, mrFAST, vb.
parçacık hizalama
(read mapping)
TNP/indel keşfi Yapısal farklılık keşfi
GATK,
SOAPsnp, vb.
VariationHunter,
GenomeSTRiP, Delly, vb.
Yorumlama, veritabanı karşılaştırma, gen
önceliklendirme
Annovar, snpEff, SIFT, vb. Ingeniuty, DADA, vb.
Protein etkileşimi ve yolak analizi
DİZİ HİZALAMA
Hizalama algoritmaları
İki ana ‘tip’
Hash tabanlı ‘seed-and-extend’ (hash table, suffix array, suffix
tree)
Genomdaki kısa k-mer’ları indeksle
Dizi parçasının yerini ararken, parçanın içinden kısa bir k-mer’in
yerini indeksten bul, hizalamaya oradan devam et
Tüm genom için yüksek miktarda bellek gerekir, ama hız feda
edilerek bellek gereksinimi azaltılabilir
Hassas ancak yavaş
Burrows-Wheeler Transform & Ferragina-Manzini Index
BWT algoritması ile genom sıkıştırır ve FM ile sıkışmış genom
indekslenir
Arama ‘binary search’ benzeri bir yöntemle yapılır. Hatasız
hizalamalar çabuk bulunur.
Hassaslığı azdır
Hash Tabanlı Hizalama
BWT-FM
Tüm referans genomu
sıkıştırarak indeksle
Dizi parçasını sondan
başa doğru karakter
karakter hizala
Her karakter için bütün
olası koordinatlar
hesaplanır
Uyumlu hizalama
bulunmadığında bir
karakter geriye gidip,
değişik karakter aranır
TNP VE KISA INDELLER
YÇD ile TNP/indel keşfi
Database: dbSNP
http://www.ncbi.nlm.nih.gov/projects/SNP/
Girdi: Dizileme verileri ve referans genomu
Çıktı: TNP ve indeller ve genotipleri
(homozigot/heterozigot)
TNP/indel keşif algoritmaları istatiksel analize dayanır
Birden fazla lokasyona eşlenen dizi parçaları (parçacık,
read) genelde elenir
Sıklıkla hata görülür, filtreleme gerekir
Tekrar dizileme ile TNP keşfi
referans genomu
parçacık yerleştirme
parçacık
hizalamaParalog tespidi
TNP keşfi
Amaç
Referans genomuna hizalanmış kısa parçacıklar
incelendiğinde görülen farklılıklardan gerçek
TNP ve dizileme hatalarının ayırılması
TCTCCTCTTCCAGTGGCGACGGAAC
CTCCTCTTCCAGTGGCGACAGAACG
CTCTTCCAGTGGCGACGGAACGACC
CTTCCAGTGGCGACGGAACGACCC
CCAGTGGCGACTGAACGACCCTGGA
CAGTGGCGACAGAACGACCCTGGAG
TNP?
Dizileme
hatası
TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGTReferans
Zorluklar
Dizileme hataları
Tekrar ve duplikasyonlardaki paralog dizi
varyanları
Hizalama hataları
TNP ve indellerin yanlış hizalanması
Kısa ardışık tekrarlar
Düzeltmek için Çoklu Dizi Hizalaması (ÇDH)
gerekir
Hizalama hatası
ÇDH sonrası
Başlıca TNP/indel tahmin programları
Genome Analysis Tool Kit (GATK; Broad
Inst.)
Samtools (Sanger Centre)
PolyBayes (Boston College)
SOAPsnp (BGI)
VARiD (U. Toronto)
TNP tahmin hataları ve filtreleme
TNP tahminlerinde çok sayıda hata bulunur
Sistematik okuma hataları, parçacık yerleştirme ve hizalama
hataları
Ham TNP tahminlerinde %5‐%20 arası yanlış pozitif olabilir
“Sert” filtreler:
Okuma derinliği (çok az ve çok fazla kapsama)
Alel dengesi
Baz kalitesi
İplik meyli (strand bias)
Küçük bölgelerde TNP sayısının fazlalığı
İstatistiksel filtreler:
dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama
VQSR: Variant Quality Score Recalibration (GATK programında)
YAPISAL VE KOPYA SAYISI
VARYASYONU
Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME
(deletion) (novel sequence ins.) (transposon insertion)
Alu/L1/SVA
ARDARDA KOPYA AYRIŞIK KOPYA
(tandem duplication) (interspersed duplication)
İNVERSİYON TAŞINMA
(inversion) (translocation)
Kopya sayısı
Varyasyonu
(copy number
variation)
Dengeli
Varyasyon
(balanced
rearrangement)
Otizm, Crohn’s
Hemofili
Şizofreni, sedef
Lösemi (CLL)
Keşifteki zorluklar
790
283
128
5
634
278
84132
25
76130
5
Fosmid klonu
eşli dizileme
End-sequence pair
(N = 1,206)
42 milyon oligolu
arrayCGH
Conrad et al., 2010
(N = 1,128)
Affymetrix 6.0 TNP microdizin
McCarroll et al., 2008 (N = 236)
Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda
Sorunlar
Çoğu YV duplikasyonlar ve uzun tekrarların içinde ya da yakınında
bulunur
Okunan dizileri kısa olduğundan çok sayıda farklı yere hizalanabilir, bu
da yanlış pozitifleri artırır
Sadece tek bir yere hizalanan diziler dikkate alınırsa hassaslık azalır
Referans genomu da tam değildir, eksik kalan duplike paraloglarından
gelen diziler hem yanlış pozitifleri hem de yanlış negatifleri artırır
YV’lerin çoğu karmaşıktır, aynı lokasyonda bir çok YV bulunabilir
KSV keşfi üzerine çok çalışılmıştır ancak hala mükemmellik
yakalanamamıştır
Dengeli YV’lerin (inversiyon, translokasyon) keşfi daha zordur ve iyi
çalışılmamıştır
YV için dizi sinyalleri
Eşli dizi analizi (read pair – RP)
Tüm YV türleri
Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği
eşler arasındaki mesafeye bağlı
Dizileme derinliği analizi (read depth – RD)
Sadece silinme ve duplikasyonlar (KSV)
Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık
bulunur
Ayrık dizi analizi (split read – SR)
Tekrarsız genomik bölgelerdeki tüm YV türleri
Bulunan YV’lerin yerleri kesindir
Yerel ve genel de novo birleştirme
Tekrarsız genomik bölgelerdeki tüm YV türleri
Bulunan YV’lerin yerleri kesindir
Bazı YV algoritmalarıSilinme Eklenme İnversiyon Transpozon Duplikasyon Mikrosatelit
RPVariationHunter X Kısa X X X
BreakDancer X KısaHYDRA X Kısa X X
Tangram XRDCNVnator X X
RDXplorer X XSRPindel X KısaSPLITREAD X Kısa X X X X
lobSTR X
RP+SR
Delly X Kısa
Invy XGenomeSTRiP X Kısa XASCortex X XNovelSeq X
1000 Genomes Projesinde YV
Approach Algorithm name Platform Genomes
SV types discovered (size-range of
validated SVs in basepairs)
SV
calls
valid
ated
FDR
(PCR)
FDR
(array)
FDR
(hierar
ch.)
Event-wise testing Illumina 6 DEL (200 - 221,800); DUP (200 - 415,700) 5,762 1,952 0 0.230 0.230
CNVnator Illumina 6 DEL (100 - 412,475) 17,036 2,361 - 0.142 0.142
AB large indel tool SOLiD 1 DEL (67 - 83,391) 1,138 480 0.188 0.084 0.143
AB large indel tool SOLiD 1 INS (448 - 2,213) 632 42 0.176 - 0.176
Spanner Illumina 6 TEINS (51 - 6,012) 2,013 179 0.022 - 0.022
Spanner Illumina 6 DEL (50-192,167) 4,718 3,619 0.100 0.033 0.087
PEMer 454 1 DEL (941 - 960,004) 1,062 483 0.095 0.363 0.363
VariationHunter Illumina 6 DEL (52 - 498,738) 11,028 4,231 0.103 0.419 0.190
BreakDancer Illumina 6 DEL (51 - 1,035,808) 5,973 3,587 0.115 0.145 0.121
N/A Illumina 6 DEL (276 - 959,518) 3,419 2,584 0.136 0.085 0.121
Mosaik 454 2 TEINS (300 - 6,000) 1,463 172 0.055 - 0.055
Pindel Illumina 6 DEL (51 - 46,384) 3,879 2,960 0.201 0.127 0.189
N/A 454 1 DEL (51 - 703,404); INS (52 - 295) 32,187 3,845 0.545 0.519 0.543
SOAPdenovo Illumina 6 DEL (64 - 3,907) 160 55 0.531 0.531 0.497
SOAPdenovo Illumina 6 INS (55 – 4,116) 3,894 22 0.810 - 0.810
Cortex Illumina 1 DEL(52-39,512);DUP(83-2,090) 2,787 896 0.415 0.415 0.410
Cortex Illumina 1 INS(50-828) 389 84 0.398 - 0.398
NovelSeq Illumina 6 INS (200 - 8,224) 657 30 0.791 - 0.791
IN Spanner Illumina 6 TANDUP (55-64,230) 256 88 0.049 - 0.049
RD
PE
SR
AS
1000 Genomes Consortium, Nature, 2010
1000 Genomes Projesinde YV:
hassaslık
Mills et al., Nature, 2011
Kapsamlı bir metot yok
486
43250
303
6855 (63%)
3223 (80%)
1772 (33%)
RP
N=6
RD
N=4
SR
N=4
Kidd et al., Cell, 2010
1000 Genomes Projesi’ndeki
doğrulanmış silinmeler
Kapsamlı bir metot yok
486
43250
303
6855 (63%)
3223 (80%)
1772 (33%)
RP
N=6
RD
N=4
SR
N=4
Kidd et al., Cell, 2010
1000 Genomes Projesi’ndeki
doğrulanmış silinmeler
Tavsiyeler:
• Birden çok metot kullanmak
Kapsamlı bir metot yok
486
43250
303
6855 (63%)
3223 (80%)
1772 (33%)
RP
N=6
RD
N=4
SR
N=4
Kidd et al., Cell, 2010
1000 Genomes Projesi’ndeki
doğrulanmış silinmeler
Tavsiyeler:
• Birden çok metot kullanmak
• Kullanılan metotların hassaslık
(sensitivity), hatalı keşif oranı
(false discovery rate) ve hangi
tür varyasyonları nasıl bir genomik
altyapıda bulabileceğini bilmek
Varyasyon keşfi – özet
Parçaçık hizalama: BWA, mrFAST, Bowtie
TNP ve indel: GATK, samtools, SOAPsnp
Yapısal:
Silinme, eklenme: VariationHunter, Delly,
BreakDancer, GenomeSTRiP, Pindel, HYDRA...
İnversiyon: VariationHunter, Invy
Transpozon: VariationHunter, Tangram
Mikrosatelit: lobSTR, SPLITREAD, Pindel
http://seqanswers.com/wiki/SEQanswers
Keşif sonrası
Yorumlama
Annovar
snpEff
VAAST
Etkiler
PolyPhen2
SIFT
SNAP
MutationTaster
Evrimsel korunum
GERP
phastCons
Protein etkileşimi ve
yolaklar
DADA, VAVIEN, vb.
Protein yolakları
Ingeniuty, vb.
Cooper & Shendure, Nature Reviews Genetics, 12(9):628-40, 2011
Fonksiyonal analiz; hayvan modelleri, vb.
GENOM BİRLEŞTİRME
(ASSEMBLY)
Genom Birleştirme
Test genomu
Rastgele parçalama
Dizileme
Contig /
scaffold
Birleştirme (assembly)
Zorluklar
DNA ikili sarmal olduğundan birleştirme
algoritmaları her dizi için 2 versiyona
dikkat etmeli
Dizileme hataları
Tekrarlar ve duplikasyonlar
Heterozigosite
Diploid genomlar: Her pozisyon için 2 alternatif
Polyploid bitki genomlarını birleştirmesi daha
zor (>2 alternatif)
Zorluklar
Büyük genomlar için gereken:
Daha yüksek hesaplama gücü
Daha çok bellek (>300 GB)
Kontaminasyon / karışım:
DNA dizilenirken başka kaynaklardan DNA da birlikte
okunur
Örn: maya, E. coli, diğer bakteriler, vb.
‘Big data’
Milyarlarca kısa dizi parçacığı ile çalışılır
56
Birleştirme algoritmaları
Overlap-layout-consensus
greedy (TIGRA, phrap, CAP3...)
graph-based (Celera Assembler, Arachne, SGA)
de Bruijn çizgeleri
EULER, Velvet, ABySS, ALLPATHS-LG, Cortex,
etc.
OLCTAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG
AGTCGAG CTTTAGA CGATGAG CTTTAGA
GTCGAGG TTAGATC ATGAGGC GAGACAG
GAGGCTC ATCCGAT AGGCTTT GAGACAG
AGTCGAG TAGATCC ATGAGGC TAGAGAA
TAGTCGA CTTTAGA CCGATGA TTAGAGA
CGAGGCT AGATCCG TGAGGCT AGAGACA
TAGTCGA GCTTTAG TCCGATG GCTCTAG
TCGACGC GATCCGA GAGGCTT AGAGACA
TAGTCGA TTAGATC GATGAGG TTTAGAG
GTCGAGG TCTAGAT ATGAGGC TAGAGAC
AGGCTTT ATCCGAT AGGCTTT GAGACAG
AGTCGAG TTAGATT ATGAGGC AGAGACA
GGCTTTA TCCGATG TTTAGAG
CGAGGCT TAGATCC TGAGGCT GAGACAG
AGTCGAG TTTAGATC ATGAGGC TTAGAGA
GAGGCTT GATCCGA GAGGCTT GAGACAG
OLC
AGTCGAG CTTTAGA CGATGAG CTTTAGA
GTCGAGG TTAGATC ATGAGGC GAGACAG
GAGGCTC ATCCGAT AGGCTTT GAGACAG
AGTCGAG TAGATCC ATGAGGC TAGAGAA
TAGTCGA CTTTAGA CCGATGA TTAGAGA
CGAGGCT AGATCCG TGAGGCT AGAGACA
TAGTCGA GCTTTAG TCCGATG GCTCTAG
TCGACGC GATCCGA GAGGCTT AGAGACA
TAGTCGA TTAGATC GATGAGG TTTAGAG
GTCGAGG TCTAGAT ATGAGGC TAGAGAC
AGGCTTT ATCCGAT AGGCTTT GAGACAG
AGTCGAG TTAGATT ATGAGGC AGAGACA
GGCTTTA TCCGATG TTTAGAG
CGAGGCT TAGATCC TGAGGCT GAGACAG
AGTCGAG TTTAGATC ATGAGGC TTAGAGA
GAGGCTT GATCCGA GAGGCTT GAGACAG
OLC
AGTCGAG CTTTAGA CGATGAG
GTCGAGG TTAGATC ATGAGGC GAGACAG
GAGGCTC ATCCGAT
TAGAGAA
TAGTCGA CCGATGA TTAGAGA
CGAGGCT AGATCCG TGAGGCT AGAGACA
GCTTTAG TCCGATG
TCGACGC GATCCGA
GATGAGG
TCTAGAT
AGGCTTT
GGCTTTA
TAGATCC
OLC
AGTCGAG CTTTAGA CGATGAG
GTCGAGG TTAGATC ATGAGGC GAGACAG
GAGGCTC ATCCGAT
TAGAGAA
TAGTCGA CCGATGA TTAGAGA
CGAGGCT AGATCCG TGAGGCT AGAGACA
GCTTTAG TCCGATG
TCGACGC GATCCGA
GATGAGG
TCTAGAT
AGGCTTT
GGCTTTA
TAGATCC
OLCTAGTCGA
AGTCGAG
GTCGAGG
CGAGGCT
GAGGCTC
AGGCTTT TCTAGAT
GGCTTTA TTAGATC
GCTTTAG TAGATCC
CTTTAGA AGATCCG
GATCCGA
ATCCGAT
TCCGATG
CCGATGA
TTAGAGA CGATGAG
TAGAGAA GATGAGG
AGAGACA ATGAGGC
GAGACAG TGAGGCT
de BruijnTAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG
AGTCGAG CTTTAGA CGATGAG CTTTAGA
GTCGAGG TTAGATC ATGAGGC GAGACAG
GAGGCTC ATCCGAT AGGCTTT GAGACAG
AGTCGAG TAGATCC ATGAGGC TAGAGAA
TAGTCGA CTTTAGA CCGATGA TTAGAGA
CGAGGCT AGATCCG TGAGGCT AGAGACA
TAGTCGA GCTTTAG TCCGATG GCTCTAG
TCGACGC GATCCGA GAGGCTT AGAGACA
TAGTCGA TTAGATC GATGAGG TTTAGAG
GTCGAGG TCTAGAT ATGAGGC TAGAGAC
AGGCTTT ATCCGAT AGGCTTT GAGACAG
AGTCGAG TTAGATT ATGAGGC AGAGACA
GGCTTTA TCCGATG TTTAGAG
CGAGGCT TAGATCC TGAGGCT GAGACAG
AGTCGAG TTTAGATC ATGAGGC TTAGAGA
GAGGCTT GATCCGA GAGGCTT GAGACAG
Slide courtesy of Dan Zerbino
AGTCGAG CTTTAGA CGATGAG CTTTAGA
GTCGAGG TTAGATC ATGAGGC GAGACAG
GAGGCTC ATCCGAT AGGCTTT GAGACAG
AGTCGAG TAGATCC ATGAGGC TAGAGAA
TAGTCGA CTTTAGA CCGATGA TTAGAGA
CGAGGCT AGATCCG TGAGGCT AGAGACA
TAGTCGA GCTTTAG TCCGATG GCTCTAG
TCGACGC GATCCGA GAGGCTT AGAGACA
TAGTCGA TTAGATC GATGAGG TTTAGAG
GTCGAGG TCTAGAT ATGAGGC TAGAGAC
AGGCTTT ATCCGAT AGGCTTT GAGACAG
AGTCGAG TTAGATT ATGAGGC AGAGACA
GGCTTTA TCCGATG TTTAGAG
CGAGGCT TAGATCC TGAGGCT GAGACAG
AGTCGAG TTTAGATC ATGAGGC TTAGAGA
GAGGCTT GATCCGA GAGGCTT GAGACAG
Slide courtesy of Dan Zerbino
de Bruijn
GTCG
(1x)
TCGA
(1x)
CGAG
(1x)
GAGG
(1x)
İlk dizi: GTCGAGG
Slide courtesy of Dan Zerbino
de Bruijn
GTCG
(2x)
TCGA
(2x)
CGAG
(2x)
GAGG
(1x)
İkinci dizi: AGTCGAG
de Bruijn
İlk dizi: GTCGAGG
AGTC
(1x)
ekle sayacı arttır
Slide courtesy of Dan Zerbino
AGAT
(8x)
ATCC
(7x)
TCCG
(7x)
CCGA
(7x)
CGAT
(6x)
GATG
(5x)
ATGA
(8x)
TGAG
(9x)
GATC
(8x)
GATT
(1x)
TAGT
(3x)
AGTC
(7x)
GTCG
(9x)
TCGA
(10x)
GGCT
(11x)
TAGA
(16x)
AGAG
(9x)
GAGA
(12x)
GACA
(8x)
ACAG
(5x)GCTT
(8x)
GCTC
(2x)
CTTT
(8x)
CTCT
(1x)
TTTA
(8x)
TCTA
(2x)
TTAG
(12x)
CTAG
(2x)
AGAC
(9x)
AGAA
(1x)
CGAG
(8x)
CGAC
(1x)
GAGG
(16x)
GACG
(1x)
AGGC
(16x)
ACGC
(1x)
Diğerleri
de Bruijn
Slide courtesy of Dan Zerbino
AGAT
(8x)
ATCC
(7x)
TCCG
(7x)
CCGA
(7x)
CGAT
(6x)
GATG
(5x)
ATGA
(8x)
TGAG
(9x)
GATC
(8x)
GATT
(1x)
TAGT
(3x)
AGTC
(7x)
GTCG
(9x)
TCGA
(10x)
GGCT
(11x)
TAGA
(16x)
AGAG
(9x)
GAGA
(12x)
GACA
(8x)
ACAG
(5x)GCTT
(8x)
GCTC
(2x)
CTTT
(8x)
CTCT
(1x)
TTTA
(8x)
TCTA
(2x)
TTAG
(12x)
CTAG
(2x)
AGAC
(9x)
AGAA
(1x)
CGAG
(8x)
CGAC
(1x)
GAGG
(16x)
GACG
(1x)
AGGC
(16x)
ACGC
(1x)
Diğerleri...
de Bruijn
Slide courtesy of Dan Zerbino
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG
GCTCTAG
AGACAG
AGAA
CGAG
CGACGC
GAGGCT
GATCCGATGAG
GATT
Sadeleştirme sonrası
de Bruijn
Slide courtesy of Dan Zerbino
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG
GCTCTAG
AGACAG
AGAA
CGAG
CGACGC
GAGGCT
GATCCGATGAG
GATT
Uçlar
Slide courtesy of Dan Zerbino
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG
GCTCTAG
AGACAG
CGAG
GAGGCT
GATCCGATGAG
Uçlar silindi...
Hata onarımı
Slide courtesy of Dan Zerbino
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG
GCTCTAG
AGACAG
CGAG
GAGGCT
GATCCGATGAG
Kabarcıklar
Slide courtesy of Dan Zerbino
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG AGACAG
CGAG
GAGGCT
GATCCGATGAG
Kabarcıklar kaldırıldı
Hata onarımı
Slide courtesy of Dan Zerbino
TAGTCGAG AGAGACAG
AGATCCGATGAG
GAGGCTTTAGA
Son sadeleştirme
Hata onarımı
Slide courtesy of Dan Zerbino
TAGTCGAG AGAGACAG
AGATCCGATGAG
GAGGCTTTAGA
Eulerian path
TAGTCGAG GAGGCTTTAGA AGATCCGATGAG GAGGCTTTAGA AGAGACAG
Slide courtesy of Dan Zerbino
Ek bilgiler
Bilkent CS681 dersi slaytları: http://www.cs.bilkent.edu.tr/~calkan/teaching/cs681
Araçlar, programlar: http://seqanswers.com/wiki/SEQanswers
Başlangıç için makaleler: http://www.cs.bilkent.edu.tr/~calkan/teaching/genomics/reading
Dergiler:
Nature Reviews Genetics (Article series: Next-generation sequencing)
Bioinformatics, BMC Bioinformatics, Nature Methods, vb.
Konferanslar
RECOMB (2014: Pittsburgh), ISMB (2014: Boston), APBC (2014:
Shanghai), HIBIT (ODTÜ), PSB (Hawaii), vb.
top related