calkan tubitak-yazokulu

75
Yeni Nesil DNA Dizileme Analizi Can Alkan Bilgisayar Mühendisliği Bölümü, Bilkent Üniversitesi

Upload: can-alkan

Post on 02-Jul-2015

269 views

Category:

Science


0 download

DESCRIPTION

Yeni nesil DNA dizileme analizine giriş

TRANSCRIPT

Page 1: Calkan tubitak-yazokulu

Yeni Nesil DNA Dizileme

Analizi

Can Alkan

Bilgisayar Mühendisliği Bölümü,

Bilkent Üniversitesi

Page 2: Calkan tubitak-yazokulu

Kavramlar

Gen: kalıtsal bilgiyi taşıyan, kromozomlar içinde bulunan

ve DNA’dan oluşan diziler.

Genetik: kalıtım ile geçen fenotiplerin incelenmesi

Genotip: bir organizmanın genetik yapısı

Fenotip: bir organizmanın fiziksel özelikleri

Genom: bir organizmadaki tüm kalıtsal bilgilerin tamamı

Genomiks: tüm genomun analizi (çoğu canlı için DNA,

retrovirüsler için RNA)

Trankriptom: tüm RNA moleküllerinin kümesi

Proteom: tüm protein moleküllerinin kümesi

Page 3: Calkan tubitak-yazokulu

Yaşam 3 moleküle dayalıdır

DNA ‘sabit disk’

Hücrenin nasıl çalıştığına dair bilgileri tutar

RNA ‘RAM’

Protein sentezi için şablon

Kısa bilgi parçalarını (DNA’dan) hücrenin değişik kısımlarına taşır

Protein ‘robot kolu, anakart bus, vs.’

Vücudun temel yapıtaşları

Diğer hücrelere sinyal yollayan ve gen aktivitesini düzenleyen

enzimleri oluşturur

Bilgisayar mühendisleri açısından bu moleküller üç

alfabeden üretilmiş karakter dizileridir

Page 4: Calkan tubitak-yazokulu

Alfabeler

DNA: (bazlar)

∑ = {A, C, G, T}

A ve T; G ve C eşleşir

RNA: (bazlar)

∑ = {A, C, G, U}

A ve U; G ve C eşleşir

Protein: (amino asitler)

∑ = {A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}

B = N | D

Z = Q | E

X = herhangi

Page 5: Calkan tubitak-yazokulu

Baz çiftleşme kuralı: A ve T veya U 2 hidrojen bağı ile, and G ve C is

3 hidrojen bağı ile tutulur.

Not: Bazı RNA molekülleri RNA olarak kalır (örn tRNA,rRNA,

miRNA, snoRNA, vb.).

DNA pre-mRNA mRNA

protein

Splicing

Spliceosome

Translasyon

Transkripsiyon

Çekirdek

Ribozom

Biyolojinin temel dogması

Page 6: Calkan tubitak-yazokulu

Genom

Bir canlının tüm DNA’sındaki kalıtımsal

şifrelerin tamamı

İnsan genomu 6 milyar baz çiftinden oluşur, anne

ve babadan 3’er milyar baz çifti gelir

4 çeşit baz: adenin (A), sitozin (C), guanin (G),

timin (T)

Page 7: Calkan tubitak-yazokulu

Genom büyüklükleri

Organism Genom Uzunluğu

(Baz)

Tahmini gen

sayısı

İnsan (Homo sapiens) 3.2 milyar 25,000

Fare (M. musculus) 2.6 milyar 25,000

Hardal otu(A. thaliana) 100 milyon 18,000

Solucan (C. elegans) 97 milyon 16,000

Sirke sineği (D.

melanogaster)137 milyon 12,000

Maya (S. cerevisiae) 12.1 milyon 5,000

Bakteri (E. coli) 4.6 milyon 3,200

HIV 9700 9

Page 8: Calkan tubitak-yazokulu

Referans genomu

Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya,

Almanya, Fransa)

4 bireyden oluşturulan 3.2 milyar baz çiftlik “referans genomu” Son versiyon: “NCBI GRCh37” = “hg19”

http://genome.ucsc.edu

Page 9: Calkan tubitak-yazokulu

İnsan genomu “içeriği”

Genler (~%35; ama sadece %1’lik kısmı protein

kodlayan ekzonlar)

Pseudogenler: kodlama/anlatım özelliğini yitirmiş genler

Evrimsel kayıplar

“İşlenmiş” pseudogenler (processed pseudogenes)

Tekrarlar (~%50)

Mobil DNA (Transposable elements): kendi kendilerini kopyalayıp

yapıştırabilen DNA dizileri. Genelde virüs temelli.

Satelitler (short tandem repeats [STR]; variable number of

tandem repeats [VNTR]). 2-171 baz arasında ardışık tekrar eden

DNA dizileri

Büyük duplikasyonlar (Segmental duplications) (%5)

İçlerinde gen ve tekrarlar barındırabilirler

Page 10: Calkan tubitak-yazokulu

DNA dizisinin RNA’ya kopyalanabilen (transkripsiyon) kısımları

Düzenleyici bölgeler: 50 kb’ye kadar başlangıçtan önceki bölüm

Ekzon: protein kodlayan kısımlar

genlerde 1 - 178 ekzon (ortalama 8.8)

ekzon uzunluğu 8 – 17000 baz (ortalama145 baz)

Intron: ekzonlar arasında kalan kısım; translasyon öncesinde kesilir (splicing)

uzunluk 1 kb – 50 kb arası

Gen uzunluğu: en uzunu – 2.4 Mb (Dystrophin). Ortalama – 27 kb.

Gen

Page 11: Calkan tubitak-yazokulu

Genom - Gen

atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg

acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga

tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga

gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga

tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag

gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa

cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat

aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta

ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag

ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga

Page 12: Calkan tubitak-yazokulu

chr22:41,295,343-42,660,744

http://genome.ucsc.edu

Page 13: Calkan tubitak-yazokulu

İnsan genom çeşitliliği

1 bp 1 kromozom

Sık

lık

Tek Nükleotid Polimorfizm (TNP [SNP])

Kromozomal

(trizomi/monozomi)

Kopya Sayısı Varyasyonu (KSV [CNV])

ve Yapısal Varyasyon (YV [SV])

Değişken büyüklüğü

1 kbp 1 Mbp

Genetik farklılık türleri

Array-CGH

Karyotipleme

Yeni nesil dizileme

SNP genotipleme/Sanger dizileme

1 bpV

erim

lilik

1 kbp 1 Mbp

Değişken büyüklüğü

Nasıl bulunur?

1 kromozom

Page 14: Calkan tubitak-yazokulu

Tek nükleotidlik ve kısa değişimlerTNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklarKısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler

referans: C A C A G T G C G C - Tbirey: C A C C G T G - G C A T

substitüsyon silinme eklenme(TNP / SNP) (indel)

Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel

Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler

Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi)

Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS)

Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn:

hiperkolesterol)

Page 15: Calkan tubitak-yazokulu

Kısa tekrar (mikrosatelit) polimorfizmi

Adli tıpta ve babalık testlerinde kullanılır

Bazı hastalıklara yol açabilir:

Kırılgan X Sendromu (Fragile X Syndrome)

Huntington hastalığı

Tekrar eden ardışık tekrarlardaki değişim

referans: C A G C A G C A G C A Gbirey: C A G C A G C A G C A G C A G

Page 16: Calkan tubitak-yazokulu

Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME

(deletion) (novel sequence ins.) (transposon insertion)

Alu/L1/SVA

ARDARDA KOPYA AYRIŞIK KOPYA

(tandem duplication) (interspersed duplication)

İNVERSİYON TAŞINMA

(inversion) (translocation)

Kopya sayısı

Varyasyonu

(copy number

variation)

Dengeli

Varyasyon

(balanced

rearrangement)

Page 17: Calkan tubitak-yazokulu

Yapısal ve Kopya Sayısı Çeşitlilikleri

SilinmeÇevrilme (inversion)

Eklenme

‘Bireysel olarak ender, toplu

olarak yaygın’

Kişi başına yaklaşık 15-20

milyon baz çiftini etkiler

Çoğunun etkisi yok ya da

azdır, genlerin silinmesi ya da

kesintiye uğraması

durumunda hastalığa yol

açabilir:

Silinme: otizm, zeka geriliği,

Crohn hastalığı

Kopyalanma: şizofreni, sedef

hastalığı

Taşınma: CLL (lösemi)

Transpozon: hemofili

Kidd et al., Nature, 2008

Page 18: Calkan tubitak-yazokulu

Genomik farklılık keşif projeleri

Uluslararası HapMap Projesi

4 toplumdan 270 birey

İnsan Genomu Çeşitlilik Projesi (HGDP)

52 toplumdan 1050 birey

Dizileme projeleri:

1000 Genom Projesi

29 toplumdan 2500 birey (planlanan)

Analizi amamlanan: 14 toplumdan 1092 birey (Kasım

2012)

2500 birey dizilenmesi tamamlandı, analiz sürüyor

Bağımsız projeler:

Güney Afrika, Kore, Hindistan, Japonya, İngiltere, Suudi

Arabistan, İran, İrlanda, Hollanda, vs.

Page 19: Calkan tubitak-yazokulu

Genom dizileme maliyeti

$1,000

$10,000

$100,000

$1,000,000

$10,000,000

$100,000,00001

/09

/01

01

/12

/01

01

/03

/02

01

/06

/02

01

/09

/02

01

/12

/02

01

/03

/03

01

/06

/03

01

/09

/03

01

/12

/03

01

/03

/04

01

/06

/04

01

/09

/04

01

/12

/04

01

/03

/05

01

/06

/05

01

/09

/05

01

/12

/05

01

/03

/06

01

/06

/06

01

/09

/06

01

/12

/06

01

/03

/07

01

/06

/07

01

/09

/07

01

/12

/07

01

/03

/08

01

/06

/08

01

/09

/08

01

/12

/08

01

/03

/09

01

/06

/09

01

/09

/09

01

/12

/09

01

/03

/10

01

/06

/10

01

/09

/10

01

/12

/10

01

/03

/11

01

/06

/11

http://www.genome.gov/SequencingCosts/

Tarih

Maliy

et

Page 20: Calkan tubitak-yazokulu

Dizileme: eski ve yeni nesil

Cihaz Nesil YöntemDizi parça uzunlugu Hata oranı (%) Cihaz fiyatı ($)

Dizileme (Mb) maliyeti ($)

AB 3730xl 1 Sanger 1000 0.1 376,000 1,500

454 FLX 2 Sentez 700 1 500,000 7

Illumina HiSeq2000 2 Sentez 100 0.1 690,000 0.04

SOLiD 5500 2 Ligasyon 75 0.1 595,000 0.07

Pacific Biosciences 3 Sentez 1500 15 695,000 11

Ion Torrent 3 Sentez 200 1 50,000 0.95

Beklenen teknolojiler: Oxford Nanopore, Starlight, Halcyon, v.d.

2011 ortası itibarıyla

Page 21: Calkan tubitak-yazokulu

Genom dizileme

Örneklenen

genom Rastgele parçalama

Eşli dizileme (paired-end seq.)

Dizi parçacığı (read) hizalamaReferans

Genomu

(İGP) Biyoenformatik analiz

Bulunan farklılıklar

Sonuçlar

Deneysel doğrulama

Varyasyon

Dizileme

hataları

Page 22: Calkan tubitak-yazokulu

Kapsama (coverage)

Genom uzunluğu: L

Parçacık sayısı: n

Ortalama parçacık uzunluğu: l

Kapsama / dizileme derinliği (coverage / sequencing depth): Genomdaki her baza denk gelen ortalama parçacık sayısı

Kapsama K = n l / L

30X kapsama = baz başına ortalama 30 parçacık

Lander-Waterman modeli:

Tekbiçim dağılım (uniform distribution) varsayımı ile, K=10 ise her 1 milyon nükleotidde 1 boş bölge kalır

K

Page 23: Calkan tubitak-yazokulu

Ekzom ya da tüm genom

Ekzom dizileme sadece protein kodlayan kısımları

inceler

Genomun %1’i

Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için

genelde iyi sonuç verir

> 60X kapsama gerekir

Tüm genom dizileme ile intronlar, UTR’lar,

promotörlerdeki hastalık nedeni mutasyonlar da

bulunabilir

Crohn hastalığı: McCarroll 2008, Bekpen 2009

ALS-FTD: Renton, 2011

> 30X kapsama gerekir

Page 24: Calkan tubitak-yazokulu

Biyoenformatik analizler

Tekrar dizileme (resequencing): elde bir

referans genomu varsa karşılaştırılma yapılır

(örn. İnsan, fare, şempanze, vs.)

Parçacık hizalama (read mapping): Her

parçacığın referans genomuna mümkün olan en

az değişiklik ile eşleştirilmesi

Yeni dizileme (de novo sequencing): referans

genomu olmayan türlerin analizinde (örn: inci

kefali)

Page 25: Calkan tubitak-yazokulu

Tekrar dizileme analizi

Dizileme

parçacıklar

BWA, Bowtie, mrFAST, vb.

parçacık hizalama

(read mapping)

TNP/indel keşfi Yapısal farklılık keşfi

GATK,

SOAPsnp, vb.

VariationHunter,

GenomeSTRiP, Delly, vb.

Yorumlama, veritabanı karşılaştırma, gen

önceliklendirme

Annovar, snpEff, SIFT, vb. Ingeniuty, DADA, vb.

Protein etkileşimi ve yolak analizi

Page 26: Calkan tubitak-yazokulu

DİZİ HİZALAMA

Page 27: Calkan tubitak-yazokulu

Hizalama algoritmaları

İki ana ‘tip’

Hash tabanlı ‘seed-and-extend’ (hash table, suffix array, suffix

tree)

Genomdaki kısa k-mer’ları indeksle

Dizi parçasının yerini ararken, parçanın içinden kısa bir k-mer’in

yerini indeksten bul, hizalamaya oradan devam et

Tüm genom için yüksek miktarda bellek gerekir, ama hız feda

edilerek bellek gereksinimi azaltılabilir

Hassas ancak yavaş

Burrows-Wheeler Transform & Ferragina-Manzini Index

BWT algoritması ile genom sıkıştırır ve FM ile sıkışmış genom

indekslenir

Arama ‘binary search’ benzeri bir yöntemle yapılır. Hatasız

hizalamalar çabuk bulunur.

Hassaslığı azdır

Page 28: Calkan tubitak-yazokulu

Hash Tabanlı Hizalama

Page 29: Calkan tubitak-yazokulu

BWT-FM

Tüm referans genomu

sıkıştırarak indeksle

Dizi parçasını sondan

başa doğru karakter

karakter hizala

Her karakter için bütün

olası koordinatlar

hesaplanır

Uyumlu hizalama

bulunmadığında bir

karakter geriye gidip,

değişik karakter aranır

Page 30: Calkan tubitak-yazokulu

TNP VE KISA INDELLER

Page 31: Calkan tubitak-yazokulu

YÇD ile TNP/indel keşfi

Database: dbSNP

http://www.ncbi.nlm.nih.gov/projects/SNP/

Girdi: Dizileme verileri ve referans genomu

Çıktı: TNP ve indeller ve genotipleri

(homozigot/heterozigot)

TNP/indel keşif algoritmaları istatiksel analize dayanır

Birden fazla lokasyona eşlenen dizi parçaları (parçacık,

read) genelde elenir

Sıklıkla hata görülür, filtreleme gerekir

Page 32: Calkan tubitak-yazokulu

Tekrar dizileme ile TNP keşfi

referans genomu

parçacık yerleştirme

parçacık

hizalamaParalog tespidi

TNP keşfi

Page 33: Calkan tubitak-yazokulu

Amaç

Referans genomuna hizalanmış kısa parçacıklar

incelendiğinde görülen farklılıklardan gerçek

TNP ve dizileme hatalarının ayırılması

TCTCCTCTTCCAGTGGCGACGGAAC

CTCCTCTTCCAGTGGCGACAGAACG

CTCTTCCAGTGGCGACGGAACGACC

CTTCCAGTGGCGACGGAACGACCC

CCAGTGGCGACTGAACGACCCTGGA

CAGTGGCGACAGAACGACCCTGGAG

TNP?

Dizileme

hatası

TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGTReferans

Page 34: Calkan tubitak-yazokulu

Zorluklar

Dizileme hataları

Tekrar ve duplikasyonlardaki paralog dizi

varyanları

Hizalama hataları

TNP ve indellerin yanlış hizalanması

Kısa ardışık tekrarlar

Düzeltmek için Çoklu Dizi Hizalaması (ÇDH)

gerekir

Page 35: Calkan tubitak-yazokulu

Hizalama hatası

Page 36: Calkan tubitak-yazokulu

ÇDH sonrası

Page 37: Calkan tubitak-yazokulu

Başlıca TNP/indel tahmin programları

Genome Analysis Tool Kit (GATK; Broad

Inst.)

Samtools (Sanger Centre)

PolyBayes (Boston College)

SOAPsnp (BGI)

VARiD (U. Toronto)

Page 38: Calkan tubitak-yazokulu

TNP tahmin hataları ve filtreleme

TNP tahminlerinde çok sayıda hata bulunur

Sistematik okuma hataları, parçacık yerleştirme ve hizalama

hataları

Ham TNP tahminlerinde %5‐%20 arası yanlış pozitif olabilir

“Sert” filtreler:

Okuma derinliği (çok az ve çok fazla kapsama)

Alel dengesi

Baz kalitesi

İplik meyli (strand bias)

Küçük bölgelerde TNP sayısının fazlalığı

İstatistiksel filtreler:

dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama

VQSR: Variant Quality Score Recalibration (GATK programında)

Page 39: Calkan tubitak-yazokulu

YAPISAL VE KOPYA SAYISI

VARYASYONU

Page 40: Calkan tubitak-yazokulu

Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME

(deletion) (novel sequence ins.) (transposon insertion)

Alu/L1/SVA

ARDARDA KOPYA AYRIŞIK KOPYA

(tandem duplication) (interspersed duplication)

İNVERSİYON TAŞINMA

(inversion) (translocation)

Kopya sayısı

Varyasyonu

(copy number

variation)

Dengeli

Varyasyon

(balanced

rearrangement)

Otizm, Crohn’s

Hemofili

Şizofreni, sedef

Lösemi (CLL)

Page 41: Calkan tubitak-yazokulu

Keşifteki zorluklar

790

283

128

5

634

278

84132

25

76130

5

Fosmid klonu

eşli dizileme

End-sequence pair

(N = 1,206)

42 milyon oligolu

arrayCGH

Conrad et al., 2010

(N = 1,128)

Affymetrix 6.0 TNP microdizin

McCarroll et al., 2008 (N = 236)

Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda

Page 42: Calkan tubitak-yazokulu

Sorunlar

Çoğu YV duplikasyonlar ve uzun tekrarların içinde ya da yakınında

bulunur

Okunan dizileri kısa olduğundan çok sayıda farklı yere hizalanabilir, bu

da yanlış pozitifleri artırır

Sadece tek bir yere hizalanan diziler dikkate alınırsa hassaslık azalır

Referans genomu da tam değildir, eksik kalan duplike paraloglarından

gelen diziler hem yanlış pozitifleri hem de yanlış negatifleri artırır

YV’lerin çoğu karmaşıktır, aynı lokasyonda bir çok YV bulunabilir

KSV keşfi üzerine çok çalışılmıştır ancak hala mükemmellik

yakalanamamıştır

Dengeli YV’lerin (inversiyon, translokasyon) keşfi daha zordur ve iyi

çalışılmamıştır

Page 43: Calkan tubitak-yazokulu

YV için dizi sinyalleri

Eşli dizi analizi (read pair – RP)

Tüm YV türleri

Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği

eşler arasındaki mesafeye bağlı

Dizileme derinliği analizi (read depth – RD)

Sadece silinme ve duplikasyonlar (KSV)

Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık

bulunur

Ayrık dizi analizi (split read – SR)

Tekrarsız genomik bölgelerdeki tüm YV türleri

Bulunan YV’lerin yerleri kesindir

Yerel ve genel de novo birleştirme

Tekrarsız genomik bölgelerdeki tüm YV türleri

Bulunan YV’lerin yerleri kesindir

Page 44: Calkan tubitak-yazokulu

Bazı YV algoritmalarıSilinme Eklenme İnversiyon Transpozon Duplikasyon Mikrosatelit

RPVariationHunter X Kısa X X X

BreakDancer X KısaHYDRA X Kısa X X

Tangram XRDCNVnator X X

RDXplorer X XSRPindel X KısaSPLITREAD X Kısa X X X X

lobSTR X

RP+SR

Delly X Kısa

Invy XGenomeSTRiP X Kısa XASCortex X XNovelSeq X

Page 45: Calkan tubitak-yazokulu

1000 Genomes Projesinde YV

Approach Algorithm name Platform Genomes

SV types discovered (size-range of

validated SVs in basepairs)

SV

calls

valid

ated

FDR

(PCR)

FDR

(array)

FDR

(hierar

ch.)

Event-wise testing Illumina 6 DEL (200 - 221,800); DUP (200 - 415,700) 5,762 1,952 0 0.230 0.230

CNVnator Illumina 6 DEL (100 - 412,475) 17,036 2,361 - 0.142 0.142

AB large indel tool SOLiD 1 DEL (67 - 83,391) 1,138 480 0.188 0.084 0.143

AB large indel tool SOLiD 1 INS (448 - 2,213) 632 42 0.176 - 0.176

Spanner Illumina 6 TEINS (51 - 6,012) 2,013 179 0.022 - 0.022

Spanner Illumina 6 DEL (50-192,167) 4,718 3,619 0.100 0.033 0.087

PEMer 454 1 DEL (941 - 960,004) 1,062 483 0.095 0.363 0.363

VariationHunter Illumina 6 DEL (52 - 498,738) 11,028 4,231 0.103 0.419 0.190

BreakDancer Illumina 6 DEL (51 - 1,035,808) 5,973 3,587 0.115 0.145 0.121

N/A Illumina 6 DEL (276 - 959,518) 3,419 2,584 0.136 0.085 0.121

Mosaik 454 2 TEINS (300 - 6,000) 1,463 172 0.055 - 0.055

Pindel Illumina 6 DEL (51 - 46,384) 3,879 2,960 0.201 0.127 0.189

N/A 454 1 DEL (51 - 703,404); INS (52 - 295) 32,187 3,845 0.545 0.519 0.543

SOAPdenovo Illumina 6 DEL (64 - 3,907) 160 55 0.531 0.531 0.497

SOAPdenovo Illumina 6 INS (55 – 4,116) 3,894 22 0.810 - 0.810

Cortex Illumina 1 DEL(52-39,512);DUP(83-2,090) 2,787 896 0.415 0.415 0.410

Cortex Illumina 1 INS(50-828) 389 84 0.398 - 0.398

NovelSeq Illumina 6 INS (200 - 8,224) 657 30 0.791 - 0.791

IN Spanner Illumina 6 TANDUP (55-64,230) 256 88 0.049 - 0.049

RD

PE

SR

AS

1000 Genomes Consortium, Nature, 2010

Page 46: Calkan tubitak-yazokulu

1000 Genomes Projesinde YV:

hassaslık

Mills et al., Nature, 2011

Page 47: Calkan tubitak-yazokulu

Kapsamlı bir metot yok

486

43250

303

6855 (63%)

3223 (80%)

1772 (33%)

RP

N=6

RD

N=4

SR

N=4

Kidd et al., Cell, 2010

1000 Genomes Projesi’ndeki

doğrulanmış silinmeler

Page 48: Calkan tubitak-yazokulu

Kapsamlı bir metot yok

486

43250

303

6855 (63%)

3223 (80%)

1772 (33%)

RP

N=6

RD

N=4

SR

N=4

Kidd et al., Cell, 2010

1000 Genomes Projesi’ndeki

doğrulanmış silinmeler

Tavsiyeler:

• Birden çok metot kullanmak

Page 49: Calkan tubitak-yazokulu

Kapsamlı bir metot yok

486

43250

303

6855 (63%)

3223 (80%)

1772 (33%)

RP

N=6

RD

N=4

SR

N=4

Kidd et al., Cell, 2010

1000 Genomes Projesi’ndeki

doğrulanmış silinmeler

Tavsiyeler:

• Birden çok metot kullanmak

• Kullanılan metotların hassaslık

(sensitivity), hatalı keşif oranı

(false discovery rate) ve hangi

tür varyasyonları nasıl bir genomik

altyapıda bulabileceğini bilmek

Page 50: Calkan tubitak-yazokulu

Varyasyon keşfi – özet

Parçaçık hizalama: BWA, mrFAST, Bowtie

TNP ve indel: GATK, samtools, SOAPsnp

Yapısal:

Silinme, eklenme: VariationHunter, Delly,

BreakDancer, GenomeSTRiP, Pindel, HYDRA...

İnversiyon: VariationHunter, Invy

Transpozon: VariationHunter, Tangram

Mikrosatelit: lobSTR, SPLITREAD, Pindel

http://seqanswers.com/wiki/SEQanswers

Page 51: Calkan tubitak-yazokulu

Keşif sonrası

Yorumlama

Annovar

snpEff

VAAST

Etkiler

PolyPhen2

SIFT

SNAP

MutationTaster

Evrimsel korunum

GERP

phastCons

Protein etkileşimi ve

yolaklar

DADA, VAVIEN, vb.

Protein yolakları

Ingeniuty, vb.

Cooper & Shendure, Nature Reviews Genetics, 12(9):628-40, 2011

Fonksiyonal analiz; hayvan modelleri, vb.

Page 52: Calkan tubitak-yazokulu

GENOM BİRLEŞTİRME

(ASSEMBLY)

Page 53: Calkan tubitak-yazokulu

Genom Birleştirme

Test genomu

Rastgele parçalama

Dizileme

Contig /

scaffold

Birleştirme (assembly)

Page 54: Calkan tubitak-yazokulu

Zorluklar

DNA ikili sarmal olduğundan birleştirme

algoritmaları her dizi için 2 versiyona

dikkat etmeli

Dizileme hataları

Tekrarlar ve duplikasyonlar

Heterozigosite

Diploid genomlar: Her pozisyon için 2 alternatif

Polyploid bitki genomlarını birleştirmesi daha

zor (>2 alternatif)

Page 55: Calkan tubitak-yazokulu

Zorluklar

Büyük genomlar için gereken:

Daha yüksek hesaplama gücü

Daha çok bellek (>300 GB)

Kontaminasyon / karışım:

DNA dizilenirken başka kaynaklardan DNA da birlikte

okunur

Örn: maya, E. coli, diğer bakteriler, vb.

‘Big data’

Milyarlarca kısa dizi parçacığı ile çalışılır

Page 56: Calkan tubitak-yazokulu

56

Birleştirme algoritmaları

Overlap-layout-consensus

greedy (TIGRA, phrap, CAP3...)

graph-based (Celera Assembler, Arachne, SGA)

de Bruijn çizgeleri

EULER, Velvet, ABySS, ALLPATHS-LG, Cortex,

etc.

Page 57: Calkan tubitak-yazokulu

OLCTAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG

AGTCGAG CTTTAGA CGATGAG CTTTAGA

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT AGGCTTT GAGACAG

AGTCGAG TAGATCC ATGAGGC TAGAGAA

TAGTCGA CTTTAGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

TAGTCGA GCTTTAG TCCGATG GCTCTAG

TCGACGC GATCCGA GAGGCTT AGAGACA

TAGTCGA TTAGATC GATGAGG TTTAGAG

GTCGAGG TCTAGAT ATGAGGC TAGAGAC

AGGCTTT ATCCGAT AGGCTTT GAGACAG

AGTCGAG TTAGATT ATGAGGC AGAGACA

GGCTTTA TCCGATG TTTAGAG

CGAGGCT TAGATCC TGAGGCT GAGACAG

AGTCGAG TTTAGATC ATGAGGC TTAGAGA

GAGGCTT GATCCGA GAGGCTT GAGACAG

Page 58: Calkan tubitak-yazokulu

OLC

AGTCGAG CTTTAGA CGATGAG CTTTAGA

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT AGGCTTT GAGACAG

AGTCGAG TAGATCC ATGAGGC TAGAGAA

TAGTCGA CTTTAGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

TAGTCGA GCTTTAG TCCGATG GCTCTAG

TCGACGC GATCCGA GAGGCTT AGAGACA

TAGTCGA TTAGATC GATGAGG TTTAGAG

GTCGAGG TCTAGAT ATGAGGC TAGAGAC

AGGCTTT ATCCGAT AGGCTTT GAGACAG

AGTCGAG TTAGATT ATGAGGC AGAGACA

GGCTTTA TCCGATG TTTAGAG

CGAGGCT TAGATCC TGAGGCT GAGACAG

AGTCGAG TTTAGATC ATGAGGC TTAGAGA

GAGGCTT GATCCGA GAGGCTT GAGACAG

Page 59: Calkan tubitak-yazokulu

OLC

AGTCGAG CTTTAGA CGATGAG

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT

TAGAGAA

TAGTCGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

GCTTTAG TCCGATG

TCGACGC GATCCGA

GATGAGG

TCTAGAT

AGGCTTT

GGCTTTA

TAGATCC

Page 60: Calkan tubitak-yazokulu

OLC

AGTCGAG CTTTAGA CGATGAG

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT

TAGAGAA

TAGTCGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

GCTTTAG TCCGATG

TCGACGC GATCCGA

GATGAGG

TCTAGAT

AGGCTTT

GGCTTTA

TAGATCC

Page 61: Calkan tubitak-yazokulu

OLCTAGTCGA

AGTCGAG

GTCGAGG

CGAGGCT

GAGGCTC

AGGCTTT TCTAGAT

GGCTTTA TTAGATC

GCTTTAG TAGATCC

CTTTAGA AGATCCG

GATCCGA

ATCCGAT

TCCGATG

CCGATGA

TTAGAGA CGATGAG

TAGAGAA GATGAGG

AGAGACA ATGAGGC

GAGACAG TGAGGCT

Page 62: Calkan tubitak-yazokulu

de BruijnTAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG

AGTCGAG CTTTAGA CGATGAG CTTTAGA

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT AGGCTTT GAGACAG

AGTCGAG TAGATCC ATGAGGC TAGAGAA

TAGTCGA CTTTAGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

TAGTCGA GCTTTAG TCCGATG GCTCTAG

TCGACGC GATCCGA GAGGCTT AGAGACA

TAGTCGA TTAGATC GATGAGG TTTAGAG

GTCGAGG TCTAGAT ATGAGGC TAGAGAC

AGGCTTT ATCCGAT AGGCTTT GAGACAG

AGTCGAG TTAGATT ATGAGGC AGAGACA

GGCTTTA TCCGATG TTTAGAG

CGAGGCT TAGATCC TGAGGCT GAGACAG

AGTCGAG TTTAGATC ATGAGGC TTAGAGA

GAGGCTT GATCCGA GAGGCTT GAGACAG

Slide courtesy of Dan Zerbino

Page 63: Calkan tubitak-yazokulu

AGTCGAG CTTTAGA CGATGAG CTTTAGA

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT AGGCTTT GAGACAG

AGTCGAG TAGATCC ATGAGGC TAGAGAA

TAGTCGA CTTTAGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

TAGTCGA GCTTTAG TCCGATG GCTCTAG

TCGACGC GATCCGA GAGGCTT AGAGACA

TAGTCGA TTAGATC GATGAGG TTTAGAG

GTCGAGG TCTAGAT ATGAGGC TAGAGAC

AGGCTTT ATCCGAT AGGCTTT GAGACAG

AGTCGAG TTAGATT ATGAGGC AGAGACA

GGCTTTA TCCGATG TTTAGAG

CGAGGCT TAGATCC TGAGGCT GAGACAG

AGTCGAG TTTAGATC ATGAGGC TTAGAGA

GAGGCTT GATCCGA GAGGCTT GAGACAG

Slide courtesy of Dan Zerbino

de Bruijn

Page 64: Calkan tubitak-yazokulu

GTCG

(1x)

TCGA

(1x)

CGAG

(1x)

GAGG

(1x)

İlk dizi: GTCGAGG

Slide courtesy of Dan Zerbino

de Bruijn

Page 65: Calkan tubitak-yazokulu

GTCG

(2x)

TCGA

(2x)

CGAG

(2x)

GAGG

(1x)

İkinci dizi: AGTCGAG

de Bruijn

İlk dizi: GTCGAGG

AGTC

(1x)

ekle sayacı arttır

Slide courtesy of Dan Zerbino

Page 66: Calkan tubitak-yazokulu

AGAT

(8x)

ATCC

(7x)

TCCG

(7x)

CCGA

(7x)

CGAT

(6x)

GATG

(5x)

ATGA

(8x)

TGAG

(9x)

GATC

(8x)

GATT

(1x)

TAGT

(3x)

AGTC

(7x)

GTCG

(9x)

TCGA

(10x)

GGCT

(11x)

TAGA

(16x)

AGAG

(9x)

GAGA

(12x)

GACA

(8x)

ACAG

(5x)GCTT

(8x)

GCTC

(2x)

CTTT

(8x)

CTCT

(1x)

TTTA

(8x)

TCTA

(2x)

TTAG

(12x)

CTAG

(2x)

AGAC

(9x)

AGAA

(1x)

CGAG

(8x)

CGAC

(1x)

GAGG

(16x)

GACG

(1x)

AGGC

(16x)

ACGC

(1x)

Diğerleri

de Bruijn

Slide courtesy of Dan Zerbino

Page 67: Calkan tubitak-yazokulu

AGAT

(8x)

ATCC

(7x)

TCCG

(7x)

CCGA

(7x)

CGAT

(6x)

GATG

(5x)

ATGA

(8x)

TGAG

(9x)

GATC

(8x)

GATT

(1x)

TAGT

(3x)

AGTC

(7x)

GTCG

(9x)

TCGA

(10x)

GGCT

(11x)

TAGA

(16x)

AGAG

(9x)

GAGA

(12x)

GACA

(8x)

ACAG

(5x)GCTT

(8x)

GCTC

(2x)

CTTT

(8x)

CTCT

(1x)

TTTA

(8x)

TCTA

(2x)

TTAG

(12x)

CTAG

(2x)

AGAC

(9x)

AGAA

(1x)

CGAG

(8x)

CGAC

(1x)

GAGG

(16x)

GACG

(1x)

AGGC

(16x)

ACGC

(1x)

Diğerleri...

de Bruijn

Slide courtesy of Dan Zerbino

Page 68: Calkan tubitak-yazokulu

TAGTCGA

AGAGATAGA

AGAT

GCTTTAG

GCTCTAG

AGACAG

AGAA

CGAG

CGACGC

GAGGCT

GATCCGATGAG

GATT

Sadeleştirme sonrası

de Bruijn

Slide courtesy of Dan Zerbino

Page 69: Calkan tubitak-yazokulu

TAGTCGA

AGAGATAGA

AGAT

GCTTTAG

GCTCTAG

AGACAG

AGAA

CGAG

CGACGC

GAGGCT

GATCCGATGAG

GATT

Uçlar

Slide courtesy of Dan Zerbino

Page 70: Calkan tubitak-yazokulu

TAGTCGA

AGAGATAGA

AGAT

GCTTTAG

GCTCTAG

AGACAG

CGAG

GAGGCT

GATCCGATGAG

Uçlar silindi...

Hata onarımı

Slide courtesy of Dan Zerbino

Page 71: Calkan tubitak-yazokulu

TAGTCGA

AGAGATAGA

AGAT

GCTTTAG

GCTCTAG

AGACAG

CGAG

GAGGCT

GATCCGATGAG

Kabarcıklar

Slide courtesy of Dan Zerbino

Page 72: Calkan tubitak-yazokulu

TAGTCGA

AGAGATAGA

AGAT

GCTTTAG AGACAG

CGAG

GAGGCT

GATCCGATGAG

Kabarcıklar kaldırıldı

Hata onarımı

Slide courtesy of Dan Zerbino

Page 73: Calkan tubitak-yazokulu

TAGTCGAG AGAGACAG

AGATCCGATGAG

GAGGCTTTAGA

Son sadeleştirme

Hata onarımı

Slide courtesy of Dan Zerbino

Page 74: Calkan tubitak-yazokulu

TAGTCGAG AGAGACAG

AGATCCGATGAG

GAGGCTTTAGA

Eulerian path

TAGTCGAG GAGGCTTTAGA AGATCCGATGAG GAGGCTTTAGA AGAGACAG

Slide courtesy of Dan Zerbino

Page 75: Calkan tubitak-yazokulu

Ek bilgiler

Bilkent CS681 dersi slaytları: http://www.cs.bilkent.edu.tr/~calkan/teaching/cs681

Araçlar, programlar: http://seqanswers.com/wiki/SEQanswers

Başlangıç için makaleler: http://www.cs.bilkent.edu.tr/~calkan/teaching/genomics/reading

Dergiler:

Nature Reviews Genetics (Article series: Next-generation sequencing)

Bioinformatics, BMC Bioinformatics, Nature Methods, vb.

Konferanslar

RECOMB (2014: Pittsburgh), ISMB (2014: Boston), APBC (2014:

Shanghai), HIBIT (ODTÜ), PSB (Hawaii), vb.