calkan tubitak-yazokulu

Post on 02-Jul-2015

270 Views

Category:

Science

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Yeni nesil DNA dizileme analizine giriş

TRANSCRIPT

Yeni Nesil DNA Dizileme

Analizi

Can Alkan

Bilgisayar Mühendisliği Bölümü,

Bilkent Üniversitesi

Kavramlar

Gen: kalıtsal bilgiyi taşıyan, kromozomlar içinde bulunan

ve DNA’dan oluşan diziler.

Genetik: kalıtım ile geçen fenotiplerin incelenmesi

Genotip: bir organizmanın genetik yapısı

Fenotip: bir organizmanın fiziksel özelikleri

Genom: bir organizmadaki tüm kalıtsal bilgilerin tamamı

Genomiks: tüm genomun analizi (çoğu canlı için DNA,

retrovirüsler için RNA)

Trankriptom: tüm RNA moleküllerinin kümesi

Proteom: tüm protein moleküllerinin kümesi

Yaşam 3 moleküle dayalıdır

DNA ‘sabit disk’

Hücrenin nasıl çalıştığına dair bilgileri tutar

RNA ‘RAM’

Protein sentezi için şablon

Kısa bilgi parçalarını (DNA’dan) hücrenin değişik kısımlarına taşır

Protein ‘robot kolu, anakart bus, vs.’

Vücudun temel yapıtaşları

Diğer hücrelere sinyal yollayan ve gen aktivitesini düzenleyen

enzimleri oluşturur

Bilgisayar mühendisleri açısından bu moleküller üç

alfabeden üretilmiş karakter dizileridir

Alfabeler

DNA: (bazlar)

∑ = {A, C, G, T}

A ve T; G ve C eşleşir

RNA: (bazlar)

∑ = {A, C, G, U}

A ve U; G ve C eşleşir

Protein: (amino asitler)

∑ = {A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}

B = N | D

Z = Q | E

X = herhangi

Baz çiftleşme kuralı: A ve T veya U 2 hidrojen bağı ile, and G ve C is

3 hidrojen bağı ile tutulur.

Not: Bazı RNA molekülleri RNA olarak kalır (örn tRNA,rRNA,

miRNA, snoRNA, vb.).

DNA pre-mRNA mRNA

protein

Splicing

Spliceosome

Translasyon

Transkripsiyon

Çekirdek

Ribozom

Biyolojinin temel dogması

Genom

Bir canlının tüm DNA’sındaki kalıtımsal

şifrelerin tamamı

İnsan genomu 6 milyar baz çiftinden oluşur, anne

ve babadan 3’er milyar baz çifti gelir

4 çeşit baz: adenin (A), sitozin (C), guanin (G),

timin (T)

Genom büyüklükleri

Organism Genom Uzunluğu

(Baz)

Tahmini gen

sayısı

İnsan (Homo sapiens) 3.2 milyar 25,000

Fare (M. musculus) 2.6 milyar 25,000

Hardal otu(A. thaliana) 100 milyon 18,000

Solucan (C. elegans) 97 milyon 16,000

Sirke sineği (D.

melanogaster)137 milyon 12,000

Maya (S. cerevisiae) 12.1 milyon 5,000

Bakteri (E. coli) 4.6 milyon 3,200

HIV 9700 9

Referans genomu

Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya,

Almanya, Fransa)

4 bireyden oluşturulan 3.2 milyar baz çiftlik “referans genomu” Son versiyon: “NCBI GRCh37” = “hg19”

http://genome.ucsc.edu

İnsan genomu “içeriği”

Genler (~%35; ama sadece %1’lik kısmı protein

kodlayan ekzonlar)

Pseudogenler: kodlama/anlatım özelliğini yitirmiş genler

Evrimsel kayıplar

“İşlenmiş” pseudogenler (processed pseudogenes)

Tekrarlar (~%50)

Mobil DNA (Transposable elements): kendi kendilerini kopyalayıp

yapıştırabilen DNA dizileri. Genelde virüs temelli.

Satelitler (short tandem repeats [STR]; variable number of

tandem repeats [VNTR]). 2-171 baz arasında ardışık tekrar eden

DNA dizileri

Büyük duplikasyonlar (Segmental duplications) (%5)

İçlerinde gen ve tekrarlar barındırabilirler

DNA dizisinin RNA’ya kopyalanabilen (transkripsiyon) kısımları

Düzenleyici bölgeler: 50 kb’ye kadar başlangıçtan önceki bölüm

Ekzon: protein kodlayan kısımlar

genlerde 1 - 178 ekzon (ortalama 8.8)

ekzon uzunluğu 8 – 17000 baz (ortalama145 baz)

Intron: ekzonlar arasında kalan kısım; translasyon öncesinde kesilir (splicing)

uzunluk 1 kb – 50 kb arası

Gen uzunluğu: en uzunu – 2.4 Mb (Dystrophin). Ortalama – 27 kb.

Gen

Genom - Gen

atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg

acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga

tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga

gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga

tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag

gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa

cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat

aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta

ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag

ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga

chr22:41,295,343-42,660,744

http://genome.ucsc.edu

İnsan genom çeşitliliği

1 bp 1 kromozom

Sık

lık

Tek Nükleotid Polimorfizm (TNP [SNP])

Kromozomal

(trizomi/monozomi)

Kopya Sayısı Varyasyonu (KSV [CNV])

ve Yapısal Varyasyon (YV [SV])

Değişken büyüklüğü

1 kbp 1 Mbp

Genetik farklılık türleri

Array-CGH

Karyotipleme

Yeni nesil dizileme

SNP genotipleme/Sanger dizileme

1 bpV

erim

lilik

1 kbp 1 Mbp

Değişken büyüklüğü

Nasıl bulunur?

1 kromozom

Tek nükleotidlik ve kısa değişimlerTNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklarKısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler

referans: C A C A G T G C G C - Tbirey: C A C C G T G - G C A T

substitüsyon silinme eklenme(TNP / SNP) (indel)

Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel

Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler

Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi)

Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS)

Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn:

hiperkolesterol)

Kısa tekrar (mikrosatelit) polimorfizmi

Adli tıpta ve babalık testlerinde kullanılır

Bazı hastalıklara yol açabilir:

Kırılgan X Sendromu (Fragile X Syndrome)

Huntington hastalığı

Tekrar eden ardışık tekrarlardaki değişim

referans: C A G C A G C A G C A Gbirey: C A G C A G C A G C A G C A G

Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME

(deletion) (novel sequence ins.) (transposon insertion)

Alu/L1/SVA

ARDARDA KOPYA AYRIŞIK KOPYA

(tandem duplication) (interspersed duplication)

İNVERSİYON TAŞINMA

(inversion) (translocation)

Kopya sayısı

Varyasyonu

(copy number

variation)

Dengeli

Varyasyon

(balanced

rearrangement)

Yapısal ve Kopya Sayısı Çeşitlilikleri

SilinmeÇevrilme (inversion)

Eklenme

‘Bireysel olarak ender, toplu

olarak yaygın’

Kişi başına yaklaşık 15-20

milyon baz çiftini etkiler

Çoğunun etkisi yok ya da

azdır, genlerin silinmesi ya da

kesintiye uğraması

durumunda hastalığa yol

açabilir:

Silinme: otizm, zeka geriliği,

Crohn hastalığı

Kopyalanma: şizofreni, sedef

hastalığı

Taşınma: CLL (lösemi)

Transpozon: hemofili

Kidd et al., Nature, 2008

Genomik farklılık keşif projeleri

Uluslararası HapMap Projesi

4 toplumdan 270 birey

İnsan Genomu Çeşitlilik Projesi (HGDP)

52 toplumdan 1050 birey

Dizileme projeleri:

1000 Genom Projesi

29 toplumdan 2500 birey (planlanan)

Analizi amamlanan: 14 toplumdan 1092 birey (Kasım

2012)

2500 birey dizilenmesi tamamlandı, analiz sürüyor

Bağımsız projeler:

Güney Afrika, Kore, Hindistan, Japonya, İngiltere, Suudi

Arabistan, İran, İrlanda, Hollanda, vs.

Genom dizileme maliyeti

$1,000

$10,000

$100,000

$1,000,000

$10,000,000

$100,000,00001

/09

/01

01

/12

/01

01

/03

/02

01

/06

/02

01

/09

/02

01

/12

/02

01

/03

/03

01

/06

/03

01

/09

/03

01

/12

/03

01

/03

/04

01

/06

/04

01

/09

/04

01

/12

/04

01

/03

/05

01

/06

/05

01

/09

/05

01

/12

/05

01

/03

/06

01

/06

/06

01

/09

/06

01

/12

/06

01

/03

/07

01

/06

/07

01

/09

/07

01

/12

/07

01

/03

/08

01

/06

/08

01

/09

/08

01

/12

/08

01

/03

/09

01

/06

/09

01

/09

/09

01

/12

/09

01

/03

/10

01

/06

/10

01

/09

/10

01

/12

/10

01

/03

/11

01

/06

/11

http://www.genome.gov/SequencingCosts/

Tarih

Maliy

et

Dizileme: eski ve yeni nesil

Cihaz Nesil YöntemDizi parça uzunlugu Hata oranı (%) Cihaz fiyatı ($)

Dizileme (Mb) maliyeti ($)

AB 3730xl 1 Sanger 1000 0.1 376,000 1,500

454 FLX 2 Sentez 700 1 500,000 7

Illumina HiSeq2000 2 Sentez 100 0.1 690,000 0.04

SOLiD 5500 2 Ligasyon 75 0.1 595,000 0.07

Pacific Biosciences 3 Sentez 1500 15 695,000 11

Ion Torrent 3 Sentez 200 1 50,000 0.95

Beklenen teknolojiler: Oxford Nanopore, Starlight, Halcyon, v.d.

2011 ortası itibarıyla

Genom dizileme

Örneklenen

genom Rastgele parçalama

Eşli dizileme (paired-end seq.)

Dizi parçacığı (read) hizalamaReferans

Genomu

(İGP) Biyoenformatik analiz

Bulunan farklılıklar

Sonuçlar

Deneysel doğrulama

Varyasyon

Dizileme

hataları

Kapsama (coverage)

Genom uzunluğu: L

Parçacık sayısı: n

Ortalama parçacık uzunluğu: l

Kapsama / dizileme derinliği (coverage / sequencing depth): Genomdaki her baza denk gelen ortalama parçacık sayısı

Kapsama K = n l / L

30X kapsama = baz başına ortalama 30 parçacık

Lander-Waterman modeli:

Tekbiçim dağılım (uniform distribution) varsayımı ile, K=10 ise her 1 milyon nükleotidde 1 boş bölge kalır

K

Ekzom ya da tüm genom

Ekzom dizileme sadece protein kodlayan kısımları

inceler

Genomun %1’i

Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için

genelde iyi sonuç verir

> 60X kapsama gerekir

Tüm genom dizileme ile intronlar, UTR’lar,

promotörlerdeki hastalık nedeni mutasyonlar da

bulunabilir

Crohn hastalığı: McCarroll 2008, Bekpen 2009

ALS-FTD: Renton, 2011

> 30X kapsama gerekir

Biyoenformatik analizler

Tekrar dizileme (resequencing): elde bir

referans genomu varsa karşılaştırılma yapılır

(örn. İnsan, fare, şempanze, vs.)

Parçacık hizalama (read mapping): Her

parçacığın referans genomuna mümkün olan en

az değişiklik ile eşleştirilmesi

Yeni dizileme (de novo sequencing): referans

genomu olmayan türlerin analizinde (örn: inci

kefali)

Tekrar dizileme analizi

Dizileme

parçacıklar

BWA, Bowtie, mrFAST, vb.

parçacık hizalama

(read mapping)

TNP/indel keşfi Yapısal farklılık keşfi

GATK,

SOAPsnp, vb.

VariationHunter,

GenomeSTRiP, Delly, vb.

Yorumlama, veritabanı karşılaştırma, gen

önceliklendirme

Annovar, snpEff, SIFT, vb. Ingeniuty, DADA, vb.

Protein etkileşimi ve yolak analizi

DİZİ HİZALAMA

Hizalama algoritmaları

İki ana ‘tip’

Hash tabanlı ‘seed-and-extend’ (hash table, suffix array, suffix

tree)

Genomdaki kısa k-mer’ları indeksle

Dizi parçasının yerini ararken, parçanın içinden kısa bir k-mer’in

yerini indeksten bul, hizalamaya oradan devam et

Tüm genom için yüksek miktarda bellek gerekir, ama hız feda

edilerek bellek gereksinimi azaltılabilir

Hassas ancak yavaş

Burrows-Wheeler Transform & Ferragina-Manzini Index

BWT algoritması ile genom sıkıştırır ve FM ile sıkışmış genom

indekslenir

Arama ‘binary search’ benzeri bir yöntemle yapılır. Hatasız

hizalamalar çabuk bulunur.

Hassaslığı azdır

Hash Tabanlı Hizalama

BWT-FM

Tüm referans genomu

sıkıştırarak indeksle

Dizi parçasını sondan

başa doğru karakter

karakter hizala

Her karakter için bütün

olası koordinatlar

hesaplanır

Uyumlu hizalama

bulunmadığında bir

karakter geriye gidip,

değişik karakter aranır

TNP VE KISA INDELLER

YÇD ile TNP/indel keşfi

Database: dbSNP

http://www.ncbi.nlm.nih.gov/projects/SNP/

Girdi: Dizileme verileri ve referans genomu

Çıktı: TNP ve indeller ve genotipleri

(homozigot/heterozigot)

TNP/indel keşif algoritmaları istatiksel analize dayanır

Birden fazla lokasyona eşlenen dizi parçaları (parçacık,

read) genelde elenir

Sıklıkla hata görülür, filtreleme gerekir

Tekrar dizileme ile TNP keşfi

referans genomu

parçacık yerleştirme

parçacık

hizalamaParalog tespidi

TNP keşfi

Amaç

Referans genomuna hizalanmış kısa parçacıklar

incelendiğinde görülen farklılıklardan gerçek

TNP ve dizileme hatalarının ayırılması

TCTCCTCTTCCAGTGGCGACGGAAC

CTCCTCTTCCAGTGGCGACAGAACG

CTCTTCCAGTGGCGACGGAACGACC

CTTCCAGTGGCGACGGAACGACCC

CCAGTGGCGACTGAACGACCCTGGA

CAGTGGCGACAGAACGACCCTGGAG

TNP?

Dizileme

hatası

TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGTReferans

Zorluklar

Dizileme hataları

Tekrar ve duplikasyonlardaki paralog dizi

varyanları

Hizalama hataları

TNP ve indellerin yanlış hizalanması

Kısa ardışık tekrarlar

Düzeltmek için Çoklu Dizi Hizalaması (ÇDH)

gerekir

Hizalama hatası

ÇDH sonrası

Başlıca TNP/indel tahmin programları

Genome Analysis Tool Kit (GATK; Broad

Inst.)

Samtools (Sanger Centre)

PolyBayes (Boston College)

SOAPsnp (BGI)

VARiD (U. Toronto)

TNP tahmin hataları ve filtreleme

TNP tahminlerinde çok sayıda hata bulunur

Sistematik okuma hataları, parçacık yerleştirme ve hizalama

hataları

Ham TNP tahminlerinde %5‐%20 arası yanlış pozitif olabilir

“Sert” filtreler:

Okuma derinliği (çok az ve çok fazla kapsama)

Alel dengesi

Baz kalitesi

İplik meyli (strand bias)

Küçük bölgelerde TNP sayısının fazlalığı

İstatistiksel filtreler:

dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama

VQSR: Variant Quality Score Recalibration (GATK programında)

YAPISAL VE KOPYA SAYISI

VARYASYONU

Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME

(deletion) (novel sequence ins.) (transposon insertion)

Alu/L1/SVA

ARDARDA KOPYA AYRIŞIK KOPYA

(tandem duplication) (interspersed duplication)

İNVERSİYON TAŞINMA

(inversion) (translocation)

Kopya sayısı

Varyasyonu

(copy number

variation)

Dengeli

Varyasyon

(balanced

rearrangement)

Otizm, Crohn’s

Hemofili

Şizofreni, sedef

Lösemi (CLL)

Keşifteki zorluklar

790

283

128

5

634

278

84132

25

76130

5

Fosmid klonu

eşli dizileme

End-sequence pair

(N = 1,206)

42 milyon oligolu

arrayCGH

Conrad et al., 2010

(N = 1,128)

Affymetrix 6.0 TNP microdizin

McCarroll et al., 2008 (N = 236)

Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda

Sorunlar

Çoğu YV duplikasyonlar ve uzun tekrarların içinde ya da yakınında

bulunur

Okunan dizileri kısa olduğundan çok sayıda farklı yere hizalanabilir, bu

da yanlış pozitifleri artırır

Sadece tek bir yere hizalanan diziler dikkate alınırsa hassaslık azalır

Referans genomu da tam değildir, eksik kalan duplike paraloglarından

gelen diziler hem yanlış pozitifleri hem de yanlış negatifleri artırır

YV’lerin çoğu karmaşıktır, aynı lokasyonda bir çok YV bulunabilir

KSV keşfi üzerine çok çalışılmıştır ancak hala mükemmellik

yakalanamamıştır

Dengeli YV’lerin (inversiyon, translokasyon) keşfi daha zordur ve iyi

çalışılmamıştır

YV için dizi sinyalleri

Eşli dizi analizi (read pair – RP)

Tüm YV türleri

Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği

eşler arasındaki mesafeye bağlı

Dizileme derinliği analizi (read depth – RD)

Sadece silinme ve duplikasyonlar (KSV)

Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık

bulunur

Ayrık dizi analizi (split read – SR)

Tekrarsız genomik bölgelerdeki tüm YV türleri

Bulunan YV’lerin yerleri kesindir

Yerel ve genel de novo birleştirme

Tekrarsız genomik bölgelerdeki tüm YV türleri

Bulunan YV’lerin yerleri kesindir

Bazı YV algoritmalarıSilinme Eklenme İnversiyon Transpozon Duplikasyon Mikrosatelit

RPVariationHunter X Kısa X X X

BreakDancer X KısaHYDRA X Kısa X X

Tangram XRDCNVnator X X

RDXplorer X XSRPindel X KısaSPLITREAD X Kısa X X X X

lobSTR X

RP+SR

Delly X Kısa

Invy XGenomeSTRiP X Kısa XASCortex X XNovelSeq X

1000 Genomes Projesinde YV

Approach Algorithm name Platform Genomes

SV types discovered (size-range of

validated SVs in basepairs)

SV

calls

valid

ated

FDR

(PCR)

FDR

(array)

FDR

(hierar

ch.)

Event-wise testing Illumina 6 DEL (200 - 221,800); DUP (200 - 415,700) 5,762 1,952 0 0.230 0.230

CNVnator Illumina 6 DEL (100 - 412,475) 17,036 2,361 - 0.142 0.142

AB large indel tool SOLiD 1 DEL (67 - 83,391) 1,138 480 0.188 0.084 0.143

AB large indel tool SOLiD 1 INS (448 - 2,213) 632 42 0.176 - 0.176

Spanner Illumina 6 TEINS (51 - 6,012) 2,013 179 0.022 - 0.022

Spanner Illumina 6 DEL (50-192,167) 4,718 3,619 0.100 0.033 0.087

PEMer 454 1 DEL (941 - 960,004) 1,062 483 0.095 0.363 0.363

VariationHunter Illumina 6 DEL (52 - 498,738) 11,028 4,231 0.103 0.419 0.190

BreakDancer Illumina 6 DEL (51 - 1,035,808) 5,973 3,587 0.115 0.145 0.121

N/A Illumina 6 DEL (276 - 959,518) 3,419 2,584 0.136 0.085 0.121

Mosaik 454 2 TEINS (300 - 6,000) 1,463 172 0.055 - 0.055

Pindel Illumina 6 DEL (51 - 46,384) 3,879 2,960 0.201 0.127 0.189

N/A 454 1 DEL (51 - 703,404); INS (52 - 295) 32,187 3,845 0.545 0.519 0.543

SOAPdenovo Illumina 6 DEL (64 - 3,907) 160 55 0.531 0.531 0.497

SOAPdenovo Illumina 6 INS (55 – 4,116) 3,894 22 0.810 - 0.810

Cortex Illumina 1 DEL(52-39,512);DUP(83-2,090) 2,787 896 0.415 0.415 0.410

Cortex Illumina 1 INS(50-828) 389 84 0.398 - 0.398

NovelSeq Illumina 6 INS (200 - 8,224) 657 30 0.791 - 0.791

IN Spanner Illumina 6 TANDUP (55-64,230) 256 88 0.049 - 0.049

RD

PE

SR

AS

1000 Genomes Consortium, Nature, 2010

1000 Genomes Projesinde YV:

hassaslık

Mills et al., Nature, 2011

Kapsamlı bir metot yok

486

43250

303

6855 (63%)

3223 (80%)

1772 (33%)

RP

N=6

RD

N=4

SR

N=4

Kidd et al., Cell, 2010

1000 Genomes Projesi’ndeki

doğrulanmış silinmeler

Kapsamlı bir metot yok

486

43250

303

6855 (63%)

3223 (80%)

1772 (33%)

RP

N=6

RD

N=4

SR

N=4

Kidd et al., Cell, 2010

1000 Genomes Projesi’ndeki

doğrulanmış silinmeler

Tavsiyeler:

• Birden çok metot kullanmak

Kapsamlı bir metot yok

486

43250

303

6855 (63%)

3223 (80%)

1772 (33%)

RP

N=6

RD

N=4

SR

N=4

Kidd et al., Cell, 2010

1000 Genomes Projesi’ndeki

doğrulanmış silinmeler

Tavsiyeler:

• Birden çok metot kullanmak

• Kullanılan metotların hassaslık

(sensitivity), hatalı keşif oranı

(false discovery rate) ve hangi

tür varyasyonları nasıl bir genomik

altyapıda bulabileceğini bilmek

Varyasyon keşfi – özet

Parçaçık hizalama: BWA, mrFAST, Bowtie

TNP ve indel: GATK, samtools, SOAPsnp

Yapısal:

Silinme, eklenme: VariationHunter, Delly,

BreakDancer, GenomeSTRiP, Pindel, HYDRA...

İnversiyon: VariationHunter, Invy

Transpozon: VariationHunter, Tangram

Mikrosatelit: lobSTR, SPLITREAD, Pindel

http://seqanswers.com/wiki/SEQanswers

Keşif sonrası

Yorumlama

Annovar

snpEff

VAAST

Etkiler

PolyPhen2

SIFT

SNAP

MutationTaster

Evrimsel korunum

GERP

phastCons

Protein etkileşimi ve

yolaklar

DADA, VAVIEN, vb.

Protein yolakları

Ingeniuty, vb.

Cooper & Shendure, Nature Reviews Genetics, 12(9):628-40, 2011

Fonksiyonal analiz; hayvan modelleri, vb.

GENOM BİRLEŞTİRME

(ASSEMBLY)

Genom Birleştirme

Test genomu

Rastgele parçalama

Dizileme

Contig /

scaffold

Birleştirme (assembly)

Zorluklar

DNA ikili sarmal olduğundan birleştirme

algoritmaları her dizi için 2 versiyona

dikkat etmeli

Dizileme hataları

Tekrarlar ve duplikasyonlar

Heterozigosite

Diploid genomlar: Her pozisyon için 2 alternatif

Polyploid bitki genomlarını birleştirmesi daha

zor (>2 alternatif)

Zorluklar

Büyük genomlar için gereken:

Daha yüksek hesaplama gücü

Daha çok bellek (>300 GB)

Kontaminasyon / karışım:

DNA dizilenirken başka kaynaklardan DNA da birlikte

okunur

Örn: maya, E. coli, diğer bakteriler, vb.

‘Big data’

Milyarlarca kısa dizi parçacığı ile çalışılır

56

Birleştirme algoritmaları

Overlap-layout-consensus

greedy (TIGRA, phrap, CAP3...)

graph-based (Celera Assembler, Arachne, SGA)

de Bruijn çizgeleri

EULER, Velvet, ABySS, ALLPATHS-LG, Cortex,

etc.

OLCTAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG

AGTCGAG CTTTAGA CGATGAG CTTTAGA

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT AGGCTTT GAGACAG

AGTCGAG TAGATCC ATGAGGC TAGAGAA

TAGTCGA CTTTAGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

TAGTCGA GCTTTAG TCCGATG GCTCTAG

TCGACGC GATCCGA GAGGCTT AGAGACA

TAGTCGA TTAGATC GATGAGG TTTAGAG

GTCGAGG TCTAGAT ATGAGGC TAGAGAC

AGGCTTT ATCCGAT AGGCTTT GAGACAG

AGTCGAG TTAGATT ATGAGGC AGAGACA

GGCTTTA TCCGATG TTTAGAG

CGAGGCT TAGATCC TGAGGCT GAGACAG

AGTCGAG TTTAGATC ATGAGGC TTAGAGA

GAGGCTT GATCCGA GAGGCTT GAGACAG

OLC

AGTCGAG CTTTAGA CGATGAG CTTTAGA

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT AGGCTTT GAGACAG

AGTCGAG TAGATCC ATGAGGC TAGAGAA

TAGTCGA CTTTAGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

TAGTCGA GCTTTAG TCCGATG GCTCTAG

TCGACGC GATCCGA GAGGCTT AGAGACA

TAGTCGA TTAGATC GATGAGG TTTAGAG

GTCGAGG TCTAGAT ATGAGGC TAGAGAC

AGGCTTT ATCCGAT AGGCTTT GAGACAG

AGTCGAG TTAGATT ATGAGGC AGAGACA

GGCTTTA TCCGATG TTTAGAG

CGAGGCT TAGATCC TGAGGCT GAGACAG

AGTCGAG TTTAGATC ATGAGGC TTAGAGA

GAGGCTT GATCCGA GAGGCTT GAGACAG

OLC

AGTCGAG CTTTAGA CGATGAG

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT

TAGAGAA

TAGTCGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

GCTTTAG TCCGATG

TCGACGC GATCCGA

GATGAGG

TCTAGAT

AGGCTTT

GGCTTTA

TAGATCC

OLC

AGTCGAG CTTTAGA CGATGAG

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT

TAGAGAA

TAGTCGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

GCTTTAG TCCGATG

TCGACGC GATCCGA

GATGAGG

TCTAGAT

AGGCTTT

GGCTTTA

TAGATCC

OLCTAGTCGA

AGTCGAG

GTCGAGG

CGAGGCT

GAGGCTC

AGGCTTT TCTAGAT

GGCTTTA TTAGATC

GCTTTAG TAGATCC

CTTTAGA AGATCCG

GATCCGA

ATCCGAT

TCCGATG

CCGATGA

TTAGAGA CGATGAG

TAGAGAA GATGAGG

AGAGACA ATGAGGC

GAGACAG TGAGGCT

de BruijnTAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG

AGTCGAG CTTTAGA CGATGAG CTTTAGA

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT AGGCTTT GAGACAG

AGTCGAG TAGATCC ATGAGGC TAGAGAA

TAGTCGA CTTTAGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

TAGTCGA GCTTTAG TCCGATG GCTCTAG

TCGACGC GATCCGA GAGGCTT AGAGACA

TAGTCGA TTAGATC GATGAGG TTTAGAG

GTCGAGG TCTAGAT ATGAGGC TAGAGAC

AGGCTTT ATCCGAT AGGCTTT GAGACAG

AGTCGAG TTAGATT ATGAGGC AGAGACA

GGCTTTA TCCGATG TTTAGAG

CGAGGCT TAGATCC TGAGGCT GAGACAG

AGTCGAG TTTAGATC ATGAGGC TTAGAGA

GAGGCTT GATCCGA GAGGCTT GAGACAG

Slide courtesy of Dan Zerbino

AGTCGAG CTTTAGA CGATGAG CTTTAGA

GTCGAGG TTAGATC ATGAGGC GAGACAG

GAGGCTC ATCCGAT AGGCTTT GAGACAG

AGTCGAG TAGATCC ATGAGGC TAGAGAA

TAGTCGA CTTTAGA CCGATGA TTAGAGA

CGAGGCT AGATCCG TGAGGCT AGAGACA

TAGTCGA GCTTTAG TCCGATG GCTCTAG

TCGACGC GATCCGA GAGGCTT AGAGACA

TAGTCGA TTAGATC GATGAGG TTTAGAG

GTCGAGG TCTAGAT ATGAGGC TAGAGAC

AGGCTTT ATCCGAT AGGCTTT GAGACAG

AGTCGAG TTAGATT ATGAGGC AGAGACA

GGCTTTA TCCGATG TTTAGAG

CGAGGCT TAGATCC TGAGGCT GAGACAG

AGTCGAG TTTAGATC ATGAGGC TTAGAGA

GAGGCTT GATCCGA GAGGCTT GAGACAG

Slide courtesy of Dan Zerbino

de Bruijn

GTCG

(1x)

TCGA

(1x)

CGAG

(1x)

GAGG

(1x)

İlk dizi: GTCGAGG

Slide courtesy of Dan Zerbino

de Bruijn

GTCG

(2x)

TCGA

(2x)

CGAG

(2x)

GAGG

(1x)

İkinci dizi: AGTCGAG

de Bruijn

İlk dizi: GTCGAGG

AGTC

(1x)

ekle sayacı arttır

Slide courtesy of Dan Zerbino

AGAT

(8x)

ATCC

(7x)

TCCG

(7x)

CCGA

(7x)

CGAT

(6x)

GATG

(5x)

ATGA

(8x)

TGAG

(9x)

GATC

(8x)

GATT

(1x)

TAGT

(3x)

AGTC

(7x)

GTCG

(9x)

TCGA

(10x)

GGCT

(11x)

TAGA

(16x)

AGAG

(9x)

GAGA

(12x)

GACA

(8x)

ACAG

(5x)GCTT

(8x)

GCTC

(2x)

CTTT

(8x)

CTCT

(1x)

TTTA

(8x)

TCTA

(2x)

TTAG

(12x)

CTAG

(2x)

AGAC

(9x)

AGAA

(1x)

CGAG

(8x)

CGAC

(1x)

GAGG

(16x)

GACG

(1x)

AGGC

(16x)

ACGC

(1x)

Diğerleri

de Bruijn

Slide courtesy of Dan Zerbino

AGAT

(8x)

ATCC

(7x)

TCCG

(7x)

CCGA

(7x)

CGAT

(6x)

GATG

(5x)

ATGA

(8x)

TGAG

(9x)

GATC

(8x)

GATT

(1x)

TAGT

(3x)

AGTC

(7x)

GTCG

(9x)

TCGA

(10x)

GGCT

(11x)

TAGA

(16x)

AGAG

(9x)

GAGA

(12x)

GACA

(8x)

ACAG

(5x)GCTT

(8x)

GCTC

(2x)

CTTT

(8x)

CTCT

(1x)

TTTA

(8x)

TCTA

(2x)

TTAG

(12x)

CTAG

(2x)

AGAC

(9x)

AGAA

(1x)

CGAG

(8x)

CGAC

(1x)

GAGG

(16x)

GACG

(1x)

AGGC

(16x)

ACGC

(1x)

Diğerleri...

de Bruijn

Slide courtesy of Dan Zerbino

TAGTCGA

AGAGATAGA

AGAT

GCTTTAG

GCTCTAG

AGACAG

AGAA

CGAG

CGACGC

GAGGCT

GATCCGATGAG

GATT

Sadeleştirme sonrası

de Bruijn

Slide courtesy of Dan Zerbino

TAGTCGA

AGAGATAGA

AGAT

GCTTTAG

GCTCTAG

AGACAG

AGAA

CGAG

CGACGC

GAGGCT

GATCCGATGAG

GATT

Uçlar

Slide courtesy of Dan Zerbino

TAGTCGA

AGAGATAGA

AGAT

GCTTTAG

GCTCTAG

AGACAG

CGAG

GAGGCT

GATCCGATGAG

Uçlar silindi...

Hata onarımı

Slide courtesy of Dan Zerbino

TAGTCGA

AGAGATAGA

AGAT

GCTTTAG

GCTCTAG

AGACAG

CGAG

GAGGCT

GATCCGATGAG

Kabarcıklar

Slide courtesy of Dan Zerbino

TAGTCGA

AGAGATAGA

AGAT

GCTTTAG AGACAG

CGAG

GAGGCT

GATCCGATGAG

Kabarcıklar kaldırıldı

Hata onarımı

Slide courtesy of Dan Zerbino

TAGTCGAG AGAGACAG

AGATCCGATGAG

GAGGCTTTAGA

Son sadeleştirme

Hata onarımı

Slide courtesy of Dan Zerbino

TAGTCGAG AGAGACAG

AGATCCGATGAG

GAGGCTTTAGA

Eulerian path

TAGTCGAG GAGGCTTTAGA AGATCCGATGAG GAGGCTTTAGA AGAGACAG

Slide courtesy of Dan Zerbino

Ek bilgiler

Bilkent CS681 dersi slaytları: http://www.cs.bilkent.edu.tr/~calkan/teaching/cs681

Araçlar, programlar: http://seqanswers.com/wiki/SEQanswers

Başlangıç için makaleler: http://www.cs.bilkent.edu.tr/~calkan/teaching/genomics/reading

Dergiler:

Nature Reviews Genetics (Article series: Next-generation sequencing)

Bioinformatics, BMC Bioinformatics, Nature Methods, vb.

Konferanslar

RECOMB (2014: Pittsburgh), ISMB (2014: Boston), APBC (2014:

Shanghai), HIBIT (ODTÜ), PSB (Hawaii), vb.

top related