lyginamosios genomikos metodai ir algoritmai
Post on 24-Jan-2016
105 Views
Preview:
DESCRIPTION
TRANSCRIPT
Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,
Studentų 50-409aEmail: robertas.damasevicius(at)ktu.lt
TurinysGenomikaGenų identifikavimo metodaiGENSCANZ-kreiveHao histograma
Bioinformatika (B110B001) 2
Genomika yra rūšies viso genomo molekulinė analizė Genolapio sudarymas Sekvenavimas (nukleotidų sekos nustatymas)
Struktūrinė genomika prasideda genolapio sudarymu ir baigiasi pilnu genomo sekvenavimu
Funkcinė genomika tiria, kaip genų sąveikos skuria organizmo požymius
Funcinės genomikos pagrindinė paskirtis yra išsiaiškinti genetinių sekų reikšmę organizmo funkcionavimui
Genomika
10-3
1995 m. mokslininkai vadovaujami C. Venterio ir H. Smitho nustatė pirmojo organizmo bakterijos Haemophilus influenza pilną DNR seką
1.83 mln. bp
~ 1,743 genų
Istoriniai duomenys
1996 m. buvo pabaigtas pirmojo eukariotinio organizmo genomo tyrimas. (A. Goffeau, Belgija)Saccharomyces cerevisiae Genomą sudaro 16 linijiškų chromosomų
~ 12 milijonų bp, ~ 6,200 genų
Vėliau buvo sekvenuoti kitų organizmų genomai, įskaitant žmogų
10-4
Istoriniai duomenys
Genomų dydžiai estimated chromosome
gene number number
Homo sapiens(human)
Rattus norvegicus(rat)
Mus musculus(mouse)
Drosophila melanogaster(fruit fly)
Arabidopsis thaliana(plant)
Caenorhabditis elegans
(roundworm)
Saccharomyces cerevisiae(yeast)
Escherichia coli(bacteria)
H. influenzae(bacteria)
organism estimated sizeaverage gene
density
2900 million bases ~30,0001 gene per 100,000
bases
2500 million bases ~30,0001 gene per 100,000
bases 40
46
2,750 million bases ~30,0001 gene per 100,000
bases 42
125 million bases 25,5001 gene per 4000
bases 5
180 million bases 13,6001 gene per 9,000
bases 8
12 million bases 63001 gene per 2000
bases 16
97 million bases 19,1001 gene per 5000
bases 6
1.8 million bases 17001 gene per 1000
bases 1
4.7 million bases 32001 gene per 1400
bases 1
Lyginamosios genomikos metodai ir algoritmaiLyginamoji genomika yra skirtingų organizmų rūšių
genetinių duomenų palyginimas siekiant suprasti jų evoliuciją, genų funkcijas, paveldimas ligas ir pan.
Lyginama:Genų vieta chromosomoje.Genų struktūra (įvairių genų komponentų skaičius ir
ilgis).Genų charakteristikos (kodonų naudojimas ir pan.).
Lyginamosios genomikos uždaviniai yra:Genų suradimas (identifikavimas).Genų motyvų suradimas
Bioinformatika (B110B001) 7
Genų identifikavimo metodai (1)Genų identifikavimas: bioinformatikos šaka
apimanti algoritmų taikymą nustatant biologinę funkciją turinčias biomolekulinių sekų (paprastai DNR) fragmentus (genus).
Išoriniai metodai. Turint baltymo seką galima atlikti atvirkštinį
transliavimą ir nustatyti DNR sekų-kandidačių aibę. Turint sekas-kandidates atliekama paieška tiriamame
genome ir nustatomi visiški arba daliniai sutapimai. Didelis panašumas reiškia, kad genomo fragmentas
yra genas. Trūkumas: reikalauja labai daug eksperimentinių
duomenų, todėl nėra efektyvūs
Bioinformatika (B110B001) 8
Genų identifikavimo metodai (2)Metodai „nuo pradžios“ (Ab initio).
Genomo DNR sekoje atliekama paieška ieškant specialių baltymus koduojančių genų pradžios ir pabaigos simbolių (fragmentų).
Rezultatų teisingumą dar reikia patvirtinti išoriniais metodais.
GENSCAN, Z-kreivė
Bioinformatika (B110B001) 9
GENSCAN algoritmasGenų numatymui naudoja Furjė transformaciją. N nukleotidų seką galima nagrinėti kaip simbolių eilutę {xj,
j=1,2, ..., N}, kur xj yra vienas iš keturių simbolių A, T, G ir C sekos pozicijoje j.
Apibrėžiama funkcija Ua, kuri pasirenka sekos elementus lygius simboliui a, t.y.:Ua(xj) = 1, jei xj = a
Ua(xj) = 0, jei xj ≠ a Kadangi skirtingų simbolių yra 4, apibrėžiamos 4 skirtingos
funkcijos UA, UT, UG, UC. Jų pagalba seka transformuojama į 4 skirtingas dvejetaines
sekasBioinformatika (B110B001) 10
DNR sekos transformavimas į dvejetaines sekas (1)
Funkcija Seka
- GGATACACTTTAGAG
UA 001010100001010
UT 000100001110000
UG 110000000000101
UC 000001010000000
Bioinformatika (B110B001) 11
Purinai – A ir G – DNR sudėtyje sudaro vandenilinius ryšius su jiems komplimentariais pirimidinais – T ir C. A sudaro du vandenilinius ryšius su T (RNR - U), o G tris ryšius su C.
DNR seką galima koduoti 2 sekomis:A ir G yra purinai – koduojama (1)C ir T yra pirimidinai – koduojama (0)
Seka G G A T A T T C A C T T T A
Upurine 1 1 1 0 1 0 0 0 1 0 0 0 0 1
Upyrimidine 0 0 0 1 0 1 1 1 0 1 1 1 1 0
DNR sekos transformavimas į dvejetaines sekas (2)
Sekų analizė naudojant Furjė metodus(1)
Nagrinėjama koreliacija tarp simbolių, gaunamas DNR sekos spektras.
Bendras DNR sekos spektras yra atskirų dvejetainių sekų spektrų suma:
kur: Sα(f) yra dalinis a simbolio spektras, a (A, G, C, T).
Bioinformatika (B110B001) 13
a a
N
j
ifjjaa exU
NfSfS
2
1
22
1
Sekų analizė naudojant Furjė metodus(2)Bendrojo spektro vidurkis apskaičiuotas naudojant simbolio
dažnį ρα:
Galia P :
Galios reikšmė, kai dažnis f=1/3 naudojama atskirti koduojančioms sekoms (t.y.) genams, nuo nekoduojančių sekų
F=1/3 dažnio reikšmė imama todėl, kad genai yra sudaryti iš 3 simbolio ilgio žodžių kodonų, todėl koduojančios sekos spektro grafike ties 1/3 turi būti maksimumas
Bioinformatika (B110B001) 14
2
1
211
12ˆ
N
k aaNNN
kS
NS
S
SP
ˆ3
1
DNR sekos spektro pavyzdys
Bioinformatika (B110B001) 15
GENSCAN pavyzdyshttp://www.imtech.res.in/raghava/ftgpred
Geno prognozavimo tikslumas
True positives (TP) – nukleotidai, kurie teisingai prognozuojami, kad yra gene
Actual positives (AP) – nukleotidai, kurie yra gene
Predicted positives (PP) – nukleotidai, kurie prognozuojami, kad yra gene
Sensitivity = TP / AP (jautrumas) Specificity = TP / PP
(specifiškumas)
Metodų tikslumo palyginimas
GenScan Website
Z-kreivės metodasZ-kreivė: trimatė kreivė, kuri unikaliai
atvaizduoja DNR seką. Turint Z-kreivę galima rekonstruoti pradinę DNR
seką. Z-kreivės metodas bioinformatikoje yra
naudojamas genomo analizei ir genų numatymui. Z-kreivės pranašumai:
galima lengvai pastebėti DNR sekos šablonus. metodas yra paprastas ir labai jautrus.
Bioinformatika (B110B001) 19
Z-kreivėZ-kreivė yra sudaryta iš mazgų P0, P1, P2, ..., PN, kurių
koordinatės xn, yn ir zn (n = 0, 1, 2, ... , N, kur N yra analizuojamos DNR sekos ilgis) yra apskaičiuojamos naudojant DNR sekos Z-transformaciją:
kur: An, Cn, Gn ir Tn yra A, C, G ir T simbolių skaičius nuo i-ojo iki n-tojo sekos simbolio.
Z-kreivė gaunama nuosekliai sujungus mazgus P0, P1, P2, ..., PN tiesiomis linijomis.
Bioinformatika (B110B001) 20
NnNNzyx
GCTAz
TGCAy
TCGAx
nnn
nnnnn
nnnnn
nnnnn
,...,0,,,,
,
,
,
Z-kreivės braižymasZ-kreivė yra brėžiama trimatėje erdvėje,
kurios ašys turi tokią reikšmė:x-ašis rodo purino/pirimidino (R/Y) bazių
pasiskirstymą sekoje; y-ašis rodo amino/keto (M/K) bazių
pasiskirstymą sekoje; z-ašis rodo stiprios vandenilinės
jungties/silpnos vandenilinės jungties (S/W) bazių pasiskirstymą sekoje.
Bioinformatika (B110B001) 21
Z-kreivė: pavyzdys (3D kreivė)
Bioinformatika (B110B001) 22
Dvimatis atvaizdavimas
Bioinformatika (B110B001) 23
Z-kreivė: pavyzdys (1 ašis)
Bioinformatika (B110B001) 24
Genų suradimo algoritmas naudojant Z-kreivę (1)
1) Tegul A, C, G ir T nukleotidų dažnis DNR sekos fragmente pozicijose 1, 4, 7,...; 2 ,5, 8,... ir 3, 6, 9,... yra žymimas a1, c1, g1, t1 ; a2, c2, g2, t2 ; a3, c3, g3, t3.
2) Naudojant Z-kreivę ai, ci, gi, ti yra atvaizduojamos į tašką Pi trimatėje erdvėje Vi, i = 1, 2, 3.
Bioinformatika (B110B001) 25
Genų suradimo algoritmas naudojant Z-kreivę (1)3) Pi koordinatės yra apskaičiuojamos naudojant
DNR sekos Z-transformaciją:
4) DNR sekos fragmentas atvaizduojamas vektoriumi 9D erdvėje V, kur jos koordinatės u1, u2, ..., u9 yra apibrėžiamos taip:
Bioinformatika (B110B001) 26
.3,2,1,1,1,,
,
,
,
izyx
gctaz
tgcay
tcgax
iii
iiiii
iiiii
iiiii
.,,
,,,
,,,
393837
262524
131211
zuyuxu
zuyuxu
zuyuxu
Z-kreivė: demonstracijahttp://tubic.tju.edu.cn/zcurve/
Z-kreivės metodo įvertinimasPagrindinė genų numatymo naudojant Z-kreivę idėja:
koduojantys ir nekoduojantys sekos fragmentai bus išsidėstę skirtingose 9-matės erdvės V vietose.
2-matės V erdvės projekcijai gauti galima naudoti daugiamačių skalių (MDS) metodą.
Pranašumai: labai paprastas ir lengvas naudoti DNR vizualizavimo
metodas leidžiantis greitai pamatyti pagrindines DNR sekos globalias ir lokalias charakteristikas;
galima palyginti 2 ar daugiau DNR sekas lyginant jų Z-kreives.
Bioinformatika (B110B001) 28
DNA walk metodas (1)DNA Walk – vektorinis DNR sekos
atvaizdavimo metodasLeidžia vizualiai pastebėti tam tikrus
pasikartojimus DNR sekoje
Bioinformatika (B110B001) 29
DNA walk metodas (2)DNA Walk grafikas brėžiamas atidedant
sekantį grafiko tašką tokia kryptimi:
Bioinformatika (B110B001) 30
Figure 1Figure 1: DNA walk of the sequence: DNA walk of the sequence
GTCTGGTGTCTGGAGTTCCTGGGTCTTGAGGTCTGGTGTCTGGAGTTCCTGGGTCTTGAG
ACCACAGGACCCACCAGACCACAGGACCCACCAGGGACCCAGGACCCGGACCCAGGACCC
Starting from the bottom left (bold blue line), the curve end at the bottom left (pink line)Starting from the bottom left (bold blue line), the curve end at the bottom left (pink line)
DNA walk metodas (3)Papildomai galima analyzuoti TA ir GC nukleotidų
kompozicijąGC skew parodo C nukleotidų perviršį lyginant su
G.Skaičiuojama pagal formulę
(C-G)/(C+G)AT Skew parodo A nukleotidų perviršį lyginant su TSkaičiuojama pagal formulę
(A - T)/(A + T)Naudojama nustatyti geno pradžiai ir pabaigai
Bioinformatika (B110B001) 31
Motyvai (1)Sekos motyvas yra nukleotidų arba amino rūgščių
sekos šablonas, kuris yra dažnai aptinkamas ir turi biologinę prasmę.
Trumpi sekų motyvai, pvz., gali reikšti į kurią ląstelės vietą turi būti pristatomas baltymas po jo sintezės, arba įtakoja DNR spiralės formą.
Bioinformatika (B110B001) 32
Motyvai (2) Motyvų aprašymo susitarimai:
Atskiras abėcėlės simbolis aprašo amino rūgštį arba jų aibę.
Simbolių eilutė aprašo atitinkamų amino rūgščių seką.
Kvadratiniai skliaustai reiškia vieną iš apskliaustų amino rūgščių.
Riestiniai skliaustai reiškia bet kurią amino rūgštį išskyrus apskliaustą.
Bioinformatika (B110B001) 33
Genetinė seka, turinti tam tikrą funkciją, yra vadinama sekos elementu arba sekos motyvu
Specifiniai aminorūgščių motyvai, atliekantys baltymuose specializuotas funkcijasPvz., asparaginas–X–serinas (kur X yra bet kuri
aminorūgštis) yra eukariotų baltymų glikozilinimo vietaProsite duomenų bazėje yra kaupiamos žinios apie
aminorūgščių motyvus, turinčius funkcinę reikšmę
Sekų motyvai
Motyvo pavyzdysMotyvo pavyzdys (aprašo N-glikosilacijos vietą):
N{P}[ST]{P}
čia: N = Asn, P = Pro, S = Ser, T = Thr; {X} – reiškia bet kurią amino rūgštį
išskyrus X; [XY] – reiškia X arba Y.
Bioinformatika (B110B001) 35
PROSITE notacijaNaudoja:
IUPAC vienos raidės kodus skirtus amino rūgščių žymėjimui ir
papildomą konkatenacijos simbolį `-`, kuris dažnai yra praleidžiamas tarp šablono abėcėlės raidžių.
Be to dar naudojami tokie simboliai:x – bet kokia amino rūgštis;{ } - reiškia bet kurią amino rūgštį išskyrus
apskliaustą;e(m) – reiškia e amino rūgštį pakartotą m kartų;e(m,n) – reiškia e amino rūgštį pakartotą k kartų, kur
m <= k <= n;Bioinformatika (B110B001) 36
PROSITE notacija: pavyzdysPROSITE šablonas CBD_FUNGAL (prieigos kodas
PS00562), aprašantis 1 tipo karbohidratinę jungtį CBM1):
C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]-x(2)-Q-C
Bioinformatika (B110B001) 37
Motyvo suradimo metodaiSekos profilio analizė: pirmiausiai surandamas
globalus daugybinis sekų sugretinimas. Jame izoliuojami labai konservatyvūs regionai, iš kurių konstruojamos profilio matricos. Profilio matricos yra naudojamos ieškoti motyvų kitose užklausos sekose.
Blokų analizė: motyvų paieška apsiriboja spragų neturinčiuose sugretinimo regionuose (blokuose), kurie gaunami atlikus daugybinį sekų sugretinimą.
Statistinė šablonų paieška naudojant tikėtino maksimizavimo (expectation-maximization) algoritmą.
Bioinformatika (B110B001) 38
Sekų motyvai, nustatomi kompiuterinės analizės metuSekos tipas Pavyzdys
Aktyvatoriai Daugelis E.coli aktyvatorių turi TTGACA (-35 bp) ir TATAAT (-10 bp) sekas. Eukariotų aktyvatoriai gali turėti CAAT, GC, TATA motyvus
Atsako elementai Gliukortikoidų atsako elementai (AGRACA), cAMP atsako elementai (GTGACGTRA)
Starto kodonas ATG
Stop kodonai TAA, TAG, TGA
Splaisingo vieta GTRAGT------------------YNYTRAC(Y)nAG
Poliadenilinimo signalas AATAAAA
Aukšto dažnio kartotinės sekos
Santykinai trumpos sekos, pasikartojančios genome daugelį kartų
Transpozabilūs elementai
Paprastai nustatomi pagal tai, kad tiesioginės pasikartojančios sekos yra apsuptos invertuotų pasikartojančių sekų
R – bet kuris purinas, Y – bet kuris pirimidinas, N - bet kuris nukleotidas
Motyvo vizualizacija: Hao histograma
40
Ilgų sekų posekių dažnumo grafinio vizualizavimo metodas
Kiekvienam matricos (2n x 2n) elementui priskiriamas genetinės abecėlės simbolis (n=1) arba iš simbolių sudaryti galimi posekiai (n>1)
Skaičiuojamas posekių sekoje dažnumas ir skirtingo dažnumo posekiai vaizduojami kita spalva (pvz., didesnis dažnumas sodresne spalva)
Pavyzdys
41
Hao histogramos realizacija
42
National Institute for Standard and Technology (NIST) http://math.nist.gov/~FHunt/GenPatterns/
Tikimybinis metodas Remiasi pastebėjimu, kad skirtingų kodonų tikimybės
genus koduojančiose ir nekoduojančiose DNR sekose skiriasi
Tarkime turime kodonų seką
Geno tikimybė apskaičiuojama kaip
Tikimybė, kad seka nėra genas:
Geno reikšmingumas:
))(
)(log(
0 CP
CPGPS
top related