Download - Lyginamosios genomikos metodai ir algoritmai
![Page 1: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/1.jpg)
Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,
Studentų 50-409aEmail: robertas.damasevicius(at)ktu.lt
![Page 2: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/2.jpg)
TurinysGenomikaGenų identifikavimo metodaiGENSCANZ-kreiveHao histograma
Bioinformatika (B110B001) 2
![Page 3: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/3.jpg)
Genomika yra rūšies viso genomo molekulinė analizė Genolapio sudarymas Sekvenavimas (nukleotidų sekos nustatymas)
Struktūrinė genomika prasideda genolapio sudarymu ir baigiasi pilnu genomo sekvenavimu
Funkcinė genomika tiria, kaip genų sąveikos skuria organizmo požymius
Funcinės genomikos pagrindinė paskirtis yra išsiaiškinti genetinių sekų reikšmę organizmo funkcionavimui
Genomika
![Page 4: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/4.jpg)
10-3
1995 m. mokslininkai vadovaujami C. Venterio ir H. Smitho nustatė pirmojo organizmo bakterijos Haemophilus influenza pilną DNR seką
1.83 mln. bp
~ 1,743 genų
Istoriniai duomenys
![Page 5: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/5.jpg)
1996 m. buvo pabaigtas pirmojo eukariotinio organizmo genomo tyrimas. (A. Goffeau, Belgija)Saccharomyces cerevisiae Genomą sudaro 16 linijiškų chromosomų
~ 12 milijonų bp, ~ 6,200 genų
Vėliau buvo sekvenuoti kitų organizmų genomai, įskaitant žmogų
10-4
Istoriniai duomenys
![Page 6: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/6.jpg)
Genomų dydžiai estimated chromosome
gene number number
Homo sapiens(human)
Rattus norvegicus(rat)
Mus musculus(mouse)
Drosophila melanogaster(fruit fly)
Arabidopsis thaliana(plant)
Caenorhabditis elegans
(roundworm)
Saccharomyces cerevisiae(yeast)
Escherichia coli(bacteria)
H. influenzae(bacteria)
organism estimated sizeaverage gene
density
2900 million bases ~30,0001 gene per 100,000
bases
2500 million bases ~30,0001 gene per 100,000
bases 40
46
2,750 million bases ~30,0001 gene per 100,000
bases 42
125 million bases 25,5001 gene per 4000
bases 5
180 million bases 13,6001 gene per 9,000
bases 8
12 million bases 63001 gene per 2000
bases 16
97 million bases 19,1001 gene per 5000
bases 6
1.8 million bases 17001 gene per 1000
bases 1
4.7 million bases 32001 gene per 1400
bases 1
![Page 7: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/7.jpg)
Lyginamosios genomikos metodai ir algoritmaiLyginamoji genomika yra skirtingų organizmų rūšių
genetinių duomenų palyginimas siekiant suprasti jų evoliuciją, genų funkcijas, paveldimas ligas ir pan.
Lyginama:Genų vieta chromosomoje.Genų struktūra (įvairių genų komponentų skaičius ir
ilgis).Genų charakteristikos (kodonų naudojimas ir pan.).
Lyginamosios genomikos uždaviniai yra:Genų suradimas (identifikavimas).Genų motyvų suradimas
Bioinformatika (B110B001) 7
![Page 8: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/8.jpg)
Genų identifikavimo metodai (1)Genų identifikavimas: bioinformatikos šaka
apimanti algoritmų taikymą nustatant biologinę funkciją turinčias biomolekulinių sekų (paprastai DNR) fragmentus (genus).
Išoriniai metodai. Turint baltymo seką galima atlikti atvirkštinį
transliavimą ir nustatyti DNR sekų-kandidačių aibę. Turint sekas-kandidates atliekama paieška tiriamame
genome ir nustatomi visiški arba daliniai sutapimai. Didelis panašumas reiškia, kad genomo fragmentas
yra genas. Trūkumas: reikalauja labai daug eksperimentinių
duomenų, todėl nėra efektyvūs
Bioinformatika (B110B001) 8
![Page 9: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/9.jpg)
Genų identifikavimo metodai (2)Metodai „nuo pradžios“ (Ab initio).
Genomo DNR sekoje atliekama paieška ieškant specialių baltymus koduojančių genų pradžios ir pabaigos simbolių (fragmentų).
Rezultatų teisingumą dar reikia patvirtinti išoriniais metodais.
GENSCAN, Z-kreivė
Bioinformatika (B110B001) 9
![Page 10: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/10.jpg)
GENSCAN algoritmasGenų numatymui naudoja Furjė transformaciją. N nukleotidų seką galima nagrinėti kaip simbolių eilutę {xj,
j=1,2, ..., N}, kur xj yra vienas iš keturių simbolių A, T, G ir C sekos pozicijoje j.
Apibrėžiama funkcija Ua, kuri pasirenka sekos elementus lygius simboliui a, t.y.:Ua(xj) = 1, jei xj = a
Ua(xj) = 0, jei xj ≠ a Kadangi skirtingų simbolių yra 4, apibrėžiamos 4 skirtingos
funkcijos UA, UT, UG, UC. Jų pagalba seka transformuojama į 4 skirtingas dvejetaines
sekasBioinformatika (B110B001) 10
![Page 11: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/11.jpg)
DNR sekos transformavimas į dvejetaines sekas (1)
Funkcija Seka
- GGATACACTTTAGAG
UA 001010100001010
UT 000100001110000
UG 110000000000101
UC 000001010000000
Bioinformatika (B110B001) 11
![Page 12: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/12.jpg)
Purinai – A ir G – DNR sudėtyje sudaro vandenilinius ryšius su jiems komplimentariais pirimidinais – T ir C. A sudaro du vandenilinius ryšius su T (RNR - U), o G tris ryšius su C.
DNR seką galima koduoti 2 sekomis:A ir G yra purinai – koduojama (1)C ir T yra pirimidinai – koduojama (0)
Seka G G A T A T T C A C T T T A
Upurine 1 1 1 0 1 0 0 0 1 0 0 0 0 1
Upyrimidine 0 0 0 1 0 1 1 1 0 1 1 1 1 0
DNR sekos transformavimas į dvejetaines sekas (2)
![Page 13: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/13.jpg)
Sekų analizė naudojant Furjė metodus(1)
Nagrinėjama koreliacija tarp simbolių, gaunamas DNR sekos spektras.
Bendras DNR sekos spektras yra atskirų dvejetainių sekų spektrų suma:
kur: Sα(f) yra dalinis a simbolio spektras, a (A, G, C, T).
Bioinformatika (B110B001) 13
a a
N
j
ifjjaa exU
NfSfS
2
1
22
1
![Page 14: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/14.jpg)
Sekų analizė naudojant Furjė metodus(2)Bendrojo spektro vidurkis apskaičiuotas naudojant simbolio
dažnį ρα:
Galia P :
Galios reikšmė, kai dažnis f=1/3 naudojama atskirti koduojančioms sekoms (t.y.) genams, nuo nekoduojančių sekų
F=1/3 dažnio reikšmė imama todėl, kad genai yra sudaryti iš 3 simbolio ilgio žodžių kodonų, todėl koduojančios sekos spektro grafike ties 1/3 turi būti maksimumas
Bioinformatika (B110B001) 14
2
1
211
12ˆ
N
k aaNNN
kS
NS
S
SP
ˆ3
1
![Page 15: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/15.jpg)
DNR sekos spektro pavyzdys
Bioinformatika (B110B001) 15
![Page 16: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/16.jpg)
GENSCAN pavyzdyshttp://www.imtech.res.in/raghava/ftgpred
![Page 17: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/17.jpg)
Geno prognozavimo tikslumas
True positives (TP) – nukleotidai, kurie teisingai prognozuojami, kad yra gene
Actual positives (AP) – nukleotidai, kurie yra gene
Predicted positives (PP) – nukleotidai, kurie prognozuojami, kad yra gene
Sensitivity = TP / AP (jautrumas) Specificity = TP / PP
(specifiškumas)
![Page 18: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/18.jpg)
Metodų tikslumo palyginimas
GenScan Website
![Page 19: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/19.jpg)
Z-kreivės metodasZ-kreivė: trimatė kreivė, kuri unikaliai
atvaizduoja DNR seką. Turint Z-kreivę galima rekonstruoti pradinę DNR
seką. Z-kreivės metodas bioinformatikoje yra
naudojamas genomo analizei ir genų numatymui. Z-kreivės pranašumai:
galima lengvai pastebėti DNR sekos šablonus. metodas yra paprastas ir labai jautrus.
Bioinformatika (B110B001) 19
![Page 20: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/20.jpg)
Z-kreivėZ-kreivė yra sudaryta iš mazgų P0, P1, P2, ..., PN, kurių
koordinatės xn, yn ir zn (n = 0, 1, 2, ... , N, kur N yra analizuojamos DNR sekos ilgis) yra apskaičiuojamos naudojant DNR sekos Z-transformaciją:
kur: An, Cn, Gn ir Tn yra A, C, G ir T simbolių skaičius nuo i-ojo iki n-tojo sekos simbolio.
Z-kreivė gaunama nuosekliai sujungus mazgus P0, P1, P2, ..., PN tiesiomis linijomis.
Bioinformatika (B110B001) 20
NnNNzyx
GCTAz
TGCAy
TCGAx
nnn
nnnnn
nnnnn
nnnnn
,...,0,,,,
,
,
,
![Page 21: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/21.jpg)
Z-kreivės braižymasZ-kreivė yra brėžiama trimatėje erdvėje,
kurios ašys turi tokią reikšmė:x-ašis rodo purino/pirimidino (R/Y) bazių
pasiskirstymą sekoje; y-ašis rodo amino/keto (M/K) bazių
pasiskirstymą sekoje; z-ašis rodo stiprios vandenilinės
jungties/silpnos vandenilinės jungties (S/W) bazių pasiskirstymą sekoje.
Bioinformatika (B110B001) 21
![Page 22: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/22.jpg)
Z-kreivė: pavyzdys (3D kreivė)
Bioinformatika (B110B001) 22
![Page 23: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/23.jpg)
Dvimatis atvaizdavimas
Bioinformatika (B110B001) 23
![Page 24: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/24.jpg)
Z-kreivė: pavyzdys (1 ašis)
Bioinformatika (B110B001) 24
![Page 25: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/25.jpg)
Genų suradimo algoritmas naudojant Z-kreivę (1)
1) Tegul A, C, G ir T nukleotidų dažnis DNR sekos fragmente pozicijose 1, 4, 7,...; 2 ,5, 8,... ir 3, 6, 9,... yra žymimas a1, c1, g1, t1 ; a2, c2, g2, t2 ; a3, c3, g3, t3.
2) Naudojant Z-kreivę ai, ci, gi, ti yra atvaizduojamos į tašką Pi trimatėje erdvėje Vi, i = 1, 2, 3.
Bioinformatika (B110B001) 25
![Page 26: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/26.jpg)
Genų suradimo algoritmas naudojant Z-kreivę (1)3) Pi koordinatės yra apskaičiuojamos naudojant
DNR sekos Z-transformaciją:
4) DNR sekos fragmentas atvaizduojamas vektoriumi 9D erdvėje V, kur jos koordinatės u1, u2, ..., u9 yra apibrėžiamos taip:
Bioinformatika (B110B001) 26
.3,2,1,1,1,,
,
,
,
izyx
gctaz
tgcay
tcgax
iii
iiiii
iiiii
iiiii
.,,
,,,
,,,
393837
262524
131211
zuyuxu
zuyuxu
zuyuxu
![Page 27: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/27.jpg)
Z-kreivė: demonstracijahttp://tubic.tju.edu.cn/zcurve/
![Page 28: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/28.jpg)
Z-kreivės metodo įvertinimasPagrindinė genų numatymo naudojant Z-kreivę idėja:
koduojantys ir nekoduojantys sekos fragmentai bus išsidėstę skirtingose 9-matės erdvės V vietose.
2-matės V erdvės projekcijai gauti galima naudoti daugiamačių skalių (MDS) metodą.
Pranašumai: labai paprastas ir lengvas naudoti DNR vizualizavimo
metodas leidžiantis greitai pamatyti pagrindines DNR sekos globalias ir lokalias charakteristikas;
galima palyginti 2 ar daugiau DNR sekas lyginant jų Z-kreives.
Bioinformatika (B110B001) 28
![Page 29: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/29.jpg)
DNA walk metodas (1)DNA Walk – vektorinis DNR sekos
atvaizdavimo metodasLeidžia vizualiai pastebėti tam tikrus
pasikartojimus DNR sekoje
Bioinformatika (B110B001) 29
![Page 30: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/30.jpg)
DNA walk metodas (2)DNA Walk grafikas brėžiamas atidedant
sekantį grafiko tašką tokia kryptimi:
Bioinformatika (B110B001) 30
Figure 1Figure 1: DNA walk of the sequence: DNA walk of the sequence
GTCTGGTGTCTGGAGTTCCTGGGTCTTGAGGTCTGGTGTCTGGAGTTCCTGGGTCTTGAG
ACCACAGGACCCACCAGACCACAGGACCCACCAGGGACCCAGGACCCGGACCCAGGACCC
Starting from the bottom left (bold blue line), the curve end at the bottom left (pink line)Starting from the bottom left (bold blue line), the curve end at the bottom left (pink line)
![Page 31: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/31.jpg)
DNA walk metodas (3)Papildomai galima analyzuoti TA ir GC nukleotidų
kompozicijąGC skew parodo C nukleotidų perviršį lyginant su
G.Skaičiuojama pagal formulę
(C-G)/(C+G)AT Skew parodo A nukleotidų perviršį lyginant su TSkaičiuojama pagal formulę
(A - T)/(A + T)Naudojama nustatyti geno pradžiai ir pabaigai
Bioinformatika (B110B001) 31
![Page 32: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/32.jpg)
Motyvai (1)Sekos motyvas yra nukleotidų arba amino rūgščių
sekos šablonas, kuris yra dažnai aptinkamas ir turi biologinę prasmę.
Trumpi sekų motyvai, pvz., gali reikšti į kurią ląstelės vietą turi būti pristatomas baltymas po jo sintezės, arba įtakoja DNR spiralės formą.
Bioinformatika (B110B001) 32
![Page 33: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/33.jpg)
Motyvai (2) Motyvų aprašymo susitarimai:
Atskiras abėcėlės simbolis aprašo amino rūgštį arba jų aibę.
Simbolių eilutė aprašo atitinkamų amino rūgščių seką.
Kvadratiniai skliaustai reiškia vieną iš apskliaustų amino rūgščių.
Riestiniai skliaustai reiškia bet kurią amino rūgštį išskyrus apskliaustą.
Bioinformatika (B110B001) 33
![Page 34: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/34.jpg)
Genetinė seka, turinti tam tikrą funkciją, yra vadinama sekos elementu arba sekos motyvu
Specifiniai aminorūgščių motyvai, atliekantys baltymuose specializuotas funkcijasPvz., asparaginas–X–serinas (kur X yra bet kuri
aminorūgštis) yra eukariotų baltymų glikozilinimo vietaProsite duomenų bazėje yra kaupiamos žinios apie
aminorūgščių motyvus, turinčius funkcinę reikšmę
Sekų motyvai
![Page 35: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/35.jpg)
Motyvo pavyzdysMotyvo pavyzdys (aprašo N-glikosilacijos vietą):
N{P}[ST]{P}
čia: N = Asn, P = Pro, S = Ser, T = Thr; {X} – reiškia bet kurią amino rūgštį
išskyrus X; [XY] – reiškia X arba Y.
Bioinformatika (B110B001) 35
![Page 36: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/36.jpg)
PROSITE notacijaNaudoja:
IUPAC vienos raidės kodus skirtus amino rūgščių žymėjimui ir
papildomą konkatenacijos simbolį `-`, kuris dažnai yra praleidžiamas tarp šablono abėcėlės raidžių.
Be to dar naudojami tokie simboliai:x – bet kokia amino rūgštis;{ } - reiškia bet kurią amino rūgštį išskyrus
apskliaustą;e(m) – reiškia e amino rūgštį pakartotą m kartų;e(m,n) – reiškia e amino rūgštį pakartotą k kartų, kur
m <= k <= n;Bioinformatika (B110B001) 36
![Page 37: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/37.jpg)
PROSITE notacija: pavyzdysPROSITE šablonas CBD_FUNGAL (prieigos kodas
PS00562), aprašantis 1 tipo karbohidratinę jungtį CBM1):
C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]-x(2)-Q-C
Bioinformatika (B110B001) 37
![Page 38: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/38.jpg)
Motyvo suradimo metodaiSekos profilio analizė: pirmiausiai surandamas
globalus daugybinis sekų sugretinimas. Jame izoliuojami labai konservatyvūs regionai, iš kurių konstruojamos profilio matricos. Profilio matricos yra naudojamos ieškoti motyvų kitose užklausos sekose.
Blokų analizė: motyvų paieška apsiriboja spragų neturinčiuose sugretinimo regionuose (blokuose), kurie gaunami atlikus daugybinį sekų sugretinimą.
Statistinė šablonų paieška naudojant tikėtino maksimizavimo (expectation-maximization) algoritmą.
Bioinformatika (B110B001) 38
![Page 39: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/39.jpg)
Sekų motyvai, nustatomi kompiuterinės analizės metuSekos tipas Pavyzdys
Aktyvatoriai Daugelis E.coli aktyvatorių turi TTGACA (-35 bp) ir TATAAT (-10 bp) sekas. Eukariotų aktyvatoriai gali turėti CAAT, GC, TATA motyvus
Atsako elementai Gliukortikoidų atsako elementai (AGRACA), cAMP atsako elementai (GTGACGTRA)
Starto kodonas ATG
Stop kodonai TAA, TAG, TGA
Splaisingo vieta GTRAGT------------------YNYTRAC(Y)nAG
Poliadenilinimo signalas AATAAAA
Aukšto dažnio kartotinės sekos
Santykinai trumpos sekos, pasikartojančios genome daugelį kartų
Transpozabilūs elementai
Paprastai nustatomi pagal tai, kad tiesioginės pasikartojančios sekos yra apsuptos invertuotų pasikartojančių sekų
R – bet kuris purinas, Y – bet kuris pirimidinas, N - bet kuris nukleotidas
![Page 40: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/40.jpg)
Motyvo vizualizacija: Hao histograma
40
Ilgų sekų posekių dažnumo grafinio vizualizavimo metodas
Kiekvienam matricos (2n x 2n) elementui priskiriamas genetinės abecėlės simbolis (n=1) arba iš simbolių sudaryti galimi posekiai (n>1)
Skaičiuojamas posekių sekoje dažnumas ir skirtingo dažnumo posekiai vaizduojami kita spalva (pvz., didesnis dažnumas sodresne spalva)
![Page 41: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/41.jpg)
Pavyzdys
41
![Page 42: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/42.jpg)
Hao histogramos realizacija
42
National Institute for Standard and Technology (NIST) http://math.nist.gov/~FHunt/GenPatterns/
![Page 43: Lyginamosios genomikos metodai ir algoritmai](https://reader035.vdocuments.site/reader035/viewer/2022081418/5681529f550346895dc0c469/html5/thumbnails/43.jpg)
Tikimybinis metodas Remiasi pastebėjimu, kad skirtingų kodonų tikimybės
genus koduojančiose ir nekoduojančiose DNR sekose skiriasi
Tarkime turime kodonų seką
Geno tikimybė apskaičiuojama kaip
Tikimybė, kad seka nėra genas:
Geno reikšmingumas:
))(
)(log(
0 CP
CPGPS