vvedenie v bioinformatiku_2

108
sp1_human x egr1_human October 10, 2001 10:50 .. . . . . . 526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575 | | | .: : | :: | : : :. | |:| |||::|| | | 327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC .. RICM 374 . . . . . 576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTH...QNK 622 : |.||| | | ||||||| ||| | ::| ||| :| | | ..| 375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIH LRQKDK 424 . . . 623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657 | | | | | | |. || . |. 425 KADKSVVASSATSSLSSYPSP..VATSYPSPVTTS 457 Bestfit Output

Upload: bioinformaticsinstitute

Post on 23-Dec-2014

90 views

Category:

Documents


4 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Vvedenie v bioinformatiku_2

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

SP1 at swissprot

EGR1 at swissprot

Вывод

bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания

bull Мы нашли такое локальное выравнивание которое

соответствует возможному структурному выравниванию

bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity

Bl2Seq at NCBI

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 2: Vvedenie v bioinformatiku_2

SP1 at swissprot

EGR1 at swissprot

Вывод

bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания

bull Мы нашли такое локальное выравнивание которое

соответствует возможному структурному выравниванию

bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity

Bl2Seq at NCBI

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 3: Vvedenie v bioinformatiku_2

EGR1 at swissprot

Вывод

bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания

bull Мы нашли такое локальное выравнивание которое

соответствует возможному структурному выравниванию

bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity

Bl2Seq at NCBI

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 4: Vvedenie v bioinformatiku_2

Вывод

bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания

bull Мы нашли такое локальное выравнивание которое

соответствует возможному структурному выравниванию

bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity

Bl2Seq at NCBI

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 5: Vvedenie v bioinformatiku_2

Bl2Seq at NCBI

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 6: Vvedenie v bioinformatiku_2

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 7: Vvedenie v bioinformatiku_2

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 8: Vvedenie v bioinformatiku_2

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 9: Vvedenie v bioinformatiku_2

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 10: Vvedenie v bioinformatiku_2

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 11: Vvedenie v bioinformatiku_2

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 12: Vvedenie v bioinformatiku_2

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 13: Vvedenie v bioinformatiku_2

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 14: Vvedenie v bioinformatiku_2

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 15: Vvedenie v bioinformatiku_2

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 16: Vvedenie v bioinformatiku_2

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 17: Vvedenie v bioinformatiku_2

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 18: Vvedenie v bioinformatiku_2

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 19: Vvedenie v bioinformatiku_2

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 20: Vvedenie v bioinformatiku_2

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 21: Vvedenie v bioinformatiku_2

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 22: Vvedenie v bioinformatiku_2

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 23: Vvedenie v bioinformatiku_2

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 24: Vvedenie v bioinformatiku_2

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 25: Vvedenie v bioinformatiku_2

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 26: Vvedenie v bioinformatiku_2

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 27: Vvedenie v bioinformatiku_2

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 28: Vvedenie v bioinformatiku_2

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 29: Vvedenie v bioinformatiku_2

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 30: Vvedenie v bioinformatiku_2

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 31: Vvedenie v bioinformatiku_2

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 32: Vvedenie v bioinformatiku_2

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 33: Vvedenie v bioinformatiku_2

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 34: Vvedenie v bioinformatiku_2

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 35: Vvedenie v bioinformatiku_2

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 36: Vvedenie v bioinformatiku_2

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 37: Vvedenie v bioinformatiku_2

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 38: Vvedenie v bioinformatiku_2

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 39: Vvedenie v bioinformatiku_2

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 40: Vvedenie v bioinformatiku_2

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 41: Vvedenie v bioinformatiku_2

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 42: Vvedenie v bioinformatiku_2

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 43: Vvedenie v bioinformatiku_2

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 44: Vvedenie v bioinformatiku_2

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 45: Vvedenie v bioinformatiku_2

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 46: Vvedenie v bioinformatiku_2

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 47: Vvedenie v bioinformatiku_2

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 48: Vvedenie v bioinformatiku_2

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 49: Vvedenie v bioinformatiku_2

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 50: Vvedenie v bioinformatiku_2

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 51: Vvedenie v bioinformatiku_2

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 52: Vvedenie v bioinformatiku_2

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 53: Vvedenie v bioinformatiku_2

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 54: Vvedenie v bioinformatiku_2

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 55: Vvedenie v bioinformatiku_2

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 56: Vvedenie v bioinformatiku_2

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 57: Vvedenie v bioinformatiku_2

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 58: Vvedenie v bioinformatiku_2

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 59: Vvedenie v bioinformatiku_2

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 60: Vvedenie v bioinformatiku_2

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 61: Vvedenie v bioinformatiku_2

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 62: Vvedenie v bioinformatiku_2

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 63: Vvedenie v bioinformatiku_2

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 64: Vvedenie v bioinformatiku_2

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 65: Vvedenie v bioinformatiku_2

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 66: Vvedenie v bioinformatiku_2

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 67: Vvedenie v bioinformatiku_2

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 68: Vvedenie v bioinformatiku_2

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 69: Vvedenie v bioinformatiku_2

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 70: Vvedenie v bioinformatiku_2

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 71: Vvedenie v bioinformatiku_2

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 72: Vvedenie v bioinformatiku_2

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 73: Vvedenie v bioinformatiku_2

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 74: Vvedenie v bioinformatiku_2

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 75: Vvedenie v bioinformatiku_2

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 76: Vvedenie v bioinformatiku_2

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 77: Vvedenie v bioinformatiku_2

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 78: Vvedenie v bioinformatiku_2

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 79: Vvedenie v bioinformatiku_2

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 80: Vvedenie v bioinformatiku_2

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 81: Vvedenie v bioinformatiku_2

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 82: Vvedenie v bioinformatiku_2

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 83: Vvedenie v bioinformatiku_2

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 84: Vvedenie v bioinformatiku_2

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 85: Vvedenie v bioinformatiku_2

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 86: Vvedenie v bioinformatiku_2

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 87: Vvedenie v bioinformatiku_2

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 88: Vvedenie v bioinformatiku_2

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 89: Vvedenie v bioinformatiku_2

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 90: Vvedenie v bioinformatiku_2

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 91: Vvedenie v bioinformatiku_2

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 92: Vvedenie v bioinformatiku_2

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 93: Vvedenie v bioinformatiku_2

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 94: Vvedenie v bioinformatiku_2

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 95: Vvedenie v bioinformatiku_2

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 96: Vvedenie v bioinformatiku_2

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 97: Vvedenie v bioinformatiku_2

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 98: Vvedenie v bioinformatiku_2

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 99: Vvedenie v bioinformatiku_2

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 100: Vvedenie v bioinformatiku_2

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 101: Vvedenie v bioinformatiku_2

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 102: Vvedenie v bioinformatiku_2

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 103: Vvedenie v bioinformatiku_2

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 104: Vvedenie v bioinformatiku_2

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 105: Vvedenie v bioinformatiku_2

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 106: Vvedenie v bioinformatiku_2

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108