Сравнительная геномика и метаболическая...
TRANSCRIPT
Сравнительная геномика и функциональная аннотация генов
Михаил ГельфандИППИ РАН
Конференция «Синтетическая биология и проектирование биоинженерных устройств»
Synbio2012.ru
МФТИ, 11 VII 2012
Fig. 1 A doubling of sequencing output every 9 months has outpaced and overtaken performance improvements within the disk storage and high-performance computation
fields.
S D Kahn Science 2011;331:728-729
Published by AAAS
Вот они, эти чудовища
1464 расшифрованных геномов прокариот (на самом деле, уже много больше)
0
50
100
150
200
250
1995 2000 2005 2010
годы
ген
ом
ы в
KE
GG
база данных не успевает
Расшифрованых ли?Перехватить зашифрованное сообщение –
еще не значит его понять
0.1% генома E. coli
Геном бактерии: несколько миллионов нуклеотидов
От 600 до 9 тысяч генов (примерно 90% генома кодирует белки)
(бывает существенно меньше – у эндосимбионтов)
Может быть, хватит?Нет, потому что:• новые геномы – это часто новая биология• сравнение геномов само по себе дает новые
результаты– про эволюцию бактерий и их геномов– про эволюцию регуляторных и метаболических сетей и
семейств генов– про регуляцию конкретных генов и функцию белков– про новые белки с ранее не описанными свойствами
Метод Ферми-ФинкельштейнаЕсли белок похож на уже изученный,
он делает примерно то же самое
Doolittle R.F. et al. Science. 1983.
• GenBank• BLAST
Проблемы• часто можно предсказать только общую функцию
(тип фермента, транспортер), но не специфичность
• ничего нового!
Принцип Пирсонаконсервативно то, что несет функциональную
нагрузку
• не только последовательности:– ко-локализация генов на хромосоме– появление «большой компанией» (филетические
паттерны) – одинаковая регуляция
Другие соображения: трансмембранные сегменты, сигнальные пептиды и т.п.
STRING: trpB – позицион-ные кластеры
Биологические причины
• опероны – совместная регуляция• горизонтальный перенос локусов
STRING: trpB – филети-ческие паттерны
Phyletic profiles in the Phe/Tyr pathway
Шикимат-киназа
Шикимат-киназа архейпуть синтеза хоризмата (E. coli)
Арифметика филетических паттернов3-dehydroquinate dehydratase (EC 4.2.1.10):Class I (AroD) COG0710 aompkzyq---lb-e----n---i-- Class II (AroQ) COG0757 ------y-vdr-bcefghs-uj----
Two forms combined aompkzyqvdrlbcefghsnuj-i--+
5-enolpyruvylshikimate 3-phosphate synthase (EC 2.5.1.19) AroA COG0128 aompkzyqvdrlbcefghsnuj-i--
+
Shikimate dehydrogenase (EC 1.1.1.25):AroE COG0169 aompkzyqvdrlbcefghsnuj-i--
Shikimate kinase (EC 2.7.1.71):Typical (AroK) COG0703 ------yqvdrlbcefghsnuj-i--Archaeal-type COG1685 aompkz--------------------
Two forms combined aompkzyqvdrlbcefghsnuj-i--
Chorismate synthase (EC 2.5.1.19) AroC COG0082 aompkzyqvdrlbcefghsnuj-i--
Филогенетический футпринтингоперон rbs в Enterobacteriaceae
Start codon of rbsD
Филогенетический футпринтингоперон rbs в Enterobacteriaceae регуляруется CRP и RbsR
Start codon of rbsD
RbsR binding site
CRP binding site
Много сайтов (nrd): FNR, DnaA, NrdR
Сохранение регуляции на больших эволюционных расстояниях
Genome 2Genome 1
Set of known sites PWM
Genome N
Two major roles of zinc in bacteria
• Structural role in DNA polymerases, primases, ribosomal proteins, etc.
• Catalytic role in metal proteases and other enzymes
Genomes and regulators
nZURFUR family
???
AdcR ?MarR family
pZURFUR family
Regulators and motifs nZUR-γnZUR-α
AdcRpZUR
TTAACYRGTTAA
GATATGTTATAACATATCGAAATGTTATANTATAACATTTC
GTAATGTAATAACATTAC
TAAATCGTAATNATTACGATTTA
Transporters
• Orthologs of the AdcABC and YciC transport systems
• Paralogs of the components of the AdcABC and YciC transport systems
• Candidate transporters with previously unknown specificity
zinT: regulation
zinT is isolated
fusion: adcA-zinT
E. coli, S. typhi, K. pneumoniae Gamma-proteobacteria
Alpha-proteobacteria
B. subtilis, S. aureus
S. pneumoniae, S. mutans, S. pyogenes, L. lactis, E. faecalis
Bacillus group
Streptococcus group
zinT is regulated by zinc repressors (nZUR-γ , nZUR-α , pZUR)
adcA-zinT is regulated by zinc repressors (pZUR, AdcR) (ex. L.l.)
A. tumefaciens, R. sphaeroides
ZinT: protein sequence analysis
E. coli, S. typhi, K. pneumoniae, A. tumefaciens, R. sphaeroides, B. subtilis
L. lactis
Y. pestis, V. cholerae, B. halodurans
TM Zn AdcA
S. aureus, E. faecalis, S. pneumoniae, S. mutans, S. pyogenes
ZinT
ZinT: summary• zinT is sometimes fused to the gene of
a zinc transporter adcA• zinT is expressed only in zinc-deplete
conditions (regulated by zinc repressors)
• ZinT is attached to cell surface (has a TM-segment)
• ZinT has a zinc-binding domainZinT: conclusions
• ZinT is a new type of zinc-binding component of zinc ABC transporter
Zinc regulation of PHT (pneumococcal histidine triad) proteins of Streptococcus spp.
S. pneumoniae S. equiS. agalactiae
lmb phtD phtE
phtBphtA
lmb phtD
S. pyogenes
phtY
lmb phtD
zinc regulation shown in experiment
Structural features of PHP proteins
• PHT proteins contain multiple HxxHxH motifs
• PHT proteins of S. pneumoniae are paralogs (65-95% id)
• Sec-dependent hydrophobic leader sequences are present at the N-termini of PHT proteins
• Localization of PHT proteins from S. pneumoniae on bacterial cell surface has been confirmed by flow cytometry
PHH proteins: summary
• PHT proteins are induced in zinc-deplete conditions
• PHT proteins are localized at the cell surface
• PHT proteins have zinc-binding motifsA hypothesis:
• PHT proteins represent a new family of zinc transporters
… incorrect
• Zinc-binding domains in zinc transporters:
EEEHEEHDHGEHEHSH
HSHEEHGHEEDDHDHSH
EEHGHEEDDHHHHHDED
DEHGEGHEEEHGHEH
(histidine-aspartate-glutamate-rich)
• Histidine triads in streptococci:
HGDHYHY 7 out of 21
HGDHYHF 2 out of 21
HGNHYHF 2 out of 21
HYDHYHN 2 out of 21
HMTHSHW 2 out of 21
(specific pattern of histidines and aromatic amino acids)
Analyis of PHP proteins (cont’d)
• The phtD gene forms a candidate operon with the lmb gene in all Streptococcus species– Lmb: an adhesin involved in laminin binding, adherence
and internalization of streptococci into epithelial cells• PhtY of S. pyogenes:
– phtY regulated by AdcR– PhtY consists of 3 domains:
PHT internalin H-rich
4 HIS TRIADS LRR IRHDYNHNHTYEDEEGHAHEHRDKDDHDHEHED
PHH proteins: summary-2• PHT proteins are induced in zinc-deplete conditions• PHT proteins are localized at the cell surface• PHT proteins have structural zinc-binding motifs• phtD forms a candidate operon with an adhesin gene • PhtY contains an internalin domain responsible for the
streptococcal invasionHypothesis
PHT proteins are adhesins involved in the attachment of streptococci to epithelium cells, leading to invasion
Current state• Pht proteins are required for inhibition of complement
deposition on the pneumococcal surface through the recruitment of complement factor H (Oqunniyi et al., 2009)
• Pht proteins may play a role in immune evasion, but the mechanism of function is unlikely to be mediated by factor H binding (Melin et al., 2010)
Zinc and (paralogs of) ribosomal proteins
L36 L33 L31 S14E. coli, S.typhi – – – + –K. pneumoniae – – – – –Y. pestis, V. cholerae – × – – + –B subtilis – – + – – + – +S. aureus – – – – – – +Listeria spp. – – – – – +E. faecalis – – × – – – – + –S. pne., S. mutans – – – – – –S. pyo., L. lactis – – – – – – +
nZU
RpZ
UR
Adc
R
Zn-ribbon motif (Makarova-Ponomarev-Koonin, 2001)
L36 L33 L31 S14E. coli, S.typhi (–) – (–) + –K. pneumoniae (–) – (–) – –Y. pestis, V. cholerae (–) × – (–) + –B subtilis (–) (–) + – (–) + (–) +S. aureus (–) (–) – – – (–) +Listeria spp. (–) (–) – – (–) +E. faecalis (–) (–) × – – – (–) + –S. pne., S. mutans (–) (–) – – – (–)S. pyo., L. lactis (–) (–) – – – (–) +
nZU
RpZ
UR
Adc
R
Summary of observations:
• Makarova-Ponomarev-Koonin, 2001:– L36, L33, L31, S14 are the only ribosomal proteins
duplicated in more than one species– L36, L33, L31, S14 are four out of seven ribosomal
proteins that contain the zinc-ribbon motif (four cysteines)
– Out of two (or more) copies of the L36, L33, L31, S14 proteins, one usually contains zinc-ribbon, while the other has eliminated it
• Among genes encoding paralogs of ribosomal proteins, there is (almost) always one gene regulated by a zinc repressor, and the corresponding protein never has a zinc ribbon motif
Bad scenario
Zn-rich conditions
Zn-deplete conditions: all Zn utilized by the ribosomes, no Zn for Zn-dependent enzymes
Regulatory mechanism
ribosomes
Zn-dependentenzymes
R
Sufficient Zn
Zn starvation
R
repressor
Good scenario
Zn-rich conditions
Zn-deplete conditions: some ribosomes without Zn, some Zn left for the enzymes
Prediction … (Proc Natl Acad Sci U S A. 2003 Aug 19;100(17):9912-7.)
… and confirmation (Mol Microbiol. 2004 Apr;52(1):273-83.)
Later: L31 is a depot; S14 and L33 are “failsafe” substitutes (integrity of ribosomes unde zink starvation). Owen et al, 2007: Of seven Zn-ribbon proteins, six are regulated in Streptomycs (also L28, L32, S18)
Метаболический путь синтеза рибофлавина (витамин В2)
r i b Ar i b A
r i b A r i b B
G T P c y c l o h y d r o l a s e I I
r i b D
r i b D
r i b G
r i b G
P y r i m i d i n e d e a m i n a s e
3 , 4 - D H B P s y n t h a s e P y r i m i d i n e r e d u c t a s e
r i b Hr i b H R i b o f l a v i n s y n t h a s e , - c h a i n β
r i b Er i b B
y p a A
R i b o f l a v i n s y n t h a s e , - c h a i n α
G T P
2 , 5 - d i a m i n o - 6 - h y d r o x y - 4 - ( 5 ` - p h o s p h o r i b o s y l a m i n o ) p y r i m i d i n e
r i b u l o s e - 5 - p h o s p h a t e
P E N T O S E - P H O S P H A T E P A T H W A Y
P U R I N E B I O S Y N T H E S I S P A T H W A Y
3 , 4 - d i h y d r o x y - 2 - b u t a n o n e - 4 - p h o s p h a t e 5 - a m i n o - 6 - ( 5 ` - p h o s p h o r i b i t y l a m i n o ) u r a c i l
5 - a m i n o - 6 - ( 5 ` - p h o s p h o r i b o s y l a m i n o ) u r a c i l
6 , 7 - d i m e t h y l - 8 - r i b i t y l l u m a z i n e
R i b o f l a v i n
Консервативная последовательность перед генами рибофлавинового пути из очень разных бактерий
1 2 2’ 3 Add. 3’ Variable 4 4’ 5 5’ 1’ =========> ==> <== ===> -><- <=== -> <- ====> <==== ==> <== <========= BS TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT 21 AGCCCGTGAC-- 8 4 8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT BQ AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT 19 AGTCCGTGAC-- 8 5 8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG BE TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT 20 AGCCCGCGA--- 3 4 3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC HD TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT 19 AGTCCGTGAC-- 10 4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG Bam TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT 23 AGCCCGTGAC-- 8 4 8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG CA GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT 2 AGCCCGCAA--- 3 4 3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG DF CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT 2 AGCCCGCG---- 7 6 7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT SA TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT 6 AGCCTGCGAC-- 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT LLX ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT 2 AGCCCGCGA--- 4 4 4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA PN AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT 2 AGCCCACGA--- 3 4 3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA TM AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT 3 AGCCCGCGAG-- 5 4 5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA DR GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT 15 AGCCCGCGAA-- 8 12 9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG TQ CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT 3 AGCCCGCGAA-- 5 4 5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC AO AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT 2 AGTCCGCGA--- 7 7 7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA DU TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT 2 AGTCCGCGA--- 13 4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA CAU GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT 20 AGCCCGCGA--- 3 4 3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC FN TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT 2 AGTCCACG---- 5 4 5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG TFU ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT 3 AGTCCGCGAC-- 8 5 8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG SX -AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT 3 AGTCCGCGAC-- 8 5 8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG BU GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT 30 AGCCCGCGAGCG 137 GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC BPS GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 21 AGCCCGCGAGCG 8 4 8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC REU TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 31 AGCCCGCGAGCG 7 5 7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC RSO GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT 21 AGCCCGCGAGCG 11 3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC EC GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 17 AGCCCGCGAGCG 8 4 8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG TY GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 67 AGCCCGCGAGCG 8 3 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG KP GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 20 AGCCCGCGAGCG 8 4 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG HI TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT 2 AGCCCACGAGCG 26 9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA VK GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT 14 AGCCCACGAGCG 11 9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC VC CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT 13 AGCCCACGAGCG 5 4 5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA YP GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT 40 AGCCCGCGAGCG 16 6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG AB GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT 25 AGCCCACGAGCG 16 4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA BP GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 18 AGCCCGCGAGCG 10 4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC AC ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT 16 AGCCCGCGAGCA 10 3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG Spu AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT 34 AGCCCGCGAGCG 6 6 6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA PP GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT 13 AGCCCGCGAGCG 7 3 7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA AU GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 17 AGCCCGCGAGCG 7 9 7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG PU AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 19 AGCCCGCGAGCG 19 4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA PY TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT 19 AGCCCGCGAGCG 15 4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA PA TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT 19 AGCCCGCGAGCG 14 4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA MLO TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT 16 AGCCCGCGAGCG 8 5 8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA SM AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT 34 AGCCCGCGAGCG 8 3 8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC BME GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT 17 AGCCCGCGAGCG 10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT BS ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT 18 AGCCCGCGA--- 5 4 5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG BQ GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT 27 AGCCCGCGA—-- 3 5 3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG BE ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT 20 AGCCCGCGA--- 3 4 3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG CA AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT 2 AGCCCGCGAG-- 3 4 3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT DF GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT 2 AGCCCGCG---- 6 4 6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT EF GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT 3 AGTCCACGAC-- 5 3 5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG LLX AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT 21 ACTCCGCGAT-- 4 4 4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC LO GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT 3 AGTCCACGAT-- 3 10 3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG PN AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT 125 AGTCCGTG---- 3 4 3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA ST AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT 14 AGTCCGCG---- 3 4 3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG MN AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT 104 AGTCCGCG---- 3 4 3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG SA ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT 6 AGCCTGCGAC-- 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG AMI TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT 14 AGCCCGCGC--- 5 5 5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC DHA ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT 20 AGCCCGCAAC-- 11 4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA FN AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT 2 AGTCCACG---- 4 6 4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA GLU ---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 28 AGCCCGCGAGCG 10 4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC---
Консервативная вторичная структура RFN-элемента
NNNNyYYUC
NNNNrRRAG
NgGGNcCC
rg
GGxc
ARRgx
uAG
GRCCYG
AcCG
AGCCRGYGG YRCC GRYBy CYRVr
G N
YGNaA N U U x N
Nx
AGU
UrN
A gY
v a r i a b l es t e m - l o o p
a d d i t i o n a ls t e m -l o o p
3 4
2
1
5
5 ’ 3 ’
u K NRA
xK
*
****
C a p it a ls : in v a r ia n t ( a b s o lu t e ly c o n s e r v e d ) p o s i t io n s .
L o w e r c a s e le t t e r s : s t r o n g ly c o n s e r v e d p o s it io n s .
D a s h e s a n d s t a r s : o b l ig a t o r y a n d f a c u l t a t iv e b a s e p a ir s
N : a n y n u c le o t id e . X : a n y n u c le o t id e o r d e le t io n
RFN: механизм регуляции• Transcription attenuation
• Translation attenuation
… и еще перед одним геном (ypaA)
NNNNyYYUC
NNNNrRRAG
NgGGNcCC
rg
GGxc
ARRgx
uAG
GRCCYG
AcCG
AGCCRGYGG YRCC GRYBy CYRVr
G N
YGNaA N U U x N
Nx
AGU
UrN
A gY
v a r i a b l es t e m - l o o p
a d d i t i o n a ls t e m -l o o p
3 4
2
1
5
5 ’ 3 ’
u K NRA
xK
*
****
цветные стрелки – гены пути
желтые стрелки – ypaA, ген с неизвестной функцией
черные стрелки – регуляторный элемент
YpaA/RibU: транспортёр рибофлавина• 5 предсказанных ТМ-сегментов =>
потенциальный транспортёр• регуляторный RFN-элемент => ко-
регуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника
• S. pyogenes, E. faecalis, Listeria: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина
Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999)
Проверка:• генетический анализ
(Кренева и др., 2000)• биохимический эксперимент
(Burgess et al., 2006)
Биотиновый транспортер
BioY
Метаболическая реконструкция пути биосинтеза тиамина (витамин В1)
= thiN (confirmed)
(Gram-positive bacteria)
(Gram-negative bacteria)
Transport of HMPTransport of HET
yuaJ(=thiT) тиаминовый транспортер
(возможно, H+-зависимый) в фирмикутах
• 6 предсказанных трансмембранных сегментов• Почти всегда регулируется THI-рибопереключателями• Встречается в геномах, в которых отсутствует
тиаминовый путь (Streptococcus spp.);• В B. cereus импорт тиамина сопряжен с током протонов
(Arch. Microbiol., 1977)
• Почти всегда регулируются THI-рибопереключателями• Не встречаются в геномах, в которых отсутствует
тиаминовый путь• Всегда встречаются вместе с thiD и thiE• В ряде геномов (Pasteurellacee, Brucella некоторые
фирмикуты) встречаются в отсутствие thiC
thiX-thiY-thiZ и ykoF-ykoE-ykoD-ykoC: предсказанные АТФ-зависимые транспортеры HMP
Co и Ni• ко-локализация
(хромосомные локусы)– транспортеры Ni –
с генами никель-зависимых ферментов
– транспортеры Co – с генами синтеза кобаламина
• ко-регуляция– транспортеры Ni –
фактор транскрипции NikR
– транспортеры Co – рибопереключатель В12
A
A
A
AA
AA
CGd
a
aa
a
a
ktk
h
CC
c
C
C
GG
G
GGG
G
GT
M
Y
K
y
c
c G
g
g G
G
G YG
tg
g
g
gN
RN
N
NN
r
r
r
g
g C
c
c T
C
C G
CC
a
ta N
B 1 2 b o x
P 0
5 ' 3 '
P 1
P 4 V S
B I IB I
P 5 P 6
P 2
N
A d d - I
F a c u l t a t i v e s t e m - l o o p
A d d - I I
T h e g r o u p
B a c i l l u s /C l o s t r i d i u m
O t h e r t a x o n o m i c g r o u p s
γ - p r o t e o b a c t e r i a
b a s e s t e m
CGh
G
d
yc c
C C
P 3
Дмитрий Родионов Thomas Eitinger
Пять семейств транспортеров
Новое семейство транспортеров Co и Ni
Структура локусов
B12-элемент сайт связывания NikRгены
Проверка: тест на транспорт ионов
Co Co
Co
Ni
Ni
Ni
Структура: слишком много компонентов
Биотиновый транспортер
BioY
• АТФаза BioM ~ CbiO = NikO
• Пермеаза BioN ~ CbioQ = NikQ
Для транспорта достаточно компонент МN (первый пример такого АВС-транспортера)
cbiMNQO
cbiMNQ
cbiMN
cbiM
контроль
BioY тоже достаточно(даже в геномах, содержащих BioMN);
у BioMNY более крутая кинетика
Верхушка айсберга?
Экспериментальные подтверждения
RibU: рибофлавин ThiT: тиамин FolT: фолат (ср. BioY)
Универ-сальный «энергети-ческий комплекс» + компоненты, определя-ющие специфич-ность
P Zhang et al. Nature 000, 1-4 (2010) doi:10.1038/nature09488
The overall structure of RibU.
Эволюция регуляторных путей
Глобализация: как FruR превратился в CRA
• CRA (= FruR) в Escherichia coli:– глобальный регулятор– хорошо изучен экспериментально
• Машина времени: поиск потенциальных сайтов связывания CRA/FruR перед генами, которые регулируются в E.coli
Общий предок Escherichia и Salmonella
icdA
aceA
aceB
aceEF
pckA
ppsApykF
adhE
gpmApgk
tpiA
gapApfkAfbp
FructosefruKfruBA
eda
eddepd
Glucose
ptsHI-crr
Mannose
manXYZ
mtlDmtlAMannitol
Gamma-proteobacteriaEnterobacterialesE. coli и Salmonella spp.
Общий предок Enterobacteriales
icdA
aceA
aceB
aceEF
pckA
ppsApykF
adhE
gpmApgk
tpiA
gapApfkAfbp
FructosefruKfruBA
eda
eddepd
Glucose
ptsHI-crr
Mannose
manXYZ
mtlDmtlAMannitol
Gamma-proteobacteriaEnterobacteriales
Общий предок gamma-proteobacteria
icdA
aceA
aceB
aceEF
pckA
ppsApykF
adhE
gpmApgk
tpiA
gapApfkAfbp
FructosefruKfruBA
eda
eddepd
Glucose
ptsHI-crr
Mannose
manXYZ
mtlDmtlAMannitol
Gamma-proteobacteria
Общий предок Enterobacteriales
icdA
aceA
aceB
aceEF
pckA
ppsApykF
adhE
gpmApgk
tpiA
gapApfkAfbp
FructosefruKfruBA
eda
eddepd
Glucose
ptsHI-crr
Mannose
manXYZ
mtlDmtlAMannitol
Gamma-proteobacteriaEnterobacteriales
Общий предок Escherichia и Salmonella
icdA
aceA
aceB
aceEF
pckA
ppsApykF
adhE
gpmApgk
tpiA
gapApfkAfbp
FructosefruKfruBA
eda
eddepd
Glucose
ptsHI-crr
Mannose
manXYZ
mtlDmtlAMannitol
Gamma-proteobacteriaEnterobacterialesE. coli and Salmonella spp.
Перестройка: катаболизм жирных кислот и разветвленных аминокислот
в гамма- и бета-протеобактериях
Gnt
R
|
T
etR
|
Mer
R
Кто это делал
• *Екатерина Панина (цинк)• Дмитрий Родионов (транспортеры)• Алексей Казаков (жирные кислоты)• Дмитрий Равчеев (CRA)• Алексей Витрещак (РНК-переключатели)
• © Андрей Остерман (Burnham-Sanford Inst.)• Томас Эйтингер (Humboldt Universuty)• © Михаил Гальперин (NCBI)
template• text