these_maria_sorokina
TRANSCRIPT
![Page 1: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/1.jpg)
THESE DE DOCTORAT DE L’UNIVERSITE PARIS-SACLAY,
préparée à l’Université d’Evry Val d’Essonne
ÉCOLE DOCTORALE N° 577 Structure et dynamique des systèmes vivants
Spécialité de doctorat : Sciences de la Vie et de la Santé
Discipline: Bioinformatique
Par
Maria Sorokina
Découverte et exploration des modules conservés de transformations chimiques dans le métabolisme
Numéro national de thèse : 2016SACLE003
Thèse présentée et soutenue publiquement à Evry, le 3 février 2016 : Composition du Jury :
M. Jean-Loup Faulon DR (INRA) Président Mme. Christine Froidevaux PR (Université Paris-Saclay) Rapporteur M. Fabien Jourdan CR1 (INRA) Rapporteur M. Daniel Kahn DR (INRA) Rapporteur M. Ludovic Cottret M. Bernard Labedan
IR (INRA) DR Emérite (CNRS)
Examinateur Invité
Mme. Claudine Médigue DR (CNRS) Directrice de thèse M. David Vallenet CR (CEA) Co-directeur de thèse
![Page 2: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/2.jpg)
![Page 3: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/3.jpg)
« Le développement embryonnaire est la chose la plus difficile que vous ne puissiez jamais faire. Pour devenir embryon, vous avez dû vous construire à partir d’une seule cellule, respirer avant d’avoir des
poumons, digérer avant d’avoir un intestin, construire des os alors que vous étiez flasque et organiser le déploiement de vos neurones avant de savoir comment penser. Une des différences essentielles entre un être vivant et la machine est bien là : on n’exige jamais d’une machine de fonctionner avant d’avoir été
construite, au contraire de l’être qui doit pouvoir fonctionner tout en se construisant. »
Scott F. Gilbert, Developmental Biology, 7th edition
![Page 4: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/4.jpg)
REMERCIEMENTS
Ces trois années de thèse ont été très riches de tout point de vue pour moi, à la fois du point de vue scientifique que personnel. J’ai, certes, appris énormément sur le métabolisme et les diverses techniques computationnelles, mais j’ai surtout beaucoup appris sur moi même. J’ai beaucoup évolué aussi, j’ai « grandi » scientifiquement et émotionnellement.
Beaucoup de personnes que j’ai côtoyées au cours de mon expérience au Génoscope, le Centre National de Séquençage, ont contribué au bon déroulement de ma thèse et ç mon évolution personnelle. Ainsi, en premier lieu, je voudrais remercier David, pour avoir été présent, même dans les moments les plus difficiles. Ça a été très agréable de travailler avec toi, malgré le fait que tous les deux on soit assez têtus. On arrivait toujours à un consensus, et de ces débats naissaient toutes ces bonnes idées ! Aller en conférence avec toi est toujours une garantie de qualité et de rencontres intéressantes (et parfois insolites).
Merci aussi à Claudine de m’avoir accueilli à bras ouverts dans son laboratoire, alors que je débarquais en disant « Bonjour, je voudrais faire ma thèse chez vous, est-ce que je peux faire mon stage de M2 chez vous aussi ?»
Mes collègues de bureau Karine et Mark, merci d’avoir été à mes côtés au cours de ces années ! On a partagé des fous rires, des discussions scientifiques et et d’autres loin d’être scientifiques, du thé, du chocolat… Vous avez contribué à mon bien-être au Génoscope, et avez accepté la décoration un peu excentrique de mon bureau, et ça, ça me fait chaud au cœur.
Je remercie mes rapporteurs, Christine Froidevaux, Fabien Jourdan et Daniel Kahn, pour leurs remarques pertinentes et conseils extrêmement utiles. Christine, depuis que je t’ai rencontrée en master, tu fais partie de mes modèles scientifiques féminins. Merci aussi aux autres membres de mon jury, Ludovic Cottret, Jean-Loup Faulon et Bernard Labedan. Jean-Loup, un grand merci pour tes précieux conseils sur les RMS et tes encouragements tout au long de ma thèse.
Un grand merci à Olivier Lespinet – pour m’avoir accueilli dans son équipe alors que je n’étais qu’en L2 et pour m’avoir donné cette envie de faire de la bioinformatique. C’est en grande partie grâce à toi que j’ai continué dans cette voie et que j’ai eu envie de faire de la recherche !
Je voudrais aussi remercier tous les professeurs de mon master, le master BIBS. Si déjà en licence je savais que je voulais faire de la bioinformatique, la passion que vous m’avez transmise, chacun à votre manière, pour les différents domaines de cette vaste discipline m’ont conforté dans cette voie.
Merci à tous mes collègues du 3ème étage ! Un merci particulier à Alexandre : nos pauses thé de 18h à refaire le monde étaient un pur plaisir. J’espère que tu es heureux à l’EBI, et que tu la feras, un jour, cette thèse ! Merci aussi à Alexis, pour ta présence, tes encouragements, les pauses et les corrections de mon manuscrit ! Merci à mes « consultants techniques » Adrien et Jonathan (aka Jonjon), pour votre présence quand j’avais des questions bêtes sur Java ou Maven ou quand je renversais de la soupe aux champignons sur mon ordinateur portable… David Rrrrr merci pour ta bonne humeur et pour les discussions autour du métal et des Legos. Merci aussi à Franck, Mr Root, pour ta gentillesse et pour toutes les installations de logiciels quand j’en avais besoin ! Live long and prosper !
Une pensée aussi pour Coralie, même si tu es loin, ta présence et ton écoute sont essentielles pour moi ! Merci de m’avoir aidé à traverser tellement de difficultés !
Merci aussi aux autres copines du master BIBS, Marie, Mélanie, Siva, Laura et Adeline – même après le master, on a passé vraiment de chouettes moments ensemble !
![Page 5: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/5.jpg)
Les meilleurs – Sarah et Mario. Nos déjeuners, nos voyages, nos soirées… Tout ce que nous avons partagé et que nous allons encore partager dans les années à venir est tellement important pour moi ! Cette amitié est une des meilleures choses que j’ai trouvés au cours de ma thèse, et je sais qu’elle va durer encore très longtemps ! Nos séances de sport avec toi, Sarah, vont beaucoup me manquer.
Je remercie aussi ma famille, merci de m’accepter telle que je suis, avec mes défauts et mes qualités, avec mes hauts et mes bas. Merci d’avoir toujours été là pour moi ! Vous m’avez, dès le plus jeune âge, dit que je devrais devenir une biologiste, vu mon intérêt pour la nature qui m’entoure. Bon, je suis devenue une « computational biologist » et pas une biologiste-naturaliste, et c’est très bien comme ça !
Le mot qui pourrait résumer ma thèse est « changement ». Le métabolisme est changement. Ma vie a beaucoup changé. Le monde a beaucoup changé au cours de ces années. Pour terminer ces
remerciements, je voudrais citer Mr. Spock :
« Change is the essential process of all existence » (Star Trek : Let that be your last batterfield)
![Page 6: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/6.jpg)
![Page 7: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/7.jpg)
1
Table des matières
TABLE DES MATIERES 1
ABREVIATIONS 5
INTRODUCTION 7 La démarche suivie dans cette thèse 13
CONTEXTE BIOLOGIQUE ET METHODOLOGIQUE 16
I. Le métabolisme 17 I.1 Qu’est-ce qu’est le métabolisme ? 17 I.2 Les acteurs du métabolisme 19
I.2.1 Métabolites 19 I.2.2 Réactions 26 I.2.3 Enzymes 27 I.2.4 Cofacteurs 29 I.2.5 Voies métaboliques 30
I.3 Evolution du métabolisme 33 I.3.1 Evolution des enzymes 33
Divergence des fonctions enzymatiques - enzymes promiscuitaires 33 Isoenzymes 35 Convergence évolutive de fonctions enzymatiques 35
I.3.2 Grandes théories sur l’évolution des voies métaboliques 36 Invention de novo des voies métaboliques 36 Synthèse rétrograde et synthèse progressive 36 Spécialisation d’enzymes multifonctionnelles 37 Duplication de voies métaboliques entières 37 Recrutement enzymatique ou modèle d’évolution en « patchwork » 38 Origine semi-enzymatique des voies métaboliques 38
II. Représentation du métabolisme 39 II.1 Ressources de données métaboliques 42
II.1.1 Grandes bases de données sur le métabolisme 42 BioCyc & MetaCyc 42 KEGG 43 Comparaison des bases de données MetaCyc et KEGG 43 BRENDA 44 RHEA 45 Reactome 45 UniPathway 45
II.1.2 Bases de données de composés chimiques 46 ChEBI 46 PubChem 46
II.2 Classification des activités enzymatiques 47 II.3 Théorie des graphes – quelques définitions et vocabulaire 50 II.4 Réseaux métaboliques 53
II.4.1 Réseau de métabolites 54 II.4.2 Réseau de réactions 54 II.4.3 Réseau d’enzymes 54
![Page 8: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/8.jpg)
2
II.4.4 Graphe biparti et hypergraphe des métabolites 55 II.4.5 Composés ubiquitaires et réseaux « petit-monde » 56
II.5 Analyse topologique de réseaux métaboliques 58 II.5.1 Analyses topologiques classiques 58 II.5.2 Centralités 60
Centralités de distances et de voisinage 60 Centralités des plus courts chemins 61 Centralités basées sur les processus aléatoires 62 Feedback 63 Centralités sur les arêtes 64
II.6 Modularité dans le métabolisme 65
III. Des génomes aux réseaux métaboliques 66 III.1 Annotation fonctionnelle des génomes 67
III.1.1 Liens phylogénétiques et similarité de séquences 68 III.1.1.1 Liens phylogénétiques entre les gènes 68 III.1.1.2 Annotation fonctionnelle basée sur la similarité de séquences 71
III.1.2 La base de données de protéines UniProt 71 III.1.3 Domaines fonctionnels et familles de protéines 72
Pfam 73 InterPro 74 PRIAM 74
III.1.4 Contexte génomique pour l’annotation fonctionnelle 74 III.1.5 Analyse de la structure des protéines 75 III.1.6 Systèmes d’annotation à base de règles 77 III.1.7 Systèmes d’annotation communautaire 77 III.1.8 Cas des protéines multifonctionnelles 78
III.2 Contexte génomique 79 III.2.1 Clusters de gènes 80
III.2.1.1 Opérons 80 Méthodes de prédiction des opérons 80
III.2.1.2 Synténies conservées 82 III.2.2 Profils phylogénétiques 83 III.2.3 Rosetta stone (fusions/fissions de gènes) 83
III.3 Reconstruction de réseaux et modèles métaboliques 84 Etape 1 : Reconstruction automatisée à partir d’un génome complet 84 Etape 2 : Curation de la reconstruction automatique 85 Etape 3 : Conversion du réseau métabolique reconstruit en modèle informatique 86 Etape 4 : Utilisation de modèles métaboliques et intégration des données ‘omiques’ 87
III.4 Lacunes dans les connaissances enzymatiques 88
IV. Méthodes pour l’exploration du métabolisme 90 IV.1 Comment encoder une réaction enzymatique ? 90
IV.1.2 Reaction Pairs et Reaction Class de KEGG 91 IV.1.3 Signatures moléculaires de réactions (RMS) 92 IV.1.4 Cartographie des atomes (Atom Mapping) 94 IV.1.5 EC-BLAST et autres méthodes basées sur la comparaison de fingerprints moléculaires 94 IV.1.6 Mécanisme réactionnel enzymatique 96 IV.1.7 Description des réactions avec MOLMAP 96
IV.2 Méthodes pour détecter des protéines pour les enzymes orphelines 97 IV.3 Recherche de chemins et de motifs dans le réseau métabolique 99
IV.3.1 Recherche de voies métaboliques 99 IV.3.1.1 Recherche de sous-graphes ou chemins 99 IV.3.1.2 Rétro(bio)synthèse 100 IV.3.1.3 Alignement de voies métaboliques 102
IV.3.2 Motifs dans le métabolisme & modules de réactions 103 IV.3.2.1 Motifs dans le métabolisme 104 IV.3.2.2 Modules dans le métabolisme 105
IV.4 Visualisation des réseaux 107
Limites : Réactions métaboliques non-enzymatiques 108
![Page 9: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/9.jpg)
3
CHAPITRE I 111
ACTUALISATION DES CONNAISSANCES SUR LES ACTIVITES ENZYMATIQUES ORPHELINES DE SEQUENCES 111
Profiling the orphan enzymes. Sorokina et al. 2014 113 Conclusion du Chapitre I 114
CHAPITRE II 116
CONSTRUCTION D’UN MODELE REDUIT DU METABOLISME POUR L’IDENTIFICATION DE MODULES CONSERVES 116
A new network representation of the metabolism to detect chemical transformation modules. Sorokina et al. 2015 121 Conclusion du Chapitre II 122
CHAPITRE III 124
ASSOCIATION DE CONTEXTES GENOMIQUES AVEC DES MODULES CONSERVES DE TRANSFORMATIONS CHIMIQUES 124
I. Prédiction des directons dans les génomes bactériens 126
II. Projection des directons sur le réseau de signatures moléculaires de réactions 129
III. Etude de cas : identification de contextes génomiques et métaboliques pour les enzymes Baeyer-Villiger Monooxygénases 133
III.1 Comment encoder une réaction de monooxygénation de type BV ? 134 III.2 Identification des contextes génomiques des BVMOs 136 III.3 Identification des contextes métaboliques des BVMOs 138
CONCLUSIONS ET PERSPECTIVES 149 Conclusions 149 Perspectives 152
REFERENCES 158
ANNEXE 175
![Page 10: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/10.jpg)
4
![Page 11: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/11.jpg)
5
Abréviations
ADN : Acide Désoxyribonucléique
ARN : Acide Ribonucléique
ARNm : Acide Ribonucléique messager
ARNr : Acide Ribonucléique ribosomique
ARNt : Acide Ribonucléique de transfert
BV : réaction d’oxydation de type Baeyer-Villiger
BVMO : Baeyer-Villiger Monooxygénase
CDS : (angl. CoDing Sequence) séquence codante
CoA : Coenzyme A
DAG : (angl. Directed Acyclic Graph) Graphe Orienté Acyclique
DUF : (angl. Domain of Unknown Function) Domaine de fonction inconnue
EBI : European Bioinformatics Institute
EC number : Enzyme Commission number
ENA : European Nucleotide Archive
FAD : Flavine-Adénine Dinucléotide
FBA : (angl. Flux Balance Analysis) Analyse de balance des flux
FMN : Flavine Mononucléotide
InChi : IUPAC International Chemical Identifier
IUBMB : International Union of Biochemistry and Molecular Biology
IUPAC : International Union of Pure and Applied Chemistry
MOLMAP : MOLecular Map of Atom-level Properties
NAD(H) : Nicotinamide Adénine Dinucléotide (forme réduite)
NADP(H) : Nicotinamide Adénine Dinucléotide Phosphate (forme réduite)
NGS : (angl. Next Generation Sequencing) Technologies de Séquençage Nouvelle Génération
NISE : (angl. Non-Homologous Isofunctional Enzymes) Enzymes isofonctionnelles non-
homologues
PGDB : Pathway/Genome Data Base
RMS : Signature Moléculaire de Réaction
SDF : Structure-Data Format
SMILES : Simplified Molecular-Input Line-Entry System
XNA : (angl. Xeno nucleic acid) Acide Xénonucléique
![Page 12: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/12.jpg)
6
![Page 13: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/13.jpg)
7
Introduction
Le métabolisme est un des aspects les plus basiques de la vie. Il s'agit d'un système complexe, qui
implique des enzymes, la régulation de leur expression et leurs interactions, ayant pour objectif de
produire, via la catalyse de réactions biochimiques, toutes les substances chimiques (métabolites)
nécessaires au maintien de la vie dans les cellules. L’avènement de la biochimie expérimentale
dans les années 1950 a permis de découvrir la grande partie des activités enzymatiques connues
actuellement. De nos jours, la découverte de nouvelles activités enzymatiques a beaucoup ralenti.
De plus, environ 30% des activités enzymatiques connues, au moment de la rédaction de cette
thèse, sont orphelines de séquence [1–8], c’est à dire que les enzymes qui les catalysent sont
inconnues. Aussi, l’expérimentation in vivo démontre que les organismes, selon les conditions,
peuvent adopter des comportements qui ne peuvent pas être expliqués par les connaissances
actuelles sur le métabolisme, ce qui suggère que beaucoup d’activités enzymatiques sont encore à
découvrir. Dans les années 2000, l’arrivée des nouvelles technologies de séquençage et le
séquençage des génomes complets ont permis d’obtenir un nombre colossal de séquences d’acide
désoxyribonucléique (ADN). Cependant, malgré cette quantité de données brutes, il est très
difficile de découvrir de nouvelles activités enzymatiques à partir des séquences seules, et
parallèlement, une très grande partie (plus d'un tiers chez Escherichia coli K-12 MG1655, un des
organismes les plus étudiés et les mieux connus [9, 10]) demeurent de fonction inconnue, sans
parler des nombreuses annotations erronées dans les banques de séquences [11]. Sans connaître
l’enzyme qui catalyse une réaction d’intérêt, il est compliqué de maîtriser et de reproduire cette
réaction au besoin, et, sans connaître la fonction d’une protéine, on peut passer à côté d’une
activité enzymatique nouvelle qui peut être intéressante. Les conséquences de cette double lacune
dans les connaissances fondamentales sur le fonctionnement du vivant sont nombreuses et
touchent, également, beaucoup de domaines appliqués dont l’ingénierie métabolique, la
pharmacologie, la médecine, l’industrie agro-alimentaire ou encore l’écologie.
Deux axes principaux de recherche pour résoudre ces lacunes sur la connaissance du
métabolisme peuvent être identifiés en observant la littérature. Le premier axe est sur le
développement des techniques autour de l'annotation fonctionnelle des protéines, c'est à dire la
prédiction de la fonction d’une protéine à partir de sa séquence et de données connexes. Le
![Page 14: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/14.jpg)
8
deuxième axe de recherche consiste à résoudre les "trous" dans le métabolisme qui
correspondent à des réactions catalysées dont les enzymes sont inconnues (enzymes orphelines
de séquence) ou à des réactions inconnues, à découvrir via l'exploration des réseaux
métaboliques, qui permettent de produire des métabolites d'intérêt.
L'étude des génomes a commencé dans les années 1990 avec en 1995 le premier séquençage d'un
organisme procaryote, Haemophilus influenzae Rd KW20. Vingt ans plus tard, près de cinquante
mille génomes complets (981 archées, 41001 bactériens et 6481 eucaryotes) sont disponibles dans
les bases de données (source Genomes Online, https://gold.jgi-psf.org), et le séquençage de
beaucoup de génomes et métagénomes est en cours de route. L'annotation fonctionnelle est le
processus d'assignation d'une fonctionnalité moléculaire et/ou biochimique à une séquence
d’ADN et/ou polypeptidique. D'après une étude [12], une fonction peut être potentiellement
associée par homologie pour environ 70% des gènes d'un organisme. Pour cela, les outils de
recherche de similarité entre séquences comme BLAST, FASTA et HMMER [13–17] sont
communément utilisés. Les 30% restants de gènes sont soit homologues à un gène de fonction
inconnue, soit ne ressemblent à aucune autre séquence précédemment élucidée. Ces pourcentages
sont très variables suivant les organismes étudiés et dépendent de leur proximité phylogénétique
avec des organismes expérimentalement étudiés. Dans la base de données UniProt [18], les
protéines de fonction inconnue sont référencées avec des termes comme "hypothetical",
"uncharacterized", "unknown" ou encore "putative" et représentent plus de 42% des 50 millions
de protéines publiées.
Plusieurs méthodes ont été développées pour essayer d'assigner une fonction aux nouvelles
séquences ou d'améliorer la qualité de l'annotation des séquences déjà connues. Parmi ces
méthodes, on trouve de la prédiction de fonction à partir du contenu en domaines structuraux et
fonctionnels d’une protéine [19], en s'aidant des informations sur la structure des protéines [20],
en créant des systèmes à bases de règles [21] ou encore en créant un réseau mondial
d’annotateurs experts [22]. La curation humaine a aussi une place importante dans les projets
d’annotation, notamment grâce aux efforts de SwissProt [23]. Ce genre d'études et de méthodes a
apporté énormément à l’amélioration de la qualité des annotations des gènes et des protéines
qu'ils encodent. Cependant, elles ne permettent pas de trouver la fonction d’un gène si aucune
caractérisation expérimentale directe ou indirecte n’est disponible (on parle alors de gènes
orphelins de fonction [24]).
![Page 15: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/15.jpg)
9
Parallèlement aux efforts liés à l'annotation fonctionnelle des gènes et des protéines, des
approches, plus orientées sur l’analyse de réseaux, sont développées pour en découvrir plus sur le
métabolisme du point de vue biochimique, notamment en résolvant le problème des trous
("gaps" en anglais) dans le métabolisme et celui d’activités enzymatiques inconnues. L’approche
utilisée pour appréhender ce problème est d’étudier la structure des réseaux métaboliques,
notamment en identifiant une logique dans les enchaînements de transformations chimiques de
métabolites, que l’on appelle communément "voies métaboliques".
En 2005, Lacroix et al. [25] mettent en place une méthode de recherche de motifs fonctionnels
dans les réseaux métaboliques et introduisent le terme de "motif réactionnel". Pour la première
fois, ce terme n’est pas basé uniquement sur les caractéristiques topologiques du réseau, mais
aussi sur la nature fonctionnelle des composantes de ce motif. Malgré des preuves exactes du bon
fonctionnement de la méthode, elle se limite à la recherche des motifs fréquents dans les réseaux
métaboliques organisme-centrés, et ne permet pas la découverte de modules qui permettront de
remplir les trous dans ces réseaux, ni d’associer des protéines enzymatiques à ces motifs.
En 2013, Barba et al. [26] ont identifié le fait que l’enchaînement des réactions constituant les
voies de dégradation des purines et pyrimidines présente la même biochimie, ainsi que le fait que
ces réactions sont catalysées par des enzymes homologues. Ceci a permis d’introduire la notion
de module réactionnel, comme étant une succession de transformations enzymatiques catalysées
par des protéines homologues. Ils ont aussi démontré, grâce à l’expérimentation biochimique, que
le module découvert a une capacité prédictive et renferme une voie de catabolisme des purines
encore inconnue. Cependant, cette étude ne permet pas de généraliser l’approche de découverte
de modules conservés du métabolisme et de l’appliquer d’une façon systématique et automatique
afin de découvrir de nouvelles voies métaboliques.
Toujours en 2013, Muto et al. [27] publient les résultats de leur recherche systématique de
modules réactionnels dans la base de données KEGG [28]. A partir de l’analyse des motifs de
transformation structurale des composés chimiques pour toutes les voies métaboliques présentes
dans cette base de données, ils ont mis en évidence l’architecture modulaire du métabolisme, ainsi
que le caractère conservé de ces modules au travers des voies métaboliques en les alignant.
Cependant, le lien entre ces modules réactionnels et les protéines permettant de catalyser les
réactions comprises dans ces modules n’est pas fait, la méthode ne peut s’appliquer à d’autres
donnés que celles présentes dans KEGG.
![Page 16: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/16.jpg)
10
Ces études mettent en évidence la logique modulaire des réseaux métaboliques et on peut voir
que l’idée de prédire des nouvelles activités enzymatiques en explorant cette modularité
commence à apparaître. Cependant, l’étude de Barba et al. ne permet pas de généraliser
l’approche au métabolisme entier, et celles de Lacroix et al. et de Muto et al. ne permettent pas de
faire le lien entre les modules réactionnels et les familles de protéines qui catalysent ces réactions.
De plus, la méthode de Muto et al. ne permet pas de découvrir des modules réactionnels
chevauchant plusieurs voies métaboliques, point plutôt crucial pour découvrir des enchainements
nouveaux d’activités enzymatiques et nécessite une post-curation experte pour valider les
modules trouvés.
C’est dans ce contexte de double problématique de gènes de fonction inconnue et d’activités
enzymatiques inconnues que l'étude à l'origine de cette thèse a été développée. Le travail a
consisté à définir des modules de transformations chimiques dans le métabolisme, à identifier les
plus conservés d'entre eux et à les explorer en les associant à des modules génomiques (comme
les opérons, par exemple) de fonction pas ou peu connue.
Toutefois, avant de développer cette méthode, une étude étendue a été réalisée sur les activités
enzymatiques orphelines de séquences aussi appelées "enzymes orphelines". Il s'agit d'activités
enzymatiques démontrées expérimentalement comme étant présentes dans un organisme donné,
mais dont la séquence codant pour l'enzyme catalysant cette activité est inconnue. En effet,
depuis 2007 [5], il n'y a pas eu de mise à jour sur ce phénomène qui touche pourtant entre 20 et
30% [7, 8] des activités enzymatiques connues. Le concept d'enzyme orpheline locale a aussi été
introduit : une activité enzymatique non-orpheline dans un clade donné mais orpheline dans un
autre. Ce concept met à jour les difficultés rencontrées par l'annotation fonctionnelle
automatique et met en avant les "NISE" - "Non-Homologous Isofunctionnal Enzymes" : des
enzymes non-homologues mais ayant la même activité catalytique. Cette étude a fait l’objet d'une
publication [8] et est décrite dans le premier chapitre de ce manuscrit.
Un travail plus méthodologique a ensuite été réalisé et constitue l’objet principal de cette thèse.
La démarche a consisté en l'exploration du métabolisme au travers de modules conservés de
transformations chimiques via la construction d’un modèle compressé de tout le métabolisme
connu qui regroupe des réactions entre elles selon leur type de transformation chimique. Pour
cela, un réseau de réactions représentant un modèle global du métabolisme a été construit à partir
![Page 17: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/17.jpg)
11
des données sur les réactions et les voies métaboliques présentes dans les bases de données
publiques. Au préalable, une classification des réactions en fonction de leur type de
transformation chimique a été réalisée en utilisant les signatures moléculaires des réactions (RMS)
[29]. En regroupant les nœuds des réactions partageant le même type de transformation chimique
en un seul nœud, un réseau de RMS a été crée. Dans ce réseau, les nœuds représentent un type de
transformation chimique, regroupant ainsi toutes les réactions enzymatiques effectuant ce type de
transformation, et les arêtes reprennent tous les liens existants dans le réseau original de
réactions. Ce réseau de RMS contient l’information sur toutes les réactions connues à partir
desquelles il a été construit, mais aussi l’information sur les réactions encore inconnues, qu’il est
possible de déduire à partir de leur type de transformation chimique et de leur contexte dans ce
réseau. Ainsi, le réseau de RMS est une représentation globale et condensée des connaissances
actuelles sur le métabolisme et possède en plus un potentiel prédictif de nouveaux modules
réactionnels. Si on émet l’hypothèse de la modularité du métabolisme, c'est à dire que les
réactions forment des blocs conservés au cours de l'évolution, le modèle réduit de
transformations chimiques est aussi modulaire et contient des blocs conservés de transformations
chimiques. L’étape suivante consiste donc à identifier les différents types de conservation
d’enchaînements (ou chemins) de transformations chimiques dans ce réseau de RMS. Ensuite,
des métriques de conservation d'un chemin/module de RMS sont définies, basées sur la
conservation des motifs de transformations chimiques entre les voies métaboliques connues, la
conservation de ces motifs au travers de tout le métabolisme, leur conservation du point de vue
enzymatique dans la taxonomie ou encore du point de vue topologique du réseau. L’ensemble
des chemins possibles a été extrait à partir du réseau de RMS et un certain nombre s’est révélé
être très conservé. Cette méthode a fait l’objet d'une publication [30] et est décrite dans le
deuxième chapitre de cette thèse. Une partie de ces chemins conservés est identifiée, car ils
correspondent à des voies métaboliques connues, mais beaucoup de chemins ne correspondent à
rien de connu jusqu’ici, et nécessitent un effort d’identification.
Par conséquent, dans la troisième partie de ce manuscrit, est décrit le processus d’identification
de modules conservés dans le métabolisme de transformations chimiques pour l’annotation des
blocs génomiques fonctionnels tels que les opérons (unités génomiques fonctionnelles, présentes
essentiellement chez les bactéries et archées, contenant un ensemble de gènes co-transcrits et
contrôlés par un même promoteur) de fonction peu ou pas connue. Les gènes, qui encodent des
enzymes et qui sont retrouvés dans ce type de structures génomiques, sont souvent impliqués
dans les mêmes fonctions cellulaires, assimilables aux voies métaboliques. Un exemple classique
![Page 18: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/18.jpg)
12
est l’opéron histidine, contenant généralement huit gènes qui codent des enzymes catalysant les
étapes successives de la biosynthèse de cet acide aminé, lorsque celui ci devient déficient dans
l’organisme. C’est la méthodologie de la mise en relation d’un contexte génomique avec un
contexte métabolique relâché, représenté par le réseau de signatures moléculaires de réactions, qui
est décrite dans le troisième chapitre du présent manuscrit. Un exemple d’application de cette
méthode est ensuite présenté sous la forme d’une étude de cas appliquée à une famille d’enzymes
d’intérêt industriel, les Baeyer-Villigerases monooxygénases (BVMOs). Le contexte génomique
des enzymes de cette famille est calculé à l’aide d’une méthode simple de prédiction d’opérons,
pour ensuite identifier leur contexte métabolique, c’est à dire prédire les voies métaboliques dans
lesquelles elles pourraient être impliquées. Cinq types d’opérons contenant une BVMO ont pu
être repérés en fonction des transformations chimiques catalysées par les enzymes codés par ces
opérons. Chacun de ces types correspond à un module différent de RMS, dont certaines
transformations chimiques n’étaient pas encore connues pour participer dans des voies
métaboliques impliquant des BVMO. L’application de cette méthode, bien que nécessitant pour
l’instant une intervention humaine pour valider les prédictions, s’est donc révélée efficace pour
découvrir de nouvelles voies métaboliques et annoter des gènes dans les opérons qui ont pu y
être associés.
Ce manuscrit présente les résultats obtenus au cours de trois années de travail. Il est introduit par
un état de l’art étendu sur le contexte biologique et méthodologique de cette thèse. Il est ensuite
organisé en trois chapitres, dont les deux premiers sont sous la forme d’articles publiés dans des
revues scientifiques internationales. La discussion de ces résultats, ainsi que les perspectives,
qu’elles soient des améliorations possibles des méthodes décrites, la poursuite des
développements ou les possibilités d’applications pratiques, concluent ce manuscrit.
![Page 19: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/19.jpg)
13
La démarche suivie dans cette thèse
« La séparation des savoirs, la spécialisation en domaine isolé nuit considérablement au développement de la
recherche. »
Historien scientifique Jacques Le Goff.
Cette citation reflète la tendance actuelle au mélange des disciplines et à la nécessité pour les
scientifiques de se spécialiser dans plusieurs sciences, comme c’est le cas des bioinformaticiens,
qui utilisent l’informatique pour résoudre des problèmes biologiques. Mais la recherche
scientifique nécessite un entremêlement des domaines encore plus important, d’autant que
certains sont plus avancés que d’autres sur certains aspects. Par exemple, en sociologie, où
l’informatique est de plus en plus utilisée aussi, les méthodes d’analyse de réseaux sociaux sont
très développées, tendance liée notamment à l’explosion des réseaux sociaux ces dernières
années. Or, en bioinformatique, les méthodes d’analyse de réseaux, qu’ils soient génétiques,
protéiques ou métaboliques ne font que commencer à émerger. Il est donc intéressant d’étudier
les méthodes d’analyse de réseaux propres à la sociologie pour pouvoir éventuellement les
appliquer dans l’analyse de réseaux biologiques. Un autre exemple serait la gestion de très grandes
quantités de données, communément appelées « big data ». En biologie, avec l’avènement de
technologies comme le séquençage, la spectrométrie de masse ou l’imagerie, la quantité de
données est très importante et il faut développer des techniques de stockage et d’analyse efficaces
et adaptées. Le concept du « big data » est aussi présent dans d’autres domaines, en
astrophysique, en finances, en linguistique ou en informatique « pure », et pour l’instant il n’y a
que très peu de dialogue et d’échanges entre ces différentes disciplines pour faire avancer une
cause à priori commune.
Pendant ma thèse je me suis efforcée de sortir des domaines que j’ai exploré pendant mes études
universitaires, qui sont la biologie moléculaire et l’informatique, pour m’intéresser à des
techniques utilisées dans des domaines voisins, comme la biochimie, la chimie et la
chemoinformatique, ainsi qu’à des domaines plus éloignés, comme la sociologie pour ses
méthodes efficaces d’analyse de réseaux.
![Page 20: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/20.jpg)
14
Cette thèse est avant tout un travail exploratoire. Nous sommes partis d’une hypothèse principale
qui est que les modules (ou les enchaînements) de transformations chimiques sont conservés au
cours de l’évolution du métabolisme et, comme c’est le cas pour de nombreux travaux de
recherche, nous ne savions pas du tout où, ni comment, cette hypothèse allait nous emmener. Il y
a eu beaucoup de tâtonnements, notamment pour trouver une façon à la fois efficace et correcte
de regroupement des réactions biochimiques selon le type de transformation chimique qu’elles
réalisent. Il a aussi fallu choisir la bonne source d’information sur le métabolisme, ainsi que de
décider si le travail allait se porter sur le métabolisme d’un organisme donné, d’un groupe
d’organismes ou sur le métabolisme « en général », et dans chacun des cas, la structure de
données à utiliser. Ensuite, il a fallu définir des mesures de conservation des modules dans le
réseau de transformations chimiques obtenu à partir d’un réseau de réactions, et pour cela
adopter différents points de vue, biologique d’un côté et informatique de l’autre. Pour ce dernier
point, j’ai dû me plonger dans le monde merveilleux de l’analyse des réseaux, appliqué dans
beaucoup de domaines comme la physique ou la sociologie, mais malheureusement encore peu à
l’interface avec la biologie. Plusieurs méthodes, inspirées d’analyses de réseaux sociaux, ont donc
été testées pour trouver des parties intéressantes dans le réseau de transformations chimiques
avant d’opter pour une méthode de classement des nœuds basée sur la topologie du réseau qui
est utilisée par le fameux moteur de recherche Google. Chez les procaryotes, les modules
génomiques, comme les opérons, sont souvent associés à une même fonction cellulaire, or, les
méthodes de prédiction des opérons sont nombreuses et parfois complexes à appliquer, il a donc
fallu appliquer une méthode de prédiction d’opérons, qui soit à la fois simple, relativement
efficace et surtout qui puisse être exécutée sur n’importe quel génome procaryote. La projection
de ces blocs génomiques sur le réseau de transformations chimiques a été la finalisation de tous
les paris faits sur les techniques sélectionnées et les approches inventées pour valider l’hypothèse
du départ.
La démarche scientifique menée au cours de cette thèse a ainsi été d’intégrer le plus large éventail
possible de ressources, méthodes et informations tout en gardant le cap sur le but final fixé
initialement : explorer le métabolisme.
![Page 21: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/21.jpg)
15
![Page 22: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/22.jpg)
16
Contexte biologique et méthodologique
Ce chapitre a pour but d’introduire les concepts biologiques et informatiques utilisés pendant
cette thèse et d’effectuer un état des lieux sur les domaines relatifs. Il est constitué de cinq parties.
Le métabolisme, ses différents acteurs et les théories sur son évolution sont présentés dans la
première partie. Dans la deuxième partie sont passées en revue les différentes façons de
représenter et d’explorer le métabolisme du point de vue informatique, ainsi que les différentes
ressources et bases de données publiques où l’on peut trouver toutes les connaissances actuelles
sur le sujet. La troisième partie est consacrée aux apports de la génomique pour la
compréhension du métabolisme d’un organisme, notamment l’annotation fonctionnelle des
génomes, le contexte génomique, la reconstruction des réseaux métaboliques à partir de génomes
complets ainsi que les lacunes dans les connaissances enzymatiques. Dans la partie suivante sont
présentées différentes méthodes pour l’exploration du métabolisme, avec les différentes façons
d’encoder les réactions pour un traitement automatique plus efficace, des méthodes pour combler
les trous dans les connaissances métaboliques, ainsi que les différentes façons d’explorer la
modularité des réseaux métaboliques et découvrir ainsi de nouvelles voies métaboliques. La
dernière partie de ce chapitre présente les limites de nos connaissances sur le métabolisme,
notamment des aspects non-enzymatiques de celui-ci.
![Page 23: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/23.jpg)
17
I. Le métabolisme
La vie est un concept difficile à définir. Il y a plusieurs façons différentes de penser à la vie, et,
pour compliquer les choses encore plus, il y a de multiples définitions académiques. On peut
penser à la vie comme à « la chair et le sang », ou comme à une machine ou un automate. On
peut aussi penser aux briques élémentaires – les molécules de la vie, ou encore, à l’information
contenue dans celles-ci. Plusieurs définitions scientifiques plus ou moins précises existent. Leslie
Orgel [31] par exemple, a défini une entité vivante avec le terme « CITROENS » (Complex,
Information-Transforming Reproducing Object that Evolves by Natural Selection – des objets complexes
ayant la capacité de transformer l’information et de se reproduire tout en évoluant par sélection
naturelle). Norman Horowitz, un des premiers généticiens à travailler sur les théories de
l’évolution du métabolisme et après avoir travaillé sur la recherche de la vie dans le système
solaire, donne une définition de la vie basée sur la génétique. Selon lui, être en vie équivaut à
posséder des propriétés génétiques, qui sont notamment l’autoréplication, la catalyse et la
mutabilité [32]. De plus en plus de scientifiques, cependant, déclarent que l’on ne peut pas encore
définir ce qu’est la vie, car on n’en sait pas encore suffisamment sur sa nature, mais qu’on peut
toutefois prédire ce qu’est vivant ou non sans avoir une définition générale. La plupart des
définitions de ce que c’est qu’un organisme vivant, bien que différentes sur certains points, se
rejoignent sur le fait que transformer la matière par des réactions chimiques est nécessaire à la
création et au maintien de la vie. L’ensemble de ces réactions, souvent catalysées par des
protéines produites par l’organisme (ou par des protéines « empruntées » à d’autres organismes
comme c’est le cas des virus), ainsi que les petites molécules organiques qu’elles transforment,
s’appelle le métabolisme et est au cœur de cette thèse.
I.1 Qu’est-ce qu’est le métabolisme ?
Le métabolisme est l’ensemble de processus biochimiques à travers lesquels les organismes
vivants se maintiennent en vie, se développent, se reproduisent et interagissent avec
l’environnement. Par ailleurs, le terme « métabolisme », qui est retrouvé dans beaucoup de
langues différentes, vient du grec « µεταβολή » (metabôlé) et signifie changement ou
transformation. Les transformations chimiques opérées dans les organismes vivants concernent
![Page 24: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/24.jpg)
18
principalement des petites molécules appelées métabolites qui sont modifiées par des réactions
chimiques. Ces réactions peuvent avoir lieu à l’intérieur des cellules comme à l’extérieur de celles-
ci (c’est le cas notamment des réactions permettant la digestion, le transport ou la communication
entre cellules). Le métabolisme se repose sur des réactions biochimiques catalysées la plupart du
temps par des protéines possédant la propriété de faciliter des réactions qui leur sont spécifiques.
Ces protéines sont communément appelées des enzymes.
Les réactions métaboliques peuvent être classées en deux grandes catégories : l’anabolisme et le
catabolisme. L’anabolisme regroupe des réactions de biosynthèse, qui permettent de convertir
des nutriments en briques élémentaires ainsi que d’assembler ces briques élémentaires en
composants cellulaires comme les protéines, les acides nucléiques, les polysaccharides de stockage
énergétique et les lipides. Le catabolisme représente l’ensemble des réactions de dégradation de
ces composants cellulaires en petites molécules. Les réactions cataboliques permettent d’obtenir
de l’énergie à partir de la dégradation de nutriments ou de dégrader des macromolécules en
briques élémentaires pour ensuite reconstruire d’autres composants cellulaires.
Le catabolisme et l’anabolisme interviennent aussi dans d’autres fonctions cellulaires telles que la
détoxification (dénaturation des molécules toxiques pour la cellule), la signalisation, la
communication chimique entre les cellules, ou encore la réparation des structures subcellulaires.
La diversité du métabolisme est remarquable. C’est cette diversité qui permet à certaines bactéries
et archées de survivre dans des environnements extrêmes, aux bactéries et aux plantes de
produire l’oxygène dont dépend la survie de beaucoup d’autres organismes vivants, à tous les
êtres vivants de se défendre des intrusions des autres ou, au contraire, de créer des symbioses en
mettant en commun leurs capacités métaboliques.
Les compétences biochimiques des organismes sont utilisées par l’homme depuis très longtemps.
Depuis leur utilisation pour la fabrication du pain, de bière et de vin par fermentation, l’utilisation
des capacités métaboliques des être vivants s’est étendue à de nombreux autres domaines, comme
la santé avec notamment la production d’antibiotiques et l’industrie énergétique avec la synthèse
de carburants par des bactéries et des algues.
Dans la section suivante seront décrites les définitions des entités et des notions étroitement liées
au métabolisme.
![Page 25: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/25.jpg)
19
I.2 Les acteurs du métabolisme
Le métabolisme est un concept qui rassemble de nombreux acteurs et de notions de nature
différente. Il existe un grand nombre de façons de percevoir et de représenter le métabolisme. Ici,
n’est présentée qu’une seule de ces façons, la plus commune en biologie et en biochimie. Seront
ainsi décrits, dans cette section, les entités et les notions sans lesquelles il est impossible de décrire
le métabolisme, c’est à dire, les métabolites, les réactions, les enzymes et les cofacteurs.
I.2.1 Métabolites
Les petites molécules (généralement de poids moléculaire inférieur à 1000 Da), synthétisées ou
dégradées dans une cellule, sont communément appelées métabolites. Ces molécules peuvent
provenir de l’extérieur de l’organisme, dans ce cas on les appelle nutriments (prise de nourriture)
ou xénobiotiques (composés étrangers, non nutritifs pour l’organisme et qui peuvent être
toxiques, comme les médicaments par exemple), ou être fabriquées par l’organisme et voyager
entre les différents compartiments cellulaires, être excrétés dans l’environnement, ou encore être
transférés entre les cellules (dans les organismes multicellulaires par exemple). La plupart des
métabolites sont ce que l’on appelle communément « composés chimiques organiques » à cause
de la présence quasi-systématique d’atomes de carbone. En plus du carbone, les métabolites sont
composés d’oxygène, d’hydrogène, d’azote et de souffre. Des atomes métalliques, comme le fer,
le magnésium ou le calcium sont beaucoup plus rares, mais tout aussi essentiels, les carences en
ces atomes peuvent s’avérer létales pour l’organisme. Les atomes de carbones de molécules
organiques peuvent être marqués très facilement de façon radioactive, ce qui permet de suivre les
échanges de matière au sein de l’organisme.
Figure 1. Structures de l’acide acétiques, du glycoaldehyde et du méthyl formate. Ces composés chimiques ont la même formule chimique (C2H4O2) mais des structures différentes.
![Page 26: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/26.jpg)
20
Le métabolome est l’ensemble des métabolites dans un organisme donné à un temps donné. Il
est donc constitué d’un grand nombre de molécules organiques appartenant à diverses classes
comme les acides aminés, les peptides, les lipides, les nucléotides ou les sucres. Le nombre total
de métabolites est estimé entre 200000 et 1000000 d’après [33].
La métabolomique est l’étude du métabolome dans des conditions biologiques données, et
s’emploie à identifier et quantifier les métabolites d’un organisme. Le métabolome d’un même
organisme peut être très différent selon l’environnement, de son état de stress, de l’âge, d’une
modification génétique, etc.. Deux techniques principales permettent de nos jours d’obtenir un
métabolome : la résonnance magnétique nucléaire et la spectrométrie de masse [34]. Les deux
doivent cependant être combinées pour obtenir un métabolome relativement complet, car aucune
n’est capable de d’identifier tous les types de métabolites. Le traitement automatique de ces
données est un des plus gros défis actuels en bio- et chemo-informatique [34].
Figure 2. Identifiants IUPAC de l’acide acétique, de la L-lysine et du Coenzyme A. Pour certaines molécules, plusieurs identifiants officiels sont possibles. Lorsqu’il s’agit de grosses molécules ces identifiants deviennent compliqués à utiliser pour un humain.
Un composé chimique possède une structure chimique unique et bien définie. La formule brute
d’un composé chimique n’indique que sa composition en atomes et ne reflète pas sa structure,
ainsi, deux composés chimiques distincts peuvent avoir la même formule brute (par exemple la
![Page 27: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/27.jpg)
21
formule brute C2H4O2 décrit l’acide acétique, le glycoaldehyde et le methyl formate, des composés
chimiques ayant une structure pourtant différente Figure 1). L’identification des molécules se fait
de plusieurs façons. Tout d’abord, il y a les numéros CAS (Chemical Abstracts Service Registry
Numbers [35]) qui sont des identifiants numériques uniques assignés à chaque molécule décrite
dans la littérature scientifique. Par exemple, l’identifiant CAS de l’acide acétique est 64-19-7.
Ensuite, il y a la nomenclature IUPAC (International Union of Pure and Applied Chemistry),
qui est une méthode systématique de nommage de composés chimiques organiques [36]. Dans
l’idéal selon cette nomenclature, chaque composé chimique devrait avoir un nom tel qu’une
structure 2D non-ambiguë puisse être crée. Par exemple, le nom IUPAC de l’acide acétique est
« acetic acid ». Cependant, les identifiants IUPAC sont rarement utilisés par la communauté de
biologistes car les noms pour les grandes molécules peuvent devenir très rapidement très
compliqués (Figure 2). Il en résulte des problèmes d’identification des composés chimiques,
notamment donner le même nom à des structures différentes ou des noms différents à la même
structure. Il existe donc plusieurs façons informatiques d’encoder la structure 2D des molécules
chimiques pour lever les ambiguïtés.
La première façon d’encode la structure 2D est celle des fichiers molfile (MDL molfile format).
C’est un format de fichier crée par la société MDL (maintenant devenu Symyx qui a fusionné
avec Accelrys : http://accelrys.com ; Accelrys ayant récemment été racheté par Dassault
Systèmes), et contient l’information sur les atomes, les liaisons entre les atomes, la connectivité et
les coordonnées spatiales pour une molécule (Figure 3). Les fichiers SDF (Structure-Data File)
Figure 3. Fichier MOLFILE de l’aldehydo-D-glucose-6-phosphate. Les fichiers MOLFILE décrivent les coordonnées tridimensionnelles des atomes de la molécule.
![Page 28: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/28.jpg)
22
utilisent le format molfile. Dans ces fichiers, il y a plusieurs composés chimiques au format
molfile séparés par des lignes de quatre caractères dollar ($$$$). Une des particularités du format
SDF est qu’on peut y inclure des données supplémentaires associées aux molécules, comme les
identifiants officiels des molécules, leurs identifiants dans différentes bases de données ou des
commentaires de l’utilisateur.
Figure 4. Descripteurs moléculaires de l’aldehydo-D-glucose-6-phosphate. (a) SMILES, (b) InChi, (c) InChi Key.
Une autre façon d’encoder la structure bidimensionnelle des composés chimiques est le format
SMILES (Simplified Molecular-Input Line-Entry System [37, 38]). C’est une notation linéaire
décrivant la structure de la molécule en utilisant des courtes chaines de caractères ASCII. Le
concept de génération d’une entrée SMILES est assez simple : il faut casser les éventuels cycles
pour ensuite décrire les branches à partir du squelette carboné de la molécule (Figure 4a).
Cependant, une même molécule peut être décrite par plusieurs signatures SMILES valables (par
exemple CCO, OCC et C(O)C spécifient correctement la structure de l’éthanol). Ainsi, des
algorithmes de canonisation de SMILES ont été créés pour assurer un code SMILES unique pour
une structure donnée indépendamment de l’ordre des atomes considéré dans la structure
dessinée. De ce fait, un SMILES officiel est unique pour chaque structure grâce à cette étape de
canonisation, c’est le SMILES canonique (Canonical SMILES). Pour une molécule donnée, il
peut aussi y avoir un SMILES isomérique, qui est une chaine de caractères contenant
l’information sur la conformation des doubles liaisons et la chiralité.
![Page 29: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/29.jpg)
23
La dernière façon standard de représenter une structure chimique est le code InChI [39] (IUPAC
International Chemical Identifier - http://www.iupac.org/inchi). C’est un identifiant textuel pour
les composés chimiques basé sur plusieurs types d’information : les atomes, la connectivité
interatomique, l’information sur les tautomères, les isotopes, la stéréochimie et sur les charges
électroniques. C’est un identifiant unique à chaque molécule indépendamment de la façon dont
celle-ci est dessinée (contrairement, notamment, aux fichiers molfile et aux codes SMILES qui
varient en fonction de la façon dont la molécule est dessinée). Depuis 2009, est disponible un
logiciel générant des InChI standardisés, à partir desquels il est possible de générer des clés
uniques InChI Keys (Figure 4b et c). La standardisation des InChi simplifie leur comparaison du
point de vue informatique et permet une uniformisation des données à travers les ressources
publiques.
La conception et l’utilisation de descripteurs moléculaires (méthodes pour décrire toutes sortes
d’informations chimiques et topologiques d’une molécule chimique) est une branche à part
entière de la chemo-informatique (on pourra notamment consulter le livre [40] pour constater
l’étendue du domaine). Contrairement aux identifiants moléculaires présentés précédemment, les
descripteurs moléculaires sont utilisés pour calculer des propriétés chimiques (QSPR – quantitative
structure-property relationship – relation quantitative structure-propriété) ou d’activité chimique
(QSAR – quantitative structure-activity relationship – relation quantitative structure-activité). Les
descripteurs moléculaires peuvent être classifiés en cinq catégories, selon les dimensions qu’ils
couvrent : 0D (nombre de liens, poids moléculaire, nombre d’atomes), 1D (comptages de
fragments moléculaires, liens hydrogène, surface polaire, etc), 2D (rassemblant les descripteurs
Figure 5. Fullerène. Cette molécule sphérique est composée de cycles de carbone et est généralement complexe à décrire d’une façon systématique avec des descripteurs moléculaires.
![Page 30: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/30.jpg)
24
topologiques), 3D (contenant les descripteurs géométriques et les informations sur les propriétés
de surface) et 4D (contenant les coordonnées 3D ainsi que les informations de conformation).
Deux descripteurs moléculaires seront décrits ici : les descripteurs moléculaires de signatures
stéréo [41] calculés par le logiciel MolSig (http://molsig.sourceforge.net) et les descripteurs
KEGG Chemical Function and Substructure (KCF-S) [42].
L’algorithme MolSig [41], générateur des descripteurs moléculaires de signatures stéréo (MS),
tient compte de la conformation stéréochimique des molécules en plus de leur topologie. Il
permet de générer des MS pour des structures stéréochimiques complexes comme par exemple
les fullerènes (Figure 5) et est efficace du point de vue computationnel. Cette méthode considère
une molécule comme un graphe où les atomes sont des nœuds et les liens entre les atomes des
arêtes et calcule un sous-graphe d’un diamètre donné centré sur chacun des atomes de la
molécule. Le formalisme SMILES est utilisé pour décrire les sous-graphes pour chaque atome.
L’algorithme prend en entrée un fichier molfile. La signature moléculaire obtenue est une
représentation sur plusieurs lignes, avec une sous-structure par ligne et le nombre de fois où cette
sous-structure est rencontrée dans la molécule (un exemple de MS est présenté en Figure 6).
Figure 6. Signature moléculaire de hauteur 1 de l’aldehydo-D-glucose-6-phosphate calculée avec le logiciel MolSig.
![Page 31: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/31.jpg)
25
Les KEGG Chemical Function and Substructure (KCF-S [42]) étend le format KCF en y
ajoutant sept attributs décrivant des sous-structures biochimiques. Le format KCF comporte
trois sections, « ENTRY », « BOND » et « ATOM ». ENTRY indique l’identifiant KEGG (base
de données métaboliques, cf. section II) de l’entrée ainsi que son type. Dans la section ATOM
sont présentés les numérotations des atomes, les « KEGG atom types » (les types d’atomes selon
le formalisme KEGG) pour les étiquettes sur les atomes, l’espèce chimique de chaque atome
(« C » pour carbone par exemple) ainsi que leurs coordonnées 2D. La section BOND décrit la
numérotation des liens, les numérotations des deux atomes impliqués dans le lien ainsi que la
configuration stérique du lien (Figure 7). Le descripteur moléculaire KCF-S étend cette
représentation de la molécule en y ajoutant les attributs suivants : TRIPLET, VICINITY, RING,
SKELETON, INORGANIC. La conversion en KCF et KCF-S se fait à partir d’un fichier
molfile.
Ces deux exemples de descripteurs moléculaires ajoutent des informations sur les sous-structures
moléculaires aux coordonnées spatiales de chaque atome, présentes dans un simple fichier
molfile. Ceci permet de réaliser des manipulations plus complexes sur les molécules, notamment
de suivre leurs implications dans les réactions ainsi que la façon dont les réactions les
transforment.
![Page 32: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/32.jpg)
26
I.2.2 Réactions Les métabolites sont transformés au cours des réactions biochimiques. Les molécules
transformées au cours d’une réaction sont appelées substrats et les molécules résultantes d’une
réaction sont des produits. Une réaction est souvent représentée par son équation bilan, dans
laquelle sont décrites les formules chimiques des produits et des substrats, leurs relations, la
direction de la réaction ainsi que sa stœchiométrie, c’est à dire la proportion de molécules
nécessaire au maintien du principe de conservation de la masse (« Rien ne se perd, rien ne se crée,
tout se transforme » d’après Antoine de Lavoisier, un des pères de la chimie moderne). Ainsi, au
cours d’une réaction les molécules échangent des atomes ou des groupes d’atomes. La
transformation chimique opérée pendant une réaction, c’est à dire la façon dont l’échange
d’atomes ou de groupes d’atomes se produit, peut être la même pour des réactions agissant sur
des molécules différentes. On dit alors que ces réactions réalisent le même type de
transformation chimique.
Figure 7. Descripteur moléculaire KEGG Chemical Function and Substructure (KCF-S) (image extraite de Kotera et al. [42]).
![Page 33: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/33.jpg)
27
La vitesse d’une réaction biochimique dépend de la nature des composés chimiques et de
l’environnement réactionnel (température, pression, PH, concentration des substrats, présence
d’un catalyseur de la réaction). Un catalyseur de réaction est une entité qui ne fait pas partie des
substrats ni des produits de la réaction, qui n’est pas directement altéré par cette dernière mais qui
augmente la vitesse de la transformation chimique. Dans une cellule, les catalyseurs sont
principalement des protéines ou des complexes protéiques, communément appelés enzymes,
mais ils peuvent aussi être des complexes hétérogènes protéine-ARN, voire des molécules seules
d’ARN non-codant à capacité catalytique, appelées ribozymes. Une réaction pouvant être
réalisée dans les deux sens est dite réversible (les produits peuvent être des substrats de la
réaction). En théorie, toute réaction est réversible mais dans des conditions physiologiques un
sens de réaction est souvent privilégié. Une réaction peut même être considérée comme
irréversible quand il n’y a pas de catalyseur dans le milieu cellulaire permettant à la transformation
chimique de se faire dans l’autre sens (par exemple une décarboxylation – Figure 8).
I.2.3 Enzymes Les enzymes sont généralement des protéines ou des complexes protéiques ayant la capacité de
catalyser des réactions biochimiques plus ou moins spécifiques. Dans la langue française, le
masculin et le féminin sont acceptés pour le terme « enzyme », ce qui peut provoquer une
confusion sur les bancs universitaires, chaque professeur ayant une préférence pour l’un ou pour
l’autre. Dans les ouvrages les plus anciens, c’est le féminin qui domine, mais depuis une dizaine
d’années, il semblerait que le masculin a de plus en plus de succès. Toutefois, les deux
déterminants sont pour l’instant considérés corrects par l’Académie Française :
http://ptitlien.com/ojz1o). La première enzyme fût isolée en 1833 par Anselme Payen et Jean-
Figure 8. Réaction de décarboxylation du 2-oxoglutarate. Cette réaction est considérée comme irréversible dans le milieu cellulaire en absence d’un catalyseur.
![Page 34: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/34.jpg)
28
François Persoz [43], elle dégradait l’amidon et a été nommée « diastase », ce qui signifie
« séparation » en grec. Même si cette enzyme a par la suite été renommée en « amylase », la
tendance à donner aux enzymes des noms qui se terminent par le suffixe « ase » date de cette
époque. Le mot « enzyme » vient du grec ancien « zumê » qui signifie « levain », et a été introduit
en 1877 par Wilhelm Kühne qui travaillait sur le processus de fermentation.
Les enzymes sont généralement des protéines, elles sont donc encodées dans le génome et font
suite à l’expression des gènes par le processus de transcription et traduction amenant à la
synthèse de chaines polypeptides composés à partir d’acides aminés. Ces protéines peuvent être
constituées d’un seul polypeptide (protéine monomérique) ou de plusieurs chaines
polypeptidiques (protéine multimérique) encodées par un ou plusieurs gènes. D’autre part, les
protéines sont aussi constituées de domaines protéiques, qui sont des parties d’une ou plusieurs
chaines polypeptidiques ayant des propriétés particulières, par exemple, adopter une structure de
manière autonome ou quasi-autonome du reste de la molécule. Une des branches importantes de
la bioinformatique structurale consiste à effectuer une classification étendue des domaines
structuraux et des protéines en général. Un domaine peut être porteur, par exemple, de la
fonction de catalyse (c’est à dire qu’il contiendra le site catalytique de l’enzyme) et un autre peut
servir à lier le substrat. Les multiples aspects liés à l’assignation de fonctions enzymatiques aux
protéines et aux domaines protéiques sont présentés dans la section III de ce chapitre.
La catalyse est une action qui permet à la réaction de se dérouler dans un milieu dans lequel elle
ne pourrait pas se faire et/ou d’accélérer grandement cette réaction. Les enzymes agissent à faible
concentration (il en faut très peu dans le compartiment cellulaire donné pour que la catalyse
puisse avoir lieu) et ne sont généralement pas modifiées au cours de la réaction. Les enzymes
possèdent des poches catalytiques dans lesquelles les substrats sont stabilisés (différents
mécanismes sont utilisés pour cette stabilisation, comme le rapprochement forcé des substrats,
stabilisation par effet électrostatique ou par l’hydrophobicité, par exemple) afin que la réaction
puisse se produire. La taille et la forme de la poche catalytique de l’enzyme, ainsi que certains
acides aminés clés impliqués directement dans le mécanisme réactionnel, régissent la spécificité de
l’enzyme. En effet, certaines enzymes sont spécifiques d’un substrat donné, d’autres sont plus
généralistes et peuvent transformer plusieurs substrats possédant une même fonction chimique.
Une enzyme peut avoir plusieurs sites catalytiques, soit dans une même poche catalytique soit
dans deux poches catalytiques différentes (situées sur des domaines différents ou non), on parle
![Page 35: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/35.jpg)
29
alors d’enzyme multifonctionnelle. Une enzyme peut aussi changer de fonction catalytique et de
spécificité de substrat en fonction de l’environnement dans lequel elle est présente (température,
PH) ou en fonction de la présence de certains métabolites pouvant provoquer un changement de
conformation spatiale de l’enzyme. Les enzymes du premier cas se nomment les « moonlighting
proteins » et leur étude est assez complexe [44–46]. Les enzymes du deuxième cas appartiennent
à la catégorie des enzymes allostériques [47, 48]. Ces enzymes possèdent au moins un site de
fixation de métabolite distant de la poche catalytique, et la fixation d’un métabolite sur ce site
modifie la conformation structurale de l’enzyme. Ce changement de conformation peut avoir un
effet négatif (le métabolite est alors un inhibiteur) ou positif (métabolite activateur). En
ingénierie enzymatique, l’allostérie est de plus en plus utilisée pour contrôler les enzymes d’intérêt
[49].
I.2.4 Cofacteurs
Les derniers acteurs du métabolisme qui seront décrits ici sont les cofacteurs. Un cofacteur est
une molécule non-protéique qui se fixe sur une enzyme. Ces molécules sont souvent
indispensables à leur bon fonctionnement, ce sont des « molécules d’assistance ». Une enzyme
sans cofacteur et inactive est appelée apoenzyme. L’enzyme avec le cofacteur fixé est
l’holoenzyme. Les cofacteurs peuvent être classifiés en trois catégories : les ions métalliques, les
cofacteurs faiblement liés à l’enzyme et les cofacteurs fortement liés à l’enzyme.
Les ions métalliques permettent principalement le maintien de la structure de l’enzyme. Les ions
les plus fréquents sont les ions fer, cuivre, magnésium, nickel, zinc, manganèse et molybdenium.
Ils se lient d’une façon covalente à l’enzyme. Un ou plusieurs ions de même nature ou de natures
chimiques différentes peuvent être nécessaires à son bon fonctionnement. Les ions métalliques
ne sont pas transformés pendant la réaction enzymatique et n’apparaissent pas dans l’équation de
la réaction.
Les cofacteurs faiblement liés à l’enzyme sont des coenzymes et sont généralement libérés après
la réaction. La liaison à l’enzyme est généralement une liaison hydrogène ou ionique. Ils sont
transformés pendant la réaction enzymatique, sont souvent appelés co-substrats et apparaissent
dans l’équation de la réaction. Les coenzymes sont généralement en excès dans le milieu
cellulaire. Parmi les coenzymes les plus fréquents il y a le nucléotide adénosine monophosphate
(AMP), le nucléotide adénosine triphosphate (ATP), le coenzyme A (CoA), la nicotinamide
![Page 36: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/36.jpg)
30
adénine dinucléotide (NAD) et la nicotinamide adénine dinucléotide phosphate (NADP) et leur
formes réduites NADH et NADPH. Il est d’ailleurs intéressant de préciser que beaucoup de
cofacteurs possèdent dans leur structure l’AMP, ce qui peut refléter une origine évolutive
commune. Une hypothèse [50] suggère que la structure de l’AMP est considérée comme une
sorte de poignée dont les enzymes se servent pour basculer le coenzyme entre les différentes
poches catalytiques. Par ailleurs, la géométrie de la liaison de l’AMP mime d’une façon presque
exacte la géométrie de l’appariement des bases dans l’ADN et l’ARN.
Les cofacteurs fortement liés à l’enzyme, c’est à dire par une liaison covalente, sont appelés
groupements prosthétiques. Ce sont des molécules organiques au centre desquelles sont
souvent trouvés un ou plusieurs atomes métalliques. Les exemples les plus fréquents de
groupements prosthétiques sont l’hème (intervenant dans la plupart des réactions avec de
l’oxygène) et un certain nombre de vitamines.
Tous les acteurs du métabolisme ont pour but de satisfaire des objectifs de la cellule. Ces
objectifs peuvent concerner la production d’énergie, la communication, la défense ou la
construction ou le remplacement d’éléments constituant la structure même de la cellule. Afin
d’atteindre ces objectifs, il est souvent nécessaire d’effectuer plusieurs transformations chimiques
consécutives sur les métabolites. Ces enchainements sont aussi appelés voies métaboliques et
sont présentés dans la section suivante.
I.2.5 Voies métaboliques Classiquement, on définit une voie métabolique comme un enchainement d’étapes de
transformations de métabolites, ces étapes de transformations étant catalysées la plupart du
temps par des enzymes. Une voie métabolique est caractérisée par un métabolite de départ
(substrat initial) et un métabolite cible (produit final de la voie). Il peut y avoir plusieurs
enchainements de réactions différents qui ont le même substrat initial et le même produit final.
Dans ce cas on dit que la voie métabolique possède plusieurs variants.
En 1999 Harold Morowitz [51] décrit l’ensemble des voies métaboliques connues comme « une
vaste généralisation empirique basée sur un siècle et demi de travail d’une armée de biochimistes
qui se sont efforcés de caractériser toutes les réactions chimiques se déroulant dans les cellules
vivantes ». Ainsi, lorsque l’on veut définir la notion de voie métabolique, il faut garder à l’esprit
![Page 37: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/37.jpg)
31
que celle-ci est une vision humaine pour diviser le réseau métabolique en sous-parties plus faciles
à comprendre, à étudier et à reproduire. C’est avant tout un concept créé pour appréhender une
fonction biologique donnée, car les enzymes et les métabolites sont la plupart du temps en état
libre dans le compartiment cellulaire où ils se trouvent, et la rencontre d’un métabolite et d’une
poche catalytique d’une enzyme peut âtre considérée comme « accidentelle/fortuite ». La
nécessité des organismes d’avoir l’ensemble des enzymes qui catalysent les réactions servant à
obtenir un métabolite essentiel à un moment donné, les « pousse » à co-réguler l’expression des
gènes codant pour ces enzymes. En effet, chez les procaryotes et certains eucaryotes, il existe
une relation entre l’ordre et la co-localisation des gènes sur les chromosomes qui favorise leur co-
expression et, ainsi, l’enchainement en voie métabolique des réactions catalysées par les enzymes
correspondantes [52]. De plus, des similitudes dans la structure des voies métaboliques dans un
organisme et entre les organismes, même éloignés du point de vue taxonomique et intra-
organismes, sont observées [25, 26]. Ainsi, il existe bien une logique conservée au cours de
l’évolution de l’agencement des réactions en voies métaboliques.
Les voies métaboliques peuvent être séparées en deux grands groupes selon qu’elles sont
essentielles ou non à la survie de l’organisme. Les voies essentielles à la survie de l’organisme
composent le métabolisme primaire, comme par exemple, les voies de biosynthèse des acides
aminés ou des nucléotides. Il est généralement très conservé au travers de l’arbre du vivant (un
ensemble de 124 réactions « super-essentielles » communes à tous les organismes a d’ailleurs été
défini [53]). Les voies métaboliques qui ne sont pas indispensables à la survie de l’organisme
composent le métabolisme secondaire. Le métabolisme secondaire varie beaucoup entre
différentes branches taxonomiques, mais aussi en fonction de l’environnement des organismes.
Ce sont notamment les voies du métabolisme secondaires qui permettent la production de
molécules de défense comme les toxines ou les antibiotiques, ou encore des molécules de
communication comme les hormones (Figure 9).
![Page 38: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/38.jpg)
32
Des théories sur l’évolution du métabolisme ont donc émergé dès les débuts de la biochimie pour
tenter d’expliquer cette logique, et sont présentées conjointement avec les théories sur l’évolution
des enzymes dans la section suivante de ce manuscrit.
Figure 9. Exemples de métabolites produits du métabolisme secondaire de la bactérie Streptomyces griseus.
![Page 39: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/39.jpg)
33
I.3 Evolution du métabolisme
L’évolution (du latin « evolutio » - action de dérouler) est le passage progressif d’un état à un autre.
L’évolution biologique se définit comme le changement dans les traits héréditaires des
populations au fil des générations successives [54]. Les processus évolutifs ont des implications à
tous les niveaux de l’organisation biologique, que ce soit au niveau des espèces, des individus, des
cellules ou des molécules. L’évolution du métabolisme peut se définir comme l’acquisition de
nouvelles capacités métaboliques, c’est à dire la capacité de synthétiser et de dégrader de
nouvelles molécules, ou de réaliser ces transformations d’une manière plus efficace. La perte de
certaines parties du métabolisme fait aussi partie de son évolution. Dans cette section nous allons
nous intéresser à deux aspects complémentaires de l’évolution du métabolisme, l’évolution des
enzymes dans un premier temps et l’évolution des voies métaboliques ensuite.
I.3.1 Evolution des enzymes Les protéines en général, et les protéines enzymatiques en particulier, ont différentes
formes/structures et tailles. Pour réaliser certaines fonctions, les protéines n’ont besoin que d’un
seul domaine, une unité de structure protéique stable. Il existe même des protéines qui n’ont pas
besoin d’être repliées en une structure particulière pour avoir une fonction catalytique, on parle
alors de protéines intrinsèquement non-structurées [55]. D’autres protéines, pour être
fonctionnelles, sont composées de plusieurs domaines reliés entre eux ou même de plusieurs
polypeptides formant un complexe protéique. L’apparition de nouvelles fonctions enzymatiques
dans les organismes se fait principalement via duplication de gènes suivie d’une divergence des
copies par acquisition de mutations qui sont sélectionnées pour être plus viables et/ou favoriser
l’adaptation de l’organisme à un milieu donné en augmentant son efficacité métabolique.
Divergence des fonctions enzymatiques - enzymes promiscuitaires
Les enzymes sont connues pour être des catalyseurs extrêmement spécifiques. Pourtant, l’idée
que beaucoup d’enzymes sont capables de catalyser d’autres réactions et/ou de transformer
![Page 40: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/40.jpg)
34
d’autres substrats en plus de ceux pour lesquels elles ont se sont spécialisées au cours de
l’évolution n’est pas nouvelle [56]. Ces enzymes, qui ne font pas que ce qu’on attend d’elles, sont
appelées enzymes promiscuitaires. Une des premières publications sur une enzyme
promiscuitaire date de 1921 et décrit la pyruvate décarboxylase pour sa capacité à former des
liaisons carbone-carbone entre de nombreuses molécules [57]. Une des grandes hypothèses
actuelles propose que les activités enzymatiques promiscuitaires servent de point de départ pour
l’évolution des organismes et de leur métabolisme. Il existe trois types de promiscuité :
• la promiscuité de substrat, où l’enzyme est capable de catalyser la même transformation
sur d’autres substrats que ceux pour lesquels elle est spécialisée, avec une plus ou moins
bonne efficacité
• la promiscuité de réaction, où l’enzyme a la capacité de catalyser plusieurs
transformations différentes
• la promiscuité de condition, remarquée chez des protéines dont la fonction peut varier
considérablement suivant les conditions physico-chimiques (variation de température,
pH, salinité, ou présence/absence de certaines molécules dans le milieu). Les enzymes
promiscuitaires de condition sont souvent appelées « moonlighting enzymes ».
Le potentiel promiscuitaire des enzymes entraine l’évolution de nouvelles fonctions enzymatiques
au sein de superfamilles structurales [58] et par conséquence, l’émergence de nouvelles familles
ou superfamilles d’enzymes [59, 60]. Chez les organismes procaryotes notamment, leur style de
vie influence les enzymes à être promiscuitaires [61], cette plasticité catalytique favorisant
grandement la survie en cas de changement brutal de l’environnement.
La promiscuité enzymatique, ainsi que le potentiel « d’évolvabilité » promiscuitaire des enzymes
peut être prédite avec des méthodes chémoinformatiques et statistiques [62].
Comme évoqué précédemment, la duplication de gènes est un des principaux facteurs favorisant
l’évolution de la fonction des protéines. La duplication d’un gène codant une enzyme entraine la
présence de deux versions de l’enzyme dans l’organisme. La pression évolutive pour garder la
fonction enzymatique présente initialement dans l’organisme ne s’exerçant que sur une seule des
deux copies, l’autre version peut évoluer en subissant un taux plus important de mutations [63].
Ce mécanisme permet à un organisme d’acquérir de nouvelles enzymes, soit ayant une activité
catalytique innovante et éventuellement bénéfique pour l’organisme [64], soit ayant la même
activité, mais la réalisant avec une efficacité plus ou moins grande. Ce dernier cas concerne les
isoenzymes.
![Page 41: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/41.jpg)
35
Isoenzymes Les isoenzymes (aussi appelées « isozymes ») sont des enzymes qui ont des séquences d’acides
aminés différentes mais qui catalysent la même réaction biochimique. La différence en séquence
peut être très importante, impliquant une origine évolutive différente des isoenzymes, ou
relativement faible, les isoenzymes étant homologues. Dans le premier cas, la même activité
enzymatique est acquise par convergence évolutive et le cas de ces enzymes isofonctionnelles sera
abordé dans la section suivante.
La présence de deux isoenzymes homologues dans un organisme a pour origine un événement de
duplication de gènes suivi de la différenciation des deux copies. Ces enzymes ont généralement
des modes de fonctionnement différents et/ou des propriétés de régulation différentes. Souvent,
les deux enzymes ont des vitesses d’évolution différentes, la pression de sélection ne s’exerçant
pas de la même manière sur les deux copies. La présence de deux isoenzymes dans un organisme
permet une meilleure adaptation de son métabolisme pour répondre à des besoins différents
suivant des conditions extérieures variables.
Un exemple très étudié d’isoenzymes porte sur l’activité pyruvate kinase chez Escherichia coli. Cette
bactérie, comme beaucoup d’autres, possède deux protéines ayant cette activité catalytique : PykA
et PykF. Ces protéines sont homologues (37% d’identité de séquence en acides aminés), mais
présentent des propriétés physico-chimiques différentes, sont sous un contrôle génétique
différent [65] et ne sont pas interchangeables.
Convergence évolutive de fonctions enzymatiques Les NISE (Non-homologous Isofunctional Enzymes – des enzymes non-homologues isofonctionnelles)
[66] sont des enzymes qui catalysent les mêmes réactions biochimiques, mais qui ne sont pas
homologues, c’est à dire qu’elles n’ont pas évolué à partir d’un même gène ancestral. La plupart
du temps, elles ont des repliements structuraux différents, preuve d’une convergence évolutive
résultant de la nécessité des organismes à acquérir une fonction précise. On retrouve des NISE
dans des voies métaboliques essentielles comme dans la biosynthèse de la méthionine [67] ou du
coenzyme A (3 types d’enzyme réalisent l’activité pantothenate kinase dont une ne présentant
aucune homologie avec les deux autres types [68]). Un autre exemple pour illustrer les NISE est
l’activité enzymatique cellulase. Pour cette activité, catalysant la réaction de dégradation du
cellulose, il existe six versions différentes de la séquence avec des repliements très différents [66].
![Page 42: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/42.jpg)
36
L’acquisition d’une seule nouvelle fonction enzymatique dans un organisme est rarement
suffisante pour modifier profondément ses capacités métaboliques. Elle se fait de concert avec les
autres activités enzymatiques présentes dans l’organisme et par l’acquisition d’un ensemble
cohérent de fonctions catalysant une succession de réactions pour, par exemple, la dégradation
d’un nouveau composé de l’environnement en un métabolite d’intérêt pour l’organisme. Dans la
section suivante sont décrites les grandes théories sur les mécanismes d’acquisition de nouvelles
voies métaboliques par les organismes.
I.3.2 Grandes théories sur l’évolution des voies métaboliques
Il existe plusieurs grandes théories pour expliquer la façon dont les voies métaboliques sont
apparues et ont évolué. Les modèles correspondants à ces théories sont résumés dans la Figure
10 (partiellement inspirée de Schmidt et. al [69]).
Invention de novo des voies métaboliques Le modèle le plus simple (voire simpliste) de l’évolution des voies métaboliques est celui de
l’invention de novo (Figure10a). Les voies métaboliques auraient pu apparaître et évoluer
spontanément, sans adapter ou réutiliser des enzymes préexistantes. Par exemple, un certain
nombre de d’ARNt synthétases semblent avoir initialement évolué d’une façon indépendante,
pour ensuite être impliquées dans différentes voies métaboliques comme celle de la traduction
des protéines et la transamidation ARNt-dépendante [70].
Synthèse rétrograde et synthèse progressive La théorie sur l’évolution rétrograde des voies métaboliques par Norman Horowitz [71] est
historiquement la première a avoir été formulée (1945). Cette hypothèse soutient que la pression
de sélection sur une voie métabolique cible principalement la production fructueuse de son
produit final (Figure 10b). La formation du produit final à partir d’un métabolite intermédiaire
augmente la capacité vitale de l’organisme. Comme ce métabolite final peut dériver de
métabolites de plus en plus éloignés du point de vue chimique, la capacité vitale augmente et la
![Page 43: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/43.jpg)
37
voie métabolique évolue à rebours. Cette rétro-évolution semble être un bon modèle pour la
glycolyse [72] et la voie de biosynthèse du mandelate [73].
Une hypothèse alternative et moins connue que celle de la synthèse rétrograde est celle du
développement des voies de biosynthèse dans le sens avant [74] (aussi connue sous le nom de
celui qui l’a proposée, Sam Granick), où les composés terminaux ne joueraient aucun rôle dans
l’évolution. Granick proposa que la biosynthèse de certains produits terminaux pourrait être
expliquée par une évolution « vers l’avant » à partir de précurseurs relativement simples. Ce
modèle prédit que les composés biochimiques plus simples précèdent l’apparition des plus
compliqués. Par conséquent, les enzymes catalysant les étapes antérieures d’une voie métabolique
sont plus anciennes que celles catalysant les étapes suivantes. Pour que ce modèle puisse
fonctionner, il faudrait que les métabolites intermédiaires soient utiles à l’organisme, car
l’apparition simultanée de plusieurs enzymes catalysant des réactions consécutives est trop
improbable. Cette hypothèse peut fonctionner pour la biosynthèse de l’hème et de la chlorophylle
[74], mais ne fonctionne pas pour de nombreuses voies métaboliques comme la biosynthèse des
acides aminés ou des purines où les métabolites intermédiaires n’ont pas d’utilité apparente et
peuvent même être toxiques.
Spécialisation d’enzymes multifonctionnelles Les voies métaboliques pourraient aussi évoluer à partir d’enzymes multifonctionnelles [64, 75]
(Figure 10c). A partir d’une enzyme multifonctionnelle catalysant plusieurs réactions consécutives
sur le même métabolite, la voie métabolique aurait pu évoluer avec la duplication et la
diversification de cette enzyme initiale vers des enzymes plus efficaces et plus spécialisées ne
catalysant chacune qu’une seule des étapes dans la voie. Des enzymes multifonctionnelles
actuelles, comme, par exemple, la carbamoyl phosphate synthase, sont utilisées dans de
nombreuses fonctions cellulaires et voies métaboliques, et pourraient être des précurseurs pour
de nouvelles voies métaboliques [76].
Duplication de voies métaboliques entières De la même façon qu’une seule enzyme peut être dupliquée et se spécialiser, un bloc de gènes
participant à un même processus cellulaire peut aussi être dupliqué et se spécialiser, entrainant
naturellement la création d’une nouvelle voie métabolique [64, 77] (Figure 10d). Ce mécanisme
d’acquisition de nouvelles fonctions peut notamment être identifié en utilisant la génomique
comparative [78–80], notamment en observant une coévolution des opérons et des voies
![Page 44: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/44.jpg)
38
métaboliques. Par exemple, la voie de biosynthèse de l’histidine partage avec celles de la sérine et
du tryptophane plusieurs étapes qui possèdent un même type de transformation chimique et qui
sont catalysées par des enzymes homologues [77, 81]. Il est donc très probable que ces voies
métaboliques proviennent de duplications de voies ancestrales communes.
Recrutement enzymatique ou modèle d’évolution en « patchwork » Les voies métaboliques pourraient aussi évoluer en « recrutant » des enzymes impliquées dans
d’autres voies métaboliques existantes, résultant en une mosaïque ou un « patchwork » d’enzymes
homologues qui catalysent des réactions dans différentes voies métaboliques [77, 82] (Figure 10e).
De nombreuse familles ou superfamilles d’enzymes catalysent des réactions similaires qui sont
rencontrées dans des voies métaboliques très différentes [83, 84], prouvant la plasticité des
réseaux métaboliques modernes [53]. Le recrutement des enzymes promiscuitaires dans les voies
métaboliques joue ainsi un grand rôle dans l’expansion du métabolisme [85]. Cette « versatilité »
enzymatique a été montrée à maintes reprises dont notamment chez Escherichia coli [86, 87].
Origine semi-enzymatique des voies métaboliques Dans le but d’expliquer l’origine des toutes premières voies métaboliques, Lazcano et Miller [88]
ont proposé une hypothèse très différente des autres. Il est admis que la plupart des étapes des
voies métaboliques sont catalysées par des enzymes, mais certaines peuvent être naturellement
spontanées dans certaines conditions (température, pression, pH, présence/absence de molécules
particulières dans le milieu). Dans cette hypothèse, des enzymes très généralistes auraient permis
de modifier légèrement l’environnement de métabolites pour permettre aux réactions de se
dérouler spontanément. Il s’agirait alors d’étapes semi-enzymatiques dans les voies métaboliques
qui par la suite seraient remplacées par des étapes complètement enzymatiques au cours de
l’évolution, avec la spécialisation des enzymes (Figure 10f adaptée d’après Lazcano et Miller [88]).
D’après des études récentes [69, 79], le recrutement enzymatique semble être la principale force
motrice pour l’évolution de nouvelles voies métaboliques. La duplication de voies métaboliques
entières aurait aussi une grande importance dans l’évolution du métabolisme moderne. Les autres
hypothèses présentées semblent être des mécanismes évolutifs beaucoup plus rares ou
ancestraux. Il est important de noter également le rôle important du transfert horizontal de gènes
qui permet aux organismes microbiens d’acquérir rapidement de nouvelles compétences
métaboliques par échange de matériel génétique [89].
![Page 45: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/45.jpg)
39
Figure 10. Illustrations des grandes théories de l’évolution des voies métaboliques (adaptées d’après Scmidt et al. [69] et Lazcano et Miller [88]). (a) Invention de novo des voies métaboliques, (b) Synthèse rétrograde, (c) Spécialisation d’enzymes multifonctionnelles, (d) Duplication de voies métaboliques entières, (e) Modèle d’évolution en « patchwork », (f) Modèle semi-enzymatique.
![Page 46: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/46.jpg)
40
II. Représentation du métabolisme
En sciences, comme dans la vie de tous les jours, nous avons besoin de concepts et de structures
définis et communs à tous pour représenter les notions et les objets et communiquer d’une façon
efficace avec les autres individus. Comme nous l’avons vu dans la section précédente, le
métabolisme implique beaucoup d’acteurs de nature différente qui interagissent entre eux. Il est
donc nécessaire de codifier ces acteurs et leurs interactions. La quantité et la complexité des
données du métabolisme nécessitent l’utilisation des ordinateurs pour les intégrer et les
comprendre : c’est l’essence même de la bioinformatique.
Dans cette section seront décrits les différents niveaux et façons de représentation du
métabolisme. Dans un premier temps les différentes ressources de données publiques liées au
métabolisme seront passées en revue. Ensuite seront présentées diverses façons de classifier les
réactions chimiques catalysées par les enzymes : les activités enzymatiques.
Le métabolisme est souvent représenté sous la forme d’un graphe (Figure 11 d’après [90] et[120]).
En effet, ce type de structure permet d’intégrer à la fois des données sur les acteurs du
métabolisme (comme les métabolites, les réactions qui les transforment et les enzymes qui
catalysent ces réactions) et les interactions entre ces acteurs. Les troisième et quatrième parties de
cette section seront donc consacrées aux réseaux métaboliques.
Les études en biologie évolutive ont, à de très nombreuses reprises, démontré que le vivant est
modulaire, c’est à dire qu’il est composé, à tous les niveaux, d’unités conservées, ou modules,
ayant une existence propre et garantissant la cohérence de l’ensemble du système. A l’échelle
macroscopique, on pourra donner l’exemple de la transplantation médicale d’organes : un organe
est donc un des modules du système qu’est le corps d’un individu. A l’échelle microscopique, les
transposons, qui sont des petits morceaux d’ADN qui peuvent changer de place dans le génome
d’un organisme et même être échangés entre les organismes, pourront servir d’exemple de
modularité. La définition et la recherche des modules conservés de réactions dans les réseaux
métaboliques sont au cœur de cette thèse. La modularité du métabolisme et les concepts qui y
sont liés seront donc abordés dans la dernière partie de cette section.
![Page 47: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/47.jpg)
41
Figure 11. Réseau métabolique construit à partir de voies métaboliques des procaryotes et d’eucaryotes (extraite de www.biochemical-pathways.com).
![Page 48: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/48.jpg)
42
II.1 Ressources de données métaboliques
Dans cette section seront présentées et décrites les différentes sources biologiques de données
publiques disponibles actuellement pour la communauté scientifique. La classification de ces
ressources en catégories bien distinctes est loin d’être évidente, car certaines d’entre elles sont
plutôt généralistes et contiennent beaucoup de types de données différentes (par exemple, des
données sur les molécules, les réactions, les enzymes et les voies métaboliques à la fois) et
d’autres ne contiennent qu’un seul type de données (par exemple uniquement des composés
chimiques).
II.1.1 Grandes bases de données sur le métabolisme
BioCyc & MetaCyc BioCyc [91] est une collection de bases de données de génomes et de voies métaboliques (PGDB
– Pathway/Genome Data Base) et des outils pour comprendre ces données. MetaCyc [91–93] un des
PGDB de BioCyc, est une base de données curée de voies métaboliques expérimentalement
élucidées issues de tous les domaines du vivant. Au moment de l’écriture de ce manuscrit,
MetaCyc contient des données issues de 2600 organismes différents et 2260 voies métaboliques.
De plus, on y retrouve les métabolites, réactions, enzymes et gènes associés à ces voies
métaboliques. Le but de MetaCyc est de faire une description exhaustive du métabolisme via des
échantillons de voies métaboliques représentatives et expérimentalement élucidées. Les données
contenues dans MetaCyc sont accessibles au travers de son interface web (http://metacyc.org) ou
avec l’outil Pathway Tools [94, 95] qui permet une exploitation plus approfondie des données.
Les données des PGDBs peuvent aussi être utilisées directement en écrivant des programmes en
Java, Perl et Lisp. Les requêtes en Java et en Perl sont exécutées en utilisant les APIs (Application
Progam Interfaces) des systèmes appelés JavaCyc et PerlCyc [96].
Une des dernières nouveautés de MetaCyc est de proposer un atom mapping [97], c’est à dire le
marquage des atomes des molécules impliquées dans une réaction pour suivre leur flux au cours
de la transformation chimique.
![Page 49: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/49.jpg)
43
Ce sont les données issues de MetaCyc qui ont été les plus utilisées pour les travaux présentés
dans cette thèse. Les données sur les voies métaboliques, les réactions et les métabolites ont été
extraites à l’aide de JavaCyc.
KEGG KEGG [98–102] (Kyoto Encyclopedia of Genes and Genomes) est une des plus anciennes des bases de
données de réactions et de voies métaboliques. Ici, les voies métaboliques sont organisées en
cartes (maps) définies par objectif cellulaire et rassemblant tous les variants connus chez les
différents organismes. Dans cette base de données on retrouve tous les acteurs du métabolisme :
les métabolites (dans la section KEGG LIGAND), les réactions (KEGG REACTION), les
enzymes (KEGG ENZYME) et les voies métaboliques (KEGG PATHWAY et KEGG
MODULE). Il y a en plus des données sur les gènes et les génomes (KEGG GENES et KEGG
GENOME) ainsi que les groupes d’orthologues (KEGG ORTHOLOGY). Les cartes
métaboliques dans KEGG sont subdivisées en modules, qui sont des unités fonctionnelles
utilisées pour l’annotation et l’interprétation biologique des génomes.
Comparaison des bases de données MetaCyc et KEGG La majeure différence entre KEGG et MetaCyc se trouve au niveau de la définition d’une voie
métabolique – il y a les « cartes » du côté de KEGG qui rassemblent pour tous les génomes
analysés, tous les variants possibles avec le même objectif cellulaire et, du côté de MetaCyc, des
voies métaboliques organisme (ou clade) spécifique. Dans KEGG, les voies métaboliques sont
généralement plus longues que dans MetaCyc (cf. Table 1). Les données dans MetaCyc sont
validées manuellement par des experts (ne travaillant pas nécessairement directement pour
MetaCyc), alors que dans KEGG une partie seulement est expertisée par des spécialistes internes
et les informations de l’autre partie sont inférées automatiquement. Une étude [103] comparant
les deux ressources a été publiée en 2013, et une partie de cette étude est résumée dans la Table 1.
![Page 50: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/50.jpg)
44
Table 1. KEGG versus MetaCyc
Tableau de comparaison des bases de données de ressources métaboliques KEGG et MetaCyc. Adapté d’après [104]. Sont comparées les différentes statistiques sur les composés chimiques, les réactions et les voies métaboliques décrits dans ces bases de données.
MetaCyc KEGG
Nombre de composés chimiques 11 991 15 161
Composés avec description 1 486 2 997
Longueur moyenne de la description 47,69 6,51
Nombre moyen de réactions associées à un composé 3,59 2,17
Nombre moyen de voies métaboliques par composé 1,78 0,67
Nombre de réactions 10 262 8 879
Nombre de réactions non-équilibrées 532 1 475
Nombre moyen de voies métaboliques associées à une réaction 0,84 0,90
Nombre de voies métaboliques 2 142 416
Nombre moyen de réactions par voie métabolique 5,73 19,10
BRENDA BRENDA (BRaunschweig ENzyme DAtabase [105, 106]) est une ressource très complète sur les
enzymes, les réactions enzymatiques et les métabolites, contenant des données de très haute
qualité. Depuis peu de temps, on peut y retrouver aussi des informations sur les voies
métaboliques, mais celles-ci sont pour l’instant difficilement exploitables du point de vue
informatique. Les informations de cette base de données sont obtenues manuellement à partir de
la littérature, ainsi qu’en faisant de la fouille de données et de la fouille de texte et en utilisant des
algorithmes de prédiction.
Les données issues de BRENDA ont été particulièrement utiles pour l’étude sur les enzymes
orphelines présentée dans le premier chapitre de cette thèse.
![Page 51: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/51.jpg)
45
RHEA RHEA [107, 108] est une base de données de réactions non-redondantes annotées manuellement.
Elle est issue d’un projet collaboratif initié par l’EBI (European Bioinformatics Institute) et le
SIB (Swiss Institute of Bioinformatics). Les réactions y sont décrites en utilisant les espèces
chimiques issues de ChEBI (cf. section suivante pour la description de cette ressource), et sont
chimiquement équilibrées au niveau des masses et des charges (les structures chimiques y sont
normalisées au pH 7.3). Des références croisées avec les autres bases de données métaboliques
ainsi que des références bibliographiques sont associées aux réactions quand elles sont
disponibles.
Reactome Reactome [109] est une base de données publique de réactions et voies métaboliques eucaryotes
(surtout humaines) manuellement validées par des experts. La particularité de cette ressource
consiste dans les très nombreuses références croisées avec les autres bases de données, avec un
accent particulier sur les données d’orthologie entre les espèces eucaryotes.
UniPathway UniPathway [110] est une ressource pour la représentation et l’annotation de voies métaboliques
totalement validées manuellement par des experts et disponible en libre accès
(http://www.unipathway.org). Elle fournit une représentation explicite des réactions chimiques
spontanées et catalysées par des enzymes ainsi qu’une représentation hiérarchique des voies
métaboliques. Cette hiérarchie utilise des sous-voies linéaires comme des briques basiques pour
reconstruire des voies métaboliques plus grandes et plus complexes. Cette méthode permet ainsi
d’inclure des variants de voies métaboliques espèce-spécifiques plus facilement. Toutes les voies
métaboliques dans UniPathway possèdent des références croisées vers les autres ressources
métaboliques comme KEGG [98] et MetaCyc [111], ainsi que vers les ressources de protéines
comme UniProtKB [18] pour laquelle UniPathway fournit un vocabulaire contrôlé pour
l’annotation des activités enzymatiques et des voies métaboliques.
![Page 52: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/52.jpg)
46
II.1.2 Bases de données de composés chimiques
En plus des ressources contenant plusieurs types d’acteurs du métabolisme, il existe aussi des
bases de données spécialisées uniquement pour les métabolites.
ChEBI Chemical Entities of Biological Interest [112] (ChEBI) est une base de données non-redondante
de composés chimiques, de groupements chimiques (c’est à dire des parties d’entités chimiques)
et de classes d’entités chimiques annotés manuellement et d’intérêt pour le biologie. Elle est
maintenue par l’EBI. Cette base de données fournit aussi une ontologie chimique qui permet de
décrire les relations entre les molécules et leurs classes chimiques. On n’y trouve que des petites
molécules, donc les molécules (polymères) comme les acides nucléiques, les protéines et les
peptides n’y sont pas inclus. Certaines entrées dans ChEBI peuvent être marquées par trois
étoiles. Cela garantie un niveau de qualité pour l’entrée considérée : la molécule possède un
identifiant unique et stable ainsi qu’un nom unique et non-ambigu. Ces molécules sont aussi
associées à une structure bidimensionnelle, une description, une collection de synonymes incluant
les noms recommandés par l’IUPAC ainsi que des références bibliographiques quand les
molécules ont été citées dans une publication. Cette base de données propose un moteur de
recherche de molécule très performant, on peut y rechercher une molécule par son nom, sa
formule chimique, son identifiant (notamment SMILES ou InChi), sa structure si on dispose d’un
fichier mol, ou même en dessinant la molécule ou une partie de la molécule dans une application
mise à disposition.
PubChem La base de données de petites molécules PubChem [113] est maintenue par le National Center
for Biotechnology Information (NCBI) aux Etats-Unis d’Amérique. Y sont décrites les molécules
et les complexes moléculaires, des échantillons moléculaires déposés par des chercheurs ainsi que
des molécules issues de bases de données payantes (mais qui ne sont toutefois pas en libre accès).
Le site web inclue un moteur de recherche assez complet ainsi que la description des structures
des molécules.
![Page 53: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/53.jpg)
47
II.2 Classification des activités enzymatiques Une enzyme est une protéine qui possède le pouvoir de catalyser des transformations chimiques,
c’est à dire qui possède une activité enzymatique. On confond souvent dans le langage courant la
classification des enzymes, qui est en fait une classification des protéines (selon, par exemple, leur
similarité de séquence, leurs domaines ou leur structure), et la classification des activités (ou
réactions) enzymatiques qui, en fait, catalogue les différents types de transformations chimiques
qui peuvent être catalysées par les enzymes.
La classification des objets et des notions est un caractère inhérent de l’espèce humaine. Au-delà
de cet aspect, la classification des réactions enzymatiques est nécessaire pour standardiser leurs
noms, leur type de transformation chimique, les molécules impliquées, les cofacteurs, ainsi que
toutes les autres informations pertinentes. La classification des réactions enzymatiques va de pair
avec la classification des enzymes qui les catalysent, mais dans le premier cas on classifie des
transformations chimiques et dans l’autre des séquences protéiques. Il est, bien sûr, très commun
de donner le nom des réactions aux enzymes, mais ce choix peut porter à confusion lorsqu’une
enzyme catalyse différentes réactions, ou la même réaction est catalysée par des enzymes qui
n’ont pas la même origine évolutive. Les difficultés de partage de travaux scientifiques avant l’ère
d’internet, qui ne sont pas encore totalement résolus, ont entrainé beaucoup de cas où les mêmes
enzymes étaient connues sous des noms différents, et, inversement, le même nom était parfois
donné à des enzymes différentes.
La classification de la Commission Enzymatique (EC) est la seule classification officielle des
activités enzymatiques [114]. Cette commission, crée en 1956 par l’Union Internationale de
Biochimie et de Biologie Moléculaire (IUBMB), a pour but de créer une nomenclature pour
décrire les activités enzymatiques, et résoudre ainsi le problème des réactions aux noms multiples
et de même noms pour des réactions différentes.
Ainsi, le numéro de Commission Enzymatiques (ou EC number) est un système de classification
numérique pour les réactions enzymatiques. Chaque EC number est aussi associé à un nom de
réaction précis.
![Page 54: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/54.jpg)
48
Chaque EC number se compose de lettres « EC » suivies de quatre nombres séparés par des
points. Ces chiffres représentent une classification hiérarchique des activités. Les EC numbers
préliminaires (non-validés par la Commission Enzymatique) sont marqués avec un « n » dans le
quatrième niveau (par exemple EC 1.3.5.n3). Le premier chiffre, qui va de 1 à 6 et qui correspond
à la classe de l’activité enzymatique, définit son type :
1. Oxydoréductases : catalyse des réactions d’oxydation et de réduction ; il s’agit d’un
transfert d’atomes d’hydrogène et d’oxygène ou d’électrons d’une molécule à une autre
2. Transférases : effectuent un transfert d’un groupement fonctionnel d’une molécule à
une autre
3. Hydrolases : permettent la formation de deux produits à partir d’un substrat par
hydrolyse
4. Lyases : effectuent un ajout ou une ablation non-hydrolytique d’un groupement
fonctionnel
5. Isomérases : réarrangement intramoléculaire, c’est à dire des changements de
l’isomérisation au sein d’une seule molécule
6. Ligases : jointure de deux molécules par création d’une nouvelle liaison de type C-O, C-
S, C-N ou C-C
Le deuxième niveau de la classification EC réfère à la sous-classe, qui contient généralement
l’information sur le type des composés chimiques ou de groupements chimiques impliqués (c’est
à dire, par exemple, si la réaction se déroule sur des groupements aldéhyde ou oxo). Le troisième,
représentant la sous-sous-classe de la réaction, spécifie sa nature. Enfin, le quatrième chiffre est
un numéro de série utilisé pour identifier une activité individuelle au sein de la sous-sous-classe
[114] (Figure 12).
Figure 12. Description d’un EC number. Le 1.13.13.54 correspond à une ketosteroide monooxygenase.
![Page 55: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/55.jpg)
49
Les EC numbers sont répertoriés initialement dans une base de données officielle
(http://www.chem.qmul.ac.uk/iubmb/enzyme) et sont utilisées dans toutes les bases de données
qui contiennent des informations sur les enzymes et les réactions enzymatiques comme la base de
données ENZYME [115] qui fait le lien entre les EC numbers et des séquences de protéines.
Néanmoins cette classification présente quelques limites. La création d’un nouveau EC number
suite à la découverte d’une nouvelle activité enzymatique se fait lors des réunions de la
Commission Enzymatique. Désormais ces réunions se font tous les six mois (avant elles avaient
lieu tous les deux ans), mais ce délai provoque des décalages entre les connaissances accessibles
dans les publications, l’attribution d’un EC number permanent et son intégration dans les bases
de données. L’attribution d’un nouveau EC number officiel est donc manuelle, même si il y a des
méthodes computationnelles (décrites dans les sections suivantes) qui cherchent à automatiser le
processus. Une autre limite de ce système est que les EC numbers ne recouvrent que la moitié
des réactions enzymatiques connues (il y a un peu plus de cinq mille EC numbers au moment de
l’écriture de ce manuscrit et plus de onze mille réactions enzymatiques connues). De plus,
certaines réactions enzymatiques ne correspondent à aucune des six classes de la classification
[116].
![Page 56: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/56.jpg)
50
II.3 Théorie des graphes – quelques définitions et vocabulaire
La théorie des graphes est une théorie mathématique et informatique. Elle s’intéresse aux
multiples propriétés des graphes qui sont une représentation de collections d’éléments mis en
relation entre eux. Les graphes sont utiles dès qu’il s’agit de représenter des relations entre des
entités, comme les relations de connaissance dans les réseaux sociaux, les interactions de
régulation dans les réseaux de gènes ou les enchaînements de réactions dans les graphes
métaboliques.
Un graphe est une structure mathématique qui permet de représenter des entités et les liens entre
ces entités. Souvent noté G(V,E) où V (de vertex en anglais) est l’ensemble fini de nœuds ou
sommets qui le composent et E (edges en anglais) l’ensemble de liens entre les nœuds tel que E
est un sous-ensemble de V2. Généralement, on utilise le terme « arête » pour désigner les liens
dans le cas d’un graphe non-orienté (graphe dans lequel les liens entre les nœuds n’ont pas de
direction) et le terme « arc » dans le cas d’un graphe orienté (aussi appelé digraphe). Cependant,
dans ce manuscrit, j’ai fait le choix d’utiliser uniquement le terme « arêtes » tout en précisant la
nature du graphe. Dans un graphe orienté, le nœud dont l’arête est issue est le nœud initial (ou
nœud-source) et le nœud vers lequel elle pointe est le nœud terminal (ou nœud-puits). Le
voisinage d’un nœud v est l’ensemble des nœuds adjacents à v dans un graphe. L’ordre d’un
graphe est le nombre de nœuds de ce graphe.
Lorsqu’il y a plusieurs arêtes entre deux nœuds dans un graphe, ce dernier s’appelle un
multigraphe. Deux arêtes sont dites parallèles si dans un graphe orienté elles ont le même
nœud initial et le même nœud terminal.
Un sous-graphe est un graphe contenu dans un autre graphe.
Un graphe complet est un graphe dans lequel chaque nœud est relié à tous les autres nœuds du
graphe. Un sous-graphe complet dans un graphe est appelé clique.
Une boucle est une arête qui relie un nœud à lui-même.
Le degré (aussi appelé valence) d’un nœud dans un graphe est le nombre d’arêtes ayant une
extrémité connectée à ce nœud. Une boucle augmente de deux le degré d’un nœud. Dans un
graphe orienté on peut décomposer le degré en demi-degré extérieur ou degré entrant (in-
degree en anglais) et en demi-degré intérieur ou degré sortant (out-degree). Le degré sortant d’un
![Page 57: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/57.jpg)
51
nœud v est le nombre d’arêtes ayant comme nœud initial v. Le degré entrant d’un nœud v est le
nombre d’arêtes ayant comme nœud terminal v. Un nœud isolé est un nœud dont le degré est de
zéro.
Une chaîne est une séquence ordonnée d’arêtes telle que chacune des arêtes ait une extrémité en
commun avec l’arête suivante. Une chaîne qui passe strictement une fois par chaque nœud est
dite élémentaire ou simple. On considère souvent implicitement le cas de chemins élémentaires.
Un chemin est une chaîne particulière dans un graphe orienté telle que l’extrémité terminale
d’une arête coïncide avec l’extrémité initiale de l’arête suivante. Le premier nœud du chemin est
appelé nœud initial (ou source) et le dernier est le nœud terminal (ou nœud puits). Un cycle est
une chaîne simple dont les nœuds aux extrémités coïncident. Un circuit est un chemin dont les
nœuds aux extrémités coïncident. Un graphe acyclique est un graphe qui ne contient pas de
cycle.
La taille est le nombre de nœuds ou d’arêtes dans un graphe ou un chemin.
Un graphe est connexe s’il existe un chemin entre tout couple de sommets. Lorsqu’il s’agit d’un
graphe orienté, la direction des arêtes n’est pas prise en compte pour le calcul des chemins. Un
graphe orienté est dit fortement connexe si, pour tout couple de nœuds (u,v), il existe un chemin
de u à v et de v à u.
Un graphe orienté acyclique (Directed Acyclic Graph ou DAG en anglais) est un graphe qui ne
contient pas de circuit. Il est utilisé pour représenter une hiérarchie. Un nœud dans un DAG peut
avoir plusieurs arcs entrants et sortants.
Un arbre est un graphe connexe sans cycle ayant n nœuds et n-1 arêtes. Il y a deux types de
nœuds dans un arbre, les feuilles dont le degré est de 1 et les nœuds internes dont le degré est
supérieur à 1. Il est possible d’enraciner un arbre avec n’importe quel nœud de l’arbre, appelé
alors racine, c’est à dire orienter toutes les arêtes de sorte qu’il existe un chemin de la racine à
tous les autres nœuds. Un arbre enraciné est un DAG où il y a une racine de degré entrant nul
et où tous les autres nœuds sont de degré entrant de 1.
Une partition est une séparation des sommets d’un graphe en des ensembles disjoints et non-
vides de nœuds, dont l’union permet de retrouver tous les nœuds.
Un réseau est un graphe étiqueté, c’est à dire qu’il porte des informations sur les nœuds et/ou
sur les arêtes. Il peut s’agir d’informations qualitatives, comme les identifiants (dans le cas d’un
![Page 58: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/58.jpg)
52
réseau de protéines, par exemple, il s’agira d’identifiants de ces protéines) sur leurs nœuds ou la
nature de la relation sur les arêtes (relation d’activation ou d’inactivation d’un gène par un autre
dans le cas d’un réseau de régulation, par exemple), ou d’informations quantitatives, comme des
poids ou des probabilités de transition d’un nœud à un autre.
Deux graphes sont isomorphes s’il existe un isomorphisme de graphe l’un vers l’autre. C’est à
dire s’ils ont exactement la même structure. Dans ce cas, il suffirait de remplacer les étiquettes des
sommets pour qu’un graphe soit la copie exacte de l’autre. Un graphe automorphique est un
graphe isomorphique sur lui même.
L’utilisation des réseaux dans l’étude du métabolisme est décrite d’une façon étendue dans la
section suivante.
![Page 59: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/59.jpg)
53
II.4 Réseaux métaboliques
Il existe plusieurs catégories de modèles pour décrire le métabolisme [117].
Tout d’abord, les modèles pour l’analyse structurelle du métabolisme. Ces modèles
regroupent principalement les modèles reposant sur la théorie des graphes. Ces derniers sont
basés sur les données qualitatives et sont utilisés pour analyser des propriétés topologiques du
réseau ainsi que les différentes interactions entre les entités qui y sont représentées.
Les modèles pour l’analyse des flux de matière dans le réseau, notamment avec des
techniques comme la « Flux Balance Analysis » [118]. Ce sont la plupart du temps des modèles à
base de contraintes qui prennent en compte la stœchiométrie des réactions afin de prédire la
formation d’une « biomasse » (c’est à dire la survie de la cellule) en fonction des inputs dans le
modèle, qui est une façon de représenter l’environnement de la cellule et surtout ce qui y rentre.
Les modèles pour l’analyse dynamique du métabolisme. Ces modèles sont orientés pour la
simulation du métabolisme et l’étude de ses propriétés dynamiques. Dans ce genre de modèles les
graphes peuvent être utilisés, mais étant donné qu’il s’agit d’étude de la dynamique, des
informations quantitatives sont requises, faisant que les réseaux ne sont que des intermédiaires
dans le processus de modélisation. Ce sont des modèles assez complexes à construire car
nécessitent des données dur la cinétique de chacune des transformations chimiques dans la cellule
[119].
Durant ma thèse je n’ai travaillé que sur les modèles pour l’analyse structurelle du métabolisme.
Ainsi, les sections suivantes seront consacrées à la description de l’utilisation des graphes pour
représenter le métabolisme ainsi qu’aux différentes techniques pour analyser ces graphes.
Le métabolisme est l’ensemble des interactions moléculaires qui se produisent dans un
organisme. Les molécules peuvent être divisées en deux grands types : les métabolites (molécules
souvent de petite taille et qui sont les briques cellulaires) et les enzymes qui catalysent la
transformation des métabolites. Il est commun de représenter le métabolisme d’un organisme,
![Page 60: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/60.jpg)
54
comme d’autres notions biologiques où l’interaction entre ses éléments est présente, sous forme
d’un réseau. Une belle illustration d’un tel réseau a été empruntée de [120] et est présentée en
Figure 11. La modélisation des réseaux en graphes mathématiques en bioinformatique en facilite
l’analyse. Un graphe est une structure utilisée pour modéliser des relations binaires entre les
objets d’une collection donnée. D’une façon formelle, un graphe G est défini par un couple (V,E)
où V est un ensemble fini de nœuds (ou sommets) et E est une partie de V2 est un ensemble
d’arêtes (en cas de graphe non-orienté) ou d’arcs (en cas de graphe orienté). Ainsi, un réseau
biologique est un ensemble de nœuds et d’arêtes (ou d’arcs si la direction de l’interaction existe
et/ou est connue) étiquetés. Ces étiquettes, ou labels, peuvent être qualitatifs, comme, par
exemple, des identifiants de gènes, de protéines, de réactions, ou quantitatifs, notamment des
poids ou des probabilités de transition sur les nœuds ou les arêtes. Il existe plusieurs types de
réseaux métaboliques, où les nœuds et les liens entre les nœuds représentent des entités
biologiques différentes [121].
II.4.1 Réseau de métabolites Dans le réseau de métabolites, les nœuds représentent les composés chimiques et deux nœuds
sont liés par une arête si il existe une réaction qui permet la transformation du premier métabolite
en deuxième (c’est à dire si un des métabolites est le substrat et l’autre le produit).
II.4.2 Réseau de réactions Dans le réseau de réactions, les nœuds représentent les réactions biochimiques (catalysées par des
enzymes ou spontanées) et deux nœuds sont reliés s’il existe un composé chimique produit par la
première réaction substrat de la deuxième.
II.4.3 Réseau d’enzymes Dans le réseau d’enzymes, les nœuds correspondent aux enzymes. Elles sont reliées par une arête
si elles catalysent des réactions qui ont un composé chimique en commun. Ce type de réseau est
![Page 61: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/61.jpg)
55
cependant très peu utilisé car présente des limites. D’abord, une enzyme peut catalyser plusieurs
réactions, et, particulièrement, des réactions qui ont un nombre différent de substrats et/ou de
produits. Ce cas introduit des cours-circuits dans le réseau. Il existe aussi des réactions qui
peuvent être catalysées par plusieurs enzymes (c’est le cas des isoenzymes et des enzymes peu
spécifiques à grande promiscuité de substrat comme les alcools déshydrogénases). Dans ce cas, la
réaction sera dupliquée dans le réseau. Enfin, la connaissance sur les enzymes n’est pas encore
complète (de nombreuses réactions enzymatiques sont orphelines d’enzymes, cf. section
« Lacunes dans les connaissances enzymatiques ») donc le réseau enzymatique contient forcément
des trous. Cependant, si on ne s’intéresse qu’aux enzymes et aux relations entre elles, la perte
d’information structurelle qu’entraine l’utilisation de ce type de réseaux n’est pas dommageable.
II.4.4 Graphe biparti et hypergraphe des métabolites Selon ce que l’on souhaite représenter et les informations que l’on veut en tirer, le réseau de
métabolites et le réseau de réactions peuvent être imprécis. Cette imprécision peut être résolue en
ajoutant des étiquettes sur les arêtes (avec les identifiants des réactions ou des métabolites pour
lever l’ambiguïté respectivement sur un réseau de métabolites ou un réseau de réactions). Il existe
aussi des modèles de graphes plus éloquents pour lever cette ambiguïté : le graphe biparti et
l’hypergraphe de métabolites. Un graphe biparti est un graphe dans lequel l’ensemble des nœuds peut être divisé en deux
ensembles totalement disjoints V et U tel que chaque arête du graphe relie un nœud d’un
ensemble à un nœud de l’autre ensemble. Concrètement, deux nœuds d’un même ensemble ne
peuvent être reliés par une arête. Dans la modélisation du métabolisme, ces deux ensembles de
nœuds correspondent aux métabolites et aux réactions et les arêtes relient les métabolites et les
réactions.
Un hypergraphe de métabolites est un graphe où les nœuds représentent des métabolites qui sont
reliés entre eux par une hyperarête s’ils interviennent dans une même réaction comme substrats
ou comme produits. Une hyperarête est une arête qui peut lier deux nœuds et plus (une arête
simple relie au plus deux nœuds).
Un graphe biparti et un hypergraphe de métabolites sont strictement équivalents en termes de
quantité et qualité d’informations et le passage de l’un à l’autre est très simple.
![Page 62: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/62.jpg)
56
Il existe d’autres façons de représenter le métabolisme sous la forme d’un réseau, mais elles sont
moins fréquemment étudiées et ne seront pas décrites ici.
Tous les métabolites n’ont pas la même fonction et ne sont pas présents en mêmes quantités ou
au même moment dans la cellule. Même si l’étude décrite ici se porte essentiellement sur un
modèle statique du métabolisme, qui représente tous les états possibles connus du métabolisme,
la question des composés ubiquitaires demeure importante.
II.4.5 Composés ubiquitaires et réseaux « petit-monde » Dans toutes les façons de représenter le métabolisme, décrites précédemment, les réactions et les
métabolites sont considérés comme des acteurs équivalents. Or, comme décrit dans la première
section de ce chapitre, parmi les métabolites on trouve les cofacteurs (par exemple l’ATP et le
NAD), qui, bien que parfois présents dans les équations de réactions ne sont pas leurs
composants principaux. Interviennent, également, dans les réactions, des molécules ubiquitaires
comme par exemple l’eau (H2O), le dioxyde de carbone (CO2) et le dioxygène (O2). Ces
molécules sont souvent en excès dans le milieu cellulaire et elles se retrouvent impliquées dans de
très nombreuses réactions. Si on tient compte de ces composés ubiquitaires dans la modélisation
du métabolisme, on risque de se retrouver avec des réseaux trop connexes (pour un grand
nombre de couples (u, v) de sommets dans ce réseau, il existe un chemin de u à v) et concentrés
autour de ces métabolites. Ceci peut mener à de mauvaises interprétations, car on va notamment
connecter entre eux des réactions et des enzymes qui n’ont rien en commun à part un cofacteur.
Une étude publiée en 2001 [122] montre qu’une modélisation d’un réseau métabolique complet,
où tous les métabolites, mêmes les ubiquitaires, sont présents, exhibe des propriétés de réseaux
« petit monde ». Un réseau dit « petit monde » est un modèle mathématique utilisé pour
représenter des réseaux réels. Le coefficient de clustering de ces réseaux est élevé et la distance
moyenne entre deux nœuds est faible. Par exemple, les réseaux sociaux ont la propriété de petit
monde car dans la majorité des cas, deux nœuds (c’est à dire deux individus), peuvent être reliés
par un très faible nombre de connaissances intermédiaires. Dans le cadre de cette étude de 2001
sur le métabolisme de Escherichia coli, les auteurs montrent que l’on peut relier n’importe quelle
paire de métabolites de ce réseau par un chemin relativement court. Cependant, en se
positionnant du point de vue cellulaire, on ne s’intéresse pas simplement à relier des métabolites
entre eux via n’importe quel chemin possible, mais dans un ordre bien précis ayant un sens
![Page 63: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/63.jpg)
57
biologique. Comme l’a démontré une étude parue en 2004 [123], d’un point de vue biochimique,
la meilleure alternative est de se concentrer sur les motifs de changements structuraux des
métabolites d’intérêt et sur les flux d’atomes de carbone dans les voies métaboliques. L’auteur
démontre entre autres que le réseau métabolique de Escherichia coli n’est pas un réseau petit
monde, et que l’on a tout intérêt à retirer (ou démarquer) les composés ubiquitaires pour étudier
le métabolisme d’une façon optimale et calculer des chemins réalistes entre les composés.
Plusieurs techniques permettent de traiter ces métabolites gênants. La première consiste à tout
simplement retirer les métabolites les plus fréquents. Il faut toutefois fixer un seuil pour définir à
partir de quel moment un métabolite est « trop » fréquent. On court aussi le risque d’éliminer des
réactions essentielles dans lesquelles des molécules ubiquitaires interviennent comme composants
principaux (la synthèse de l’ATP à partir de l’ADP par exemple, ou la réaction qui permet
d’obtenir du dihydrogène (H2) à partir de deux protons).
Une autre méthode consiste à retirer les métabolites auxiliaires des réactions. Elle est plus
pertinente que la première car elle a l’avantage de ne pas retirer systématiquement les métabolites
ubiquitaires, considérant le contexte dans lequel ceux-là sont employés. Ainsi, en reprenant
l’exemple de la synthèse de l’ATP à partir de l’ADP, où ces métabolites sont les composés
principaux, ils ne seront pas retirés. Par contre, dans une réaction où l’ATP agit comme un
donneur de phosphate et d’énergie, il sera enlevé. La difficulté principale de cette méthode est de
définir systématiquement pour chaque réaction les composés principaux et auxiliaires. Cette
sélection peut se faire automatiquement en utilisant la notion de voie métabolique, où un
composé est principal (ou « primaire ») s’il est produit et consommé dans la voie. Dans la base de
données MetaCyc [124], lorsqu’une réaction fait partie d’une voie métabolique, les composés
chimiques sont marqués comme « primaires » ou « secondaires » selon si ils sont un des substrats
initiaux ou produits finaux, ou décrits comme composé intermédiaire dans la voie métabolique
[125, 126]. La distinction entre les métabolites principaux et auxiliaires peut aussi se faire
manuellement à partir de dessins de cartes métaboliques comme celles de KEGG [102].
![Page 64: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/64.jpg)
58
II.5 Analyse topologique de réseaux métaboliques
On peut imaginer qu’il existe une corrélation entre la structure d’un réseau métabolique et les
fonctions biologiques retrouvées dans ce dernier. Le défi consiste alors à retrouver des structures
topologiques intéressantes d’un point de vue biologique dans les réseaux métaboliques. Pour cela,
il faut confronter des analyses informatiques de réseaux (ce type d’analyses est très utilisé pour
analyser des réseaux sociaux) avec des données biologiques diverses. Deux sortes d’analyses
topologiques seront décrites ici, les analyses topologiques dites « classiques » et les centralités de
graphes.
II.5.1 Analyses topologiques classiques
Soit G(V,E) un graphe tel que E contient l’ensemble des arêtes du graphe et V contient
l’ensemble de ses nœuds. Soit v un nœud du graphe G tel que v ∍ V. Le degré d(v) d’un nœud v
dans un graphe est le nombre d’arêtes qui le lient à d’autres nœuds du même graphe. Dans le cas
d’un graphe orienté, on pourra distinguer le degré sortant d+(v) (« out degree » en anglais) qui est
le nombre d’arcs ayant le nœud comme source et le degré entrant d-(v) (« in degree ») qui
correspond au nombre d’arcs qui ont le nœud comme cible.
La distance entre deux nœuds dans un graphe est la longueur du (ou des) plus court chemin
entre ces deux nœuds.
Le rayon d’un graphe correspond à la plus petite distance à laquelle puisse se trouver un nœud de
tous les autres nœuds du graphe. Cette mesure correspond à l’excentricité minimale des nœuds
du graphe.
Le diamètre d’un graphe est la distance maximale parmi les distances entre toutes les paires de
nœuds dans le graphe. Le diamètre correspond à l’excentricité maximale du graphe.
Le centre d’un graphe correspond à l’ensemble non-nul des nœuds d’excentricité minimale.
Le coefficient d'agglomération (ou de « clustering ») est la mesure de regroupement de
nœuds dans un réseau. Concrètement, pour un nœud, ce coefficient mesure à quel point le
voisinage de ce nœud est connecté (Figure 13c).
![Page 65: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/65.jpg)
59
Figure 13. Analyses topologiques classiques de réseaux. Plus le nœud du réseau est grand et rouge, plus il est topologiquement important selon la métrique. (a) Réseau initial, (b) Centralité de degré, (c) Coefficient de clustering, (d) Centralité d’excentricité, (e) Centralité de proximité, (f) Centralité « betweenness ».
![Page 66: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/66.jpg)
60
II.5.2 Centralités
Les indices de centralité quantifient le sentiment intuitif que dans la plupart des réseaux certains
nœuds ou arêtes sont plus importants (ou plus centraux) que d’autres. Beaucoup d’indices de
centralité relatifs aux nœuds ont été introduits à partir des années 1940, comme la « degree
centrality » [127] ou la première « feedback centrality » [128]. Depuis, des dizaines de nouveaux
indices de centralités ont été publiés, car toutes les centralités ne représentent pas la même chose,
et il faut adapter cette mesure à chaque application. Ici seront présentés des indices de centralité
les plus classiques, qui ont cependant influencé la plupart des travaux dans ce domaine.
L’importance des nœuds et des arêtes dans un graphe est évaluée selon des valeurs réelles qui y
sont associées, et ces valeurs dépendent uniquement de la structure de ce graphe. Aussi, une
centralité doit rester invariante dans le cas de graphes isomorphiques et automorphiques.
Les indices de centralité peuvent être classés dans plusieurs catégories, décrites dans les sections
qui suivent.
Centralités de distances et de voisinage Les centralités liées au voisinage des nœuds et aux distances qui les séparent évaluent
l’accessibilité d’un nœud. Dans un réseau, ces mesures permettent de classer les nœuds en
fonction du nombre de leurs voisins et/ou du coût nécessaire pour atteindre tous les autres
nœuds. La centralité basée sur la notion de voisinage est l’indice le plus basique. Les centralités
impliquant la notion de voisinage au sein d’un graphe sont plus complexes, et seront présentées
ensuite.
La « degree centrality », ou la centralité de voisinage, est l’indice de centralité le plus simple. Soit
v un nœud dans un graphe G(E,V) tel que v ∍ V. La « degree centrality » de v notée cD(v) est ce
qui est simplement défini comme le degré d(v) du nœud v si le graphe G n’est pas orienté (Figure
13b). Dans les graphes orientés, deux variantes supplémentaires de la centralité de degré sont
possibles : la « in-degree centrality » ciD(v) = d-(v) et la « out-degree centrality » coD(v) = d+(v).
La centralité de degré est une mesure locale car sa valeur pour un nœud donné est simplement
déterminée par le nombre de ses voisins. Les centralités impliquant la notion de distances dans un
graphe sont des mesures globales de centralité. Généralement ces mesures sont assimilées aux
problèmes de localisation des établissements (« Facility Location Problems »), car elles servent à
![Page 67: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/67.jpg)
61
trouver le ou les nœuds les plus accessibles à partir de tous les autres nœuds du graphe. La
mesure de l’excentricité, par exemple, peut être assimilée à la recherche du nœud qui minimise la
distance maximale jusqu’à tous les autres emplacements dans le réseau. Pour illustrer cette
mesure, il faut imaginer que l’on veut trouver l’endroit optimal pour un hôpital dans une ville, où
le temps de trajet jusqu’à cet hôpital soit optimisé quel que soit le point de départ (Figure 13d).
Mesurer le barycentre d’un graphe est souvent utilisé pout trouver le nœud le plus proche de
tous les autres, en sachant qu’il peut y avoir plusieurs solutions. On retrouve cette mesure dans
les problèmes d’établissements compétitifs (deux magasins vendant des choses équivalentes par
exemple), où il faut trouver l’endroit optimal pour l’établissement, en sachant que le concurrent
peut décider après où placer son magasin. La dernière des centralités de distance, la centralité de
proximité (aussi appelée centralité médiane) consiste à minimiser la somme des distances entre
un nœud et tous les autres nœuds (l’illustration ici est celle d’un centre commercial dont sa
distance avec tous les clients potentiels doit être minimale pour attirer un maximum de monde -
Figure 13e).
Centralités des plus courts chemins Les indices de centralité basés sur les ensembles de plus courts chemins dans un réseau sont aussi
des centralités globales. Soit deux nœuds u et v dans un graphe. Le plus court chemin entre u et v
est une séquence de nœuds connectés par des arêtes tel que u et v soient aux extrémités de ce
chemin, et que le nombre de nœuds intermédiaires soit minimal. Il s’agit en fait, de la distance
entre u et v. Pour calculer les centralités basées sur cette notion, une étape de pré-calcul des plus
courts chemins pour toutes les paires de nœuds du réseau est nécessaire.
La première centralité basée sur les plus courts chemins est la centralité de stress. La question à
laquelle cette centralité répond est combien de « travail » (ou « stress ») est réalisé par chaque
nœud (initialement il s’agissait de réseaux de communication, où les nœuds étaient des personnes,
mais on peut aussi faire une projection très simple sur les réseaux biologiques). Ainsi, cette
mesure de centralité représente le nombre de plus courts chemins passant par un nœud donné :
𝑐" 𝑣 = 𝜎&'(𝑣)'*+∈-&*+∈-
où s et t représentent tous les sources et puits de tous les plus courts chemins possibles dans le
graphe G(E,V) et 𝜎&'(𝑣) est le nombre de plus courts chemins entre les s et t passant par v.
La centralité « betweenness » ressemble beaucoup à la centralité de stress, mais au lieu de
compter le nombre absolu de plus courts chemins, cette centralité résume le nombre relatif de
![Page 68: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/68.jpg)
62
plus courts chemins pour chaque paire de nœuds. Ceci peut être interprété comme une mesure
dans laquelle un nœud v contrôle la communication entre une paire de nœuds s et t.
Soit 𝛿&' 𝑣 la fraction de tous les plus courts chemins entre s et t qui contiennent le sommet v :
𝛿&' 𝑣 =𝜎&'(𝑣)𝜎&'
où 𝜎&' est le nombre total de plus courts chemins entre s et t, tels que 𝑠 ≠ 𝑣 ∈ 𝑉et 𝑡 ≠ 𝑣 ∈ 𝑉. Cette
fraction peut être considérée comme la probabilité que v est impliqué dans la communication
entre s et t. La centralité « betweenness » 𝑐3 𝑣 du nœud v est alors donnée par :
𝑐3 𝑣 = 𝛿&' 𝑣'*+∈-&*+∈-
La centralité « betweenness » va donc être très élevée pour les nœuds par lesquels passent
beaucoup de chemins du graphe (Figure 13f).
Centralités basées sur les processus aléatoires Les centralités basées sur les processus aléatoires sont utiles lorsqu’il n’est pas possible de calculer
tous les plus courts chemins dans un graphe. Dans ce type de cas, un modèle de marche aléatoire
fournit une façon alternative de traverser le graphe. Dans une marche aléatoire, une entité
« marche » d’un nœud à un autre, en suivant les arêtes du réseau. En étant sur un des nœuds,
cette entité choisit d’une façon aléatoire une des arêtes (sortantes si le réseau est orienté) du nœud
afin de la suivre jusqu’au nœud suivant. Le nombre de « pas » de cette entité doit être
suffisamment important pour que les résultats de la marche soient significatifs et reproductibles.
Globalement, plus le degré d’un nœud est important, plus l’entité marchant aléatoirement dans le
graphe risque d’y revenir souvent. La marche aléatoire donne aussi de très bons résultats en tant
qu’alternative à la centralité « betweenness », et permet aussi de repérer les nœuds par lesquels
transitent le plus de flux. La centralité de Markov [129], est quand à elle, basée sur le temps
moyen de premier passage (« mean first time passage » - MFPT), qui est le nombre attendu de nœuds
traversés en partant d’un nœud s jusqu’à la première rencontre du nœud t.
Le modèle de surfeur aléatoire, créé pour modéliser le comportement des utilisateurs d’Internet,
introduit un paramètre de « saut » dans la marche aléatoire. Il faut imaginer alors un utilisateur qui
« surfe » sur le Web, en allant d’une page à une autre en cliquant sur des liens hypertextes. Il peut
aussi passer d’une page à une autre sans cliquer sur un lien, parce qu’il connaît, par exemple,
l’adresse de la page par cœur. Il s’agit alors d’un saut car il n’y a probablement pas de lien entre
les deux pages. Ce type de modèle est très utile pour analyser des réseaux biologiques, que l’on
![Page 69: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/69.jpg)
63
sait « à trous » parce que des informations sont manquantes. Le paramètre de saut permet de
mieux gérer ces nœuds manquants dans le cadre de l’exploration d’un tel réseau.
Feedback La centralité dite « feedback » (ou de « retour d’information ») est basée sur le principe
d’influence du voisinage : plus un nœud a de voisins, plus il est central, et plus il est central, plus
ses voisins le sont aussi.
Ce type de centralités, plus complexes que celles présentées précédemment, est très utilisé dans
l’analyse de réseaux internet, de réseaux sociaux, et, moins, pour l’instant, dans les réseaux
biologiques. Parmi les centralités « feedback » les plus connues, on retrouve l’indice de Katz
[130], la centralité de vecteurs propres de Bonacich [131], l’indice de Hubbell [132], PageRank
[133] et SALSA [134]. Les notions de « hubs » et « d’autorités » sont très importantes dans ces
centralités. Un hub est un nœud qui pointe vers beaucoup de bonnes autorités, et une autorité
est un nœud pointé par beaucoup de bons hubs.
Figure 14. Centralité PageRank. Plus un nœud est pointé par d’autres nœuds, plus il est influent. Plus un nœud est influent, plus les nœuds qu’il pointe sont influents.
![Page 70: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/70.jpg)
64
Ici ne sera présentée que la centralité PageRank [133]. Elle a, pendant très longtemps, été un des
ingrédients principaux du célèbre moteur de recherche Google. L’idée principale de cet
algorithme est de marquer une page internet en tenant compte de ses propriétés topologiques
(c’est à dire de sa position dans le réseau). Il s’agit bien d’une centralité feedback, car ici le score
d’une page web dépend du nombre et des scores de ses pages voisines. La Figure 14 représente
bien le fonctionnement de cette centralité. C’est cette centralité qui a été utilisée dans une partie
du travail réalisé pendant la thèse décrite dans ce manuscrit pour calculer l’importance des
réactions les unes par rapport aux autres du point de vue topologique. Cette centralité peut être
considérée comme « semi-globale », car elle permet de calculer des centralités par zones
d’influence de nœuds très autoritaires, qui définissent des régions autour d’eux.
Centralités sur les arêtes Les centralités décrites dans les sections précédentes définissent l’importance d’un nœud par
rapport aux autres dans un réseau. La plupart de ces centralités peuvent aussi être calculées pour
les arêtes d’un réseau, et ce avec très peu de changements au niveau des algorithmes.
![Page 71: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/71.jpg)
65
II.6 Modularité dans le métabolisme
De la molécule jusqu’à un organisme multicellulaire, toutes les entités biologiques peuvent être
décomposées en modules. La définition la plus simple d’un module est une unité d’un système
pouvant exister ou être décrit indépendamment. De nombreux chercheurs argumentent le fait
que la modularité est présente dans le monde vivant à tous les niveaux [135]. Une molécule est
composée de plusieurs atomes qui ont une existence propre indépendamment de cette molécule,
et peuvent être considérés comme des modules. La molécule elle-même peut être considérée
comme un module d’un complexe moléculaire ou d’un tissu. Les protéines peuvent être
découpées en domaines. Les organes d’un organisme sont les modules de celui-ci, la
transplantation d’organes en est un bon exemple.
En 1999, Hartwell et al. pressentent le fait que la biologie cellulaire va transiter de la simple étude
des molécules indépendantes vers l’étude de modules moléculaires accompagnée de l’essor de la
bioinformatique et de l’ingénierie du vivant [136]. Ils donnent de nombreux exemples de modules
dans les fonctions cellulaires, comme le mécanisme de synthèse des protéines, la réplication de
l’ADN, la glycolyse ou encore les processus de mitose permettant la distribution correcte des
chromosomes. Ces modules ont pu être reconstitués/reproduits in vitro ce qui est déjà un très bon
critère de validation en faveur de l’hypothèse de modularité.
Le métabolisme peut aussi être considéré comme modulaire. Les voies métaboliques, telles que
définies précédemment, peuvent être considérées comme des modules biochimiques du
métabolisme. On peut aussi retrouver des petits modules topologiques dans le réseau
métaboliques d’un organisme donné, pouvant être combinés d’une façon hiérarchique dans des
unités plus grandes [137]. L’identification de modules conservés dans le métabolisme est au cœur
de cette thèse. Les théories et les méthodes existantes sont présentées dans la quatrième section
de cet état de l’art, et celles développées lors de ce travail sont décrites dans le deuxième chapitre.
![Page 72: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/72.jpg)
66
III. Des génomes aux réseaux métaboliques
Les enzymes qui catalysent les réactions métaboliques essentielles à la survie d’un organisme sont
encodées par des gènes contenus dans le génome d’un organisme. Le génome est l’ensemble du
matériel génétique d’une cellule et est encodé généralement dans des séquences de molécules
d’Acide DésoxyriboNucléiques (ADN), à l’exception de certains virus où le génome est porté par
des séquences d’Acide RiboNucléique (ARN). Le séquençage massif de génomes, dont le coût ne
cesse de diminuer grâce à des technologies de plus en plus performantes, permet d’obtenir les
séquences ADN complètes de génomes. Au moment de l’écriture de ce manuscrit, la banque de
données génomiques européenne (European Nucleotide Archive,
http://www.ebi.ac.uk/genomes) contient des génomes complets pour 3316 bactéries, 179
eucaryotes, 202 archées et plus de 4000 virus. En plus de ces génomes complets, des dizaines de
milliers de génomes non finis (nommés « draft ») sont également disponibles. Cependant, au vu de
la masse que ces données représentent, la plupart de ces génomes n’ont été annotés que de façon
automatique. Il existe trois niveaux principaux d’annotation, l’annotation structurale, qui
consiste notamment à rechercher le début et la fin des gènes dans le génome, l’annotation
fonctionnelle, qui elle, consiste à associer une fonction biologique à une séquence et
l’annotation relationnelle, qui est la mise en relation des éléments précédemment prédits pour
décrire les modules fonctionnels telles que les voies métaboliques. De nombreuses méthodes
existent pour les trois niveaux d’annotation, mais celles auxquelles on va s’intéresser dans cette
partie du manuscrit, sont les méthodes d’annotation fonctionnelle, permettant de relier les gènes
aux fonctions biologiques en général, et aux fonctions enzymatiques en particulier.
Ainsi, dans cette section, seront présentés d’abord les différentes méthodes d’annotation
fonctionnelle de génomes et les ressources publiques contenant des informations sur les
protéines, puis la notion de contexte génomique qui permet de mettre en relation les gènes les
uns par rapport aux autres. Ensuite, on abordera la reconstruction de réseaux métaboliques à
partir de données génomiques, pour terminer avec les lacunes dans les connaissances
enzymatiques actuelles.
![Page 73: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/73.jpg)
67
III.1 Annotation fonctionnelle des génomes L’annotation fonctionnelle consiste principalement à assigner des fonctions aux séquences
protéiques codées par les gènes, notamment, pour les enzymes, à décrire leurs activités
enzymatiques et les voies métaboliques associées.
On peut distinguer trois différents niveaux de fonctions :
• les fonctions moléculaires, qui capturent le rôle biochimique ou structural de la
protéine
• les fonctions cellulaires, décrivant le rôle de la protéine dans un processus cellulaire de
plus haut niveau (implication dans une voie métabolique, par exemple, pour des enzymes)
• les fonctions phénotypiques, associant une protéine à un niveau systémique comme la
croissance cellulaire ou la virulence. Dans ce cas, la fonction moléculaire de la protéine
n’est pas forcément connue mais une modification/délétion du gène codant la protéine
impacte un processus cellulaire observable expérimentalement.
La description des fonctions se fait préférentiellement via du vocabulaire contrôlé et des
ontologies (comme les EC numbers, décrits dans la section II de ce chapitre, pour les enzymes),
même si beaucoup sont aussi décrites en texte libre par les experts annotateurs.
Pour les gènes codant des enzymes, le lien entre les gènes, les protéines qu’ils encodent et les
réactions que ces protéines catalysent est souvent retrouvé dans la littérature sous l’appellation
« association GPR » (Gene – Protein - Reaction) [138]. Ce mode de représentation permet faire la
distinction entre les isoenzymes (plusieurs gènes codant des enzymes différentes catalysant la
même réaction) et les enzymes multimériques et/ou multifonctionnelles (plusieurs gènes codant
des protéines formant un complexe protéique pour catalyser une ou plusieurs réactions). Avec ce
formalisme, il y a une connexion évidente entre la présence/absence d’un gène et la
présence/absence d’une fonction (c’est à dire d’une réaction) réalisée par la protéine.
![Page 74: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/74.jpg)
68
III.1.1 Liens phylogénétiques et similarité de séquences
III.1.1.1 Liens phylogénétiques entre les gènes
Historiquement, l’homologie était utilisée par les naturalistes pour décrire des liens évolutifs
entre différentes espèces de plantes ou d’animaux. Des similarités entre la forme, la couleur et
l’utilisation des membres ou des organes permettait aux scientifiques d’identifier ces liens : on
comparait par exemple la structure des os du bras humain, de l’aile d’un oiseau et de la nageoire
d’un dauphin, qu’on disait homologues. Des traits dont l’utilité et la forme se ressemblent, mais
ne proviennent pas d’une même origine évolutive (comme l’aile d’un oiseau et celle d’un papillon)
sont dits analogues.
Ces notions sont aussi applicables en génétique. Deux gènes (ou produits de gènes) de deux
organismes différents sont dits homologues lorsqu’ils se ressemblent suffisamment du point de
vue moléculaire et qu’il y a des preuves suffisantes que les deux gènes ont évolué à partir d’un
même gène présent dans un ancêtre commun aux deux organismes. Des gènes analogues ont
des fonctions moléculaires similaires mais ont évolué séparément et ne présentent pas de
similarité de séquence notable. La notion d’homologie est utilisée pour l’annotation fonctionnelle
et suppose que des gènes homologues codent pour des protéines ayant des fonctions similaires ce
qui par de nombreux exemples peut se révéler inexact [11]. Il faut souligner ici que l’homologie
est un concept binaire, soit deux gènes sont homologues soit ils ne le sont pas. Il existe plusieurs
catégories d’homologie qui correspondent à des chemins évolutifs différents ayant mené à des
pressions de sélection différentes sur les gènes.
Un événement de spéciation est un évènement complexe qui mène à l’émergence de deux
nouvelles espèces à partir d’une seule espèce ancestrale. En raison de l’ascendance commune, la
plupart des gènes des deux nouvelles espèces possèdent des gènes ancestraux communs. Les
gènes ayant un ancêtre commun avec lequel ils n’ont été séparés que par des événements de
spéciations sont des gènes orthologues (Figure 15). Les gènes orthologues subissent
généralement la même pression de sélection dans leurs organismes respectifs, assurant ainsi la
conservation de leur fonction.
![Page 75: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/75.jpg)
69
Les évènements de duplication de gènes entrainent la création de deux copies d’un même gène
au sein d’un même génome. Ces gènes peuvent évoluer sous différentes pressions de sélection,
car un seul des deux est nécessaire d’une façon vitale à la survie de l’organisme. Les gènes dans
cette configuration sont dits paralogues (Figure 15) et vu la pression sélective plus faible ou
différente entre les deux copies, la fonction n’est pas considérée comme systématiquement
conservée, même si la fonction peut demeurer similaire (des spécificités de substrats différentes
par exemple pour des enzymes).
Comme les événements de spéciation et de duplication de gènes ne sont pas linéaires dans le
temps et produisent des configurations assez complexes, deux termes supplémentaires pour
décrire la paralogie ont été introduits. Lorsque la duplication de gènes est ancienne (c’est à dire
qu’elle est survenue avant un évènement de spéciation), les gènes sont dits « out-paralogues ».
On les considère alors suffisamment éloignés l’un de l’autre pour avoir des fonctions différentes.
Si l’évènement de duplication est récent (c’est à dire qu’il n’y a pas eu a priori d’évènement de
spéciation après cette duplication), les gènes sont dits « in-paralogues » et sont considérés
comme étant suffisamment proches pour avoir une même fonction ou une fonction fortement
similaire (Figure 15).
L’évolution des génomes ne se fait pas uniquement dans le sens vertical, où les parents seuls
transmettent l’ensemble de l’information génétique à leur descendance. En effet, dans la nature, il
existe aussi un mode horizontal de transfert d’information génétique, où des morceaux d’ADN
sont transférés entre organismes de deux espèces différentes. Ce type de transmission géniques
survient la plupart du temps entre organisme unicellulaires et est particulièrement fréquent chez
les bactéries (même si des cas de transfert de gènes concernant les organismes pluricellulaires
complexes ont aussi été mis en évidence [139]). Les gènes dans cette configuration se nomment
xénologues (Figure 15).
![Page 76: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/76.jpg)
70
Figure 15. Homologie, orthologie, paralogie et xénologie. Tous les gènes « G » sont homologues. Les gènes G1 et G2 sont orthologues. Les gènes G1 et G1’ sont in-paralogues. Les paires de gènes (G1a, G1’a) et (G1b, G1’b) sont out-paralogues. Les gènes T et T’ sont xénologues.
![Page 77: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/77.jpg)
71
III.1.1.2 Annotation fonctionnelle basée sur la similarité de séquences
La façon la plus classique et la plus rapide d’associer une fonction biologique à une séquence est
basée sur la comparaison des séquences des nouvelles protéines aux séquences de protéines déjà
connues. Ceci provient de l’hypothèse que des protéines homologues possèdent des fonctions
similaires et la même fonction si elles sont orthologues. La comparaison des protéines se fait via
la similarité de leurs séquences en acides aminés et, si elles sont suffisamment proches,
l’annotation est transférée de la protéine connue vers la nouvelle. La similarité entre les séquences
est calculée en utilisant des programmes comme FASTA [15] et BLAST [13] (PSI-BLAST [140]
en particulier pour les séquences d’acides aminés). Le problème de cette méthode provient du fait
que des protéines ayant des séquences relativement proches peuvent avoir des fonctions
différentes. Beaucoup d’annotations dans les bases de données publiques ne sont inférées qu’en
utilisant cette technique seule, ce qui conduit à beaucoup d’annotations erronées [11]. Par
exemple, toujours d’après [11], plus de 90% de certaines familles d’enolase ne sont pas
correctement annotées dans la plupart des bases de données publiques. Une étude récente [141]
qui a été réalisée pour estimer la sur-annotation par similarité de séquence dans les génomes
procaryotes, montre notamment que toutes les méthodes utilisées actuellement ont tendance à
beaucoup sur-prédire la fonction des protéines. Pour éviter les annotations erronées, la
comparaison de séquences protéiques peut (et doit) être associées à d’autres techniques
d’annotation fonctionnelle.
III.1.2 La base de données de protéines UniProt
L’entrepôt principal à l’heure actuelle de séquences protéiques est la base de données UniProt
[18]. Cette base de données est maintenue par le UniProt Consortium, constitué en 2002 et
regroupant les ressources et expertises de l’EBI (European Bioinformatics Institute) basé dans le
comté de Cambridge au Royaume-Uni, de PIR (Protein Information Ressource) basé à
Georgetown aux Etats-Unis d’Amérique et du SIB (Swiss Institute of Bioinformatics) en Suisse.
En plus d’être un entrepôt pour les séquences protéiques qui peuvent être déposées par les
équipes scientifiques du monde entier, UniProt propose diverses annotations qui peuvent y être
associées, telles que les fonctions, les ontologies, les références bibliographiques liées à la
séquence, le découpage de la protéine en domaines ou encore les liens vers d’autres séquences ou
![Page 78: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/78.jpg)
72
des bases de données plus spécialisées (cross-references). Cette énorme ressource est constituée de
plusieurs modules dont les objectifs scientifiques sont différents.
La partie de UniProt la plus connue et la plus utilisée est UniProt Knowledge Base (UniProtKB),
elle-même constituée de deux parties, SwissProt et TrEMBL. SwissProt est une base de données
de séquences de protéines de haute qualité d’annotation dont une partie est expertisée
manuellement. Le nombre d’entrées dans cette resource représente cependant moins de 1% du
total de séquences de UniProtKB. TrEMBL est une base de données dont les protéines sont
obtenues par la traduction automatique de séquences codantes (CDS) de l’ENA et dont
l’annotation est réalisée d’une façon automatique. Jusqu’en avril 2015, UniProtKB contenait
l’intégralité des protéines issues des projets de séquençage des génomes. Ces protéomes (i.e., un
protéome correspond à l’ensemble des séquences protéiques d’un organisme qui sont prédites à
partir de son génome) représentaient une quantité d’information trop importante (près de 100
millions d’entrées) pour être gérée convenablement par le consortium. Depuis la mise à jour du
27 mai 2015, UniProtKB ne contient plus que des protéines de protéomes dits « de référence » :
un seul protéome de référence est gardé parmi les groupes de protéomes se ressemblant entre
eux à plus de 90% dans leur contenu en séquence
(http://www.uniprot.org/help/2015/04/01/release). Le nombre d’entrées est ainsi redescendu à
50 millions.
La base de données UniParc est une collection regroupant l’ensemble des séquences de protéines
d’une manière non-redondante et sert également d’archive pour les anciennes séquences. Depuis
la mise à jour mentionnée ci-dessus, elle contient aussi toutes les protéines des protéomes qui ne
sont plus intégrés dans UniProtKB. Cependant, cette base de données ne contient pas
d’annotations sur les séquences.
III.1.3 Domaines fonctionnels et familles de protéines Une des façons d’améliorer la prédiction de fonction des protéines est d’étudier leur composition
en domaines structuraux et/ou fonctionnels. L’hypothèse guidant cette approche est que certains
domaines sont des unités fonctionnelles, et ceux-ci sont très conservés au cours de l’évolution.
Souvent, une protéine est constituée de plusieurs domaines, un seul domaine principal peut ainsi
porter la fonction moléculaire ou, alors, c’est la combinaison de ces domaines qui permettra de
réaliser la fonction. Des méthodes comme MKDOM [142], PRIAM [143] et Pfam [144] ont été
![Page 79: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/79.jpg)
73
développées pour découper les protéines en domaines, trouver comment les identifier (parfois,
quelques acides aminés placés à des endroits spécifiques suffisent pour déterminer un domaine et
une fonction enzymatique) et y associer une activité biologique. La ressource InterPro [145, 146]
permet de regrouper et hiérarchiser ces différentes méthodes au sein de mêmes entrées
caractérisées par des signatures correspondant à des résultats des méthodes intégrées dans
InterPro. Certaines méthodes, comme EnzML ou Pfam2GO [19], se basent sur la composition
en domaines d’une séquence et leurs combinaisons pour identifier au mieux la fonction
biologique.
Pfam La base de données de Familles de Protéines (Pfam) [147] est basée sur la recherche de domaines
conservés dans les séquences protéiques. La présence d’un domaine donné (ou d’un ensemble de
domaines aussi appelé « architecture ») est utilisée pour définir les familles de protéines. Les
domaines sont détectés dans les protéines en se basant sur des alignements multiples de
séquences qui sont utilisés ensuite pour construire des profils de modèles de Markov cachés
(HMM) représentant ces domaines. Ces profils permettent d’assigner à d’autres séquences de
protéines un ou plusieurs domaines Pfam via le logiciel HMMER [148]. Il existe deux types de
familles de protéines dans Pfam : les familles Pfam-A qui sont établies manuellement par des
experts et les familles Pfam-B dont les profils sont générées automatiquement et pas encore
validés. Cette section Pfam-B n’est pour l’instant plus maintenue (la dernière mise à jour date de
mai 2013). Les domaines Pfam ont une bonne couverture sur UniProtKB : 80% des protéines
sont associées à au moins un domaine.
Les domaines dont la fonction est encore inconnue sont désignés comme des DUFs (Domains of
Unknown Function) et représentent environ 25% des familles Pfam [144].
Il faut remarquer que dans Pfam, la taille des différentes familles de protéines est très variable,
ainsi que le niveau de résolution des domaines : certains domaines vont représenter toute une
famille d’enzyme (par exemple, PF00171 regroupe les enzymes de la famille des aldéhyde
déshydrogénases), d’autre vont décrire un sous-domaine structural d’une enzyme particulière (par
exemple, PF00712 représente la partie N-terminal de la chaîne beta de la DNA polymérase III).
Cette granularité variable pose donc des problèmes dans l’utilisation directe de Pfam pour prédire
des fonctions.
Néanmoins, les familles Pfam ont été beaucoup utilisées dans le cadre de cette thèse, notamment
pour relier des protéines de fonction inconnue à des transformations chimiques.
![Page 80: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/80.jpg)
74
InterPro InterPro [146] est un entrepôt intégratif pour plusieurs méthodes de définition de signatures
(domaines, motifs, familles) de protéines. En plus d’intégrer diverses informations sur les familles
de protéines, les domaines et les sites fonctionnels, InterPro propose un outil, InterProScan qui
permet de prédire les signatures issues de différentes sources à partir d’une séquence.
PRIAM La méthode PRIAM [143] est dédiée à l’identification des gènes codant pour des enzymes et leurs
activités enzymatiques en utilisant des règles combinant des « profils » spécifiques à l’activité
enzymatique construits à partir de collections de séquences enzymatiques connues. PRIAM utilise
la classification en EC numbers pour les activités enzymatiques et les protéines annotées de
SwissProt pour construire les profils PSSM (Position‐Specific Scoring Matrices) de référence via le
programme MKDOM [142]. Ces profils sont comparables à des domaines protéiques. PRIAM
permet ainsi d’assigner des fonctions aux nouvelles séquences en se basant sur la détection de
similarité de profils via le logiciel PSI-BLAST [140].
Cette approche a été utilisée dans l’étude sur les enzymes orphelines (Chapitre I de cette thèse)
pour trouver des séquences candidates pour les enzymes orphelines de séquences.
Il existe aussi d’autres ressources permettant de classifier les protéines en familles de protéines
équivalogues (i.e. protéines homologues ayant leurs fonctions conservées), comme FIGFam
[149], TIGRFam [150], FunFams [151] ou encore HAMAP [21], mais elles ne seront pas
abordées ici.
III.1.4 Contexte génomique pour l’annotation fonctionnelle
Les différentes méthodes de contexte génomique sont décrites plus tard dans cette section. Elles
peuvent être utilisées dans le cadre de l’annotation fonctionnelle. Par exemple, chez les
procaryotes, les gènes impliqués dans une même fonction cellulaire ont tendance à être proches
sur le chromosome, voire être co-transcrits sous l’influence d’un même promoteur (on appelle
![Page 81: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/81.jpg)
75
cette structure « opéron »). La conservation de cette co-localisation au cours de l’évolution
s’appelle la synténie. Cette information de contexte d’un gène peut être utilisée pour y inférer
une fonction [152, 153].
L’information sur la fusion de deux gènes au cours de l’évolution peut aussi être utilisée pour
relier fonctionnellement des gènes homologues non fusionnés [154, 155].
Le phénomène de coévolution des protéines repose sur la tendance observée des protéines
fonctionnellement reliées à évoluer de façon corrélée. En prenant un grand nombre de génomes,
un profil de présence/absence dans chacun d’entre eux est établi pour chaque protéine. Ce profil
correspond généralement à un vecteur booléen, où « vrai » signifie la présence d’un homologue
de la protéine dans le génome correspondant, et « faux » son absence. Les protéines sont alors
classées en fonction de la similarité de profils phylogénétiques et leurs fonctions déterminées en
conséquence [156].
III.1.5 Analyse de la structure des protéines L’étude de la conformation structurale des protéines, ainsi que la comparaison de leurs structures
est aussi une méthode d’annotation fonctionnelle. Bien que prometteuse, elle ne s’est pas encore
révélée suffisamment efficace pour être appliquée à grande échelle, mais il s’agit d’un domaine
relativement nouveau et dynamique. Il se pourrait donc que dans un avenir relativement proche
cette méthode prouvera son efficacité [157]. En effet, la structure d’une enzyme, et
particulièrement de sa poche catalytique (l’endroit où la transformation chimique des molécules
est catalysée), est directement liée à la fonction qu’elle effectue.
En théorie, des enzymes n’ayant aucune homologie de séquence mais présentant le même
arrangement en 3D des acides aminés dans les poches catalytiques, ont de forte chance de
catalyser la même réaction. C’est par exemple le cas de la subtilisine et de la chymotrypsine [158].
Ainsi, les logiciels de comparaison de sites actifs vont rechercher les motifs tridimensionnels
connus (c’est à dire répertoriés dans des bases de données de sites actifs) se trouvant dans la
protéine de fonction inconnue.
![Page 82: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/82.jpg)
76
Cependant, la plupart des logiciels ne vérifient pas que le motif tridimensionnel trouvé se trouve
bien dans la poche (ce motif peut aussi être enfoui dans la protéine et non-accessible aux
métabolites). Selon les enzymes étudiées, les logiciels ne peuvent repérer qu’un motif de trois
résidus. Celui-ci n’est souvent pas assez spécifique d’une activité donnée, comme par exemple la
triade catalytique Serine-Histidine-Aspartate, qui est retrouvée dans un très grand nombre
d’hydrolases et de transférases. D’autres logiciels (comme, par exemple, SALSAs [159] et ASMC
[160]) comparent les structures des sites actifs de familles d’enzyme et recherche le motif
tridimensionnel consensus de sous-familles potentielles. Ces méthodes révèlent ainsi la diversité
des réactions possibles au sein d’une famille et par conséquent aide à affiner l’annotation
fonctionnelle et spécifique des enzymes.
Il est aussi possible de faire de la prédiction ab initio de compatibilité d’une poche catalytique et
d’un métabolite d’un point de vue géométrique et énergétique, grâce à l’amarrage moléculaire
(aussi appelée « docking » moléculaire). C’est en testant in silico plusieurs milliers de métabolites
dans une poche catalytique d’une protéine de fonction inconnue par amarrage, que, par exemple,
Fan et al. ont découvert une activité pterin deaminase [161]. La limite la plus importante des
méthodes basées sur la comparaison des structures protéiques est le manque de structures
résolues expérimentalement (par cristallographie aux rayons X ou par résonance magnétique
nucléaire) qui sont couteuses et assez longues à obtenir. La modélisation d’une structure par
homologie apparaît donc comme un bon compromis. Aussi, la prédiction d’activité grâce à
l’amarrage moléculaire est limitée par le nombre restreint de métabolites répertoriés dans les
banques.
En combinant les approches de comparaison de séquences, de contexte génomique et de
structure, la qualité de l’annotation fonctionnelle automatique peut être largement améliorée
[162]. Cette efficacité a été démontrée récemment par Bastard et al. [163] qui, grâce à une
approche combinant plusieurs méthodes informatiques et des résultats expérimentaux de criblage
enzymatique ont réussi à annoter la famille Pfam de protéines de fonction inconnue DUF849
comme étant des enzymes réalisant le clivage de β-keto acides (3-keto acides). Ils ont aussi pu
définir des sous-familles pour lesquelles ils ont associés 14 nouvelles réactions enzymatiques
spécifiques.
![Page 83: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/83.jpg)
77
III.1.6 Systèmes d’annotation à base de règles Des méthodes combinant plusieurs approches d’annotation fonctionnelle d’une façon
« intelligente » ont aussi été développées. Appelées « systèmes à base de règles », ce sont des
méthodes d’annotation fonctionnelle automatique basées sur plusieurs méthodes d’annotation
fonctionnelle et d’un système de décision. La méthode publiée en 2008 par Azé et al. [164], par
exemple, considère l’annotation d’une protéine en termes de hiérarchie fonctionnelle, et propose
un ensemble de règles qui prédisent la ou les classes fonctionnelles pour une protéine.
Des méthodes plus simples ont été développées au sein du consortium UniProt. Les règles
(HAMAP et UniRule) sont basées sur des propriétés simples des protéines (longueur de la
séquence en acides aminés, par exemple), ainsi que sur leur composition en domaines et leur
appartenance taxonomique, et servent à annoter automatiquement les protéines de la base de
données UniProtKB [21].
Une autre méthode, INFAES, publiée en 2015 par Xavier et al. [165] est un système expert à base
de règles qui mime le raisonnement d’un être humain pour l’inférence d’une annotation
fonctionnelle. Ce système intègre les connaissances sur la biologie ainsi que les heuristiques sur
l’utilisation des méthodes automatiques d’annotation fonctionnelle. Très souple, il permet une
intégration continue de nouvelles connaissances, et est aussi très performant (il a montré
notamment de bons résultats en comparaison avec les résultats du concours CAFA [166] qui
rassemble des équipes du monde entier travaillant sur les problèmes liés à l’annotation
fonctionnelle).
III.1.7 Systèmes d’annotation communautaire
En dehors des différentes technologies automatisant l’annotation fonctionnelle de grandes
quantités de données, l’annotation fonctionnelle des gènes et des protéines devrait aussi être
gérée par la communauté scientifique. Ainsi, lorsqu’un chercheur remarque une erreur
d’annotation dans les bases de données publiques, l’édition de l’annotation devrait être facilitée.
Certains auteurs [11, 144, 167, 168] proposent notamment un système d’éditions expertes basé
sur le modèle de Wikipédia pour permettre à la communauté d’écrire et de rectifier les
annotations. Ce travail de curation nécessite des environnements informatiques intégrés, appelés
![Page 84: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/84.jpg)
78
plateformes d’annotation (comme Microscope [169] ou SEED [170] par exemple) qui fournissent
de puissantes interfaces graphiques pour aider les experts à nettoyer ou à compléter les
annotations générées par les méthodes automatiques.
III.1.8 Cas des protéines multifonctionnelles Les protéines multifonctionnelles sont des enzymes capables de jouer plusieurs rôles dans le
métabolisme en catalysant des réactions (parfois très) différentes. Plusieurs sortes de
multifonctionnalité sont connues actuellement. Certaines enzymes sont capables de catalyser une
même réaction chimique sur plusieurs composés chimiques différents, c’est la promiscuité de
métabolites [56]. D’autres enzymes sont capables de catalyser différentes transformations
chimiques en utilisant le même site catalytique, c’est la promiscuité de réactions [171]. On peut
aussi avoir des protéines constituées de deux ou plus domaines fonctionnels avec différents sites
actifs [172]. L’association de plusieurs domaines au sein d’une protéine, qui résulte généralement
d’un événement de fusion de gènes au cours de l’évolution, peut notamment faciliter la
conversion des substrats et la régulation des flux métaboliques. Il existe aussi des protéines
multifonctionnelles assez particulières, appelées « moonlighting enzymes » [44, 45]. Ces protéines ont
la capacité de changer d’activité enzymatique en fonction des conditions environnementales, de
leur localisation cellulaire, du type de la cellule (dans le cas d’organismes multicellulaires), des
concentrations en ligands ou en cofacteurs, ou en formant des complexes avec d’autres protéines.
Il existe une base de données dédiée aux enzymes multifonctionnelles répertoriant leurs
différents types : MultitaskProtDB [173].
Les enzymes multifonctionnelles sont assez difficiles à annoter, car la plupart des méthodes ne
cherchent à associer qu’une seule fonction à une séquence. De plus, hormis les enzymes multi-
domaines, la recherche des autres fonctions est assez complexe et nécessite souvent des données
expérimentales.
![Page 85: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/85.jpg)
79
III.2 Contexte génomique
La génomique comparative est l’étude comparative de la structure et de la fonction des génomes
de différents organismes. Ce domaine de la bioinformatique bénéficie grandement du nombre de
plus en plus grand de séquences génomiques disponibles grâce aux progrès des technologies de
séquençage. Le « contexte génomique » d’un gène est l’ensemble des données concernant le
génome et les autres gènes liés d’une façon spatiale et/ou fonctionnelle à celui-ci. Le lien de
contexte génomique le plus évident est la proximité chromosomique. L’organisation des gènes
entre eux, et surtout, la conservation de cette organisation entre différents organismes est un
indicateur intéressant pour déterminer les relations fonctionnelles entre ces gènes, ainsi que leur
implication dans un même processus biologique comme une voie métabolique. La recherche et
l’analyse de clusters de gènes, c’est à dire des gènes proches sur le chromosome, est une des
techniques de contexte génomique la plus utilisée en génomique comparative. Les clusters de
gènes peuvent être repérés par deux approches différentes : la recherche d’opérons et la
détection de synténie conservée. Un opéron est un ensemble de gènes contrôlés par un même
promoteur et co-transcrits en un ARNm polycistronique. Les gènes sont organisés en opérons
principalement chez les organismes procaryotes. Pour détecter des synténies conservées, c’est à
dire des gènes dont la co-localisation est conservée au cours de l’évolution dans plusieurs
organismes, il est nécessaire de comparer l’organisation de plusieurs génomes entre eux. La
détection des clusters de gènes est abordée dans la première partie de cette section. La présence
(ou l’absence) simultanée d’un ensemble de gènes dans des génomes est aussi un indicateur sur
leurs capacités métaboliques. Ainsi, la comparaison de vecteurs de présence/absence de familles
de gènes (aussi appelés profils phylogénétiques) entre différents organismes est un outil
puissant d’étude de contexte génomique. Si deux gènes sont souvent retrouvés dans différents
organismes, il y a beaucoup de chances pour que leurs produits soient liés d’une façon ou d’une
autre. Cette approche est discutée dans la deuxième partie de cette section. Dans certains
organismes certaines protéines impliquées dans le même processus physiologique peuvent être
des produits de deux gènes séparés, alors qu’ils sont encodés par un seul gène dans d’autres
organismes. Il s’agit là de mécanismes de fusion ou de fission de gènes au cours de l’évolution,
détectables notamment avec l’approche appelée « Rosetta stone ». Cette approche est introduite
dans la dernière partie de cette section.
![Page 86: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/86.jpg)
80
III.2.1 Clusters de gènes
III.2.1.1 Opérons
Un opéron est une unité génomique contenant un groupe de gènes co-localisés sur le même brin
d’ADN et souvent associés à une même fonction cellulaire sous contrôle d’un même promoteur
(Figure 16a). Les gènes d’un opéron sont co-transcrits en un seul ARN messager, appelé ARN
polycistronique. Environ 60% des gènes chez les procaryotes sont regroupés en opérons [174].
Chez les eucaryotes, les opérons sont beaucoup plus rares : des transcrits polycistroniques ont
tout de même été observés, par exemple chez le nématode et chez la drosophile [175, 176]. Les
opérons sont souvent conservés entre différentes espèces, même s’il peut y avoir des
réarrangements génomiques (gains, pertes, duplications de gènes) [177].
Il a été remarqué que les gènes d’un opéron sont fréquemment impliqués dans une même
fonction cellulaire. Par exemple, un opéron peut contenir des gènes codant des enzymes
catalysant des réactions d’une même voie métabolique. Il est donc intéressant d’explorer
l’information contenue dans les opérons pour prédire de nouveaux processus biologiques comme
des voies métaboliques et améliorer l’annotation des protéines.
Méthodes de prédiction des opérons
Une première hypothèse pouvant être formulée pour la détection d’opérons est que la distance
entre les gènes d’un même opéron est plus faible qu’entre les gènes appartenant à des unités de
transcription différentes, puisqu’ils sont co-transcrits et que la présence de divers signaux de
transcription n’est pas nécessaire. Cette hypothèse a été confirmée en étudiant les opérons
connus de Escherichia coli, rassemblés dans la base de données RegulonDB [178, 179]. La distance
intergénique est le critère le plus informatif dans la prédiction des opérons [180–182]. Ainsi, la
prédiction des opérons peut être vue comme la recherche des limites des unités de transcription,
où la distance entre les gènes adjacents est faible et il n’y a pas de gènes sur le brin opposé de
l’ADN. Les groupes de gènes correspondant à cette description sont appelés des directons.
Une autre hypothèse de base est que les opérons vont avoir tendance à être conservés dans les
organismes procaryotes. Des résultats d’investigation en génomique comparative [183, 184]
montrent que les gènes adjacents sur le même brin d’ADN ont tendance à rester proches dans les
génomes d’espèces différentes, contrairement aux gènes sur les brins opposés. Ainsi, la
![Page 87: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/87.jpg)
81
comparaison de la conservation de gènes entre différents organismes permet une prédiction de
grande qualité des opérons dont on ne dispose pas de données expérimentales sur les unités de
transcription [183].
Figure 16. Clusters de gènes.
(a) Structure d’un opéron procaryote. La séquence régulatrice contrôle l’expression des multiples régions codantes (en rouge). Le promoteur, l’opérateur et l’enhancer (en jaune) régulent la transcription de cette région en ARNm. Les régions non-traduites de l’ARNm (en bleu), régulent la traduction en protéines. Image adaptée de Wikipedia (https://en.wikipedia.org/wiki/Operon).
(b) Groupes de synténie conservée entre les génomes A et B. Ces groupes de synténie sont détectés avec un algorithme utilisant le concept de multigraphe [190,191], qui permet l’association de plusieurs gènes homologues entre les génomes, ainsi que la détection d’évènements de fusion, duplication, insertion, inversion et réarrangement de gènes.
![Page 88: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/88.jpg)
82
Des méthodes de prédiction des opérons plus complexes et très divers ont été développées ces
dernières années. On pourra notamment citer des méthodes intégrant des données
expérimentales comme des données d’expression via des micro-puces à ADN [185], ou du
séquençage d’ARN [186], des méthodes utilisant l’apprentissage artificiel comme des réseaux
bayésiens [187] ainsi que l’utilisation des algorithmes génétiques [188].
Une approche simple basée sur la première hypothèse présentée ici a été appliquée dans le cadre
de cette thèse pour prédire des opérons potentiels (directons) d’une façon systématique dans un
grand nombre de génomes procaryotes. Cette analyse sera présentée dans le chapitre 3 de ce
manuscrit.
III.2.1.2 Synténies conservées
Du point de vue de la génomique, la synténie est la présence simultanée (et éventuellement dans
le même ordre) sur le même chromosome de deux ou plusieurs gènes dans plusieurs organismes
(Figure 16b). Elle permet de conclure qu’une région génomique dans deux ou plusieurs
organismes provient d’une seule région génomique ancestrale. Les régions synténiques peuvent
appartenir à des organismes différents, et sont donc dérivés d’évènements de spéciation, ou au
même organisme et ont pour origine des évènements de duplication (on pourra donner l’exemple
de polyploïdie – duplication de chromosomes entiers – chez les plantes). Un bloc synténique (ou
groupe de synténie, ou synton) comprend l’ensemble des gènes en synténie.
Les analyses de synténie sont une façon pratique de comparer les organismes et d’étudier
l’évolution des génomes. Elles permettent de détecter la conservation de fonctions biologiques
[189, 190], d’identifier des réarrangements de génomes [191], aider à l’annotation fonctionnelle
des génomes [152] et même prédire des erreurs d’assemblage de génomes après le séquençage.
Il existe un grand nombre d’outils de détection et de visualisation de synténie entre les génomes,
on citera, notamment, cette méthode basée sur le recherche de composantes connexes maximales
dans un multigraphe [192, 193], Cinteny [191] et Proteny [194]. Les blocs synténiques sont
facilement visibles avec les outils de visualisation de génomes les plus simples, comme Artemis
Comparison Tool [195], ou intégrés dans des plateformes pour une aide à l’annotation, comme
dans MicroScope [169].
![Page 89: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/89.jpg)
83
III.2.2 Profils phylogénétiques
Un profil phylogénétique (parfois aussi appelé « profil phylogénomique ») est un vecteur
décrivant la présence/absence de familles de gènes dans un ensemble d’organismes. La
comparaison des vecteurs de présence/absence de gènes entre différents organismes permet
d’établir une dépendance fonctionnelle entre les gènes : deux gènes impliqués dans un même
processus biologique ont beaucoup de chance d’être soit tous les deux présents, soit tous les deux
absents dans un organisme, la perte de l’un d’entre eux pouvant entrainer la perturbation, voire la
perte, du processus. En 1999, Pellegrini et. al [156] étaient les premiers à proposer l’utilisation des
profils phylogénétiques pour mesurer cette dépendance inter-génique. Beaucoup de variantes de
la méthode ont été proposées depuis, utilisant notamment des mesures différentes de similarité
de gènes ou des vecteurs pondérés à la place de vecteurs booléens. Les profils phylogénétiques
sont principalement utilisés comme des indicateurs de la co-évolution des gènes plutôt que
comme des outils directs pour l’annotation fonctionnelle, même s’ils peuvent l’améliorer.
III.2.3 Rosetta stone (fusions/fissions de gènes)
La fusion de gènes permet la création de gènes hybrides à partir de deux gènes initialement
séparés. Ce mécanisme joue un rôle important dans l’évolution de l’architecture génique. En
effet, lorsque ce genre d’altération génique n’est pas létale pour l’organisme, la fusion de gènes
entraine l’apparition de nouvelles fonctions ou une augmentation d’efficacité des fonctions
métaboliques déjà existantes (via le « metabolic channeling » par exemple [196]), en ajoutant un
module peptidique pour former une protéine multimérique. C’est aussi un bon indice par rapport
à l’implication des deux gènes dans une même fonction cellulaire dans différents organismes. Les
évènements de fission de gènes, où un gène ancestral constitué de plusieurs domaines est séparé
en deux gènes fonctionnels sont beaucoup plus rares [197]. On appelle « Rosetta stone » un
triplet constitué d’un gène fusionné dans un génome et de deux gènes séparés et homologues au
premier dans un autre génome, car ce genre de structure permet de « déchiffrer » des interactions
possibles entre les produits de ces gènes [198, 199]. Beaucoup d’autres travaux ont inclus les
évènements de fusion et de fission de gènes dans les analyses de génomique comparative [197,
200, 201]. L’analyse de ces évènements fait désormais partie des méthodes de référence dans
l’analyse du contexte génomique.
![Page 90: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/90.jpg)
84
III.3 Reconstruction de réseaux et modèles métaboliques
L’information génomique disponible à partir du séquençage d’un génome complet permet la
reconstruction d’un réseau métabolique entier et spécifique de l’organisme. Comme nous l’avons
vu dans les sections précédentes, il peut y avoir différents types de réseaux métaboliques, centrés
sur les métabolites, les réactions ou les enzymes, orientés ou non, contenant des arêtes simples ou
des hyperarêtes.
Pour reconstruire le réseau métabolique d’un organisme donné, son génome doit être
fonctionnellement annoté. Ceci signifie que chaque gène (lorsque c’est possible) doit être associé
à une fonction biologique, plus précisément, à une activité enzymatique pour les gènes codant des
enzymes. On peut ainsi déduire toutes les capacités métaboliques de l’organisme en traduisant les
activités enzymatiques prédites en réactions pouvant être catalysées dans l’organisme. Les autres
données ‘omiques’ sur l’organisme, comme le transcriptome (données qualitatives et quantitatives
sur les ARNs), le protéome (données qualitatives et quantitatives sur les protéines), le
métabolome (données qualitatives et quantitatives sur les métabolites) et le bibliome
(informations issues de la littérature) permettent d’améliorer la qualité du réseau construit [202].
La reconstruction de réseaux métaboliques à partir de génomes complets comprend quatre
grandes étapes fondamentales : la reconstruction automatique à partir des annotations
fonctionnelles des gènes, la curation de cette reconstruction, sa conversion en un modèle
informatique et l’intégration d’autres données ‘omiques’ pour affiner le modèle. Ces différentes
étapes, ainsi que les données utilisées, sont représentées sur la Figure 17 (adaptée d’après [202]).
Etape 1 : Reconstruction automatisée à partir d’un génome complet Le point de départ pour toutes les reconstructions métaboliques est le génome annoté d’un
organisme donné. Les données d’annotation fonctionnelle peuvent être trouvées dans des
banques généralistes de génomes (Genbank ou EMBL), des banques généralistes de protéines
(UniProtKB) ou dans des ressources spécialisées pour un organisme (comme Ecogene [203] pour
E. coli K-12 ou la « Pseudomonas Genome Database » [204] pour les Pseudomonas). Elles
peuvent également être issues de plateformes d’annotation ou être produites localement en
utilisant différentes méthodes d’annotation fonctionnelle. Ces multiples sources d’annotations ne
![Page 91: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/91.jpg)
85
facilitent pas la reconstruction. De plus, la plupart du temps, seuls les EC numbers, avec leurs
limites (cf. section « Classification des activités enzymatiques »), sont disponibles pour décrire les
activités enzymatiques avec un vocabulaire contrôlé. A partir de ces fonctions prédites, un
ensemble de réactions enzymatiques potentiellement présentes dans l’organisme est projeté sur
des voies métaboliques de référence qui peuvent être issues de bases de données généralistes
(comme KEGG [102] ou MetaCyc [91]) ou spécifiques d’une espèce (EcoCyc [205] pour E. coli
par exemple). Cette reconstruction par homologie suppose que les voies métaboliques sont
conservées entre les organismes et a pour but de prédire si une voie métabolique existe ou non
dans un organisme étant donné un ensemble d’activités enzymatiques prédites. Quelques
méthodes facilitant cette reconstruction automatique de réseaux métaboliques existent, on pourra
notamment citer PathwayTools [94] et SEED [170].
Ces méthodes sont relativement rapides mais une annotation fonctionnelle correcte des protéines
est cruciale pour une reconstruction de bonne qualité. Pour établir correctement les associations
GPR (cf. début de section), une difficulté supplémentaire est d’être capable de faire la différence
entre des protéines qui sont des isoenzymes et des protéines formant un complexe protéique. Les
cas d’enzymes multifonctionnelles et de promiscuité sont également difficiles à appréhender pour
définir un bon ensemble de réactions pouvant être catalysés dans un organisme. Cette étape
permet d’obtenir une structure appelée GENRE (GEnome-scale Network REconstruction).
Etape 2 : Curation de la reconstruction automatique Bien que l’extraction automatisée de réactions métaboliques des bases de données à partir des
annotations fonctionnelles permet d’obtenir une collection initiale de réactions biochimiques que
l’organisme est capable de réaliser, elle ne permet pas d’établir certaines caractéristiques
organisme-spécifiques, comme des réactions ou des voies métaboliques non représentées dans les
bases de données généralistes ou la localisation subcellulaire des enzymes. Ce type d’informations
requiert la connaissance experte de l’organisme ; ainsi, le réseau métabolique reconstruit
automatiquement nécessite une curation manuelle. Celle-ci est nécessaire pour ajouter et corriger
les informations que les procédures automatisées manquent ou placent mal. Cette étape est
souvent assez laborieuse et peut prendre beaucoup de temps, nécessitant la recherche
d’informations spécifiques dans la littérature spécialisée ou directement auprès des spécialistes.
![Page 92: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/92.jpg)
86
Etape 3 : Conversion du réseau métabolique reconstruit en modèle
informatique Avant qu’une reconstruction puisse être utilisée pour les calculs, notamment pour les calculs de
capacités physiologiques de l’organisme, la conversion de cette reconstruction en une
représentation mathématique doit être faite. Cette conversion traduit un GENRE en un modèle
mathématique à l’échelle d’un génome – GEM (GEnome-scale Model). La représentation d’un
réseau dans un format mathématique permet le déploiement d’un large éventail d’outils de calcul
pour analyser les propriétés de celui-ci. Ces outils de calculs permettent l’évaluation des
propriétés systémiques du réseau, ainsi que des fonctions que le réseau peut accomplir sous des
Figure 17. Etapes et données pour la reconstruction d’un réseau métabolique à partir d’un génome complet (image extraite de Feist et al. [202]). La reconstruction de modèles métaboliques à partir de génomes complets peut être divisée en quatre phases majeures successives. Une des caractéristiques de ce processus de reconstruction est son raffinement itératif dirigé par les données expérimentales des trois dernières phases. Pour chaque phase, des types de données spécifiques sont nécessaires. Ces données peuvent être très différentes en fonction de la phase, allant des données à haut débit (comme les données de métabolomique ou de phénomique) aux données issues d’analyses détaillées caractérisant des composants individuels (par exemple, données biochimiques pour une réaction particulière). Les modèles intermédiaires générés par chaque phase de la reconstruction peuvent être utilisés et appliqués pour répondre à une quantité croissante de questions, mais c’est bien la version finale du modèle qui a le plus d’applications.
![Page 93: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/93.jpg)
87
contraintes physico-chimiques. Cette approche a mené au développement des méthodes de
reconstruction et d’analyses à base de contraintes, dont la boite à outils COBRA [206] est
l’exemple le plus connu. Ce type d’approches permet d’étudier notamment le comportement de
l’organisme dans des conditions de croissance spécifiques ou des conditions environnementales
particulières.
Etape 4 : Utilisation de modèles métaboliques et intégration des données
‘omiques’ Les données ‘omiques’ qui évaluent un très grand nombre d’interactions au travers de différentes
conditions peuvent être utilisées pour raffiner et développer le contenu métabolique d’un modèle.
Ces types de comparaisons et d’analyses permettent d’améliorer la compréhension du
fonctionnement de l’organisme dans différentes conditions environnementales. On pourra
notamment donner l’exemple de l’utilisation de données de croissance cellulaire sur des milieux
définis via la technologie Biolog (http://www.biolog.com), ou des données issues de la
métabolomique et de dosages enzymatiques in vitro systématiques qui ont mené à la découverte de
nouvelles réactions et voies métaboliques comme par exemple dans cette étude de Saito et al.
[207]. La confrontation de données expérimentales aux prédictions du modèle permet ainsi de
valider le modèle. En cas d’incohérences, le réseau métabolique reconstruit doit être amélioré (cf.
étape 2).
Malgré les avancées grandioses des connaissances sur l’organisation et le fonctionnement des
organismes vivants, beaucoup de parts d’ombre demeurent. Ces lacunes dans les connaissances
actuelles sur le métabolisme sont présentées dans la section suivante.
![Page 94: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/94.jpg)
88
III.4 Lacunes dans les connaissances enzymatiques
Les connaissances sur les enzymes et les activités enzymatiques sont très diversifiées et produites
par des scientifiques issus de domaines différents. La caractérisation des activités enzymatiques
est plutôt du ressort de la (bio)chimie avec par exemple des applications en biocatalyse, alors que
l’étude des protéines enzymatiques et des gènes qui les encodent implique plutôt la biologie
moléculaire, la protéomique, la génomique et la biologie structurale. La multiplicité des approches
et des représentations des données, les difficultés de communication entre les différents
domaines scientifiques, ainsi que les limites technologiques font qu’il existe des lacunes dans les
connaissances. Dans cette partie, seront présentés le problème des activités enzymatiques
« orphelines » de séquences, les causes et les conséquences de ce problème.
En 2004, Richard J. Roberts a lancé un appel pour une action communautaire pour l’annotation
de gènes de fonction inconnue dans les génomes microbiens [208]. La même année, Peter Karp
proposa une approche complémentaire, aussi via un appel à la communauté scientifique, qui
consistait à essayer d’associer au moins une séquence protéique à chaque activité enzymatique
biochimiquement caractérisée [1]. Il a proposé de combiner les approches bioinformatiques et
des stratégies « de paillasse » pour identifier et valider des protéines candidates issues de données
génomiques. Il a été notamment mis en avant que parmi les 3736 activités enzymatiques (EC
numbers) listées dans la base de données ENZYME [115], 1437 (c’est à dire 38%) d’entre elles
n’avaient aucune séquence protéique associée, même en combinant différentes sources
d’annotation de protéines (SwissProt [23], TrEMBL [18], PIR (Protein Information Ressource
[209]), CMR (Comprehensive Microbial Ressource [210]) et BioCyc [124]). Comme la
classification EC n’inclue pas toutes les activités enzymatiques connues et que certaines
annotations protéiques ne sont pas associées avec les bons EC numbers, Peter Karp a estimé
alors que cette estimation pouvait être biaisée. Ces activités enzymatiques sans séquences
associées ont été baptisées « activités enzymatiques orphelines de séquences » (ou « enzymes
orphelines » pour faire court) en 2005 [211] par Olivier Lespinet et Bernard Labedan.
Ces activités enzymatiques orphelines sont répertoriées dans la base de données dédiée,
ORENZA (http://www.orenza.u-psud.fr) [4], qui existe depuis 2006, ainsi que, depuis peu dans
![Page 95: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/95.jpg)
89
le « Orphan Enzymes Project » (http://www.orphanenzymes.org) initié par Alexander Shearer
[212, 213].
Au sein de la classification EC, les activités orphelines se répartissent plutôt uniformément dans
les 6 grandes classes : il y en a le moins parmi les ligases (21%) et le plus parmi les
oxydoréductases et les transférases (respectivement 37% et 38%) [214].
Elles ont tendance à provenir des organismes autres que les 10 organismes modèles les plus
étudiés (37% des enzymes orphelines proviennent des organismes modèles contre 63% des
organismes non-modèles [214]) Par exemple, seulement 4% des enzymes orphelines ont pour
organisme source initiale Escherichia coli. Par ailleurs, 75% d’activités annotées avec des EC
numbers incomplets (où il manque un ou plusieurs digits) sont orphelines de séquence [214].
L’existence des enzymes orphelines pause ainsi un problème dans les analyses du métabolisme.
En effet, parmi les 124 voies métaboliques bien connues en 2006 issues de KEGG [102] et de
MetaCyc [91], seulement 24 ne contiennent aucune enzyme orpheline [2].
Les activités enzymatiques orphelines peuvent être classifiées comme « locales » et « globales »
[215]. Les enzymes orphelines globales, celles décrites précédemment, n’ont aucune séquence
représentative associée dans aucun des organismes. En revanche, les enzymes orphelines
locales représentent des activités pour lesquelles on n’a pas de séquence représentative associée
dans un organisme ou clade (groupe d’organismes) d’intérêt, bien qu’une ou plusieurs séquences
protéiques catalysant la réaction peuvent être connues dans d’autres organismes.
L’existence de ces enzymes, dont les protéines qui les catalysent sont inconnues, pose notamment
un gros problème lors de l’annotation fonctionnelle des séquences et de la reconstruction de
réseaux métaboliques à partir de génomes complets. Aussi, les enzymes orphelines de séquences
pourraient être importantes pour des applications industrielles et pharmacologiques [3] (synthèse
de nouveaux médicaments par exemple), c’est pourquoi il peut être intéressant de découvrir les
protéines qui les réalisent, pour pouvoir les maitriser et les utiliser. Dans la section suivante sont
décrites différentes méthodes permettant d’explorer le métabolisme et pour, notamment, associer
des séquences aux activités enzymatiques orphelines.
![Page 96: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/96.jpg)
90
IV. Méthodes pour l’exploration du métabolisme Le métabolisme, qu’il soit représenté sous la forme d’un réseau ou d’un modèle, n’est pas encore
connu dans son intégralité, et beaucoup de choses restent encore à découvrir. En dehors des
méthodes expérimentales, permettant de découvrir et de valider des métabolites et des réactions
enzymatiques, il est aussi indispensable d’explorer le métabolisme dans sa globalité, ce qui
nécessite des approches bioinformatiques, biostatistiques et chemoinformatiques. Certaines de
ces approches seront présentées et discutées dans cette section.
Plusieurs questions seront soulevées ici. Tout d’abord, sera abordée la problématique de
représentation des réactions et des activités enzymatiques, afin d’en faciliter l’intégration et
l’analyse computationnelles. Ensuite, seront abordées les méthodes pour combler les lacunes
dans les connaissances enzymatiques représentées par les activités enzymatiques orphelines des
séquences. Dans la dernière partie de ce chapitre, différentes techniques de recherche d’unités
fonctionnelles dans les réseaux métaboliques comme les modules, les motifs et les voies
métaboliques seront présentées.
IV.1 Comment encoder une réaction enzymatique ?
La façon la plus classique pour décrire une réaction enzymatique est le numéro EC défini par la
Commission Enzymatique. Cependant, cette description des activités enzymatiques présente un
certain nombre de limites, comme le fait qu’elle ne couvre pas toutes les réactions métaboliques
connues, la difficulté d’intégrer de nouveaux types d’activités enzymatiques ou encore la grande
ambiguïté des EC numbers (description de plusieurs réactions consécutives comme une seule
activité, ou regroupement de réactions différentes, voire génériques dans une seule catégorie).
Il faut donc trouver une façon de décrire des réactions enzymatiques sur la base des métabolites
qu’elles transforment et de leur mécanisme réactionnel pour pouvoir les encoder et les classifier
automatiquement.
![Page 97: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/97.jpg)
91
Il existe un grand nombre de représentations de métabolites (cf section I de cette partie du
manuscrit) et autant de façons de décrire les réactions qui les transforment. Dans les sections
suivantes, sera présentée une sélection de méthodes de représentation, de classification et
d’utilisation des réactions enzymatiques.
IV.1.2 Reaction Pairs et Reaction Class de KEGG KEGG [98] est une ressource très complète sur les génomes et sur le métabolisme au sein de
laquelle un grand nombre de méthodes sont développées.
Chacune des réactions présentes dans la base de données KEGG est découpée en un ensemble
de paires substrats-produits. Pour chaque paire, les molécules sont comparées entre elles avec une
représentation en motifs RDM ayant pour but de déterminer les atomes du centre réactionnel
(atomes R), les atomes adjacents au centre réactionnel (atomes D) et les atomes qui changent au
cours de la réaction (atomes M) [216]. Cette comparaison est basée sur une représentation de
sous-structures de molécules appelée KCF/KCF-S [42] qui rassemble 68 types d’atomes avec une
distinction particulière des groupements chimiques fonctionnels et des environnements
atomiques. La signature d’une réaction en motif RDM (Figure 18) pour chaque paire de
molécules est nommée RPair. Les RPairs sont utilisés pour calculer des classes de réactions
(RClass), qui rassemblent les réactions partageant les mêmes RPair. Les RClass sont ensuite
utilisés pour prédire un EC number pour de nouvelles réactions (deux algorithmes ont été
développés dans ce cadre, MUCHA [217] et E-zyme [218]).
Figure 18. Motifs RDM permettant de décrire les changements atomiques dans les molécules au cours d’une réaction (image extraite de Kotera et al. [216]). Ces motifs sont utilisés dans la base de données KEGG. Les types KEGG d’atomes permettent l’identification de l’endroit de la molécule où se déroule la réaction ainsi que les changement opérés au cours de celle-ci. Ces atomes permettent de définir un motif de conversion chimique. Trois types d’atomes sont définis : les atomes du centre réactionnel (atomes R), les atome qui sont impliqués dans la différence de structure (atomes D) et les atomes qui ne changent pas au cours de la réaction (atomes M).
![Page 98: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/98.jpg)
92
IV.1.3 Signatures moléculaires de réactions (RMS) Comme évoqué précédemment (cf. section I.2.1), la signature moléculaire (MS) [41] permet une
représentation canonique des molécules en sous-graphes circonvoisins d’un atome dans une
structure moléculaire jusqu’à un diamètre prédéfini, aussi appelé hauteur. Ces sous-graphes,
encodés en format SMILES, sont calculés pour chaque atome de la molécule pour un diamètre
donné.
Une signature moléculaire pour une réaction métabolique (« RMS » pour Reaction Molecular
Signature) est obtenue par la différence entre les signatures des produits et des substrats. Ce
système d’encodage des réactions en signatures permet d’avoir plus ou moins de précisions sur la
sous-structure chimique autour des atomes impliqués dans la transformation en jouant sur la
hauteur des signatures moléculaires (les hauteurs élevées permettent une plus grande précision,
les plus basses étant moins précises). Le processus de création des RMS est illustré en Figure 19
(extraite de l’article de Carbonell et. al [29]).
Les RMS ont été utilisées lors du travail décrit dans cette thèse pour encoder et regrouper les
réactions de la base de données MetaCyc.
![Page 99: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/99.jpg)
93
Figure 19. Processus de création d’une signature moléculaire de réaction (RMS) (image extraite de Carbonell et al. [29]).
(A) Processus de calcul d’une signature moléculaire pour le 6-aminohexanate. La première étape est le calcul de la signature pour chacun des atomes. Dans l’exemple présenté, la signature atomique du carbone du groupement carboxyle est calculée jusqu’à la hauteur 2. A hauteur 0 (en bleu), le graphe moléculaire est enraciné à l’atome n’est représenté que par cet atome. A hauteur 1 (en vert) est donnée la représentation canonique de l’atome de carbone central et de ses voisins immédiats. Le processus est répété pour les hauteurs suivantes : à hauteur 2 (en orange) ce sont les voisins des voisins qui sont pris en compte. Les signatures des atomes sont calculées pour tous les atomes de la molécule.
(B) Processus de création d’une signature moléculaire pour la réaction 6-aminohexanoate hydrolase. La signature de réaction contient la différence entre les signatures des produits et des substrats. Ici, la RMS a été calculée pour la hauteur 1.
![Page 100: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/100.jpg)
94
IV.1.4 Cartographie des atomes (Atom Mapping) L’atom mapping (« cartographie des atomes » en français) d’une réaction chimique est la
bijection des atomes réactants vers les atomes des produits qui spécifie le terminus de chaque
atome réactant. Concrètement, il s’agit de suivre le devenir de chaque atome des molécules
impliquées dans la réaction. Historiquement, plusieurs méthodes, souvent basées sur
l’isomorphisme de graphes, ont été utilisées pour calculer les atom mappings, mais ici une seule
sera présentée, celle qui est implémentée dans MetaCyc [97].
L’atom mapping de MetaCyc est basé sur une métrique minimisant les distances d’édition entre
atomes (MWED) et qui s’avère être très efficace. Concrètement, des poids sont assignés à
presque toutes les liaisons atomiques de tous les substrats et les produits de la réaction. Ces poids
représentent la tendance des liaisons atomiques à être rompues, créées ou à changer de type (la
transformation d’une liaison simple en liaison double par exemple). Un cout basé sur ces poids
est associé à chaque type de changement de liaison. La distance d’édition de l’atom mapping est la
somme des coûts. Ce type de modélisation de réactions chimiques s’avère assez efficace et peu
coûteux en terme de complexité computationnelle (Figure 20).
IV.1.5 EC-BLAST et autres méthodes basées sur la comparaison
de fingerprints moléculaires
EC-BLAST [219] est un algorithme et un outil pour la recherche de similarités quantitatives entre
les réactions enzymatiques. Les résultats de cette méthode sont disponibles sur un site web
(http://www.ebi.ac.uk/thornton-srv/software/rbl). Il y a trois niveaux de similarité possibles qui
sont calculés suivant : les changements de liaisons entre les atomes des molécules impliquées dans
Figure 20. Cartographe des atomes pour une réaction de monooxygénation de type Baeyer-Villiger issue de MetaCyc. L’atome 70 de la molécule de dioxygène est inséré dans le lien carbone-carbone des atomes 17 et 19.
![Page 101: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/101.jpg)
95
une réaction, les changements au niveau du centre réactionnel et la similarité de structure des
molécules. EC-BLAST utilise l’atom mapping pour calculer les changements de liaisons et permet
également d’aider à classifier les activités enzymatiques en EC numbers. Le fonctionnement de
EC-BLAST est décrit en Figure 21. Les trois niveaux de similarité sont décrits par des vecteurs
booléens, communément appelés « fingerprints ».
Une autre méthode de comparaison de réactions biochimiques basée sur les fingerprints est
RxnSim [220]. Elle utilise des signatures moléculaires des participants d’une réaction encodées
dans un ensemble de vecteurs binaires. Cet ensemble est construit en utilisant trois méthodes
pour capturer les signatures moléculaires à des niveaux différents de granularité. L’avantage de
cette méthode est de comparer les réactions sur la base des similarités entre les substrats et les
produits en plus de leur transformation chimique.
L’avantage des méthodes basées sur les fingerprints est que ceux-ci sont relativement faciles à
construire à partir des données structurales des molécules impliquées dans les réactions, et qu’il
est computationnellement facile de les comparer entre eux. Leur plus gros désavantage réside
dans leur limitation descriptive, car il faut définir chaque caractéristique qu’une molécule
biologique pourrait avoir pour la marquer ensuite comme présente ou absente dans la molécule
Figure 21. Description du workflow EC-BLAST (image extraite de Rahman et al. [219]).
![Page 102: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/102.jpg)
96
considérée, et cette description de toutes les possibilités peut être assez fastidieuse et requiert une
expertise humaine importante.
IV.1.6 Mécanisme réactionnel enzymatique Le concept de similarité des réactions est surtout étudié du point de vue des transformations
chimiques associées aux réactions, mais pas en termes du mécanisme réactionnel. La méthode de
mesure quantitative de similarité de réactions basée sur leur mécanisme explicite a été publiée en
2007 par O’Boyle et al. [221] et c’est la seule réellement efficace pour le moment. La différence
entre une transformation chimique d’une réaction et son mécanisme est que le mécanisme
présente en plus l’ordre des modifications des liaisons interatomiques, étape par étape. Deux
approches complémentaires sont utilisées par cette méthode pour mesurer la similarité entre les
étapes réactionnelles : une approche basée sur des fingerprints (représentés par des vecteurs) qui
incorporent les informations sur chaque étape mécanistique, et une approche basée uniquement
sur l’ordre des modifications des liaisons atomiques. La similarité globale de deux mécanismes
réactionnels est calculée en utilisant un algorithme d’alignement simple sur les fingerprints.
Il existe une base de données de mécanismes enzymatiques qui classifie les enzymes selon le
mécanisme utilisé pour catalyser les réactions – MACiE [222]. Une analyse de cette base de
données, en utilisant les résultats de classification des réactions selon leur mécanisme, a permis
une identification de mécanismes chimiques convergents (enzymes d’origines évolutives
différentes réalisant des transformations avec le même mécanisme). Cette analyse a d’ailleurs
souligné que la classification EC ne couvre pas la similarité de transformation chimique [221].
IV.1.7 Description des réactions avec MOLMAP Le descripteur MOLMAP (molecular maps of atom-level properties) [223] est relativement récent et
semble de plus en plus utilisé pour décrire les réactions. Ce descripteur moléculaire permet de
définir les types des liaisons covalentes par rapport à leurs propriétés physico-chimiques et
topologiques. Ainsi, le descripteur MOLMAP d’une molécule représente les types de liaisons
dans cette molécule. Par ailleurs, le descripteur MOLMAP d’une réaction, de la même façon que
![Page 103: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/103.jpg)
97
les RMS [41], se définit comme la différence des MOLMAPs des produits et des substrats de la
réaction. Il permet d’encoder d’une façon numérique les changements dans les liaisons
interatomiques au cours de la réaction. Ce système permet ainsi de classifier des réactions sur la
base des modifications de liaisons qu’elles engendrent dans les molécules participantes. Ce
système a notamment été utilisé pour assigner d’une façon automatisée des EC numbers aux
réactions enzymatiques [224].
IV.2 Méthodes pour détecter des protéines pour les enzymes orphelines
Le problème des enzymes orphelines pourrait être en partie résolu avec des techniques de fouille
de littérature, car seulement 80% de ces activités seraient vraiment orphelines de séquence [5], les
20% restantes ont leur séquences manquantes à cause du décalage dans les connaissances dans les
bases de données publiques et d’erreurs d’annotation.
Il existe plusieurs façons d’identifier des protéines candidates pour les enzymes vraiment
orphelines de séquences.
L’hypothèse que des enzymes participant à une même processus biologiques (i.e. une voie
métabolique) partagent une histoire évolutive commune, est à l’origine de l’utilisation des profils
phylogénétiques pour trouver des séquences candidates pour les enzymes orphelines [6]. La
méthode des profils phylogénétiques se base sur le fait que des protéines, ayant des vecteurs de
présence/absence similaires dans un ensemble d’espèces, sont souvent fonctionnellement liées
[156]. Ainsi, si deux protéines co-occurrent fréquemment dans des génomes, qu’une d’entre elles
est de fonction inconnue et l’autre catalyse une réaction métabolique voisine d’une réaction
orpheline, il y a de fortes chances que la protéine de fonction inconnue catalyse en fait la réaction
orpheline.
Une autre approche, basée également sur le contexte génomique, est de combiner les contextes
de co-localisation chromosomique et métaboliques [225, 226]. En effet, et c’est particulièrement
le cas chez les bactéries et archées, des gènes participant à un même processus cellulaire sont
![Page 104: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/104.jpg)
98
souvent co-localisés sur le chromosome dans des structures en opérons. En détectant des
métabolons [193], c’est à dire des groupes de gènes co-localisés codant pour certains des enzymes
catalysant des réactions voisines dans le réseau métabolique (i.e. liées entre elles par des
métabolites), on peut réussir, là aussi, à associer des gènes de fonction peu ou pas connue à des
gaps métaboliques (c’est à dire à des activités orphelines).
Un des problèmes de ces méthodes utilisant le contexte métabolique vient du fait que
généralement, dans les voies métaboliques, les réactions voisines de réactions associées à une
activité enzymatique orpheline sont elles aussi orphelines. Par conséquent, ces méthodes donnent
de bons résultats uniquement dans les cas où très peu d’enzymes orphelines sont présentes dans
une voie métabolique et qu’elles sont entourées d’enzymes non-orphelines.
Les données expérimentales post-génomiques, telles que celles issues de la transcriptomique
quantitative, de la protéomique, les structures tridimensionnelles ou encore les données de
phénotypes de croissance, peuvent aussi s’avérer très utiles pour associer des séquences aux
activités enzymatiques orphelines [7]. Il est notamment important de prendre en compte
simultanément les informations dans les organismes procaryotes et eucaryotes, pour trouver des
enzymes homologues partagées dans les différents règnes, ce qui pourrait aussi être utile dans
l’association de séquences à des activités enzymatiques orphelines locales [7].
Il n’existe donc pas encore de méthode parfaite qui permettrait de retrouver des séquences
protéiques candidates pour l’intégralité des enzymes orphelines mais, en combinant différentes
méthodes et approches présentées dans cette section, un certain nombre d’entre elles ont déjà été
résolues.
Dans le premier chapitre de cette thèse sont présentées différentes statistiques sur les enzymes
orphelines, de nouvelles perspectives pour l’association de séquences à ces activités et de
nouvelles définitions dans les lacunes sur les connaissances enzymatiques.
![Page 105: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/105.jpg)
99
IV.3 Recherche de chemins et de motifs dans le réseau métabolique
La représentation mathématique du métabolisme sous la forme d’un réseau facilite sa
manipulation et son exploration. Cette exploration peut notamment consister à rechercher des
voies métaboliques dans le réseau, ou encore des structures biologiquement importantes qui sont
indépendantes du reste (modules) ou répétées (motifs). Dans cette section, seront présentées les
différentes méthodes de recherche de telles structures.
IV.3.1 Recherche de voies métaboliques Trois approches sont possibles pour trouver de nouvelles voies métaboliques :
- la rechercher de sous-graphe ou de chemins dans le réseau métabolique
- la rétrobiosynthèse
- l’alignement de voies métaboliques qui utilise la similarité d’enchainements de réactions
entre des voies connues et de nouvelles voies potentielles.
Les trois approches sont présentées dans les sections suivantes.
IV.3.1.1 Recherche de sous-graphes ou chemins
L’analyse de données variées, expérimentales (e.g. transcriptomique, protéomique) ou non (e.g.
profils phylogénétiques, les opérons ou les groupes de synténie), permet la détection de groupes
de gènes/protéines dont les fonctions peuvent être reliées. Ces fonctions (i.e. activités
enzymatiques) peuvent ainsi être projetées sur le réseau métabolique de l’organisme étudié pour
déterminer des sous-graphes connexes pouvant correspondre à des voies métaboliques [227,
228]. Il existe plusieurs variations dans ces méthodes, en fonction du type des données
disponibles (données sur les gènes/protéines, ou sur les métabolites) et des approches
informatiques (utilisation d’hypergraphes ou de graphes pondérés).
![Page 106: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/106.jpg)
100
La pondération d’un réseau métabolique en fonction du degré de ses nœuds et la recherche de
chemins de score le plus bas est une méthode qui s’est montrée efficace pour la découverte de
voies métaboliques dans un réseau biparti [229]. La comparaison des chemins trouvés grâce à
cette technique pour la dégradation de l’arginine avec les voies métaboliques réelles en a prouvé la
cohérence.
Les modes élémentaires, introduits en 1999 par Schuster [230], sont aussi une bonne technique
pour trouver des voies métaboliques dans un réseau. Il s’agit de déterminer un ensemble minimal
de réactions pouvant opérer à l’état stable du système et où toutes les réactions irréversibles
procèdent dans la direction appropriée. Pour être qualifiée de mode élémentaire, une voie
métabolique doit respecter l’équilibre stœchiométrique et ne doit pas pouvoir être décomposée en
sous-chemins plus petits respectant cette propriété.
L’atom tracking (le suivi des atomes) est aussi un bon moyen de trouver des voies métaboliques
cohérentes dans un réseau métabolique. Des algorithmes [231, 232], étant donné un métabolite
de départ et un d’arrivée, recherchent des chemins basés sur la conservation des atomes en
suivant leurs échanges dans un réseau métaboliques. Ces méthodes permettent de trouver des
voies métaboliques linéaires, mais aussi ramifiées.
Ces méthodes de recherche de sous-graphes ou chemins dans un réseau métabolique se limitent
uniquement à l’univers des réactions décrites dans le réseau et ne peuvent donc pas trouver des
voies métaboliques composées de nouvelles réactions.
IV.3.1.2 Rétro(bio)synthèse
La biosynthèse est un processus biologique dont les étapes sont catalysées par des enzymes,
transformant les substrats dans des produits complexes. C’est un processus naturel faisant partie
du métabolisme. L’émergence de l’ingénierie métabolique, où le génome d’un organisme est
spécialement modifié pour lui faire acquérir de nouvelles compétences métaboliques, permet de
créer des organismes capables de synthétiser des métabolites d’intérêt pour des applications
industrielles ou pharmaceutiques, qu’ils ne pourraient pas synthétiser naturellement.
La rétrobiosynthèse est une technique de résolution de problèmes dans le design de ces
nouvelles voies métaboliques. Elle consiste à décomposer récursivement le composé chimique
![Page 107: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/107.jpg)
101
d’intérêt en précurseurs, en suivant des chemins de transformations jusqu’à des molécules
disponibles dans le commerce à moindre coût ou naturellement produites par l’organisme
modifié. Dans le cas de l’ingénierie métabolique, la rétrobiosynthèse consiste à appliquer des
transformations chimiques réverses (c’est à dire des réactions catalysées par des enzymes dans le
sens réverse) au produit souhaité, en suivant des chemins jusqu’aux substrats endogènes à
l’organisme modifié. Le but final est d’identifier les gènes des enzymes à insérer dans l’organisme
pour le rendre capable de synthétiser une molécule d’intérêt. Un exemple de voie de
rétrobiosynthèse est celle de la production du taxol dans la levure [29].
Souvent, la synthèse d’un composé chimique va avoir plus d’un chemin de synthèse possible. La
rétrobiosynthèse permet de sélectionner les meilleurs chemins, notamment grâce à l’étude du
rendement catalytique des enzymes et son optimisation.
Ainsi, les approches de rétrobiosynthèse permettent de trouver de nouvelles voies métaboliques.
Deux d’entre elles sont présentées dans ce manuscrit.
Le framework BNICE (Biochemical Network Integrated Computational Explorer) [233] permet de
générer de nouvelles réactions biochimiques à partir d’un ensemble de règles de réactions
enzymatiques et d’un ensemble de composés chimiques de départ. Cette technique permet, à
partir de nos connaissances sur les activités enzymatiques, de simuler toutes les façons dont les
composés chimiques peuvent être transformés, ce qui peut permettre la découverte et le design
de nouvelles voies métaboliques. L’algorithme M-path [234] fonctionne aussi sur ce principe. A
partir des connaissances sur les métabolites et les réactions enzymatiques disponibles dans les
bases de données publiques, il permet de générer des voies métaboliques et des réactions
enzymatiques potentielles.
RetroPath [235] est un pipeline automatisé qui permet l’exploration des possibles circuits
métaboliques à partir des signatures moléculaires des métabolites et des réactions (RMS) [236] et
de sélectionner les meilleures voies métaboliques possibles en fonction des contraintes
souhaitées. Les molécules potentielles pouvant être produites par les réactions données sont
énumérées et permettent l’assemblage de nouvelles voies métaboliques (synthétiques). Intégré
dans une approche globale comprenant aussi la recherche de gènes codant pour des enzymes
pouvant catalyser les réactions d’intérêt, et la prédiction du potentiel promiscuitaire de ces
enzymes grâce à l’apprentissage artificiel, il s’agit d’une méthode efficace de prédiction ab initio de
chemins métaboliques.
![Page 108: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/108.jpg)
102
Il faut cependant se rappeler qu’une bonne modélisation du réseau métabolique est nécessaire
pour découvrir efficacement de nouvelles voies métaboliques. En effet, les métabolites
ubiquitaires et secondaires ainsi que le sens des réactions, peuvent poser problème et entrainer
des prédictions fausses.
IV.3.1.3 Alignement de voies métaboliques
A la fin du siècle dernier, des approches de comparaison et d’alignement de voies métaboliques
entre les organismes ont commencé à émerger [237]. Depuis, des méthodes de plus en plus
élaborées ont été publiées pour comparer et aligner efficacement, et surtout automatiquement, les
voies métaboliques.
Il est important d’être capable de détecter à la fois une topologie similaire entre des voies
métaboliques, mais aussi de prendre en compte les étiquettes sur les nœuds (les enzymes que ces
nœuds représentent). L’algorithme MetaPathwayHunter [238], notamment, permet d’aligner les
voies métaboliques sur ces deux critères simultanément.
L’alignement des voies métaboliques en se basant sur la structure des molécules chimiques
impliquées dans les réactions peut aussi s’avérer très efficace. Il s’agit de mesurer la similarité de
structure des métabolites. Ces structures peuvent être représentées par différents descripteurs
moléculaires qui sont comparés ensuite sous la forme de fingerprints en utilisant des métriques
comme le coefficient de Tanimoto ou de Jaccard. Cette méthode a, notamment, été appliquée par
Tohsato et al. [239] pour mettre en évidence des similarités entre les voies de biosynthèse du
glucose, du mannose et du galactose chez Escherichia coli. L’alignement des molécules entre voies
métaboliques permet aussi faire du mapping d’une molécule d’une voie métabolique donnée sur
plusieurs molécules d’une autre voie métabolique, ce qui serait biologiquement plus correct. Cette
approche, combinée à la comparaison de topologie de voies métaboliques intégrée dans SubMAP
[240] a été testée sur les données de KEGG et permet d’aligner très efficacement des voies
métaboliques entre elles, et est donc un bon outil de recherche de nouvelles voies métaboliques
par ce biais.
![Page 109: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/109.jpg)
103
La comparaison des modifications subies par les molécules au cours des réactions peut aussi être
utilisée pour aligner les voies métaboliques entre elles [241]. Les voies métaboliques peuvent
d’ailleurs aussi être directement alignées sur les réactions (et non pas sur les molécules et/ou leur
modifications), à condition de pouvoir aligner une réaction sur plusieurs autres et ainsi prendre
en compte la variabilité enzymatique inter-espèces (CAMPways [242]).
La détection de similarités entre voies métaboliques par leur alignement permet aussi de détecter
des séquences répétées de réactions similaires dans le réseau métabolique (motifs) ainsi que des
ensembles de réactions relativement indépendants du reste de ce réseau (modules). Ces deux
notions, ainsi que les méthodes orientées spécialement vers leur détection, sont présentées dans
la section suivante.
IV.3.2 Motifs dans le métabolisme & modules de réactions
Des blocs fonctionnels réalisant la même chimie sont souvent retrouvés dans les réseaux
métaboliques. On peut donc supposer que l’évolution du métabolisme peut se faire par blocs
conservés de transformations chimiques qui se diversifient en termes de réactions spécifiques
[243]. C’est d’ailleurs autour de cette constatation que s’est construit le travail présenté dans cette
thèse. Ces blocs fonctionnels peuvent être perçus de deux façons différentes dans les
représentations mathématiques du métabolisme : comme des motifs et comme des modules. La
différence entre ces deux notions est illustrée dans la Figure 22. Concrètement, il faut retenir
qu’un motif est répété et qu’un module est autonome. Dans un réseau métabolique, un module
correspondrait à un sous-graphe qui aurait plus de connections entre ses éléments qu’avec les
autres éléments. Pour comprendre la notion de motif dans un réseau métabolique, il faut
imaginer que les nœuds partageant une même propriété (métabolites appartenant à une même
classe chimique ou réactions effectuant le même type de transformation sur les molécules, par
exemple) sont coloriés de la même façon. Le même enchainement d’un ensemble de couleurs
répété à différents endroits du réseau sera considéré comme un motif. Les motifs sont donc des
outils très pratiques pour détecter des cooccurrences fréquentes d’un ensemble de
transformations chimiques qui peuvent être considérés comme des modules conservés.
![Page 110: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/110.jpg)
104
Dans les deux cas, la recherche de telles sous-structures topologiques peut s’apparenter à la
recherche d’ensembles de réactions et/ou de métabolites d’importance biologique, ce qui
ressemble beaucoup à la recherche de voies métaboliques. Il existe un certain nombre de
définitions et méthodes de recherche de modules et de motifs dans les réseaux métaboliques,
quelques unes sont présentées dans les sections suivantes.
Figure 22. Motif vs module.
IV.3.2.1 Motifs dans le métabolisme
Dans un réseau biologique, un « motif » est souvent défini comme un ensemble de connections
qui se retrouve de manière exceptionnelle dans un réseau (c’est à dire qui apparaît
significativement plus souvent qu’un ensemble aléatoire de connections). Dans ce cas, où seule la
topologie des connections entre les nœuds compte, on parle de « motifs topologiques » [244,
245].
Une définition améliorée d’un motif, particulièrement adaptée aux réseaux métaboliques, a été
proposée par la suite par Vincent Lacroix [25]. Dans le contexte d’un graphe de réactions, tous
les nœuds ne sont pas équivalents. On peut les distinguer par classes fonctionnelles (qu’on peut
![Page 111: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/111.jpg)
105
aussi appeler « couleurs » pour imager et généraliser le concept). La topologie exacte de
l’ensemble des nœuds n’a alors qu’une importance secondaire, tant que les nœuds sont connectés.
Ici, un motif, que l’on appellera « motif coloré », est un multi-ensemble de classes fonctionnelles
de réactions prises dans toutes les classes fonctionnelles de réactions possibles apparaissant dans
le réseau. Plus le motif est fréquent, plus il a d’occurrences dans le réseau, et plus il a donc une
signification biologique importante. La recherche de motifs, topologiques comme colorés, est un
problème difficile du point de vue computationnel (NP-complet) [246].
Cette figure présente un exemple de voies impliquées dans la biosynthèse d’acides aminés (Figure
23). Dans la biosynthèse de la valine, de la leucine et de l’isoleucine, on constate que l’on retrouve
des nœuds appartenant aux mêmes classes fonctionnelles de réactions (dans l’exemple présenté
dans la figure, les réactions sont classées ensemble si elles sont toutes les deux annotées avec les
mêmes trois premiers nombres d’EC numbers).
IV.3.2.2 Modules dans le métabolisme
Un module réactionnel est un ensemble conservé de transformations chimiques. Un motif de
réactions conservé dans un réseau métabolique est finalement un outil pour détecter des modules
de transformations conservés. Ces modules peuvent être considérés comme des briques de
construction d’un réseau métabolique et reflètent une logique chimique d’un enchainement de
Figure 22. Exemple d’un motif dans le métabolisme (image extraite de Lacroix et al. [25]). Dans la biosynthèse de la leucine, valine et isoleucine, une partie des réactions impliquées sont annotées avec des EC numbers similaires (au moins les trois premiers nombres des EC numbers identiques).
![Page 112: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/112.jpg)
106
réactions dans le métabolisme. Les limites des modules correspondent souvent aux voies
métaboliques ou à des sous parties. Deux méthodes de recherche de modules seront présentées
ici.
La détection des RModules [27] dans les voies métaboliques de KEGG est basée sur la
classification des réactions selon leur RClass (cf. section IV.1.2). Les RClass étant trop précises
pour décrire les réactions, Muto et al. ont comparé les RClass en utilisant des fingerprints pour
obtenir au final 376 groupes de réactions (et 1190 singletons) ayant des RClass similaires. Les
voies métaboliques de KEGG ont ensuite été alignées à partir d’un calcul de tous les chemins
possibles de réactions (de longueur de 2 à 8 réactions) convertis en groupes de RClass. Ils ont
obtenu entre 88 (longueur 8) et 928 (longueur 2) chemins conservés. Cependant, cette méthode
demande une curation manuelle car la classification des réactions selon les groupes de RClass ne
garantit pas la conservation de la transformation chimique entre des réactions d’un même groupe
du à l’utilisation des fingerprints.
Une curation manuelle a donc été réalisée par les auteurs pour arriver au final à une liste de 34
modules conservés (http://www.kegg.jp/kegg/reaction/rmodule.html).
L’identification de modules conservés de réactions peut aussi se baser sur l’homologie des
enzymes qui catalysent des réactions. Ainsi, un module réactionnel peut être défini comme au
moins deux réactions successives catalysées par des enzymes homologues dans des voies
métaboliques alignables par rapport à leur similarité de réactions. Cette définition a notamment
permis d’identifier des similarités réactionnelles et enzymatiques dans le catabolisme des purines,
ce qui a entrainé la découverte d’une nouvelle voie de dégradation [26].
![Page 113: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/113.jpg)
107
IV.4 Visualisation des réseaux
Une partie de l’analyse de réseaux et de voies métaboliques peut se faire en visualisant les
données. Il existe un certain nombre d’outils qui permettent de visualiser d’une façon efficace les
données sous forme de réseaux. Tout d’abord, les grandes ressources de données métaboliques,
KEGG [98] et BioCyc [91] proposent une visualisation des voies métaboliques. Cependant, pour
une analyse globale d’un réseau métabolique, le visualiser en entier est plus intéressant. Les deux
ressources proposent donc des cartes métaboliques globales, où l’utilisateur peut colorier les
nœuds, mais il y a un manque d’interactivité et de possibilité d’édition des réseaux affichés.
Plusieurs logiciels, permettant à l’utilisateur d’interagir, d’éditer et d’analyser directement les
réseaux, existent.
Cytoscape [247], le plus populaire dans la communauté bioinformatique, est codé en langage
Java et présente de nombreux avantages. La possibilité d’intégrer au logiciel diverses applications
développées par la communauté en fait un outil d’analyse, en plus d’être un outil de visualisation.
Il offre aussi la possibilité d’interactions directes avec les grandes bases de données publiques
biologiques en croisant les données très facilement. Son plus gros défaut vient de sa
consommation de ressources mémoires de l’ordinateur sur lequel il est exécuté, ce qui peut
ralentir fortement les interactions humaines avec le logiciel. Tulip [248] est un autre logiciel de
visualisation particulièrement bien adapté à de très grandes quantités de données. Ecrit en langage
C++, il offre un certain nombre de possibilités pour l’exploration rapide de réseaux biologiques,
notamment le croisement efficace avec les bases de données biologiques publiques. Gephi [249]
le dernier présenté ici, est un logiciel de visualisation et d’analyse de graphes qui utilise un moteur
de rendu tridimensionnel qui permet l’affichage des réseaux en temps réel et d’en accélérer
l’exploration.
![Page 114: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/114.jpg)
108
Limites : Réactions métaboliques non-enzymatiques
Il est convenu que les réactions transformant les petites molécules dans le métabolisme sont
spontanées ou catalysées par des protéines enzymatiques. Cependant, il existe des enzymes non-
protéiques, qui catalysent avec succès des réactions métaboliques. Leur présence peut expliquer
notamment l’existence d’activités enzymatiques orphelines. Elles sont aussi un grand challenge
pour la reconstruction métabolique à l’échelle génomique, car elles sont difficiles à prédire avec
les moyens actuels. Parmi les catalystes non-protéiques, on retrouve principalement les
ribozymes (aussi appelées RNA catalytique ou RNAzymes et qui sont des complexes
moléculaires constitués d’ARN pur ou d’une association entre des molécules d’ARN et des
peptides), des glycolipozymes [250, 251] qui sont des molécules composées d’un sucre et d’un
lipide et ayant une activité assimilée à une activité enzymatique et les DNAzymes [252]
(molécules d’ADN capables de repliement et de catalyse). Les ribozymes sont assez largement
étudiées, car sont considérées comme les vestiges du « monde à ARN » par les défenseurs de
cette théorie de l’évolution. De nombreuses publications [253–255] peuvent être consultées pour
en apprendre plus sur cette partie passionnante du métabolisme. Par ailleurs, le prix Nobel de
Chimie 1989 a été décerné à Thomas R. Cech et Sidney Altman pour la découverte des propriétés
catalytiques de l’ARN. Les glycolipozymes, par contre, sont encore très méconnues et n’ont été
découvertes qu’au début des années 2010 [250]. Elles auraient une activité liée au transport
transmembranaire, mais beaucoup de travail reste encore à faire pour comprendre comment elles
fonctionnent réellement, si elles sont fréquentes dans la nature et pour éventuellement établir une
stratégie pour en découvrir de nouvelles. Quand aux DNAzymes, ce sont des constructions
artificielles à partir d’ADN, sélectionnées pour leurs capacités d’auto-repliement, de fixation et de
catalyse de ligands. La recherche dans ce domaine est relativement récente (on parle pour la
première fois d’oligomères d’ADN ayant une fonction catalytique dans les années 1990 [256]) et
reste relativement discrète.
Pour conclure cette partie sur les réactions métaboliques non-enzymatiques, je voudrais évoquer
l’une des branches de la biologie de synthèse en plein développement, le XNA et les XNAzymes
[257]. Les XNA, pour « xeno-nucleic acids » sont des polymères génétiques synthétiques
composés de briques non-naturelles comme des sucres et des nucléobases alternatifs ou
connectés entre eux par une structure chimique différente. Les aptamères (oligonucléotides
![Page 115: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/115.jpg)
109
synthétiques capables de fixer un ligand) de XNA sont capables de se replier, de fixer des ligands,
sont plus résistants que l’ADN et l’ARN et sont aussi capables de catalyser des réactions
métaboliques [258]. De plus, un certain nombre de systèmes génétiques synthétiques constitués
de XNA supportent les notions d’hérédité et peuvent évoluer [259]. Toutes ces caractéristiques
font des XNAzymes des outils alternatifs très intéressants pour la biologie de synthèse.
L’avenir de l’étude du métabolisme réside donc non seulement en la compréhension de plus en
plus précise de son fonctionnement, mais aussi à la création de nouvelles briques de celui-ci.
![Page 116: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/116.jpg)
110
![Page 117: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/117.jpg)
111
Chapitre I Actualisation des connaissances sur les activités enzymatiques orphelines de séquences
Les activités enzymatiques orphelines de séquences (surnommées aussi « enzymes orphelines »)
sont des activités enzymatiques connues et validées expérimentalement dans au moins un
organisme, mais pour lesquelles aucune protéine n’est connue pour les catalyser. Environ 20%
des activités enzymatiques annotées par un EC number sont orphelines de séquences. Ces
lacunes dans la connaissance sur les enzymes sont problématiques pour plusieurs raisons. En
effet, lors de la reconstruction des réseaux métaboliques à partir de génomes entiers, l’absence
d’association séquence-réaction laisse des trous dans les modèles métaboliques et engendre donc
des prédictions erronées. Aussi, l’absence de gène associé à ces activités orphelines ne permet pas
de produire l’enzyme en laboratoire par des techniques de biologie moléculaires et complique
ainsi une caractérisation biochimique fine. De même, cette lacune ne facilite pas l’utilisation ou la
modification de l’activité enzymatique dans des applications en ingénierie métabolique ou en
biologie de synthèse.
Dans ce premier chapitre, est présenté une revue complète des enzymes orphelines, publiée en
juin 2014 dans le journal Biology Direct. Un cas particulier d’activités enzymatiques orphelines, les
enzymes orphelines « locales » (par opposition aux classiques, qui elles sont « globales »), est
réintroduit et développé. Ces activités ont des séquences connues qui leur sont associées dans un
groupe taxonomique donné, mais pas dans un autre alors que l’activité a été également
caractérisée. Pour déterminer si un candidat homologue aux enzymes connues pourrait être
présent dans ces organismes orphelins, une stratégie simple, basée sur la méthode PRIAM [143],
a été appliquée. Cette méthode utilise des profils spécifiques à une activité enzymatique (plus
![Page 118: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/118.jpg)
112
sensibles et spécifiques qu’une simple comparaison de séquence par BLAST [13] pour détecter
par similarité de séquences des protéines candidates. Finalement, une étude de la relation entre les
familles de protéines et les activités enzymatiques auxquelles elles sont associées a été réalisée.
Une réflexion sur la promiscuité enzymatique et la multifonctionnalité des protéines conclut cette
revue sur les enzymes orphelines.
![Page 119: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/119.jpg)
Sorokina et al. Biology Direct 2014, 9:10http://www.biologydirect.com/content/9/1/10
REVIEW Open Access
Profiling the orphan enzymesMaria Sorokina1,2,3*, Mark Stam1,2,3, Claudine Médigue1,2,3, Olivier Lespinet4,5,6 and David Vallenet1,2,3*
Abstract
The emergence of Next Generation Sequencing generates an incredible amount of sequence and great potentialfor new enzyme discovery. Despite this huge amount of data and the profusion of bioinformatic methods forfunction prediction, a large part of known enzyme activities is still lacking an associated protein sequence. Theseparticular activities are called “orphan enzymes”. The present review proposes an update of previous surveys onorphan enzymes by mining the current content of public databases. While the percentage of orphan enzymeactivities has decreased from 38% to 22% in ten years, there are still more than 1,000 orphans among the 5,000entries of the Enzyme Commission (EC) classification. Taking into account all the reactions present in metabolicdatabases, this proportion dramatically increases to reach nearly 50% of orphans and many of them are notassociated to a known pathway. We extended our survey to “local orphan enzymes” that are activities which haveno representative sequence in a given clade, but have at least one in organisms belonging to other clades. Weobserve an important bias in Archaea and find that in general more than 30% of the EC activities have incompletesequence information in at least one superkingdom. To estimate if candidate proteins for local orphans could beretrieved by homology search, we applied a simple strategy based on the PRIAM software and noticed thatcandidates may be proposed for an important fraction of local orphan enzymes. Finally, by studying relationbetween protein domains and catalyzed activities, it appears that newly discovered enzymes are mostly associatedwith already known enzyme domains. Thus, the exploration of the promiscuity and the multifunctional aspect ofknown enzyme families may solve part of the orphan enzyme issue. We conclude this review with a presentation ofrecent initiatives in finding proteins for orphan enzymes and in extending the enzyme world by the discovery ofnew activities.Reviewers: This article was reviewed by Michael Galperin, Daniel Haft and Daniel Kahn.
Keywords: Orphan enzyme activities, Enzyme discovery, Metabolic pathways, Enzyme promiscuity, Data survey,Biological databases, Local orphan enzymes
ReviewNew progress in sequencing technologies generatesthousands of new sequences each day. With the largepublic sequence databases combined with efficient bio-informatic methods, it is possible to predict the functionof some new proteins mainly by comparative genomicsapproaches. Nevertheless, millions of protein entries arenot assigned reliable functions due to the lack of trust-worthy annotations and the drawbacks of homology-basedpredictions [1]. This shortcoming illustrates our limited
* Correspondence: [email protected]; [email protected] des Sciences du Vivant, Commissariat à l’Energie Atomique (CEA),Institut de Génomique, Genoscope, Laboratoire d’Analyses Bioinformatiquespour la Génomique et le Métabolisme, 2 rue Gaston Crémieux, 91057 Evry,France2CNRS-UMR8030, 2 rue Gaston Crémieux, 91057 Evry, FranceFull list of author information is available at the end of the article
© 2014 Sorokina et al.; licensee BioMed CentraCommons Attribution License (http://creativecreproduction in any medium, provided the orDedication waiver (http://creativecommons.orunless otherwise stated.
knowledge of the functional diversity in the protein worldand restricts the analyses of an organism starting from itsgenome. This is particularly the case for enzymatic activ-ities that can be predicted by gene functional assignmentsand used as a starting point to reconstruct genome-scalemetabolic models.The first enzyme was discovered and isolated in 1833 by
Anselme Payen [2]. It was the first time a non-living com-pound was shown to have properties of an organic catalyst,a discovery which shook the scientific community. Thisenzyme was named “diastase” (now called α-amylase) andthe suffix –‘ase’ will be henceforth used to refer to enzymes.Since then, the number of discovered enzymes has continu-ally increased, thanks to the experimental work of chemistsand biologists. In the beginning of enzymology, the namingof enzyme was not systematic. Many different enzymes
l Ltd. This is an Open Access article distributed under the terms of the Creativeommons.org/licenses/by/4.0), which permits unrestricted use, distribution, andiginal work is properly credited. The Creative Commons Public Domaing/publicdomain/zero/1.0/) applies to the data made available in this article,
![Page 120: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/120.jpg)
Sorokina et al. Biology Direct 2014, 9:10 Page 2 of 16http://www.biologydirect.com/content/9/1/10
were given similar names and, on the other hand, the sameenzymes had several names. An Enzyme Commission,whose first meeting took place in 1961, was created to giverules and recommendations that could be implemented forthe systematic naming of enzymes [3]. Enzyme activitiesare nowadays classified with EC (Enzyme Commission)numbers, a nomenclature maintained by the IUBMB(International Union of Biochemistry and MolecularBiology) [4-6]. To be integrated into the EC classification,an activity must be observed and biochemically character-ized without the necessity to identify the associated proteinthat catalyzes the reaction.Since 2003, several teams around the world have no-
ticed that many EC numbers have no identified coding
Figure 1 Orphan enzyme chronicles. Studies on orphan enzymatic activ
sequences for the enzymes catalyzing the correspondingactivities (Figure 1). In order to fill the missing knowledgebetween genes and their function, Richard J. Robertscalled, in 2004, for a community action for the annotationof genes of unknown function in microbial genomes [7].The same year, Peter Karp proposed an enzyme genomicinitiative to associate at least one protein sequence forevery biochemically characterized enzymatic activity [8].He noticed that many EC numbers (38% among 3,736entries) were lacking an associated nucleic or proteinsequence in public databases, a problem that hadn’t beenreally considered before by the scientific community. Heobserved that his estimation could be biased as the ECclassification does not cover all known enzymatic activities.
ities in the past ten years.
![Page 121: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/121.jpg)
Sorokina et al. Biology Direct 2014, 9:10 Page 3 of 16http://www.biologydirect.com/content/9/1/10
Indeed, in sequence databases, some entries are missing anEC number even if a correct textual description of theenzymatic activity is annotated. He proposed to takeadvantage of the numerous accessible sequenced genomesand to cross this genetic information with published exper-iments that have characterized the enzymatic activities.This first data mining step should identify some candidateproteins which could be experimentally validated.In 2005, sequence-lacking enzymatic activities were
named “orphan enzymes” by Bernard Labedan and Oliv-ier Lespinet in an open letter [9]. They conducted asimilar analysis to that of Peter Karp and showed that42% of the EC numbers were orphan enzymes (1,625 ECnumbers among 3,820). One of the main surprises ofthis study was the fact that 200 organisms had orphanenzymes, despite the availability of their complete gen-ome. They also noticed that, in several cases, the proteincatalyzing the enzymatic activity had been identified butnot sequenced. The following year they published twoexploratory articles on orphan enzymes [10,11]. Theproportion of orphan enzymes was updated, giving aslight decrease of 3% (39% of orphans, 1,525 EC entriesamong 3,877). They pointed out that a number of path-ways (~100) had at least one orphan enzyme. They alsomade several remarks on the use of EC numbers. More-over, they created a public database, called ORENZA,listing all orphan enzymes present in the EC nomencla-ture and allowing users to perform queries by trackingthem between organisms and pathways [10].In 2007, Lifeng Chen and Dennis Vitkup carried out a
very detailed review on the historical accumulation oforphan enzyme activities and a wide range of statisticalanalyses on their distribution across different classifications[12]. They found 1,360 orphans, representing 34% of the4,003 valid EC entries. They investigated the number ofbiochemical characterizations per year of discovery andnoticed that it decreased in the 1970s and 1990s. A studyof the relation between orphan enzymes and their pathwayneighbors was conducted: 39% of network neighbors fororphan activities were orphan themselves, compared with29% for neighbors of non-orphan activities. They alsonoticed that a majority of orphan activities were found inthe most studied organisms. Finally, they pinpointed apossible bias in the EC classification because many reac-tions in metabolic databases were not associated with anyEC number. Considering this limitation, they estimated thatup to 50% of all know biochemical reactions were orphan.Here, we present an extended review on orphan
enzyme activities by updating previously conductedsurveys and performing new analyses. We first updatethe estimation of the number of orphan enzymes andinterpret their decrease in the light of past and recentenzyme activity discoveries. As the EC classificationdoes not totally cover all known activities, we briefly
introduce two main metabolic databases and analyzetheir content to estimate orphans at the reaction level.Also, an analysis of their connectivity in metabolic net-work is made. The concept of orphan enzymes is thenextended to local orphans (i.e. activities which have norepresentative sequence in a given clade, but have onein other organisms) and an analysis is made at thesuperkingdom level to estimate their number and toevaluate if candidate proteins for local orphans couldbe retrieved by sequence homology. Finally, we exposethe notion of promiscuity and multifunctionality in theenzyme world and explore the relation between proteindomains and catalyzed activities. In conclusion, wepresent some new initiatives and concepts of interest toreduce the number of orphan enzymes but, also, to extendthe landscape of enzymes by finding new activities.
An updated view of orphan enzymesIn this study, we estimated the number of orphan enzymesby using EC numbers present in the IntEnz [13] andUniProt [14] databases (versions of February 2013).UniProt is a resource of proteins where enzymatic activ-ities are described using the EC classification. Only validand complete EC entries were considered without takinginto account deleted or transferred entries. We alsoconsidered as valid entries the nearly 100 provisionalEC numbers of IntEnz waiting to be confirmed by theIUBMB. It appears that 22.4% of the enzymatic activitiesare orphans; among the 5,096 EC numbers, 1,143 entrieshave no associated protein in UniProt. As noticed previ-ously [12], the proportion of orphan enzymes is not uni-formly distributed across the different classes of the ECnomenclature: in EC class 1 the fraction is 25%, 26% inclass 2, 19% in class 3 and 4, 15% in class 5 and 13% inclass 6 (Additional file 1: Figure S1.1 and Additional file 2:Table S2.1 for the complete list of orphan EC numbers).In comparison with the first study made by Peter Karp
in 2003 [8], we observe a significant decrease in thenumber of orphan activities (−294 EC entries) whilethe number of EC entries has increased considerably(+1,360 entries) in the last ten years. To interpret thisresult, we performed a survey of the EC classificationdynamics in terms of entry creations and updates (Figure 2).Since 2010, more than 800 EC numbers have been createdand a substantial number of old entries have beenre-classified (i.e. deleted or transferred to another entry).Over the last few years, the EC commission has consider-ably enhanced its activity and increased the coverage ofthe EC classification in terms of number of new enzymaticactivities. Before the year 2000, the EC classification wasnot updated regularly each year, whereas new EC numbersare now created several times a year, suggesting that theEnzyme Commission tries to minimize the time betweenthe publication of a new activity and its EC attribution.
![Page 122: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/122.jpg)
Figure 2 EC classification evolution over years. (a) Snapshot of EC number status by year of creation. This barplot represents the number ofcreated EC numbers over years and the proportion of nowadays active entries in red and transferred/deleted entries in pink. (b) Dynamics of theEC entry creations and status changes over years. This barplot represents the number of EC entry modifications over years: creation (yellow), transfer(light red) and deletion (dark red).
Sorokina et al. Biology Direct 2014, 9:10 Page 4 of 16http://www.biologydirect.com/content/9/1/10
Nevertheless, many of these new EC entries correspond toolder biochemical characterizations as depicted in Figure 3,where the delay between activity discoveries and corre-sponding EC creations is shown. This pitfall limits thesearch of enzymes in public databases since EC numbersare the only standardized way for scientists to publish anenzymatic activity associated with a protein sequence.Moreover, many recently characterized activities haveno associated protein entries, see Figure 4. We can sup-pose that the annotations of the corresponding proteinswere not updated accordingly with the correct completeEC numbers. This delay of knowledge in databases,which was reported by Yannick Pouliot and Peter Karpin 2007 [15], remains the case today and it impacts theevaluation of orphan enzymes because numbers ofrecently discovered enzymes are wrongly considered asorphans. These authors defined a strategy in order todetermine which orphans might be salvageable andextrapolated that around 18% of them can be solvedwith a literature search. At the time of writing, this typeof analysis was applied to a wide list of orphan ECnumbers [16]. The authors found protein sequencesfor about 270 activities among 1,122 putative orphanenzymes that were extracted from databanks in 2009.Using their results and the current knowledge in data-banks, protein entries for 112 false orphans could beupdated with the corresponding activities and literatureevidences.
To get a better view of the dynamics of the enzymediscovery in the past century, we computed the numberof characterized activities over the years, represented bythe solid red curve in Figure 5. As previously reportedby Chen et al. [12] several phases can be observed.The 1930s and 1940s correspond to the beginning ofbiochemistry with a few numbers of characterizedenzymatic activities. The 1950s and 1960s then saw anexplosion of newly discovered activities due to tech-nical progress in biochemistry and scientists’ increas-ing interest in this new field. This golden age ofbiochemistry took place in parallel with the progress inDNA knowledge and the emergence of molecular biol-ogy. These two complementary disciplines synergizedin the 1980s and 1990s as shown by a second peak ofenzymatic activities in Figure 5. Simultaneously, thenumber of activities associated for the first time with aprotein sequence increased considerably (dashed greencurve in Figure 5). Before this period, the purificationand the direct sequencing of proteins were laboriousand very few enzyme sequences were determined as itrequired highly purified polypeptides and was limitedto short polypeptides. The improvements in molecularbiology techniques, like DNA sequencing and expressioncloning, permitted quick association between nucleicsequences (i.e. genes) and enzymes, whether the latterwas long-known or recently discovered. The emergence ofwhole-genome sequencing projects and then, the Next
![Page 123: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/123.jpg)
Figure 3 Delayed knowledge in the EC classification. Heatmap of the number of EC entries reported by the year of the activity discovery(X axis) versus the year of the corresponding EC entry creation (Y axis). The square’s shade of gray is proportional to the number of EC entries.A delay can be observed between the discovery of an activity and the creation of the corresponding EC number.
Sorokina et al. Biology Direct 2014, 9:10 Page 5 of 16http://www.biologydirect.com/content/9/1/10
Generation Sequencing (NGS) technologies should haveeased the discovery of associations between genes andenzymatic activities. Unfortunately, since the year 2000the number of newly discovered activities is not main-tained at the established level and starts to dramaticallydecrease (Figure 5). It may be due to difficulties inpublishing such biochemical characterizations, and alsoto the fact that funding is now directed towards otherpriorities. The gap between the number of sequencespresent in public databases and the number of cha-racterized enzymes continues to increase dramatically[17-19]. In 2010, Hanson et al. pointed out the dualproblem of increasing number of proteins of unknownfunction produced by genome projects, facing the orphanenzymes missing sequence information [20]. Theysuggested using experimental data and comparativegenomics in order to predict candidate genes.
Orphan enzymes in the metabolic worldIt is important to distinguish the terms “enzyme” and“enzymatic activity”. The first designates a protein ableto catalyze a chemical reaction and the second one thechemical reaction catalyzed by the enzyme. Therefore, anEC number does not represent the enzyme itself, but onlythe activity. As a consequence, non-homologous isoen-zymes (i.e. with different ancestral origin) may share thesame EC number as they catalyze the same enzymaticreaction. In the case of substrate promiscuity, differentEC numbers may exist to give precision to the nature oftransformed compounds. Otherwise, only one EC numbermay be available and represents a generic transformationthat could occur on different substrates (e.g. alcoholdehydrogenase, hexokinase). The promiscuity aspect ofenzymes is extensively described below. Besides, a samechemical transformation may be represented by different
![Page 124: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/124.jpg)
Figure 4 Proportion of orphan EC activities by their year of discovery. This bar plot represents the proportion of orphans among all discoveredEC activities for a given year. In the aim to easily represent their evolution, the data is smoothed by a non-parametric local regression (blue line).
Figure 5 The dynamics of enzyme discovery. The solid red line represents the number of enzymatic activities by their year of discovery, whichis estimated by using the earliest publication linked to the corresponding EC entries in IntEnz database. If no publication is mentioned, the year ofcreation of the EC entry is used instead. The dotted green line represents the number of activities associated to a biological sequence for the first time.The year of protein-EC number association is estimated using UniProt’s PubMed cross-references and by selecting only articles with less than ten othercited proteins in order to avoid publications related to the sequencing of large genomic regions. The artefact peak in 1961 is due to large number ofcreated entries during the first EC meeting, where many activities were assigned to an EC number without any tractable publication.
Sorokina et al. Biology Direct 2014, 9:10 Page 6 of 16http://www.biologydirect.com/content/9/1/10
![Page 125: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/125.jpg)
Sorokina et al. Biology Direct 2014, 9:10 Page 7 of 16http://www.biologydirect.com/content/9/1/10
EC numbers when, for example, different cofactors areused. This multiplicity between related activities and ECnumbers may lead to discrepancies in databases and masksome orphan enzymes. Another point, reported by Greenet al. [21], is the ambiguity in the use of incomplete ECnumbers that could lead to enzyme annotation errors inpublic databases. This is because incomplete EC numbersdon’t distinguish between the lack of knowledge of theexact substrate specificity of an enzyme and the lack of anofficial EC number to describe the given activity. Conse-quently, the use of EC numbers may have introducedsome biases in our survey. It should be noticed that theUniProt consortium is making improvements in the repre-sentation of the enzymatic activities through Rhea [22]and UniPathway [23] databases, which are focused on thedefinition of chemical reactions and metabolic pathways,respectively.To complete our survey at the chemical reaction level,
we performed a study on orphan enzymes using twometabolic databases, named KEGG (version 65.0) [24]and MetaCyc (version 17.0) [25]. The comparison ofthese two databases was extensively reviewed in a recentpublication [26]. As a difference with EC nomenclature,KEGG and MetaCyc make a clear distinction betweenthe chemical reactions and the enzymatic activities.MetaCyc has adopted a formal representation of therelation between proteins and chemical reactions theycan catalyze and thus deals with the multiplicity ofenzymatic activity-reaction relations. For example, if anenzyme is able to catalyze the same chemical transform-ation on a wide range of substrates (i.e. the substratepromiscuity of the enzyme), the different chemical reac-tions will be explicitly linked to the enzymatic activitydescription. In other cases, an EC entry may give only ageneral description of the overall reaction whereas thedifferent steps of this chemical transformation may bemore precisely described using several reaction steps.The results of our analysis are summarized in Table 1.
Table 1 Statistics on orphan reactions in KEGG andMetaCyc metabolic databases
MetaCyc KEGG
Total number of non-spontaneous reactions 10126 9148
Number of orphan reactions 3929 4348
Number of reactions in a pathway 6873 6271
Number of orphan reactions in a pathway 1833 1716
Number of orphan reactions having a nonorphan pathway neighbour
915 1223
Number of pathways 2002 150
Average number of reactions per pathway 4 80
Number of pathways with only non orphanreactions
1264 19
Number of pathways with only orphan reactions 155 0
About twice as many reactions are found in the twopathway databases in comparison to the ~5,000 ECentries. This high number of reactions is partly due tothe multiple relations between enzymatic activities andreactions described above: in KEGG and MetaCyc, thereis an average of 1.15 and 2.2 reactions per EC number,respectively. Conversely, a large proportion of thesereactions correspond to enzymatic activities not de-scribed by a complete EC entry, reflecting the previouslymentioned delay between an activity discovery and itsofficial classification by the commission. In KEGG andMetaCyc, there are 4,588 and 4,497 reactions notlinked to a complete EC number, respectively. As aconsequence and as noted previously [12,27], the per-centage of orphan enzymes may be underestimatedusing only the EC classification. It increases consider-ably when the estimation is made at the reaction levelusing metabolic resources: in KEGG and MetaCyc,48% and 39% of the reactions are lacking associatedprotein or nucleic sequences, respectively.Enzymes are classically studied through metabolic
pathways, which are groups of activities taking part in asame biological process. In this survey, we studied theorphan enzyme content and their connectivity at thepathway level. As described previously [26], there areseveral key differences between the way the databasesrepresent the notion of a pathway: KEGG pathways are akind of mosaic of similar pathways predicted in differentspecies; in MetaCyc, the overall reactions in a pathwayare supposed to occur in a defined group of species.Therefore, there are 12 times more pathways in Meta-Cyc than in KEGG, as MetaCyc attempts to providedistinct pathway variants for a given metabolic process(Table 1). An important fraction of pathways (87% inKEGG and 36% in MetaCyc) contains at least oneorphan activity. There is no pathway in KEGG containingonly orphan enzyme activities, whereas it is the casefor about a quarter of the MetaCyc pathways. This isexplained by the very large number of reactions inKEGG pathways in comparison to MetaCyc (80 on aver-age per pathway versus 4). Considering pathways contain-ing a mix of orphan and non-orphan activities in KEGGand MetaCyc, an average of 26.0% and 39.5% of thereactions per pathway corresponds to orphan enzymes,respectively (Table 1). These statistics show that an im-portant proportion of pathways are still not completelyresolved at the gene level, which limits in silico recon-structions of genome-scale metabolic models [28,29].To cope with this problem, computational tools weredeveloped to find candidate genes for these missingenzymes by using genome and metabolic context-basedmethods [30-32]. The concept of these methods and theillustration of integrated tools using genomic and post-genomic data to link gene and function have been
![Page 126: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/126.jpg)
Sorokina et al. Biology Direct 2014, 9:10 Page 8 of 16http://www.biologydirect.com/content/9/1/10
reviewed recently [33]. Another illustration is presentedthrough the MicroScope platform as a combination ofCanOE and phylogenetic profile methods [32,34]. Actu-ally, these in silico predictions have not raised a lot oforphan cases despite the sophistication of the methodsand their relative independence from classical sequencebased methods. As many orphan enzymes (1,223 reactionsin KEGG and 915 in MetaCyc) have pathway neighborsthat are orphans themselves, one difficulty is the definitionof correct genomic contexts including candidate genesand known enzymes. Furthermore, there is some part ofthe metabolism with a lot of missing knowledge like gly-can and lipid pathways. For example, a number of orphanenzymes still exist in ether lipid metabolism, even if somerecent progresses were made [35].
Local orphan enzymesFrom a taxonomic point of view, we propose to makethe distinction between global and local orphan en-zymes. Orphan enzymes were previously defined as ac-tivities having no associated gene in any organism,which we called here global orphans. In addition, alocal orphan is an experimentally observed activity in atleast one organism of a given clade with only associatedsequences in organisms from other clades [36,37]. Toillustrate this concept at the superkingdom level, wepresent here the example of the EC number 4.1.1.12,the aspartate 4-decarboxylase, which catalyzes thetransformation of an L-aspartate in an L-alanine byreleasing a molecule of CO2. In UniProt, 327 bacterialproteins are annotated with this EC number, includingtwo SwissProt entries, but no eukaryotic or archaealsequences can be found. Nevertheless, the aspartate4-decarboxylase activity has been characterized in vari-ous mammalians (e.g. rat, pig, chicken) [38], making theEC number 4.1.1.12 a local orphan activity in eukary-otes. For the Archaea, there is no associated sequenceand no literature evidence of its presence in this super-kingdom. Thus, the aspartate 4-decarboxylase activitycould be considered as absent in the Archaea.To conduct a survey of local orphans, a resource
of characterized activities in identified organisms isrequired and should be exhaustive enough to gatherall the biochemical knowledge published in the pastcentury. We used the BRaunschweig ENzyme DAta-base (BRENDA, version 2013), which is one of themajor public resources on enzymes and enzymaticactivities, and contains a very large spectrum of infor-mation related to them [39]. BRENDA is based on the ECnumber classification and gathers valuable informationabout biochemical experiments that were extracted fromthe literature. In complement to BRENDA that containsonly manually annotated data, the FRENDA (Full Refer-ence ENzyme DAta) and AMENDA (Automatic Mining
of ENzyme DAta) subsections are based on an automatictext-mining of article abstracts and provide an exhaust-ive collection of organism-specific enzyme information.BRENDA was used in our survey to extract, for eachenzymatic activity, a set of organisms for which theactivity was observed. In combination with UniProtdata, the proportion of global and local orphan enzymesat the superkingdom level was then estimated (Figure 6;the lists of local orphan and not observed EC numbersare available in Additional file 2: Tables S2.2 and S2.3for Bacteria, S2.4 and S2.5 for Eukaryota, and, S2.6 andS2.7 for Archaea). Interestingly, we found that the pro-portion of orphan enzymes is higher in Eukaryota thanin Bacteria (26% and 18%, respectively). Among the onethousand orphan activities in eukaryotes, a third corre-sponds to local orphans (31%) whereas the fraction islower in Bacteria (21%). These slight differences couldreflect a higher difficulty in experimental procedures toidentify genes or proteins in eukaryotes. In Archaea, thelow number of enzymatic activities (1,322 EC numbers),which are reported in BRENDA and UniProt, clearlyillustrates our limited knowledge of metabolism of thissuperkingdom. In our study, the proportion of archaealorphan enzymes is thus clearly underestimated. Indeed,new specific enzymatic activities need to be discovered astheir chemistry shows many differences from other formsof life. Nevertheless, a high proportion of reportedorphans in Archaea (77%) are local orphans, suggestingeither homolog proteins could be candidates for theseactivities or specific isoenzymes have emerged duringtheir evolution. A similar analysis was conducted byadding FRENDA/AMENDA data (Additional file 1:Figure S1.2). Surprisingly, the number of orphan en-zymes considerably increased in each superkingdomwith a high proportion of local orphans (52% forEukaryota and Bacteria, and 91% for Archaea). Theseresults should be taken with caution as FRENDA/AMENDA data is not subjected to manual curation(e.g. we found false-positive local orphans for Bacteriathat correspond to heterologous expressions of eukaryoticproteins in Escherichia coli BL21). Nevertheless, thisanalysis demonstrates that, in addition to the 22.4% ofglobal orphan, the proportion of EC numbers which arelocal orphans in at least one superkingdom is consider-able and is estimated between 9.5% (BRENDA alone)and 33.5% (including FRENDA/AMENDA). Despite theobserved decrease of orphans at a global level, this highnumber of enzyme activities (>30%), for which no orincomplete sequence information is available, remainsproblematic in our knowledge of metabolism.Two reasons may explain this high proportion of local
orphan enzymes. Firstly, non-homologous isofunctionalenzymes, referred as NISE [40], may remain to bediscovered. They correspond to proteins that evolved
![Page 127: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/127.jpg)
Figure 6 Orphan and non-orphan EC number distribution across superkingdoms. The green pie chart represents the proportion of orphanEC activities among all valid entries. Other pie charts represent the proportion of orphan activities among each superkingdom. An activity isconsidered as present in a superkingdom if at least one protein is annotated with corresponding EC number or the activity has been observed inan organism according to BRENDA database. The number and percentage of local and global orphans are given for each superkingdom. Thesmall amount of characterized EC numbers in Archaea shows the obvious lack of knowledge about their metabolism.
Sorokina et al. Biology Direct 2014, 9:10 Page 9 of 16http://www.biologydirect.com/content/9/1/10
independently, but catalyze the same biochemical reac-tions. Therefore, these analogous enzymes cannot bedetected by classical comparative genomics approaches,as they do not share any detectable sequence similarity.Secondly, candidate homologous proteins may exist forlocal orphans but remain to be experimentally confirmedand annotated in databanks. To address this second point,we conducted a preliminary analysis to find homologousproteins for all local orphan enzymes in a given superking-dom. For that purpose, we applied the PRIAM software(release of March 2013) [41] against all UniProt proteinsfrom the Eukaryota, Bacteria and Archaea superkingdoms(see Additional file 1: Figure S1.3). PRIAM relies on a setof profiles (i.e. position-specific scoring matrices), whichare supposed to be characteristic of protein modulessharing same enzyme activities (i.e. same EC numbers).We found that PRIAM is able to retrieve candidateproteins for a non-negligible fraction of local orphanspreviously defined using BRENDA data: 30% for Archaeaand Bacteria, and 59% in Eukaryota (Table 2; the lists ofcandidate proteins for local orphan and not observed EC
numbers are available in Additional file 3: Tables S3.1 andS3.2 for Bacteria, S3.3 and S3.4 for Eukaryota, and, S3.5and S3.6 for Archaea). Even if these predictions cannot betransferred directly without supplementary bioinformaticsanalyses or experiments, they give strong clues on proteincandidates for local orphan enzymes. Another interestingfeature is the substantial number of putative candidatesfor activities that have never been seen in a given super-kingdom (“not observed” columns in Table 2). Only 21%of not observed EC numbers in Archaea have candidateproteins whereas the total number of known enzymaticactivities is low in this superkingdom (n = 1,322, Figure 6).This result is in agreement with the specificity of theirmetabolism, which may be a reservoir of new enzymefamilies and pathways. Conversely, the percentages ofpotentially resolvable local orphans and not observedenzymes in eukaryotes are higher than the two othersuperkingdoms, at 59% and 46% respectively. This sug-gests that the set of common enzymes between Bacteriaand Eukaryota may be underappreciated in proteindatabanks and could be partially solved by a curation
![Page 128: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/128.jpg)
Table 2 Potential candidates for local orphan enzymes retrieved by PRIAM
Archaea Bacteria Eukaryota
local orphan EC not observed EC local orphan EC not observed EC local orphan EC not observed EC
Total number 79 3774 133 1521 299 1348
Number of predictable 56 2247 115 817 150 718
Number of predicted 17 475 35 203 88 333
Percent of predicted 30% 21% 30% 25% 59% 46%
Number of candidate 400 9406 2929 11451 2996 9727
Not observed EC numbers correspond to entries than have never been associated to a protein or an organism in the superkingdom. Predictable EC numbers areentries having an associated PRIAM profile. A predicted EC number is an entry for which PRIAM detected a significant hit with at least one protein sequence(see Additional file 1: Figure S1.3).
Sorokina et al. Biology Direct 2014, 9:10 Page 10 of 16http://www.biologydirect.com/content/9/1/10
effort of eukaryotic genome annotations. As already illus-trated, comparative genomics analyses between prokary-otes and eukaryotes are successful in finding commonand specific enzymes in shared pathways [20]. Thesehomology-based predictions of enzymatic functionscould be also completed by probabilistic annotation ofmetabolic networks to increase the accuracy of thisstrategy [42].
Enzyme promiscuity and protein familiesMultifunctional enzymes are enzymes capable of playingseveral roles in metabolism by catalyzing different trans-formations that may occur in different pathways. Severalkinds of multifunctionality can be observed. Someenzymes may show broad substrate specificity. Thissubstrate promiscuity is a feature of enzymes able tocatalyze the same chemical reaction on a variety ofrelated compounds [43]. Other enzymes may catalyzedifferent chemical transformations. One can observeproteins having two or more functional domains withdifferent active sites [44]. The association of severaldomains within a protein, which is generally the resultof a gene fusion event during evolution, may facilitatesubstrate conversion and regulation of the metabolicfluxes. Another origin of this catalytic promiscuity isthe special case of moonlighting enzymes [45]. Theseproteins switch between activities under environmen-tal changes according to their cellular localization,expression in a novel cell type, ligand or cofactor con-centrations, oligomerization or complex formation withother proteins. A repository of multitasking proteinswas recently set up and several examples of moonlight-ing enzymes may be explored [46].The proportion of multifunctional enzymes may be
underestimated [47,48] and only a few enzymes aredescribed as multifunctional in databases: amongthe ~250,000 enzymes in Swiss-Prot, 5% are associatedwith two or more EC numbers and 3% with EC num-bers having different classification at third-level. Thisproportion should dramatically increase when we will finda simpler way to detect them. Recently, a bioinformatic
method based on reaction molecular signatures was pro-posed to predict catalytic and substrate promiscuity [49].Using this method, a complementary study showedthat highly promiscuous enzymes are more likely to bewidespread in the tree of life [50]. Because multifunctionalenzymes are so difficult to discover and annotate,they represent an interesting and relatively unexploredreservoir to find sequences for orphan enzymes. Quiteoften, biochemists discover a “new” activity performedby an enzyme known to catalyze other type of reac-tions [45]. The point is that the characterization of anovel protein generally leads to the discovery of onlyone function, but does not automatically include asearch for all possible additional functions. Nevertheless,the characterization of supplementary in vitro activitiesdoes not necessarily imply the elucidation of bona fidein vivo functions.To explore the potential promiscuity of enzymes in a
broader way, we conducted an analysis of enzyme activity/domain associations among all known enzymes usingPfam as a resource of domains [51]. We show that sincethe 1990s and despite the increasing number of availablecomplete genomes in the last few years, the proportionof newly discovered activities associated to new do-mains (i.e. domains that were not previously associated toan enzyme) is continuously decreasing (Figure 7). Thus,the exploration of the functional diversity of knownenzyme domains may be a good approach for findingproteins for new or orphan activities. Conversely, 22%of protein domains in Pfam remains without functionand could be a reservoir of new enzyme families, con-siderably extending the enzyme world. A recent studysuccessfully led to the discovery of new activities andpathways through the exploration of the enzymaticdiversity of a protein family of unknown function [52].On the structural side, a majority of enzyme activitiesare performed by a relative small number of proteinsuperfamilies [53]. Indeed, we can observe an import-ant diversity between the presence of a structuraldomain and the number of potential activities: usingCATH as a resource of structural domains [54], there
![Page 129: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/129.jpg)
Figure 7 Proportion of EC activities with new protein domains. This bar plot represents the proportion of EC numbers having at least onenew Pfam domain which was never associated to any enzyme before, by year of discovery. An EC number is considered to be associated to anew domain if this domain has never been seen associated to any other EC number discovered previously. Only EC numbers with at least oneassociated sequence were taken into account.
Sorokina et al. Biology Direct 2014, 9:10 Page 11 of 16http://www.biologydirect.com/content/9/1/10
is an average of 6.37 EC numbers per CATH domainand of 27.20 CATH domains per EC class at third-digit. These observations reflect the importance ofconvergence in the evolution of enzymes [55]. In 2010,Omelchenko et al. found 185 enzyme activities with atleast two structurally unrelated proteins [40]. Theamount of NISE may even be revised upwards, as toour knowledge a systematic research of all potentialstructures performing the same activity has not beencarried out. These complex relations between proteinfamilies and enzymatic activity diversity can introducebarely detectable, but easily spreadable, misannotationsusing homology based bioinformatics strategy duringthe annotation process [1]. Complementary analysescombining structural modeling, ligand docking andactive site comparisons could lead to more accuratepredictions and may open new ways to find candidateproteins for orphan enzymes.
ConclusionDespite an observed decrease of the number of orphanenzyme activities over the last ten years, the orphanenzyme challenge remains important: more than 30% ofthe enzymatic activities reported in the EC classificationhave no or incomplete sequence information. ThoughNGS, combined with improvements in sequence analysismethods, produces an exponential growth of genomicdata, an explosion in the number of newly discoveredactivities has not occurred unlike the 80’s when thedemocratization of molecular biology techniques tookplace. This lack of knowledge is obviously problematicin the overall comprehension of metabolism and inpotential biotechnological applications like biocatalysis.
As shown in our survey and as previously reported[20], a more systematic use of comparative genomicsacross superkingdoms may help to solve part of the localorphans. For the global ones, a delay of knowledge indatabases still exists and could be resolved by intensivebibliographical searches. In this way, the OrphanEnzyme Project initiative [56] recently conducted asystematic analysis of databases and publications, andfound protein sequences for about 270 presumedorphans among an initial list of 1,122 activities establishedin 2009 [16]. Similarly to what is done for protein struc-tures with the PDB [57] and nucleic sequences by theINSDC (International Nucleotide Sequence DatabaseCollaboration) [58], the design of a central and commonscientific framework to submit enzymes with their activ-ities is of priority to reduce the loss of knowledgebetween publications and databases. Indeed, collabora-tive initiatives were recently established to discover newactivities and enzymes: the Enzyme Function Initiative[59] which addresses the challenge of assigning reliablefunctions to enzymes discovered in bacterial genomeprojects, and the COMBREX project [60], connectingcomputational and experimental biologists to improveprotein annotation and proposing grants to experimen-tally validate new functions. These kinds of projectscombining in silico and wet lab strategies should lead toa breakthrough in the discovery of new enzymes andactivities since classical sequence based methods havelost momentum in function prediction. In fact, severalrecent studies have successfully applied this approach byexploiting mass-spectrometry or high throughput enzym-atic assay experiments and computational methods usingsequence similarity networks, genomic contexts, structural
![Page 130: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/130.jpg)
Sorokina et al. Biology Direct 2014, 9:10 Page 12 of 16http://www.biologydirect.com/content/9/1/10
modeling with metabolite docking and active site com-parison [52,61,62]. Another field of research concernsnon-protein enzymes. The most well-known are ribo-zymes and all kinds of protein-RNA complexes, likeribosomes, that are a real challenge to study and ex-tremely hard to discover [63,64]. The existence of activeRNA has been known for a long time, but expertize inthis area is far from being as exhaustive as in classicalbiochemistry. More recently, the discovery of a glyco-lipid playing a “membrane protein integrase” role inEscherichia coli has pushed back the limits of knowncatalytic activities [65]. After all, not only should weenlarge the limits of potential catalysts, but also enlargethe limits of the known metabolites. Progress in meta-bolomics will certainly catalyze the discovery of numer-ous chemical compounds orphan of activities.
Reviewers’ commentsWe thank the reviewers for their comments. We haverevised the manuscript taking into account their remarks.
Reviewer 1 (First Round): Dr. Michael GalperinThe paper by Sorokina et al. addresses an importantquestion and includes some interesting results. However,I think that in order to justify publication in BiologyDirect, the paper needs to be much better written. Thecurrent version is something intermediate between areview and a regular research paper and does not makefor either a good review or a good research paper. As anexample, I would suggest moving Figure 1 to Supple-mentary Materials (it is not a new result) and movingFigure S2 into the main text (it is a new result).Authors’ response: Our article is not a regular research
article but a review paper written in a format similar toprevious studies listed in Figure 1. It includes updatedanalyses of existing data from public databanks thatsubstantially enhance our knowledge about orphanenzymes. We thus decided not to move Figure 1 to Sup-plementary Materials as it resumes previous studies.Figure S2 (now S1.2) is an estimation of orphan enzymesat the superkingdom level based on non-curated datafrom FRENDA and AMENDA whereas Figure 6 wasmade using manually curated data. Therefore, we prefernot to move Figure S1.2 to the main text.In addition, I am afraid that the current version of the
manuscript does not really benefit the scientific communityas it simply enumerates the enzymes in each categorywithout providing the specific lists of these enzymes. Icould support publication of this paper only after theauthors include (at least as Supplementary Materials) thelists of global and local orphans from Figure S2. Unlessthis is done, the data in Figures 2, 3 and 4 cannot beindependently verified and the entire manuscript cannotbe considered acceptable for publication.
Authors’ response: We added the lists of global andlocal orphans and proteins in Supplementary Materials2 and 3.Finally, the entire paper looks like a promotion for the
Orphan Enzymes Project [http://www.orphanenzymes.org, ref. 49]. However, according to the Orphan Enzymesweb site, this project is also the subject of an upcomingpaper “Finding sequences for over 270 orphan enzymes”(currently in press). The reviewers should have beenprovided the text of that other paper to ensure that therewas no significant overlap between the two.Authors’ response: We have no relation or contact with
the Orphan Enzymes Project and had not access to theirupcoming paper at the time of writing the present article.This article is now published and sentences were includedin the main text to present their work.To help revision of this manuscript, I provide below
some specific examples of the poorly formulated sen-tences. However, the entire text must be carefully revisedand made less descriptive and more concise.
1. The Abstract needs to be revised to clearly explainwhat are the new results communicated in thiswork. Right now, the new results seem to start from“Besides, we extended our study”? Please rewrite thefirst 4 sentences of the Abstract to explain whatexactly was the goal of this work and what exactlyhas been done.
2. The statement in the Abstract “We developed asimple strategy to rescue these local orphanenzymes” is totally enigmatic and has to be deletedor reformulated.
3. The last sentence of the Abstract does not seemrelevant to the rest of the text. Please either deleteor at least reformulate.
Authors’ response: Part of the abstract has beenrewritten according to the reviewer suggestions.4. The Introduction could (and should) be made morecompact and succinct. That said, the last paragraphof the Introduction contains a much betterdescription of the work presented in this paper thanthe Abstract does.Authors’ response: We removed the definition of theEC nomenclature but we think that it is important tokeep a description of previous analysis reviews onorphan enzymes in the introduction.
5. Citations of the enzyme and EC number databasesin the Introduction and other sections of the paperpresent are unfortunately biased. The authorsshould, at the very least acknowledge the officialweb sites of the EC classification, the IUBMB list(http://www.chem.qmul.ac.uk/iubmb/enzyme/) and/or the ExplorEnz (http://www.enzyme-database.org,PMID: 18776214) as well as the ENZYME database
![Page 131: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/131.jpg)
Sorokina et al. Biology Direct 2014, 9:10 Page 13 of 16http://www.biologydirect.com/content/9/1/10
(http://www.expasy.org/enzyme/ PMID: 10592255),That would also make it unnecessary to explain theorganization of the EC system in the Introductionsection. INSDC should be cited (PMID: 23180798).The section on Enzyme promiscuity should probablymention the availability of the MultiTaskDB (http://wallace.uab.es/multitask/, PMID: 24253302).Authors’ response: Suggested references have beenadded.
Reviewer 2 (First Round): Dr. Daniel HaftThe manuscript submission by Sorokina et al., “Profilingthe Orphan Enzymes”, functions fairly well as a reviewarticle on the chronology of the growth of EC numberswith and without associations with specific sequences.The authors define a problem space - identifying enzymesthat have no representative in some superkingdom -. Theyintroduce a strategy for generating lists of candidatesequences to fill the void. The revised form of the manu-script now provides lists of these candidate sequences insupplementary materials, rather than their count only, andit clearly warns that the associations offered by their tech-nique are in no way validated.The strategy relies on PRIAM, an update from March
2013. But there is no discussion of how PRIAM itself isformed and whether its design could be appropriate tothe task. PRIAM was described in 2003, and relies onMKDOM. Therefore, PRIAM requires an unsuperviseddomain definition algorithm to find signature regionsone enzyme has but another enzyme lacks. The domaincould be a C-terminal extension with no relevance toenzyme function, and could be eukaryotic only, butPRIAM would make it a signature. Should this methodbe used to identify probable “local orphan enzymes” inthe archaea? Not without validation.Other homology strategies might do as well PRIAM or
better, such as searching for bi-directional best BLASThit matches that link a known exemplar of enzyme func-tion in one superkingdom to a homolog in anothersuperkingdom. The PRIAM strategy itself could havebeen benchmarked somewhat be seeing how much itspredictions vary from one version to the next. Readersare strongly cautioned that the output from the PRIAMstrategy should be viewed only as anecdotal evidence,appropriate to a review article, that simple homologymethods could generate lists of sequences that containcandidates to represent the first extension into a newsuperkingdom of enzymatic activities that have beenassigned to sequences in other superkingdoms.Authors’ response: This strategy is not a methodo-
logical development but just a way to estimate if candi-date proteins for local orphans could be retrieved byhomology search. We agree that PRIAM profiles havelimitations but, as far as we know, it is one of the best
tools to track potential conserved domains which areenzyme specific and have a wide coverage of Swiss-Protenzymes. BBH cannot be computed for all the Swiss-Protenzymes as many of them are not from complete organ-isms. As mentioned in the manuscript: “these [PRIAM]predictions cannot be transferred directly without supple-mentary bioinformatics analyses or experiments”.As a review, the manuscript did not do justice to the
methods that might be used to find orphan enzymes ingeneral, or domain orphans. In particular, Yamada et al.(ref 27) struck me as a landmark demonstration of datamining combined with comparative genomics for findingcomplete sequence orphans. The method would workeven better for superkingdom orphans. Because thatwork followed predictions with validations, it representsa standard that should be discussed in any review articleon matching sequences to orphan EC numbers.Authors’ response: We introduce the main methods of
finding candidate genes for global or local orphans andsome of their limitations. But, we do not wish to developmore deeply these methods for three reasons: (1) acomplete review of these methods would require a dedi-cated article (2) a methodological review should be doneby a third party since authors of the paper are involved inmethodological developments on this topic (i.e. the CANOEmethod was published the same year as Yamada et al.paper) (3) a review has recently been published andpresents a practical description of these methods (ElYacoubi et al. 2014, a reference to this paper was addedin our article). For information, the two experimentallytested enzymes in Yamada et al. are not supported byenough evidence to validate that they are good can-didates for the two orphan activities: (1) the two testedactivities are amino acid transaminases, which areknown to have in vitro substrate promiscuity (2) the can-didate protein (UniProt AC Q8R5Q4) for the histidinetransaminase activity has a TIGRFAM result corre-sponding to HisC protein (TIGR01141), which catalyzesthe transamination of imidazole acetol-phosphate in thecontext of the histidine biosynthesis. Furthermore, thecorresponding gene (TTE2137) is in the hisGDCBHAFIoperon confirming that this protein should be involvedin the histidine biosynthesis and not in the degradationprocess via the histidine transaminase activity. (3) thecandidate protein (UniProt AC Q8DTM1) shares morethan 50% of amino acid identity with biochemicallycharacterized aspartate aminotransferases (UniProt ACsP23034, Q59228). This activity is more coherent withthe asparaginyl tRNA synthetase genomic context thanthe asparagine aminotransferase activity proposed byYamada et al., an activity described only in eukaryotesfor asparagine degradation. These two cases are reallygood examples to illustrate the difficulty in interpretingin vitro activities to elucidate bona fide in vivo functions.
![Page 132: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/132.jpg)
Sorokina et al. Biology Direct 2014, 9:10 Page 14 of 16http://www.biologydirect.com/content/9/1/10
The work introduces a workflow for using PRIAMto find sequences that might resolve numbers of localenzyme orphans. The lack of any testing of the work-flow’s results or consideration of whether PRIAM’sdesign makes it a good choice was a problem. The revi-sion, including author responses to the reviews, helpscement that this work serves as a review article only,and no tested new method is presented. Even in therevised form, the discussion of the PRIAM workflow is abit troubling. Does the article title, “Profiling the OrphanEnzymes”, refer to PRIAM profiles as used in theuntested workflow? If so, a revised title might be moreappropriate.Authors’ response: The title is not related to PRIAM
profiles. The aim of our review is to analyze and discussthe orphan enzyme problem in the light of the currentknowledge in public databanks.
Reviewer 3 (First Round): Dr.Daniel KahnThis reviewer provided no comments for publication.
Reviewer 1 (Second Round): Dr. Michael GalperinPrevious authors’ response: We added the lists of globaland local orphans and proteins in SupplementaryMaterials 2 and 3.These lists could be very useful for future studies. My
only concern is with the confusing terminology used toname the enzyme groups. The authors use the term“missing enzymes” for the enzymes that are absent (notencoded), rather than missing (not found), in the giventaxonomic group. Instead, they use the term “local or-phans” for the enzymes that everybody else in the worldrefers to as “missing enzymes”.
1. Enzymes (EC numbers) that are not associated withany sequences are referred to as “global orphans”even though many (probably most) of these enzymeshave been described in a single species, or a groupof closely related species, and therefore represent“lineage-specific orphans”, rather than “globalorphans”. It would be helpful to explain this in thetext to avoid confusion.
Authors’ response: For the definitions of global andlocal orphans, we use the same as the ones of Orthet al. 2010. These definitions are given in the maintext. For global orphans, it is very difficult to estimateif they are mostly associated to specific lineages asexperimental data is limited and is far from coveringthe metabolic diversity of living organisms.2. Enzymes (EC numbers) that have not been reportedin bacteria are referred to in Table S2.3 as “Missingenzymes in Bacteria”. In all previously publishedliterature, “missing enzymes” referred to the enzymaticactivities that are expected - or known - to be present
in at least some bacteria but have not yet beenassigned to any sequence. Thus, “Missing enzymesin Bacteria” are the ones that have been reported incertain eukaryotes and are not even expected to beencoded in any bacteria. As a result, there are 1521enzymes “missing in Bacteria” and 3773 enzymes“missing in Archaea”. Again, if the authors chooseto keep this - unconventional and counterintuitive -group name, they should explain it in the text toavoid confusion.Authors’ response: We agree with the reviewer thatthe term “missing” is confusing. We have replaced“missing” by “not observed” in the additional filesand in the main text.Although the text has been significantly improved,I remain puzzled by the expression “Rescuing thelocal orphans”. What do the authors mean by“rescuing” here, probably not something that iscovered by the existing dictionaries?Authors’ response: The term “rescuing” has beenremoved.
Reviewer 2 (Second Round): Dr. Daniel HaftThe revised form of the article makes it clearer that it isa review, not original research, and that a method theyintroduce produces only a suggestive view, not scientific-ally validated results. But it is still a little troubling. Thetitle seems to speak of the new method, and there is nopeer-reviewed endorsement of that method her.Authors’ response: These points are discussed in the
first round of the review.
Additional files
Additional file 1: Figure S1.1. Orphan enzymatic activity distributionacross the EC classification Figure S1.2. Orphan and non-orphan ECnumber distribution across superkingdoms including data from BRENDA,FRENDA and AMENDA. Figure S1.3. Strategy for local orphan enzymerescuing using PRIAM.
Additional file 2: List of global and local orphan enzymes.
Additional file 3: List of retrieved sequences through the PRIAMsearch.
Competing interestsThe authors declare that they have no competing interests.
Authors’ contributionsOL and DV supervised the project. CM contributed to the design of thestudy and to finalize the manuscript. MSo performed the statistical analysesand the data gathering. MS made the PRIAM analysis. MSo, MS and DVwrote the manuscript. All authors read and approved the final manuscript.
AcknowledgmentsWe would like to thank Patrick Bowe and Andrew Tolonen for their helpfulsuggestions on the manuscript, Karine Bastard for her support, presence andconstructive comments during all this work and Marcel Salanoubat forreading this manuscript. We thank also François Le Fèvre for helping us withMetaCyc data extraction. This work was not supported by any funding.
![Page 133: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/133.jpg)
Sorokina et al. Biology Direct 2014, 9:10 Page 15 of 16http://www.biologydirect.com/content/9/1/10
Author details1Direction des Sciences du Vivant, Commissariat à l’Energie Atomique (CEA),Institut de Génomique, Genoscope, Laboratoire d’Analyses Bioinformatiquespour la Génomique et le Métabolisme, 2 rue Gaston Crémieux, 91057 Evry,France. 2CNRS-UMR8030, 2 rue Gaston Crémieux, 91057 Evry, France. 3UEVE,Université d’Evry Val d’Essonne, boulevard François Mitterrand, 91057 Evry,France. 4Univ Paris-Sud, Institut de Génétique et Microbiologie, UMR8621,Orsay F-91405, France. 5Univ Paris-Sud, Laboratoire de Recherche enInformatique, UMR8623, Orsay F-91405, France. 6CNRS, Orsay F-91405, France.
Received: 27 March 2014 Accepted: 29 May 2014Published: 6 June 2014
References1. Schnoes AM, Brown SD, Dodevski I, Babbitt PC: Annotation error in public
databases: misannotation of molecular function in enzyme superfamilies.PLoS Comput Biol 2009, 5:e1000605.
2. Payen A, Perzoz J: Mémoire sur la diastase, les principaux produits de sesrèactions, et leurs applications aux arts industriels. Annales de la chimieet de la physique 1833, 53:73–92.
3. Tipton K, Boyce S: History of the enzyme nomenclature system.Bioinformatics 2000, 16:34–40.
4. Enzyme nomenclature. http://www.chem.qmul.ac.uk/iubmb/enzyme/.5. McDonald AG, Boyce S, Tipton KF: ExplorEnz: the primary source of the
IUBMB enzyme list. Nucleic Acids Res 2009, 37(Database issue):D593–7.6. Bairoch A, Universitaire CM, Servet M: The ENZYME database in 2000.
2000, 28:304–5.7. Roberts RJ: Identifying protein function–a call for community action. PLoS
Biol 2004, 2:E42.8. Karp PD: Call for an enzyme genomics initiative. Genome Biol 2004, 5:401.9. Lespinet O, Labedan B: Orphan enzymes? Sci 2005, 307:42.10. Lespinet O, Labedan B: ORENZA: a web resource for studying ORphan
ENZyme activities. BMC Bioinformatics 2006, 7:436.11. Lespinet O, Labedan B: Orphan enzymes could be an unexplored
reservoir of new drug targets. Drug Discov Today 2006, 11:300–5.12. Chen L, Vitkup D: Distribution of orphan metabolic activities. Trends
Biotechnol 2007, 25:343–8.13. Fleischmann A, Darsow M, Degtyarenko K, Fleischmann W, Boyce S, Axelsen KB,
Bairoch A, Schomburg D, Tipton KF, Apweiler R: IntEnz, the integrated relationalenzyme database. Nucleic Acids Res 2004, 32(Database issue):D434–7.
14. Apweiler R, Bairoch A, Wu CH, Barker WC, Boeckmann B, Ferro S, Gasteiger E,Huang H, Lopez R, Magrane M, Martin MJ, Natale DA, O’Donovan C, RedaschiN, Yeh L-SL: UniProt: the Universal protein knowledgebase. Nucleic Acids Res2004, 32(Database issue):D115–9.
15. Pouliot Y, Karp PD: A survey of orphan enzyme activities. BMC Bioinformatics2007, 8:244.
16. Shearer AG, Altman T, Rhee CD: Finding sequences for over 270 orphanenzymes. PLoS One 2014, 9:e97250.
17. Karp PD: What we do not know about sequence analysis and sequencedatabase. Bioinformatics 1998, 14:753–4.
18. Karp PD, Paley S, Zhu J: Database verification studies of SWISS-PROT andGenBank. Bioinformatics 2001, 17:526–32.
19. Lee D, Redfern O, Orengo C: Predicting protein function from sequenceand structure. Nat Rev Mol Cell Biol 2007, 8:995–1005.
20. Hanson AD, Pribat A, Waller JC, De Crécy-Lagard V: “Unknown” proteinsand “orphan” enzymes: the missing half of the engineering partslist–and how to find it. Biochem J 2010, 425:1–11.
21. Green ML, Karp PD: Genome annotation errors in pathway databases dueto semantic ambiguity in partial EC numbers. Nucleic Acids Res 2005,33:4035–9.
22. Alcántara R, Axelsen KB, Morgat A, Belda E, Coudert E, Bridge A, Cao H, DeMatos P, Ennis M, Turner S, Owen G, Bougueleret L, Xenarios I, Steinbeck C:Rhea–a manually curated resource of biochemical reactions. Nucleic AcidsRes 2012, 40(Database issue):D754–60.
23. Morgat A, Coissac E, Coudert E, Axelsen KB, Keller G, Bairoch A, Bridge A,Bougueleret L, Xenarios I, Viari A: UniPathway: a resource for theexploration and annotation of metabolic pathways. Nucleic Acids Res2012, 40(Database issue):D761–9.
24. Kanehisa M, Goto S: KEGG: kyoto encyclopedia of genes and genomes.Nucleic Acids Res 2000, 28:27–30.
25. Caspi R, Altman T, Dreher K, Fulcher CA, Subhraveti P, Keseler IM, Kothari A,Krummenacker M, Latendresse M, Mueller LA, Ong Q, Paley S, Pujar A,Shearer AG, Travers M, Weerasinghe D, Zhang P, Karp PD: The MetaCycdatabase of metabolic pathways and enzymes and the BioCyc collectionof pathway/genome databases. Nucleic Acids Res 2012, 40(Database issue):D742–53.
26. Altman T, Travers M, Kothari A, Caspi R, Karp PD: A systematic comparison ofthe MetaCyc and KEGG pathway databases. BMC Bioinformatics 2013, 14:112.
27. Lespinet O, Labedan B: Lespinet: Puzzling over orphan enzymes. Cell MolLife Sci 2006, 63:517–23.
28. Durot M, Bourguignon P-Y, Schachter V: Genome-scale models of bacterialmetabolism: reconstruction and applications. FEMS Microbiol Rev 2009,33:164–90.
29. Hyduke DR, Lewis NE, Palsson BØ: Analysis of omics data with genome-scale models of metabolism. Mol Biosyst 2013, 9:167–74.
30. Kharchenko P, Chen L, Freund Y, Vitkup D, Church GM: Identifying metabolicenzymes with multiple types of association evidence. BMC Bioinformatics2006, 7:177.
31. Yamada T, Waller AS, Raes J, Zelezniak A, Perchat N, Perret A, Salanoubat M,Patil KR, Weissenbach J, Bork P: Prediction and identification of sequencescoding for orphan enzymes using genomic and metagenomic neighbours.Mol Syst Biol 2012, 8:581.
32. Smith AAT, Belda E, Viari A, Medigue C, Vallenet D: The CanOE strategy:integrating genomic and metabolic contexts across multiple prokaryotegenomes to find candidate genes for orphan enzymes. PLoS Comput Biol2012, 8:e1002540.
33. El Yacoubi B, De Crécy-Lagard V: Integrative data-mining tools to linkgene and function. Methods Mol Biol 2014, 1101:43–66.
34. Vallenet D, Belda E, Calteau A, Cruveiller S, Engelen S, Lajus A, Le Fèvre F,Longin C, Mornico D, Roche D, Rouy Z, Salvignol G, Scarpelli C, Thil SmithAA, Weiman M, Médigue C: MicroScope–an integrated microbial resourcefor the curation and comparative analysis of genomic and metabolic data.Nucleic Acids Res 2013, 41(Database issue):D636–47.
35. Watschinger K, Werner ER: Orphan enzymes in ether lipid metabolism.Biochimie 2013, 95:59–65.
36. Orth JD, Palsson BØ: Systematizing the generation of missing metabolicknowledge. Biotechnol Bioeng 2010, 107:403–12.
37. Chen L, Vitkup D: Predicting genes for orphan metabolic activities usingphylogenetic profiles. Genome Biol 2006, 7:R17.
38. Rathod PK, Fellman JH: Identification of mammalian aspartate-4-decarboxylase. Arch Biochem Biophys 1985, 238:435–46.
39. Schomburg I, Chang A, Placzek S, Söhngen C, Rother M, Lang M, MunarettoC, Ulas S, Stelzer M, Grote A, Scheer M, Schomburg D: BRENDA in 2013:integrated reactions, kinetic data, enzyme function data, improveddisease classification: new options and contents in BRENDA. Nucleic AcidsRes 2013, 41(Database issue):D764–72.
40. Omelchenko MV, Galperin MY, Wolf YI, Koonin EV: Non-homologousisofunctional enzymes: a systematic analysis of alternative solutions inenzyme evolution. Biol Direct 2010, 5:31.
41. Claudel-Renard C: Enzyme-specific profiles for genome annotation:PRIAM. Nucleic Acids Res 2003, 31:6633–9.
42. Plata G, Fuhrer T, Hsiao T-L, Sauer U, Vitkup D: Global probabilisticannotation of metabolic networks enables enzyme discovery.Nat Chem Biol 2012, 8:848–54.
43. Khersonsky O, Tawfik DS: Enzyme promiscuity: a mechanistic andevolutionary perspective. Annu Rev Biochem 2010, 79:471–505.
44. Hawkins AR, Lamb HK: The molecular biology of multidomain proteins.selected examples. Eur J Biochem 1995, 232:7–18.
45. Jeffery CJ: Moonlighting proteins: old proteins learning new tricks. TrendsGenet 2003, 19:415–7.
46. Hernández S, Ferragut G, Amela I, Perez-Pons J, Piñol J, Mozo-Villarias A,Cedano J, Querol E: MultitaskProtDB: a database of multitasking proteins.Nucleic Acids Res 2014, 42(Database issue):D517–20.
47. Cheng X-Y, Huang W-J, Hu S-C, Zhang H-L, Wang H, Zhang J-X, Lin H-H,Chen Y-Z, Zou Q, Ji Z-L: A global characterization and identification ofmultifunctional enzymes. PLoS One 2012, 7:e38979.
48. Jia B, Cheong G-W, Zhang S: Multifunctional enzymes in archaea:promiscuity and moonlight. Extremophiles : life under extreme conditions2013, 17:1–11.
49. Carbonell P, Faulon J-L: Molecular signatures-based prediction of enzymepromiscuity. Bioinformatics 2010, 26:2012–9.
![Page 134: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/134.jpg)
Sorokina et al. Biology Direct 2014, 9:10 Page 16 of 16http://www.biologydirect.com/content/9/1/10
50. Carbonell P, Lecointre G, Faulon J-L: Origins of specificity and promiscuityin metabolic networks. J Biol Chem 2011, 286:43994–4004.
51. Punta M, Coggill PC, Eberhardt RY, Mistry J, Tate J, Boursnell C, Pang N,Forslund K, Ceric G, Clements J, Heger A, Holm L, Sonnhammer ELL, EddySR, Bateman A, Finn RD: The Pfam protein families database. Nucleic AcidsRes 2012, 40(Database issue):D290–301.
52. Bastard K, Smith AAT, Vergne-Vaxelaire C, Perret A, Zaparucha A, De Melo-Minardi R, Mariage A, Boutard M, Debard A, Lechaplais C, Pelle C, Pellouin V,Perchat N, Petit J-L, Kreimeyer A, Medigue C, Weissenbach J, Artiguenave F,De Berardinis V, Vallenet D, Salanoubat M: Revealing the hidden functionaldiversity of an enzyme family. Nature chemical biology 2013, 10:42–49.
53. Furnham N, Sillitoe I, Holliday GL, Cuff AL, Laskowski RA, Orengo CA,Thornton JM: Exploring the evolution of novel enzyme functions withinstructurally defined protein superfamilies. PLoS Comput Biol 2012,8:e1002403.
54. Sillitoe I, Cuff AL, Dessailly BH, Dawson NL, Furnham N, Lee D, Lees JG,Lewis TE, Studer RA, Rentzsch R, Yeats C, Thornton JM, Orengo CA: Newfunctional families (FunFams) in CATH to improve the mapping ofconserved functional sites to 3D structures. Nucleic Acids Res 2013,41(Database issue):D490–8.
55. Almonacid DE, Yera ER, Mitchell JBO, Babbitt PC: Quantitative comparisonof catalytic mechanisms and overall reactions in convergently evolvedenzymes: implications for classification of enzyme function. PLoS ComputBiol 2010, 6:e1000700.
56. Orphan enzyme project. http://www.orphanenzymes.org/.57. Berman HM: The protein data bank. Nucleic Acids Res 2000, 28:235–42.58. Nakamura Y, Cochrane G, Karsch-Mizrachi I: The International nucleotide
sequence database collaboration. Nucleic Acids Res 2013,41(Database issue):D21–4.
59. Gerlt JA, Allen KN, Almo SC, Armstrong RN, Babbitt PC, Cronan JE,Dunaway-Mariano D, Imker HJ, Jacobson MP, Minor W, Poulter CD, Raushel FM,Sali A, Shoichet BK, Sweedler JV: The enzyme function initiative.Biochemistry 2011, 50:9950–62.
60. Anton BP, Chang Y-C, Brown P, Choi H-P, Faller LL, Guleria J, Hu Z, KlitgordN, Levy-Moonshine A, Maksad A, Mazumdar V, McGettrick M, Osmani L,Pokrzywa R, Rachlin J, Swaminathan R, Allen B, Housman G, Monahan C,Rochussen K, Tao K, Bhagwat AS, Brenner SE, Columbus L, De Crécy-LagardV, Ferguson D, Fomenkov A, Gadda G, Morgan RD, Osterman AL, et al:The COMBREX project: design, methodology, and initial results. PLoS Biol2013, 11:e1001638.
61. Ramkissoon KR, Miller JK, Ojha S, Watson DS, Bomar MG, Galande AK,Shearer AG: Rapid identification of sequences for orphan enzymes topower accurate protein annotation. PLoS One 2013, 8:e84508.
62. Zhao S, Kumar R, Sakai A, Vetting MW, Wood BM, Brown S, Bonanno JB,Hillerich BS, Seidel RD, Babbitt PC, Almo SC, Sweedler JV, Gerlt JA, CronanJE, Jacobson MP: Discovery of new enzymes and metabolic pathways byusing structure and genome context. Nature 2013, 502:698–702.
63. Strobel SA, Cochrane JC: RNA catalysis: ribozymes, ribosomes, andriboswitches. Curr Opin Chem Biol 2007, 11:636–43.
64. Serganov A, Nudler E: A decade of riboswitches. Cell 2013, 152:17–24.65. Nishiyama K, Maeda M, Yanagisawa K, Nagase R, Komura H, Iwashita T,
Yamagaki T, Kusumoto S, Tokuda H, Shimamoto K: MPIase is a glycolipozymeessential for membrane protein integration. Nat Commun 2012, 3:1260.
doi:10.1186/1745-6150-9-10Cite this article as: Sorokina et al.: Profiling the orphan enzymes. BiologyDirect 2014 9:10.
Submit your next manuscript to BioMed Centraland take full advantage of:
• Convenient online submission
• Thorough peer review
• No space constraints or color figure charges
• Immediate publication on acceptance
• Inclusion in PubMed, CAS, Scopus and Google Scholar
• Research which is freely available for redistribution
Submit your manuscript at www.biomedcentral.com/submit
![Page 135: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/135.jpg)
114
Conclusion du Chapitre I
Les approches pour trouver des séquences candidates pour les enzymes orphelines présentent
des limites. En effet, ces méthodes utilisent généralement les contextes génomiques et
métaboliques, et souvent, dans les voies métaboliques, les activités enzymatiques voisines des
enzymes orphelines sont elles aussi orphelines, comme démontré dans l’article. Des approches,
pour tacler ce problème dans l’autre sens, devraient donc être envisagées. Ainsi, au lieu de
chercher des séquences candidates pour des activités enzymatiques déjà connues, de nouvelles
méthodes pourraient être développées pour trouver de nouvelles activités enzymatiques associées
à des protéines en explorant le métabolisme représenté sous la forme d’un réseau.
Dans le chapitre suivant, nous proposons une nouvelle représentation en réseau du métabolisme
qui permet à la fois de découvrir des modules conservés de transformations chimiques et de
proposer de nouvelles réactions en prenant en compte la promiscuité potentielle des familles
d’enzymes.
![Page 136: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/136.jpg)
115
![Page 137: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/137.jpg)
116
Chapitre II Construction d’un modèle réduit du métabolisme pour l’identification de modules conservés
Le métabolisme est très souvent représenté informatiquement sous la forme d’un réseau. Le
choix du type de réseau (réseau de composés, réseau de réactions, réseau biparti ou autre) dépend
forcément du but de l’analyse, et de ce que l’on veut découvrir ou mettre en évidence.
L’hypothèse principale qui a orienté les développements décrits dans ce chapitre est la
conservation d’enchainements de transformations chimiques au cours de l’évolution. Le but ici
est d’identifier des ensembles de transformations chimiques conservés et éventuellement inédits
qui peuvent servir de base pour la découverte de nouvelles voies métaboliques.
La première étape a été de construire un réseau de réactions rassemblant toutes les réactions
connues et présentes dans au moins une voie métabolique de la base de données généraliste
MetaCyc [91]. Seules les réactions décrites dans une voie métabolique ont une définition de
composés chimiques « primaires » et « secondaires ». Cette information est nécessaire pour ne pas
relier deux réactions entre elles via des métabolites secondaires, qui sont souvent des cofacteurs
ubiquitaires. Dans ce réseau, deux réactions sont reliées entre elles si il existe un métabolite
primaire produit par une et consommé par l’autre. Il s’agissait avant tout de construire un réseau
regroupant toutes les connaissances disponibles sur le métabolisme, indépendamment de la
notion d’organisme ou d’espèce.
Ce réseau orienté de réactions, construit à partir de données de MetaCyc, contient environ 6 000
nœuds et 11 000 arcs. Il a un diamètre (distance maximale parmi les distances entre toutes les
paires de nœuds dans le graphe) de 47 ce qui est relativement faible et montre la relativement
forte connectivité des nœuds dans ce réseau (Figure 24) On y retrouve cependant un grand
![Page 138: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/138.jpg)
117
nombre de composantes connexes non-reliées entre elles, illustrant des lacunes dans nos
connaissances sur le métabolisme.
Figure 24. Réseau de réactions construit à partir de toutes les réactions présentes dans au moins une voie métabolique de MetaCyc.
De plus, en regardant l’origine taxonomique des réactions dans ce réseau, une limitation assez
classique en biologie moderne est observée : 57% des nœuds-réactions et 83% des arêtes
proviennent de 6 organismes modèles (Escherichia coli, Bacillus subtilis, Saccaromyces cerevisiae, Homo
sapiens, Arabidopsis thaliana et Drosophila melanogaster). Si l’on supprime du réseau métabolique
toutes les informations (nœuds et arêtes) qui proviennent de ces 6 organismes modèles, on
![Page 139: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/139.jpg)
118
observe, comme attendu, une grande perte de connectivité dans le réseau (Figure 25). Ceci
démontre un manque flagrant de connaissances sur le métabolisme des organismes non-modèles.
Il faut donc imaginer une stratégie à adopter pour améliorer et faciliter l’exploration du
métabolisme dans ces conditions.
Figure 25. Réseau de réactions de la Figure 24 où les nœuds provenant des 6 organismes modèles (Escherichia coli, Bacillus subtilis, Saccaromyces cerevisiae, Homo sapiens, Arabidopsis thaliana et Drosophila melanogaster) ont été supprimés. Suppression de 57% des nœuds et 83% d’arêtes.
Les hypothèses principales sur l’évolution des voies métaboliques s’accordent sur l’importance de
la promiscuité enzymatique, c’est à dire la capacité des enzymes à catalyser une ou plusieurs
![Page 140: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/140.jpg)
119
réactions sur des substrats plus ou moins différents. Ainsi, on peut supposer que, non seulement
les réactions et les voies métaboliques, mais aussi des enchainements de types de transformations
chimiques sont conservés au cours de l’évolution. Les types de transformations chimiques
permettent de classifier les réactions en groupes sur la base de leur similarité. Plusieurs façons
d’obtenir ou de calculer ces types de transformation existent (cf. parties II.2 et IV.I du chapitre
« Contexte biologique et méthodologique »). Nous avions envisagé d’utiliser trois d’entre elles
pour nos développements : les EC numbers, les RPairs/RClass et les signatures moléculaires de
réactions (RMS). La classification EC ne permet pas de couvrir toutes les réactions connues dans
les bases de données métaboliques (KEGG et MetaCyc) et n’offre pas une classification
suffisamment fine des réactions enzymatiques. La classification RPairs/RClass s’applique
uniquement aux réactions de la base de données KEGG et n’est pas facilement transposable
pour d’autres ressources. De plus, elle ne garantit pas que les réactions d’un même groupe
réalisent la même transformation chimique globale car elle ne prend en compte que des paires de
substrats et produits. Les RMS sont basées sur la décomposition de toutes les molécules qui sont
impliquées dans une réaction. Des sous-graphes centrés sur chacun des atomes sont calculés et
encodés avec le formalisme SMILES. Seuls les sous-graphes qui changent au cours de la réaction
sont gardés dans la description de la réaction pour capturer la transformation chimique. C’est
donc la méthode des RMS qui a été choisie pour rassembler les réactions selon leur type
transformation chimique d’une façon totalement automatique.
Le réseau de réactions a ensuite été transformé en réseau de RMS. Les nœuds des réactions
signées par la même RMS ont été regroupés ensemble, et la connexion entre les nœuds gardée (si
les réactions R1 et R2 étaient reliées dans le réseau de réactions, R1 est signée par RMS1 et R2
signée par RMS2, RMS1 et RMS2 sont liées dans le réseau crée). Différentes métriques de
conservation de RMS et de chemins de RMS ont ensuite été calculées. Ces métriques ont
différents sens biologiques, comme la conservation chimique (nombre de réactions par RMS), la
conservation enzymatique (nombre de protéines dans les génomes de référence qui ont pu être
associés à chaque RMS) et une conservation topologique, basée sur la structure du réseau de
RMS. Les trois métriques sont décrites d’une façon complète dans l’article. La métrique
topologique n’a toutefois pas été évidente à trouver, et plusieurs centralités ont été envisagées,
locales et globales, pour identifier celle qui avait le plus de sens biologiquement parlant.
Les centralités purement locales comme les différents degrés des nœuds (degré total, degré
entrant et degré sortant) ont été jugées trop simples, et dépendaient trop du nombre de réactions
![Page 141: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/141.jpg)
120
encodées par chaque RMS. Parmi les centralités globales, celle qui a été envisagée en premier lieu
est la centralité « betweenness » car elle représente la quantité d’information qui passe par chaque
nœud du réseau, ce qui pourrait s’apparenter aux flux d’atomes de carbone lors des
transformations chimiques, par exemple. Elle n’a toutefois pas été retenue car, paradoxalement,
elle est trop globale. En effet du point de vue biologique, un flux d’atomes de carbone décrit dans
les voies métaboliques est en général inférieur à une dizaine de réactions. Nous avons aussi essayé
de calculer la centralité betweenness pour chaque nœud sur un sous-graphe de diamètre 10
autour de ce nœud. Cette technique ne donnait pas de résultats significativement différents de la
centralité betweenness globale et résultait aussi en la perte du sens même apporté par cette
centralité. Nous nous sommes alors tournés vers les centralités dites de « hubs et d’autorités »,
très utilisées dans les analyses de réseaux sociaux et dans les réseaux de pages web. Le principe de
ces centralités est assez simple : un nœud qui pointe vers un grand nombre d’autres nœuds (qui a
un degré sortant assez grand) est un hub. Par exemple, les pages web annuaires, populaires dans
les années 1990 et début 2000, et qui ont pour seul but de pointer vers d’autres pages web
(souvent contre rémunération et/ou pour des raisons commerciales ou frauduleuses), sont des
hubs. En contrepartie, un nœud qui est pointé par beaucoup d’autres nœuds (qui a un degré
entrant important) est une autorité. C’est le cas par exemple de pages Wikipédia populaires. Parmi
les différentes centralités suivant le principe des hubs et des autorités, la centralité Page Rank
[133] a été retenue ici. Cette centralité est à la base du célèbre moteur de recherche Google et
apporte une amélioration à la notion d’autorité : plus un nœud est influent (plus son autorité est
grande) plus ses voisins directs sortants sont influents (les amis des personnes influentes sont
influentes). On parle aussi de centralité « feedback ». Dans ce cas présent, cette particularité est
intéressante, car elle permet de propager l’importance d’un nœud, et peut faire ressortir plus
naturellement les chemins dans lesquels des nœuds importants du point de vue topologique se
succèdent. Les centralités basées sur la marche aléatoire, comme le « web surfer » ou la centralité
de Markov n’ont pas été essayées, mais, avec du recul, elles ne sont pas aberrantes et pourraient
avoir un sens intéressant dans le contexte du réseau métabolique de transformations chimiques.
Un certain nombre de chemins conservés de transformations chimiques ont été identifiés grâce
aux trois scores. Certains de ces chemins font partie de voies métaboliques connues, d’autres ne
correspondent à rien de connu pour le moment, et restent donc à analyser.
![Page 142: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/142.jpg)
Sorokina et al. BMC Bioinformatics (2015) 16:385 DOI 10.1186/s12859-015-0809-4
RESEARCH ARTICLE Open Access
A new network representation of themetabolism to detect chemical transformationmodulesMaria Sorokina1,2,3*, Claudine Medigue1,2,3 and David Vallenet1,2,3
Abstract
Background: Metabolism is generally modeled by directed networks where nodes represent reactions and/ormetabolites. In order to explore metabolic pathway conservation and divergence among organisms, previous studieswere based on graph alignment to find similar pathways. Few years ago, the concept of chemical transformationmodules, also called reaction modules, was introduced and correspond to sequences of chemical transformationswhich are conserved in metabolism. We propose here a novel graph representation of the metabolic network wherereactions sharing a same chemical transformation type are grouped in Reaction Molecular Signatures (RMS).
Results: RMS were automatically computed for all reactions and encode changes in atoms and bonds. A reactionnetwork containing all available metabolic knowledge was then reduced by an aggregation of reaction nodes andedges to obtain a RMS network. Paths in this network were explored and a substantial number of conserved chemicaltransformation modules was detected. Furthermore, this graph-based formalism allows us to define several pathscores reflecting different biological conservation meanings. These scores are significantly higher for pathscorresponding to known metabolic pathways and were used conjointly to build association rules that should predictmetabolic pathway types like biosynthesis or degradation.
Conclusions: This representation of metabolism in a RMS network offers new insights to capture relevant metaboliccontexts. Furthermore, along with genomic context methods, it should improve the detection of gene clusterscorresponding to new metabolic pathways.
Keywords: Metabolic network, Reaction signatures, Graph reduction, Pathway conservation, Chemicaltransformation modules
BackgroundIn bioinformatics, metabolism is generally modeledby directed networks where nodes represent reactionsand/or metabolites and edges the product/substrateexchanges between reactions [1]. Metabolic networkreconstruction of a given organism generally starts withits genome annotation that predicts enzymatic activitiesfrom coding sequences and, therefore, the correspond-ing reactions and metabolites of the network. However,
*Correspondence: [email protected] des Sciences du Vivant, Commissariat à l’Energie Atomique et auxEnergies Alternatives (CEA), Institut de Génomique, Genoscope, Laboratoired’Analyses Bioinformatiques pour la Génomique et le Métabolisme, 2 rueGaston Crémieux, 91057 Evry, France2CNRS-UMR8030, 2 rue Gaston Crémieux, 91057 Evry, FranceFull list of author information is available at the end of the article
two main bottlenecks limit today this reconstruction byhomology: the difficulty in associating correct functionsto genes and the lack of experimental characterizationof enzyme activities for which proteins are sometimesunknown, i.e. orphan enzymes [2].Subgraphs of these networks are often used to repre-
sent metabolic pathways that group sets of connectedreactions involved in a same biological process. Sev-eral hypotheses on the origin and evolution of metabolicpathways have been proposed, including patchwork evo-lution by enzyme recruitment in new metabolic path-ways [3, 4], retrograde synthesis which postulates thatmetabolic pathways are constructed starting from thefinal metabolite [5], and the theory on metabolic path-way duplication [6]. Despite their differences, these
© 2015 Sorokina et al. Open Access This article is distributed under the terms of the Creative Commons Attribution 4.0International License (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted use, distribution, andreproduction in any medium, provided you give appropriate credit to the original author(s) and the source, provide a link to theCreative Commons license, and indicate if changes were made. The Creative Commons Public Domain Dedication waiver(http://creativecommons.org/publicdomain/zero/1.0/) applies to the data made available in this article, unless otherwise stated.
![Page 143: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/143.jpg)
Sorokina et al. BMC Bioinformatics (2015) 16:385 Page 2 of 9
hypotheses agree about the importance of enzymepromiscuity in the evolution of metabolic pathways, i.e.the capacity of enzymes to catalyze one or several typesof reactions on more or less different substrates. A recentstudy in Escherichia coli successfully brings out thisenzyme capacity to adapt themselves to new substrates [7].In order to explore metabolic pathway conservation
and divergence among organisms, previous studies werebased on pathway alignment to find similar pathwayswithin or between organisms using the Enzyme Commis-sion (EC) numbers to define reaction similarities [8–11].Due to limitations of the EC classification, the notion ofreaction similarity for pathway alignment was improvedusing metabolite similarity [12] or substructure changes[13]. Another approach, that does not require prede-fined pathways, was based on the detection of motifsin a reaction network [14]. Few years ago, the conceptof chemical transformation modules, also called reactionmodules, was introduced by Muto et al. [15]. They cor-respond to sequences of chemical transformations whichare conserved in metabolism. These modules capture thechemical logic of pathways that may correspond or not toconserved sets of enzymes. Muto et al.made a systematicanalysis of the conservation of reaction modules by align-ing metabolic pathways from KEGG [16] and used RClass(Reaction Class) [17] to group reactions having same pat-terns of chemical transformations. The same year, Barbaet al. [18] published a study on the modularity of thepurine and pyrimidine metabolism, which presents chem-ical reaction similarities, and also enriched the reactionmodule definition with the notion of enzyme homology.In the present work, we propose a different formalism
for the detection of reaction modules, although we use thesame definition of modules as Muto et al. [15]. Instead ofusing pathway alignment, we adopt an innovative graphrepresentation of the metabolism where the reaction net-work is reduced in a Reaction Molecular Signature (RMS)network. For that, RMS are automatically computed forall reactions and encode changes in atoms and bonds asdescribed in [19]. Thereby, reactions sharing a same sig-nature are grouped together. Paths in the RMS networkare then explored to detect conserved modules. Further-more, this graph-based formalism allows us to defineseveral path scores reflecting different biological conser-vation meanings. These scores are finally analyzed for allpossible paths in the network and for known metabolicones and used to build association rules that should pre-dict metabolic pathway types like metabolite biosynthesisor degradation.
MethodsReaction networkMetabolic data was extracted from MetaCyc publicdatabase version 19.0 [20]. MetaCyc contains a large
collection of curatedmetabolic pathways from all domainsof life. In addition, metabolites, reactions, enzymes andgenes are also listed. Metabolic pathways described inMetaCyc are generally short (4.3 reactions on average)and have been experimentally elucidated in at least oneorganism. A metabolic network was reconstructed usingMetaCyc reactions as nodes. We linked two reactions bya directed edge when the product of one reaction is thesubstrate of the other one. However, to avoid the high con-nectivity problems that are common when building suchmetabolic networks, we limited shared compounds to“main compounds”, i.e. metabolites deemed biologicallyrelevant to both reactions in at least one metabolic path-way. Only reactions that belong to a metabolic pathwaywere taken into account, as only these ones have dis-tinction between main metabolites and co-substrates sup-porting the reaction such as water, ATP or NAD. Trans-port reactions, for which translocated substrate remainsunchanged, were excluded from the network constructionand from further analysis, e.g. ABC transporter ATPasereactions corresponding to 3.6.3.- EC class.
Reaction molecular signaturesReaction Molecular Signatures (RMS) were computed forall MetaCyc reactions, belonging or not to a metabolicpathway, as described in [19]. These signatures encodechanges in atoms and bonds where the reaction is tak-ing place. First, structures of all molecules involved ina reaction were downloaded from MetaCyc website inMDLMolfile format. Using ChemAxon MolConvert soft-ware [21], all molecules were standardized by addingimplicit hydrogen atoms and applying aromatizationwhen needed. Stereo signature molecular descriptors [22]were then computed for heights 1 and 2 with the MolSigsoftware (http://molsig.sourceforge.net). These molecu-lar signatures are encoded using SMILES-like strings [23]and the height parameter corresponds to a distance forthe inclusion of neighbour atoms and bonds up froma given atom. Second, corresponding RMS were gener-ated for each molecular signature height by calculatingthe difference between the signatures of the productsand of the substrates. To obtain correct RMS, reactionequations have to be balanced with explicit compoundsfor which Molfile structures are available. It should benoticed that (i) for a given height, a reaction has onlyone RMS signature (ii) reactions sharing a same RMShave similar chemical transformations (iii) the higherthe height value is more the signature is precise. RMSof height 1 (RMS-H1) capture the reaction center withatom and bond changes. To compute RMS of height2 (RMS-H2), RMS-H1 were partitioned in sub-groupshaving similar signatures at height 2. Distances betweensignatures were computed using an approximate string
![Page 144: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/144.jpg)
Sorokina et al. BMC Bioinformatics (2015) 16:385 Page 3 of 9
matching algorithm [24]. Then, a hierarchical clusteringwas build on these distances using the Ward algorithm[25] and the tree was cut at a cophenetic distance thresh-old of 90. To deal with reaction directionality, RMS hav-ing strictly opposite signatures were merged in a singleentry. Higher values of the height parameter were notused because they lead to too precise signatures withmany describing only one reaction. The RMS classifica-tion of reactions is available in Additional file 1 and thesource code for the RMS computation was deposited inGitHub (https://github.com/mSorok/createRMS.git). TheRMSmethod has been chosen in this work as it guaranteesthat all reactions described by the same signature per-form the same chemical transformation, making manualpost-process unnecessary.
RMS networksThe reaction network was reduced in a directed net-work of chemical transformations represented by RMS.As shown in Fig. 1, reactions signed by the same RMSare grouped in a single node. Two RMS are connectedby a directed edge in the RMS network if there is atleast one edge in the original reaction network linkingreactions signed by the corresponding source and tar-get RMS. For computational complexity reasons and thelack of explicit representation of repeated reactions inpathway databases, edges are not created if source andtarget RMS are identical (i.e. self-loops are avoided). Thistransformation was made for the two RMS heights andwe obtained two networks called RMS-H1 and RMS-H2 networks. Furthermore, this graph reduction, whichaggregates reaction nodes and edges, allowed us to define
Markov chains transition probabilities of order 1 betweenconnected RMS. Pr
(RMSj | RMSi
)is calculated as the
ratio of the number of outgoing reaction edges linkingRMSi to RMSj among the total number of outgoing edgesfrom reactions signed by RMSi.
RMS node weightingSeveral weights, reflecting different biological conserva-tion meanings, have been computed on nodes of theRMS networks. The first weight,wRea, corresponds to thenumber of MetaCyc reactions associated to a given RMS,whether they are present or not in the initial reaction net-work. It gives a quantitative measure of the diversity ofreactions represented by a RMS.A second weight, wPageRank, is computed using
PageRank algorithm [26] implemented in the Jung 2.0Java library [27]. This topological weight is based on anetwork architecture exploration in order to locate influ-ential nodes in the RMS network with the assump-tion that most important chemical transformationsare likely to have more incoming links from othertransformations.The last weight, wProt, is an estimation of the num-
ber of proteins associated to a given RMS. Known pro-tein/reaction associations were extracted directly fromMetaCyc and from Swiss-Prot using EC numbers [28].These associations were used to compute two ratios cor-responding to the number of known proteins with thesame Pfam domain composition [29] and associated toa given RMS Np(p ∈ RMSi
⋂p ∈ Domj) divided by
the total number of known proteins having the domainsNp(p ∈ Domj), for d2r ratio, or by the total number of
Fig. 1 Reaction network to Reaction Molecular Signature network. This figure presents a toy example of the reduction of a reaction network in aRMS network. Reactions sharing a same reaction signature (same node color in the figure) are grouped in a single RMS node. Directed edges of thereaction network are also merged in the RMS network. Red edges illustrate the computation of Markov transition probabilities Pr(RMS2 | RMS1),Pr(RMS3 | RMS1) and Pr(RMS5 | RMS1). They correspond to the proportion of reaction edges, among the five outgoing edges of RMS1 reactions(blue nodes), connecting RMS1 to RMS2, RMS3 and RMS5
![Page 145: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/145.jpg)
Sorokina et al. BMC Bioinformatics (2015) 16:385 Page 4 of 9
known proteins associated to the RMSNp( p ∈ RMSi), forr2d ratio.
d2r(RMSi,Domj) = Np( p ∈ RMSi⋂
p ∈ Domj)
Np( p ∈ Domj)(1)
r2d(RMSi,Domj) = Np( p ∈ RMSi⋂
p ∈ Domj)
Np( p ∈ RMSi)(2)
Next, the association score, score(Dom,RMS), was com-puted as the harmonic mean of d2r and r2d values. Thisscore represents a trade-off between sensitivity and speci-ficity to associate protein domains to chemical transfor-mations and tends to be very low when domains or RMSare very frequent.
score(Domj,RMSi) = 2 × d2ri,j × r2di,jd2ri,j + r2di,j
(3)
Finally, wProt is, for each protein domain associated tothe given RMS, the geometric mean of the total num-ber of UniProt proteins associated to a domain multipliedby the score(Dom,RMS). Only proteins from UniProtreference proteomes [28] (version 2015_04 with 2,424reference proteomes) were considered to provide broadcoverage of the tree of life while reducing taxonomicover-representation.
wProt(RMS) = n
√√√√n∏
j=1Np( p ∈ Domj) × score(Domj,RMS)
(4)
This weight gives a quantitative measure of the diver-sity of enzymes associated to a RMS. High value of wProtmay indicate that the chemical transformation is widelyrepresented among organisms and/or that many enzymescatalyze this transformation because of many gene dupli-cations or many enzyme families.
RMS path enumeration and scoringAn enumeration of all paths of length 1 (one edge andtwo RMS nodes) to 4 (four edges and five nodes) wasmade in both RMS networks using the Grph Java library[30]. In this path enumeration, loops were not allowed (i.e.a node cannot be found more than once in a path). Tomake them comparable, metabolic pathways from Meta-Cyc were translated in overlapping RMS paths of the samelength. In addition, a Pathway Conservation Index (PCI)was computed for each RMS path and represents thenumber of distinct corresponding reaction paths that arepresent in at least one MetaCyc pathway.According to previously defined RMS weights, path
conservation scores, named scoreRea, scorePageRank andscoreProt, were calculated as the geometrical means ofpath node weights multiplied by their probability of tran-sition to the next node of the path. As an illustration, the
formula of scoreRea is given in which RMSi and RMSi+1are two consecutive nodes and n is the path length.
scoreRea(RMSs → RMSn) (5)
= n−1
√√√√n−1∏i=s
wRea(RMSi) × Pr (RMSi+1 | RMSi)
ScorePageRank and scoreProt are computed in the sameway using wPageRank and wProt, respectively.
Results and discussionFrom reaction to RMS networksAmong the 12,377 MetaCyc reactions, RMS of of height1 (RMS-H1) and 2 (RMS-H2) have been computed for9,001 reactions excluding transport reactions and reac-tions without proper compound structures as describedin the Methods section. As shown in Table 1, RMS-H1gathers on average about two times more reactions thanRMS-H2. Indeed, RMS-H2 signatures givemore precisionabout the chemical transformations than RMS-H1 as theyencode additional information about the neighborhood ofthe reaction center that may be important for the chemicalreactivity.This fully automated chemical classification of reac-
tions was compared with the Enzyme Commission (EC)classification which is a human expertise classification ofenzymatic activities [31]. Even if efforts were made toautomate the classification of new activities [17, 32, 33],the EC classification covers only half of all known enzy-matic reactions. Among the 4,574 reactions linked bothto an EC number and to a RMS, a simple similarity mea-sure (Rand index) was computed between the third levelsub-subclasses of EC numbers (179 classes) and the RMS-H1 (1,437 classes). We obtained a Rand index value of97.68 % meaning, even if the RMS classification has afiner granularity, both classifications are thus similar (seeAdditional file 2 for detailed counts). Reactions classifiedin a same RMS tends to have the same third level ECclass. Nevertheless, we found cases where the two clas-sifications differs such as the example depicted in Fig. 2.From a chemical point of view, the D-glutamate cyclaseand the L-lysine-lactamase reactions correspond to theformation or the hydrolysis of a lactam involving a pri-mary amine and the carbon of the keto function of a
Table 1 Reaction molecular signature statistics
Height 1 Height 2
Number of RMS 2477 4775
Number of reactions by RMS
Minimum 1 1
Average 3.63 1.89
Maximum 312 144
![Page 146: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/146.jpg)
Sorokina et al. BMC Bioinformatics (2015) 16:385 Page 5 of 9
Fig. 2 Example of reactions having a same RMS signature but classified in different EC classes. a D-glutamate cyclase reaction annotated with theEC 4.2.1.48. b L-lysine lactamase reaction annotated with EC 3.5.2.11. This both reactions make the same the chemical transformation representedby RMS-H1.1372, which encodes, in SMILES-like strings, the difference between the products and the substrates of atomic signatures of height 1
carboxylic acid. These reactions are encoded by the sameRMS but their EC classes differ: the D-glutamate cyclase isclassified as a carbon-oxygen lyase (EC number 4.2.1.48),whereas the L-lysine-lactamase is a hydrolase acting ona carbon-nitrogen bond of a cyclic amide (EC number3.5.2.11). These differences show that EC numbers aremainly focused on enzymatic activities and take in consid-eration the biological context to classify the reactions (e.g.the in vivo reaction directionality). These ambiguities, thatare quite common between lyases and hydrolases or trans-ferases, were also previously reported in other chemicalclassifications of reactions like MOLMAP [34].Finally, an initial reaction network was established using
metabolic pathway information from MetaCyc. It is madeof 5,830 reaction nodes and 11,197 directed edges withan average node degree of 2.6. This graph was reducedin two RMS networks using RMS-H1 and H2 signatures.As summarized in Table 2, RMS networks are more com-pact than the reaction network: RMS-H1 and RMS-H2networks contain a third and a half of nodes, respectively.
Table 2 Statistics on reaction network and RMS networks
Reaction RMS-H1 RMS-H2network network network
Number of nodes 5830 1768 3365
Number of edges 11197 6107 8721
Average node degree 5.17 9.10 3.33
Average node out degree 2.60 4.36 2.99
Average node in degree 2.27 3.94 6.84
Node reduction rate 1 0.30 0.57
By aggregating reactions in RMS nodes while preserv-ing their initial connectivity, RMS graph structure shouldefficiently capture conserved paths of chemical reactionseven for reactions not already associated to a metabolicpathway. Indeed, 2,278 reactions not included in the initialreaction network are linked to a chemical transformationcontext in the RMS networks since they are classifiedin the RMS networks with other reactions from knownpathways.
Conserved RMS paths in metabolic pathwaysAn exploration of the RMS networks was conducted by anenumeration of all paths of length 1 (one edge, two RMS)to 4 (four edges, five RMS). To evaluate their conservationin the light of knownmetabolic pathways, a Pathway Con-servation Index (PCI) was computed for each RMS pathand corresponds to the number of distinct reaction pathspresent in MetaCyc pathways. The number of RMS pathswith a PCI ≥2 is reported in Table 3 for each path lengthand for both signature heights. We found, for RMS-H1,between 117 and 600 conserved RMS paths depending ofthe path length and fewer paths (between 128 and 380)for RMS-H2 as they encode more precise signatures (seeAdditional file 3 for the complete list). They correspond to
Table 3 Number of conserved modules (PCI ≥ 2)
Path length RMS-H1 network RMS-H2 network
1 600 380
2 365 214
3 212 141
4 117 128
![Page 147: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/147.jpg)
Sorokina et al. BMC Bioinformatics (2015) 16:385 Page 6 of 9
conserved chemical transformation modules, also namedreaction modules in a previous study [15]. Indeed, Mutoet al. obtained similar results but with a higher num-ber of detected conserved paths (between 338 and 928for the same path lengths). Although our results are notdirectly comparable to those of Muto et al. by the usage ofdifferent primary data sources (i.e. MetaCyc and KEGG,respectively), the RMS paths detected by our method canbe directly considered as conserved modules whereas thepaths obtained by Muto et al. need a manual examina-tion to obtain conserved modules from them. In fact, theyadopted a looser definition of chemical conservation with-out taking into account side compounds and using finger-print similarities to group reactions without the constraintthat the reactions perform the same chemical transfor-mation. Only 34 reaction modules were finally confirmedby the authors [15]. Among the modules detected by ourmethod, we found, for instance, that the β-oxidation path-way, that is well-known for fatty acid degradation, is alsoconserved for other molecule types (Fig. 3). This module,also detected by Muto et al. for a subset of compounds(two among eight), has four reaction variants in its firststep. As another example, we detected a new three-stepmodule for the biosynthesis of aldoximes from aminoacids, which are notably precursors of several secondarymetabolites produced by plants (Fig. 4). More generally,nearly half (48 %) of metabolic pathways contains at leastone conserved module in the height 1 RMS network (seeTable 4). Interestingly, pathways involved in the genera-tion of precursor metabolites and energy (‘Energy’ type inTable 4) are the most conserved (78 % of them in RMS-H1network). Besides, the proportion of conserved pathwaysinvolved in biosynthesis and degradation is also importantand comparable for both types, 42 % and 47 % respectively.
RMS path scoring and learningTo go further, our method proposes an evaluation ofchemical module conservation in the metabolism usingthree scores corresponding to different biological pointsof view. Indeed, scoreRea reflects the diversity of reac-tions performing the same chemical transformations ondifferent substrates, scoreProt represents the conservationof enzymes performing these chemical transformationsacross the tree of life and scorePageRank shows the topo-logical importance of the module in the network by high-lighting chemical hubs. These scores were computed forall paths and analyzed more precisely for paths of length2 in the RMS-H2 network (Table 5). It should be noticedthat the scoreProt cannot be computed for about 20 %of paths as they contain at least one RMS without anyknown protein catalyzing the corresponding reactions, i.e.30 % of the RMS-H2 correspond to orphan enzyme activ-ities. As depicted in Fig. 5, paths from known metabolicpathways present statistically significant higher values forthe three scores than in all possible paths computed fromthe RMS network (p-value < 2e−16 using Tukey’s HSDtests). Similar results were obtained for RMS-H1 net-work (see Additional file 4). These results confirm thatthe defined scores are useful to capture biologically rel-evant paths in the RMS network and should allow us todiscover new metabolic modules. Furthermore, we foundonly a weak correlation between scoreRea and scorePageR-ank (Spearmans’ correlation coefficient of 0.66) andno correlation between other pairs of scores. There-fore, the proposed scores can be considered as ratherindependent and then used conjointly to explore theRMS network.Next, these scores were analyzed in the light of
MetaCyc pathway classification using five main types
Fig. 3 Conservation of β-oxidation module for non-fatty acid compounds. In addition to fatty acids, the β-oxidation module was found conservedfor the transformation of 8 compounds represented in the figure. For the first step, we found 4 reaction variants encoded in different RMS of height1: three RMS correspond to a dehydrogenation between the alpha and beta carbons but with different acceptors, another corresponds to acoenzyme A ligation. A color code indicates the corresponding substrates. Only molecules marked with an asterisk were also detected by Muto et al.(KEGG Reaction Module RM018)
![Page 148: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/148.jpg)
Sorokina et al. BMC Bioinformatics (2015) 16:385 Page 7 of 9
Fig. 4 A conserved module for the biosynthesis of aldoximes from amino acids. a This module is made of three chemical transformations encodedby RMS-H2 signatures. It corresponds to the oxidative decarboxylation of an anmino acid to its aldoxime. b The module is conserved in differentMetaCyc pathways for five distinct proteinogenic amino acids. Produced aldoximes are precursors of nitrogen-containing secondary metabolites inplants, like cyanogenic glycosides for seed germination and defense, or auxin phytohormones
of biological processes: biosynthesis, degradation/utilization/assimilation, detoxification, generation ofprecursor metabolites and energy, and a last type, called“others”, that gathers other MetaCyc main pathwayclasses. By performing pairwise comparisons of pathwaytypes (i.e. Kruskal-Wallis rank sum tests completed bypost-hoc Tukey’s HSD tests, see Additional file 5), wefound significant differences (p-values < 0.05) among allpathway types for at least one of the three conservationscores. These results presume that pathway types could
Table 4 Number of pathways containing at least one conservedmodule (length 2, PCI ≥ 2) classified by their type
Pathway type RMS-H1 network RMS-H2 network
Biosynthesis 263 (42%) 154 (24%)
Degradation 172 (47%) 95 (25%)
Detox 3 (27%) 3 (23%)
Energy 61 (78%) 51 (65%)
Other 19 (33%) 10 (17%)
All 518 (46%) 313 (27%)
be predicted by machine learning using a combination ofthe three scores. Thus, pathway assignment rules weregenerated with the NNge algorithm [35, 36] implementedin Weka [37]. As the number of RMS paths per pathwaytype is very unbalanced (e.g. the “biosynthesis” classcontains almost twice the number of paths than other
Table 5 Statistics on conservation scores for paths of length 2 inthe RMS-H2 network
ScoreRea ScorePageRank ScoreProt
All enumeratedpaths (n = 72173)
Min score 0.04 3.32e−6 4.39e−4Average score 0.61 7.69e−5 25.17
Max score 17.58 1.20e−3 3913.24
Paths in knownpathways (n = 3001)
Min score 0.04 8.63e−6 7.81e−4Average score 1.07 1.55e−4 118.57
Max score 17.58 1.20e−3 3913.24
![Page 149: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/149.jpg)
Sorokina et al. BMC Bioinformatics (2015) 16:385 Page 8 of 9
Fig. 5 Boxplots of conservation scores for enumerated and known metabolic paths. For paths of length 2 (two edges and three nodes) in theRMS-H2 network, distributions of the three conservation scores (i.e. scoreRea, scoreProt and scorePageRank) are presented in all possible paths fromthe RMS network (identified as “All paths” in the figure) versus paths solely included in known metabolic pathways (“Known metabolic pathways”).The latter present significant higher scores (p-value < 2e−16 using Tukey’s HSD tests)
types), classes were virtually balanced using resamplingfunction of Weka. We successfully obtained rules thatcorrectly classify RMS paths in pathway types with anaccuracy greater than 89 % (see Additional file 6).
ConclusionsWe present here a novel metabolic network repre-sentation where nodes are chemical transformationsdepicted by reaction molecular signatures. This datamodel is particularly useful for finding conserved chemi-cal transformation modules in metabolic pathways as theycorrespond to paths in the RMS network. An impor-tant number of modules was detected and could beintegrated in metabolic databases, like KEGG [16] orMetaCyc [20], to help biologists looking for similar path-ways. Furthermore, new metrics (i.e. scoreRea, scoreProtand scorePageRank) were introduced to evaluate moduleconservation according to different biological meanings.We show that knownmetabolic paths present higher scorevalues than random ones and that the scores, used con-jointly, may predict module pathway types. In terms ofimprovement of the graph reduction method, it may beof interest to dynamically adapt the precision of the reac-tion signatures when merging reaction nodes to take intoaccount the local graph topology. This could be achievedtaking inspiration from the method proposed by Xuet al. [38] in which the maximum entropy principle andtheMarkov chain model-reduction problem were applied.Finally, it should be highlighted that our method can beeasily adapted to other types of reaction classificationsbased on chemical transformations.Although its construction is based on an initial reac-
tion network, the RMS network offers new insightsinto metabolism as it could capture relevant metaboliccontexts even without precise definition of initial reaction
sets or metabolite structures. Indeed, more than twothousand reactions lacking a metabolic pathway wereintegrated in the RMS network and now share com-mon contexts with reactions from known pathways. Fur-thermore, considering that many orphan enzymes havenetwork neighbours that are orphans themselves [2],computational tools [39, 40] have difficulties to findcandidate genes for these missing enzymes by definingcorrect genomic contexts (e.g. chromosomal clusters, co-occurrence profiles) that include candidate proteins andknown enzymes. As a perspective, one of the possibleimprovements of thesemethods could be the use of a RMSnetwork instead of a reaction network as it may be easierto find proper genomic contexts using relaxed notions ofmetabolic context. This enhancement may also be appliedin the discovery of gene clusters corresponding to newmetabolic pathways.
Additional files
Additional file 1: Reaction molecular signature classification ofreactions. (XLSX 410 kb)
Additional file 2: Comparison of RMS and enzyme commissionreaction partitions. (PDF 414 kb)
Additional file 3: List of conserved chemical transformationmodules.They correspond to RMS paths present in known metabolic pathways witha PCI (Pathway Conservation Index) ≥2. (XLSX 76 kb)
Additional file 4: Boxplots of conservation scores for enumeratedand knownmetabolic paths of length 2 in the RMS-H1 network.(PDF 306 kb)
Additional file 5: Statistical analysis of path score distributionsaccording to their pathway type. Kruskal-Wallis and Tukey HSD statisticaltest results comparing scoreRea, scoreProt and scorePageRank distributionsfor paths in RMS-H1 and H2 networks belonging to at least one knownmetabolic pathway and depending on their pathway type. (PDF 317 kb)
Additional file 6: Metabolic pathway type prediction rules generatedby NNge algorithm. NNge model and cross-validation results for pathwaytype prediction rules. (PDF 374 kb)
![Page 150: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/150.jpg)
Sorokina et al. BMC Bioinformatics (2015) 16:385 Page 9 of 9
Competing interestsThe authors declare that they have no competing interests.
Authors’ contributionsMS and DV conceived the method. MS designed the method and performedthe analysis. CM and DV supervised the work. MS and DV wrote themanuscript.CM reviewed the manuscript. All authors read and approved the manuscript.
AcknowledgementsWe would like to thank Anne Zaparucha and Carine Vergne-Vaxelaire for theirvaluable advice in chemistry, and, also, Karine Bastard and Mark Stam for theirhelpful suggestions on the manuscript.
Author details1Direction des Sciences du Vivant, Commissariat à l’Energie Atomique et auxEnergies Alternatives (CEA), Institut de Génomique, Genoscope, Laboratoired’Analyses Bioinformatiques pour la Génomique et le Métabolisme, 2 rueGaston Crémieux, 91057 Evry, France. 2CNRS-UMR8030, 2 rue GastonCrémieux, 91057 Evry, France. 3UEVE, Université d’Evry Val d’Essonne,Boulevard François Mitterrand, 91057 Evry, France.
Received: 1 July 2015 Accepted: 29 October 2015
References1. Lacroix V, Cottret L, Thébault P, Sagot MF. An introduction to metabolic
networks and their structural analysis. IEEE/ACM Trans ComputationalBiology and Bioinformatics. 2008;5(4):594–617.
2. Sorokina M, Stam M, Médigue C, Lespinet O, Vallenet D. Profiling theorphan enzymes. Biol Direct. 2014;9:10.
3. Jensen RA. Enzyme recruitment in evolution of new function. Ann RevMicrobiol. 1976;30:409–25.
4. Ycas M. On earlier states of the biochemical system. J Theor Biol.1974;44(1):145–60.
5. Horowitz NH. On the Evolution of Biochemical Syntheses. Proc Nat AcadSci USA. 1945;31(6):153–7.
6. Schmidt S, Sunyaev S, Bork P, Dandekar T. Metabolites: a helping handfor pathway evolution? Trends Biochem Sci. 2003;28(6):336–41.
7. Notebaart RA, Szappanos B, Kintses B, Pal F, Gyorkei A, Bogos B, et al.Network-level architecture and the evolutionary potential ofunderground metabolism. Proc Nat Acad Sci USA. 2014;111(32):11762–7.
8. Dandekar T, Schuster S, Snel B, Huynen M, Bork P. Pathway alignment:application to the comparative analysis of glycolytic enzymes. BiochemicJ. 1999;343:115–24.
9. Tohsato Y, Matsuda H, Hashimoto A. A multiple alignment algorithm formetabolic pathway analysis using enzyme hierarchy. In: ProceedingsInternational Conference on Intelligent Systems for Molecular Biology;2000. p. 376–83. http://europepmc.org/abstract/med/10977098.
10. Pinter RY, Rokhlenko O, Yeger-Lotem E, Ziv-Ukelson M. Alignment ofmetabolic pathways. Bioinformatics. 2005;21(16):3401–8.
11. Wernicke S, Rasche F. Simple and fast alignment of metabolic pathwaysby exploiting local diversity. Bioinformatics. 2007;23(15):1978–85.
12. Ay F, Kellis M, Kahveci T. Submap: aligning metabolic pathways withsubnetwork mappings. J Comput Biol. 2011;18(3):219–35.
13. Tohsato Y, Nishimura Y. Reaction similarities focusing substructurechanges of chemical compounds and metabolic pathway alignments.IPSJ Trans Bioinformatics. 2009;2:15–24.
14. Lacroix V, Fernandes CG, Sagot MF. Motif search in graphs: Applicationto metabolic networks. In: IEEE/ACM Transactions on ComputationalBiology and Bioinformatics; 2006. p. 360–8. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4015378.
15. Muto A, Kotera M, Tokimatsu T, Nakagawa Z, Goto S, Kanehisa M.Modular architecture of metabolic pathways revealed by conservedsequences of reactions. J Chem Inform Model. 2013;53(3):613–22.
16. Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M.Data, information, knowledge and principle: back to metabolism in kegg.Nucleic Acids Res. 2014;42(D1):199–205.
17. Kotera M, Okuno Y, Hattori M, Goto S, Kanehisa M. Computationalassignment of the ec numbers for genomic-scale analysis of enzymaticreactions. J Am Chem Soc. 2004;126(50):16487–98.
18. Barba M, Dutoit R, Legrain C, Labedan B. Identifying reaction modules inmetabolic pathways: bioinformatic deduction and experimentalvalidation of a new putative route in purine catabolism. BMC Syst Biol.2013;7:99.
19. Carbonell P, Planson AG, Fichera D, Faulon JL. A retrosynthetic biologyapproach to metabolic pathway design for therapeutic production. BMCSyst Biol. 2011;5(1):122.
20. Caspi R, Altman T, Billington R, Dreher K, Foerster H, Fulcher CA, et al.The MetaCyc database of metabolic pathways and enzymes and theBioCyc collection of Pathway/Genome Databases. Nucleic Acids Res.2014;42(D1) http://nar.oxfordjournals.org/content/42/D1/D459.short.
21. ChemAxon. JChem Base was used for structure searching and chemicaldatabase access and management. 2012. http://www.chemaxon.com.
22. Carbonell P, Carlsson L, Faulon JL. Stereo signature molecular descriptor.J Chem Inform Model. 2013;53(4):887–97.
23. Weininger D. SMILES, a chemical language and information system. 1.Introduction to methodology and encoding rules. J Chem Inform Model.1988;28(1):31–6.
24. Diaz-Gonzalez J. FuzzyWuzzy. https://github.com/seatgeek/fuzzywuzzy2015.
25. Jr Ward JH. Hierarchical grouping to optimize an objective function. J AmStat Assoc. 1963;58(301):236–44.
26. Page L, Brin S, Motwani R, Winograd T. The PageRank Citation Ranking:Bringing Order to the Web. Technical Report. Stanford InfoLab. 1999.http://ilpubs.stanford.edu:8090/422/.
27. Team TJFD. JUNG— the Java Universal Network/Graph Framework.http://jung.sourceforge.net/ 2013.
28. UniProt Consortium. UniProt: a hub for protein information. Nucleic AcidsRes. 2015;43:D204–D212. http://nar.oxfordjournals.org/content/43/D1/D204.
29. Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, et al.Pfam: the protein families database. Nucl Acids Res. 2014;42:D222–30.
30. Hogie L. Grph:The high performance graph library for Java. 2013. http://www.i3s.unice.fr/~hogie/grph/.
31. Bairoch A. The ENZYME data bank. Nucleic Acids Res. 1994;22(17):3626–7.32. Nath N, Mitchell JBO. Is EC class predictable from reaction mechanism?
BMC Bioinformatics. 2012;13(1):60.33. Rahman SA, Cuesta SM, Furnham N, Holliday GL, Thornton JM.
EC-BLAST: a tool to automatically search and compare enzyme reactions.Nat Methods. 2014;11(2):171–4.
34. Latino DARS, Zhang QY, Aires-de-Sousa JA. Genome-scale classificationof metabolic reactions and assignment of EC numbers withself-organizing maps. Bioinformatics. 2008;24(19):2236–44.
35. Roy S. Nearest Neighbor With Generalization. Christchurch, New Zealand.2002. http://weka.sourceforge.net/doc.packages/NNge/weka/classifiers/rules/NNge.html.
36. Martin B. Instance-based learning: Nearest neighbor with generalization.1995.
37. Hall M, Frank E, Holmes G, Pfahringer B, Reutemann P, Witten IH. TheWEKA Data Mining Software: An Update; SIGKDD Explorations. 2009.11(1). Accessed 2015-04-28.
38. Xu Y, Salapaka SM, Beck CL. On reduction of graphs and markov chainmodels. In: Decision and Control and European Control Conference(CDC-ECC), 2011 50th IEEE Conference On; 2011. p. 2317–322.http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6160882&tag=1.
39. Yamada T, Waller AS, Raes J, Zelezniak A, Perchat N, Perret A, et al.Prediction and identification of sequences coding for orphan enzymesusing genomic and metagenomic neighbours. Mol Syst Biol. 2012;8:581.
40. Smith AAT, Belda E, Viari A, Medigue C, Vallenet D. The CanOE strategy:Integrating genomic and metabolic contexts across multiple prokaryotegenomes to find candidate genes for orphan enzymes. PLoS ComputBiol. 2012;8(5) http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1002540.
![Page 151: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/151.jpg)
122
Conclusion du Chapitre II Une nouvelle représentation du métabolisme a été présentée dans cet article. Ce modèle de
données basé sur un réseau métabolique, où les nœuds sont des types de transformations
chimiques, est particulièrement utile pour retrouver des modules conservés. Ces modules de
transformations chimiques peuvent aider les biologistes dans la recherche de nouvelles voies
métaboliques similaires ou non à des voies métaboliques connues.
En considérant que beaucoup d’activités orphelines de séquences ont leurs voisins métaboliques
qui sont aussi orphelins [8], des outils comme CanOE [225] ont des difficultés pour trouver des
gènes candidats pour ces activités en définissant des contextes génomiques corrects qui incluent
des enzymes connues et des protéine candidates. La suite du travail de cette thèse était donc
l’utilisation du réseau de RMS, au lieu d’un réseau de réactions, pour faciliter la recherche de
contextes génomiques appropriés. Ce type d’approche peut aussi être appliqué pour la découverte
de groupes de gènes correspondants à de nouvelles voies métaboliques. C’est ce type d’approches
qui est présenté dans le chapitre suivant.
![Page 152: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/152.jpg)
123
![Page 153: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/153.jpg)
124
Chapitre III Association de contextes génomiques avec des modules conservés de transformations chimiques
Dans un grand nombre de cas, et particulièrement dans les organismes procaryotes, les gènes co-
localisés sur les chromosomes (dans des structures opéroniques notamment) sont souvent
impliqués dans une même fonction cellulaire. Dans un premier temps, une méthode simple de
prédiction de blocs de gènes proches sur les chromosomes (directons) a été développée et utilisée
sur l’ensemble de génomes disponibles au sein de la plateforme MicroScope [169].
Les directons, ainsi prédits, ont ensuite été placés dans un contexte métabolique représenté sous
la forme d’un réseau de signatures moléculaires de réactions (RMS). Pour cela, a été utilisée
l’association Pfam-RMS présentée dans le chapitre II de cette thèse, ce qui a permis d’associer les
gènes des directons contenant au moins un Pfam à des RMS du réseau. Ces associations
représentent des transformations chimiques potentielles que peuvent catalyser les protéines
codées par les gènes de l’opéron. Des sous-graphes formés des RMS ainsi sélectionnées sont
ensuite extraits, et leur nœuds colorés en fonction des gènes associés. Les chemins ayant un
maximum de couleurs (dans lesquels le plus grand nombre des gènes du directon sont impliqués)
et les meilleurs scores de conservation sont sélectionnés comme candidats pour l’annotation du
directon.
La troisième partie de ce chapitre est consacrée à une étude de cas. Il s’agit de replacer dans un
contexte génomique et métabolique une famille d’enzymes, les Baeyer-Villiger monooxygénases.
Ce sont des enzymes capables d’insérer un atome d’oxygène dans une liaison carbone-carbone,
transformation chimique très utile en chimie organique et ayant des applications industrielles
![Page 154: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/154.jpg)
125
pour la production de molécules d’arômes. En effet, cette réaction peut aussi être réalisée par
synthèse chimique, mais nécessite l’utilisation de réactifs potentiellement toxiques. Ces enzymes
présentent de nombreux avantages techniques par rapport à la synthèse chimique (chimio-, régio-
, stéréospécificité), et leur utilisation en biocatalyse répond ainsi aux exigences de la chimie verte
et durable. L’approche utilisée ici, combinant un contexte génomique avec un contexte
métabolique, a permis de mettre en évidence un certain nombre de modules de transformations
chimiques conservés contenant une réaction d’oxydation de type Baeyer-Villiger.
![Page 155: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/155.jpg)
126
I. Prédiction des directons dans les génomes bactériens
Un opéron est une unité d’ADN fonctionnelle regroupant des gènes qui opèrent sous le signal
d’un même promoteur. Ces gènes sont co-transcrits et traduits à partir d’un ARN messager
polycistronique et concourent souvent à la réalisation d’une même fonction cellulaire. Les
opérons sont principalement connus chez les bactéries et les archées.
Le terme de directon réfère à un ensemble maximal de gènes adjacents localisés sur le même brin
d’ADN. Les directons sont relativement faciles à calculer et sont souvent de bons candidats pour
la prédiction d’opérons. Nous avons écrit une méthode de prédiction de directons adaptée à
l’analyse de génomes présents dans la plateforme MicroScope. Cette méthode sélectionne des
groupes de CDS (CoDing Sequences) sur le même brin suivant plusieurs critères (Figure 26):
- les CDS sont prédites par deux méthodes différentes (AMIGene [260] et Prodigal [261]) ;
- il y a maximum 100 nucléotides entre deux CDS
- il n’y a aucune CDS prédite simultanément par les deux méthodes sur le brin opposé
Figure 26. Critères de définition d’un directon : le nombre maximal de nucléotides entre deux CDS est de 100 ; les CDS chevauchants sont pris en compte ; il ne doit pas y avoir de CDS sur le brin opposé de l’ADN.
Les CDS chevauchantes (distance négative entre deux CDS) sont considérées comme faisant
partie d’un seul directon. En effet, dans les organismes ayant une structure chromosomique
![Page 156: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/156.jpg)
127
compacte (comme les procaryotes et les virus), le chevauchement des gènes est très commun et
n’empêche pas leur transcription en ARNm polycistronique et leur traduction.
Les directons ont été prédits pour tous les génomes microbiens contenus dans la plateforme
MicroScope [169]. Des directons ont été prédits dans 5709 séquences génomiques, avec en
moyennes 644 directons par génome et 3,2 gènes par directon.
Le plus grand directon en nombre de gènes est de 52. Ce directon est retrouvé chez Kineococcus
radiotolerans, une bactérie polyextrémophile. Il pourrait ici s’agir d’un cas d’une surprédiction liée à
la nature de cette bactérie, car celle-ci présente un génome exceptionnellement compact avec des
puissants mécanismes de réparation de l’ADN qui participent à sa résistance à la radioactivité, la
dessiccation et à de nombreuses substances toxiques.
L’organisme qui a les directons les plus longs (8.75 gènes en moyenne) est Borrelia burgdorferi, une
bactérie ayant comme vecteur les tiques et responsable de la maladie de Lyme chez l’homme
[262]. Cette bactérie possède, en effet, beaucoup de grands opérons (allant jusqu’à 25 gènes) qui
sont impliqués, principalement, dans la motilité, la chémotaxie (mouvements en réponse à un
stimulus chimique) et l’infection.
Cette méthode, très simple, a été validée en comparant les directons prédits avec les opérons de la
base de données de RegulonDB qui sert de référence pour Escherichia coli K-12 MG1655 [178].
Dans RegulonDB les gènes sont partitionnés en 811 opérons, alors que notre méthode a détecté
973 directons. Globalement, nos prédictions sont assez cohérentes, notre méthode ayant
tendance à prédire des directons plus longs que les opérons dans RegulonDB. Cette comparaison
a été réalisée en étudiant l’appartenance simultanée ou non à un directon puis à un opéron des
gènes de toutes les paires de gènes possibles du génome. Ceci a permis de calculer trois
métriques :
- l’indice de Rand, qui est le rapport entre toutes les paires en accord (qui sont ensemble
dans un même directon d’une part et dans un même opéron d’autre part ou, qui sont
dans les deux cas dans des groupes différents) et toutes les paires possibles. Il s’agit d’une
mesure de comparaison de partitions, considérant qu’ici les gènes sont partitionnés en
opérons ou en directons. L’indice de Rand est un nombre entre 0 et 1, 0 étant pour deux
partitions complètement différentes, et 1 pour deux partitions identiques.
![Page 157: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/157.jpg)
128
- la sensibilité : le rapport entre le nombre de paires où les deux gènes sont dans le même
opéron et le même directon et le nombre de toutes les paires dans un même opéron
- la spécificité : le rapport entre le nombre de paires où les deux gènes sont dans le même
opéron et le même directon et le nombre de toutes les paires dans un même directon
Dans la comparaison des partitions des gènes en directons par notre méthode et en opérons dans
la base de données RegulonDB, l’indice de Rand est de 0.9988, ce qui signifie que les deux
partitions sont très proches. Il faut cependant nuancer ce chiffre très haut, car le nombre total de
gènes à partitionner est assez élevé, et le nombre de paires en accord négatif (dans des groupes
différents dans les deux partitions) est d’autant plus grand, ce qui biaise ce calcul. Les mesures de
sensibilité et de spécificité permettent de nuancer cet index, car ne tiennent pas compte de toutes
les paires en accord négatif. La sensibilité de similitude entre les directons et les opérons est de
0.86 et la spécificité de 0.73. Ces chiffres, bien qu’assez élevés, ce qui démontre bien la similarité
des prédictions, reflètent aussi la légère différence du nombre et de taille des directons et des
opérons.
Des comparaisons similaires ont été réalisées en comparant les directons prédits chez E. coli K-12
et Acinetobacter baylyi ADP1 avec les prédictions des méthodes DOOR [263] et ProOpDB [264].
Notre méthode permet de détecter des blocs génomiques comparables en taille et en nombre à
ceux des deux autres ressources. De plus, nous pouvons calculer les directons rapidement sur
tous les génomes à notre disposition dans MicroScope. Il a donc été décidé d’utiliser les directons
prédits de cette façon pour les analyses combinant le contexte génomique au contexte
métabolique représenté, pour sa part, par les réseaux de signatures moléculaires de réactions.
![Page 158: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/158.jpg)
129
II. Projection des directons sur le réseau de signatures moléculaires de réactions
Des métriques d’association entre les familles de protéines Pfam, correspondant à des domaines
de protéines, et les RMS ont été établies selon la méthode décrite dans le chapitre II de cette
thèse. Il s’agit notamment d’un score de sélectivité (équivalent à un F-score) basé sur un calcul de
la sensibilité et de la spécificité d’association, qui représentent la fraction de protéines associées, à
la fois, à un domaine Pfam donné et à une RMS donnée. Le nombre total de protéines associées
constitue également une métrique intéressante pour donner une indication quantitative à ce score.
Ces métriques permettent ainsi d’évaluer la probabilité qu’une protéine soit impliquée dans la
catalyse de tel ou tel type de transformation chimique.
Pour chacun des gènes des directons prédits selon la méthode décrite dans la section précédente,
les domaines Pfam des protéines correspondantes ont été déterminés à l’aide du logiciel
InterproScan [145]. Des RMS ont ensuite été associées à ces gènes via les domaines Pfam
calculés. Une limite de cette méthode est de ne pas pouvoir associer de RMS à des gènes n’ayant
pas de résultat Pfam. De plus, certaines RMS (environ 35%) ne peuvent pas être associées à des
gènes car elles n’ont pas de protéines connues pour catalyser la transformation ou les protéines
connues n’ont pas de domaines Pfam.
Pour chaque directon, les associations gènes-RMS sont ensuite projetées sur le réseau de RMS.
Les nœuds, correspondant aux RMS présentes dans le directon, sont ainsi sélectionnés et
« coloriés » avec une couleur par gène. A partir de ces nœuds et de toutes les arêtes du réseau
initial, un sous-réseau est extrait. Les nœuds isolés sont supprimés et s’il existe plusieurs sous-
graphes connexes, ils sont considérés comme des entités distinctes.
Pour chaque sous-graphe, tous les chemins possibles sont énumérés, et ne sont sélectionnés que
les chemins passant par toutes les couleurs ou un maximum de couleurs – c’est à dire par des
RMS qui sont catalysées par le produits de tous (ou un maximum) de gènes du directon. Ce
processus de projection de directons sur le réseau de RMS est décrit en Figure 27.
![Page 159: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/159.jpg)
130
Figure 27. Processus de projection des directons sur le réseau de RMS.
Les nœuds des RMS associées aux gènes du directon sont sélectionnés dans le réseau. Ces nœuds, ainsi que toutes les arêtes qui les relient, sont ensuite extraits. Les nœuds isolés sont supprimés et les composantes connexes séparées (une seule composante connexe dans l’exemple présenté ici, entourée en rouge). Dans le sous-graphe correspondant à chaque composante connexe les nœuds sont colorés en fonction du (ou des) gène(s) qui leur est (sont) associé(s). Tous les chemins possibles dans ce sous-graphe sont ensuite calculés, et sont sélectionnés ceux qui passent par toutes (ou un maximum) de couleurs et ont les meilleurs scores (scoreRea, scoreProt et scoreTopo).
![Page 160: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/160.jpg)
131
Vu que la taille de ces sous-réseaux est relativement faible (une dizaine de nœuds en général), il
était plus simple, d’un point de vue computationnel, d’énumérer tous les chemins possibles et
ensuite calculer le nombre de couleurs représentées dans les chemins que d’utiliser des
algorithmes complexes de recherche de chemins colorés optimaux (ce qui peut aussi être assimilé
à la recherche de motifs, comme le fait le programme MOTUS [246], par exemple).
Un certain nombre de chemins de transformations chimiques candidats pour les directons est
ainsi obtenu. La sélection des meilleurs chemins repose ensuite sur la comparaison de leurs scores
(scoreRea, scoreProt et scoreTopo (aussi appellé scorePageRank dans l’article [30]), cf. chapitre II). Il n’est
pas forcément nécessaire que tous les scores d’un chemin donné soient plus élevés que ceux des
autres chemins, ainsi, par exemple, un chemin avec un scoreTopo ou un scoreRea particulièrement
élevé sera préféré à un chemin où les trois scores sont plutôt moyens. En effet, on préfèrera un
chemin très conservé selon un seul critère (conservation chimique, enzymatique ou topologique)
à un chemin moyennement conservé pour l’ensemble des score. Il faut aussi remarquer que,
parmi les chemins candidats, le scoreProt sera toujours non nul alors qu’il l’est pour environ 30%
des chemins dans le réseau global de RMS. Ceci vient du fait que les gaps (i.e. RMS non associées
à un gène du directon) ne sont pas autorisés dans l’extraction des sous-graphes lors de la
projection du directon sur le réseau. Ainsi, toutes les RMS des chemins sélectionnés sont
associées à au moins une famille Pfam et à au moins un gène du directon.
Pour la prise en compte des RMS sans famille Pfam associée, ce qui est incontestablement
intéressant pour l’annotation de protéines à fonction inconnue ou non-associées à une famille
Pfam, un paramètre de gap à 1 permettrait d’intégrer les voisins directs des nœuds RMS
sélectionnées lors de la recherche de sous-graphes. Néanmoins, les réseaux de RMS,
indépendamment de la hauteur des signatures de réaction, sont des graphes assez compacts où le
nombre moyen de voisins d’un nœud (i.e. le degré) est de 6,4. L’inclusion de gaps rend donc la
taille des sous-graphes extraits assez importante. La sélection des chemins candidats est alors
beaucoup plus compliquée et requiert, cette fois-ci, des stratégies d’exploration plus performantes
qui n’ont pas été développées au cours de cette thèse mais qu’il serait intéressant d’élaborer par la
suite.
De cette façon, pour chaque directon est obtenu un certain nombre de chemins candidats
associés à des scores. La sélection du chemin le plus plausible, dans le cas où plusieurs chemins
différents ont des scores élevés, nécessite pour l’instant l’intervention d’un expert ayant la
![Page 161: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/161.jpg)
132
capacité d’évaluer les correspondances entre les protéines et les types de transformation
chimique, ainsi que la cohérence biochimique de l’enchainement des transformations. Ceci
permet d’annoter les gènes d’un directon avec une (ou des) fonctions biochimiques, placer le
directon dans un contexte métabolique, ainsi que de découvrir de nouvelles voies métaboliques.
Dans la section suivante est présentée une étude de cas concret de projection d’un ensemble de
directons sur le réseau de RMS.
![Page 162: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/162.jpg)
133
III. Etude de cas : identification de contextes génomiques et métaboliques pour les enzymes Baeyer-Villiger Monooxygénases
L’oxydation de type Baeyer-Villiger (BV) est une transformation chimique transformant des
cétones linéaires ou cycliques en esters ou lactones correspondants en introduisant un atome
d’oxygène dans un lien carbone-carbone [265]. Cette réaction peut être réalisée par des enzymes
appelées Bayer-Villiger Monooxygénases (BVMOs). Ce sont des flavoenzymes, c’est à dire des
oxydoréductases qui nécessitent un dinucléotide flavine-adénine (FAD) comme groupement
prosthétique pour fonctionner. Elles sont capables de catalyser des réactions d’oxydation sur des
cétones linéaires, cycliques et aromatiques. Pendant la réaction d’oxydation, un atome d’oxygène
est incorporé entre deux carbones connectés, alors que l’autre atome d’oxygène est capturé dans
une molécule d’eau avec les atomes d’hydrogène provenant du cofacteur NAD(P)H. Les BVMOs
sont des protéines solubles dans un milieu aqueux et ne nécessitent pas d’autres protéines pour
fonctionner. Il existe au moins deux classes de BVMOs : les BVMOs de type I qui sont
constituées d’une seule chaine polypeptidique et sont dépendantes de FAD et de NADPH pour
catalyser leur activité, et les BVMOs de type II, très peu étudiées, composées de deux sous-unités
différentes et utilisant le FMN comme cofacteur flavinique et le NADH comme donneur
d’électron. Dans cette étude de cas, seules les BVMOs de type I sont analysées. Dans la figure
Figure 28 est représentée la structure générale d’une BVMO de type I (code Protein Data Bank
3GWD) avec les deux cofacteurs montrés avec la représentation en bâtons.
![Page 163: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/163.jpg)
134
III.1 Comment encoder une réaction de monooxygénation de type BV ?
Dans la base de données MetaCyc, 26 réactions ont pu être identifiées comme des réactions de
type BV. Ces 26 réactions sont signées par trois RMS de hauteur 1 : RMS-S.H1.724 (regroupant
trois réactions), RMS-S.H1.969 (regroupant onze réactions) et RMS-S.H1.1330 (regroupant 12
réactions) Ces trois RMS sont représentées en Figure 29 et rassemblent des réactions dont les
substrats peuvent être cycliques ou linéaires. On remarque ainsi que la fonction cétone,
indispensable à la réaction BV, est bien conservée dans les trois signatures. Celles-ci se
différentient par le degré de substitution de l’atome de carbone opposé (secondaire, tertiaire ou
quaternaire).
Figure 28. Structure d’une Baeyer-Villiger monooxygénase (code PDB 3GWD) avec les deux cofacteurs montrés avec la représentation en bâtons.
![Page 164: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/164.jpg)
135
Figure 29. Signatures moléculaires de réactions et leur représentation graphiques des réactions de monooxygénation de type Baeyer-Villiger.
![Page 165: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/165.jpg)
136
La sous-sous-classe des EC numbers correspondant à ces réactions est EC 1.14.13. Cependant,
deux des réactions n’ont aucun EC number associé et six sont annotées avec un EC number
partiel. Les autres réactions sont associées à sept EC numbers différents, dont dix sont associées
à EC 1.14.13.105. Cependant, pour les réactions annotées avec un EC number complet, cette
annotation diverge à certains moments avec la classification par RMS, basée sur la transformation
chimique opérée par chaque réaction. Ces divergences de classification sont présentées dans la
Table 2. Très peu de protéines sont disponibles dans MetaCyc pour ces réactions.
Table 2. Comparaison de la classification EC et RMS pour les réactions de type Baeyer-Villiger issues de MetaCyc. Les identifiants UniProt sont indiqués lorsqu’il y a une protéine connue associée à la réaction. Un décalage est observé entre les deux classifications.
Identifiant de réaction MetaCyc EC Number RMS Identifiants UniProt
CYCLOHEXANONE-MONOOXYGENASE-RXN
1.14.13.22 RMS-S.H1.1330 Q9R2F5
CYCLOPENTANONE-MONOOXYGENASE-RXN
1.14.13.16 RMS-S.H1.1330
RXN-11537 1.14.13 RMS-S.H1.1330 Q940V4 RXN-11538 1.14.13 RMS-S.H1.1330 Q940V4 RXN-12654 1.14.13.170 RMS-S.H1.1330 E3VWK3 RXN-720 1.14.13 RMS-S.H1.1330 Q50LE0,Q940V4 RXN-9395 1.14.13.105 RMS-S.H1.1330 RXN-9396 1.14.13.105 RMS-S.H1.1330 RXN-9431 1.14.13.105 RMS-S.H1.1330 RXN-9435 1.14.13.105 RMS-S.H1.1330 RXN-9487 NULL RMS-S.H1.1330 Q6UEF3 RXN-9492 NULL RMS-S.H1.1330 Q6UEF3 R543-RXN 1.14.13.162 RMS-S.H1.724 RXN-12713 1.14.13.54 RMS-S.H1.724 RXN-13043 1.14.13 RMS-S.H1.724 1.14.13.54-RXN 1.14.13.54 RMS-S.H1.969 R422-RXN 1.14.13 RMS-S.H1.969 R423-RXN 1.14.13 RMS-S.H1.969 RXN-12661 1.14.13.171 RMS-S.H1.969 Q82IY8 RXN-7817 1.14.13.54 RMS-S.H1.969 RXN-9390 1.14.13.105 RMS-S.H1.969 RXN-9391 1.14.13.105 RMS-S.H1.969 RXN-9420 1.14.13.105 RMS-S.H1.969 RXN-9440 1.14.13.105 RMS-S.H1.969 RXN-9441 1.14.13.105 RMS-S.H1.969 RXN-9442 1.14.13.105 RMS-S.H1.969
III.2 Identification des contextes génomiques des BVMOs
Afin d’identifier le contexte génomique des BVMOs dans les génomes à notre disposition dans la
plateforme MicroScope [169], il faut tout d’abord y repérer les gènes codant ces enzymes. Deux
motifs complémentaires d’acides aminés ont été utilisés pour détecter les BVMOs : le motif
![Page 166: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/166.jpg)
137
« FxGxxxHxxxW » – spécifique des monooxygénases en général et le motif « GxWxxNxYPG »
– spécifique des BVMOs [265]. Un motif indique la nature et la position relative des acides
aminés importants dans la séquence d’une protéine pour le maintien d’une fonction. Par exemple,
dans le motif spécifique des BVMOs, à un endroit de la séquence, il doit nécessairement y avoir
une glycine, suivie par n’importe quel acide aminé, puis un tryptophane, puis deux acides aminés
quelconques, une asparagine, encore n’importe quel acide aminé, puis une tyrosine suivie d’une
proline et d’une glycine. La présence de ces deux motifs dans une séquence protéique est donc
nécessaire pour considérer la protéine comme étant une BVMO.
Nous avons donc recherché, parmi tous les génomes microbiens disponibles au sein de la
plateforme MicroScope, des CDS qui codent des protéines ayant ces deux motifs à l’aide du
programme ps_scan (PROSITE scanning program). 1234 protéines ont ainsi pu être récupérées,
dans 506 génomes différents. Il y a donc entre deux et trois BVMOs en moyenne dans les
organismes possédant ce type d’activité enzymatique.
Puisque c’est le contexte génomique des BVMOs qui nous intéresse dans cette étude, seules les
BVMOs présentes dans un directon sont gardées. Parmi les 1234 BVMOs prédites, 969 sont dans
un des 814 directons appartenant à 468 génomes. Ces directons permettent ainsi de définir
plusieurs contextes génomiques pour les BVMOs qui serviront à ancrer, par la suite, des
contextes métaboliques.
Figure 30. Dendrogramme présentant le résultat du clustering hiérarchique des directons en fonction de leur contenu en RMS. Rouge - cluster 1, violet - cluster 2, jaune - cluster 3, vert – cluster 4 et bleu – cluster 5.
En suivant la méthode présentée dans le deuxième chapitre de ce manuscrit et rappelée en début
de ce chapitre, les protéines des directons contenant au moins une BVMO ont été associées à des
RMS en utilisant leur contenu en domaines Pfam [144]. Afin d’identifier les différences et les
![Page 167: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/167.jpg)
138
ressemblances en termes de capacités métaboliques de ces directons, un clustering a été effectué.
Ainsi, un vecteur de présence/absence de RMS, parmi toutes les RMS qui ont pu être associées
aux directons, a été calculé pour chaque directon. Ces vecteurs ont ensuite été utilisés pour
effectuer une classification hiérarchique avec la méthode Ward en utilisant une distance
euclidienne entre les vecteurs (fonction hclust disponible dans la librairie « stats » du logiciel R).
Le dendrogramme résultant de cette classification est visible dans la Figure 30. Cinq groupes
(clusters) de directons ont pu être identifiés, colorés différemment sur cette figure. Les
statistiques de ces groupes de directons sont décrites dans la Table 3.
Table 3. Statistiques sur les clusters de directons contenant au moins une BVMO.
Cluster Nombre de directons
Nombre total de RMS
Nombre moyen de protéines par
directon
Nombre de RMS communes à tous les
directons 1 251 382 3,4 0 2 308 330 4,1 32 3 125 148 4,2 10 4 69 271 4,7 86 5 59 36 2,8 5
Le cluster 1 est un des clusters les plus grands, mais aussi le plus diversifié en nombre de RMS
(en rouge sur la Figure 30). Il n’est donc pas surprenant qu’on ne retrouve pas de RMS
communes à tous les directons dans ce cluster. Le cluster 1 sera donc exclu des analyses
suivantes.
Les RMS partagées par tous les directons d’un cluster serviront de base pour étudier le contexte
métabolique des BVMOs.
III.3 Identification des contextes métaboliques des BVMOs
Dans MetaCyc, il y a onze voies métaboliques contenant au moins une réaction de type BVMO
(six voies de dégradation, quatre de biosynthèse et une sans type). A partir des réactions de ces
voies métaboliques, les 38 RMS correspondantes de hauteur 1 (dont les trois RMS des BVMOs),
ainsi que toutes les arêtes qui les relient, ont été extraites du réseau global de RMS. Le sous-
graphe obtenu est présenté en Figure 31. Les nœuds correspondant aux BVMOs sont colorés en
![Page 168: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/168.jpg)
139
violet. Les arêtes, provenant de la connectivité originale entre les réactions des voies
métaboliques à partir desquelles le sous-graphe a été obtenu, sont coloriées en vert.
Figure 31. Sous-graphe issu du réseau de RMS de hauteur 1 correspondant aux voies métaboliques connues contenant au moins une réaction de type BV. Les trois nœuds en violet correspondent aux réactions de type BV. Les arêtes vertes représentent les connexions entre les nœuds telles que dans ces voies métaboliques.
L’analyse des clusters de directons s’effectue en deux étapes distinctes. Tout d’abord, les RMS,
partagées par tous les directons du cluster, sont projetées sur le sous-graphe des onze voies
métaboliques connues afin d’identifier si ces directons peuvent être ancrés dans un contexte
métabolique connu. Dans un second temps, ces RMS sont projetées sur le réseau global de RMS.
![Page 169: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/169.jpg)
140
Un deuxième sous-graphe est ainsi extrait et comparé avec la projection sur les voies
métaboliques connues. Cette étape permet éventuellement d’identifier un contexte métabolique
nouveau pour les BVMOs, mais aussi de prolonger les voies métaboliques connues.
Cluster 2
La projection des 32 RMS communes à tous les directons du cluster 2 sur le sous-graphe des
voies métaboliques connues a permis de sélectionner 5 RMS, en plus des trois RMS
correspondant aux BVMOs. Le résultat de cette projection est visible sur la Figure 32a. Tous les
chemins possibles comprenant une BVMO dans ce nouveau sous-graphe passent par la RMS-
S.H1.2014 et se terminent forcément par une BVMO. Parmi tous les chemins correspondant à
ces critères, quatre ont été sélectionnés grâce aux scores scoreRea, scoreProt et scoreTopo. Ces
chemins sont décrits sur la Figure 32c.
Dans un deuxième temps, les 32 RMS partagées par les directons du cluster 2 ont été projetées
sur le réseau global de RMS de hauteur 1. Les trois RMS correspondant aux BVMOs ont aussi
été incluses. Tous ces nœuds et les arêtes qui les relient entre eux ont été extraits dans un
nouveau sous-graphe. Les nœuds isolés ont été supprimés. Un graphe de onze nœuds a ainsi été
obtenu, présenté sur la Figure 32b. On y retrouve les mêmes nœuds que dans la projection des
RMS sur le sous-graphe des voies métaboliques (Figure 32a), mais surtout trois nœuds
supplémentaires, dont deux peuvent prolonger d’une façon intéressante les chemins déjà
sélectionnés (Figure 32d).
La Figure 33 illustre un des chemins de RMS candidats avec les meilleurs scores. Dans cette
figure, au travers d’un exemple où l’enchainement de transformations chimiques est appliqué à
une molécule donnée, est soulevée une des difficultés liées à l’utilisation des RMS. En effet,
lorsqu’il y a plusieurs groupements chimiques sur la molécule susceptibles de subir la
transformation chimique décrite par la RMS, il est difficile pour un non-expert biochimiste et/ou
sans passer par l’expérimentation, de déterminer sur quelle partie de la molécule la transformation
va s’appliquer.
![Page 170: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/170.jpg)
141
Figure 32. Analyse du cluster 2 de directons. (a) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 2 sur le sous-graphe des voies métaboliques (tel que représenté en Figure 33) ; (b) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 2 sur le réseau de RMS de hauteur 1 ; (c) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (a) ; (d) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (b).
![Page 171: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/171.jpg)
142
Figure 33. Représentation graphique d’un des meilleurs chemins de RMS du cluster 2. Les RMS en rose correspondent à la transformation chimique de type BV. Cette figure montre la difficulté de déterminer l’endroit de la molécule où la transformation chimique doit s’appliquer, lorsqu’il y a plusieurs possibilités. Ici, trois molécules terminales peuvent être obtenues à partir d’une seule molécule de départ et via le même chemin de RMS.
![Page 172: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/172.jpg)
143
Cluster 3
Dans le cluster 3, les directons ont 10 RMS en commun. Les deux étapes de projection ont été
appliquées à ces 10 RMS, et les résultats sont décrits en Figure 34. Il faut notamment remarquer
qu’un seul nœud a été sélectionné lors de la projection de ces RMS sur le réseau de voies
métaboliques connues (RMS-S.H1.590). Cette RMS est pointée par deux des trois RMS décrivant
une BVMO. La projection des 10 RMS communes à tous les directons de ce cluster sur le réseau
global de RMS de hauteur 1 confirme cette tendance. En effet, un sous-réseau de six nœuds a été
obtenu (Figure 34b), contenant des chemins qui prolongent le début de chemin trouvé
précédemment. Les scores de ces chemins sont relativement élevés (Figure 34d) et pourraient
donc être de très bons candidats pour la découverte d’un nouveau contexte métabolique pour les
BVMOs.
Le chemin de RMS avec les scores les plus élevés est illustré en Figure 35. Il s’agit d’un chemin
générique pouvant être appliqué à n’importe quelle molécule présentant les caractéristiques
nécessaires.
![Page 173: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/173.jpg)
144
Figure 34. Analyse du cluster 3 de directons. (a) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 3 sur le sous-graphe des voies métaboliques (tel que représenté en Figure 33) ; (b) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 3 sur le réseau de RMS de hauteur 1 ; (c) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (a) ; (d) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (b).
Figure 35. Représentation graphique d’un des meilleurs chemins de RMS du cluster 3.
![Page 174: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/174.jpg)
145
Cluster 4
Dans le cluster 4, plus petit en nombre de directons que les deux précédents clusters, les
directons partagent un total de 86 RMS communes. Les résultats des deux projections de ces
RMS sont décrits en Figure 36. Lors de la projection de ces RMS communes sur le réseau de
voies métaboliques connues, un sous-graphe connexe de 13 nœuds (dont deux RMS décrivant
une BVMO) a été extrait (Figure 36a). Les meilleurs chemins, contenant au moins une RMS
décrivant une BVMO, ont été sélectionnés et sont décrits dans la Figure 36b.
Le résultat de la projection des RMS communes à tous les directons du cluster 4 sur le réseau
global de RMS de hauteur 1 est montré en Figure 36c. Même s’il s’agit ici d’un graphe qui est
relativement grand par rapport aux autres projections, il apporte finalement assez peu pour le
contexte métabolique des réactions de type BV. Un certain nombre de chemins supplémentaires,
qui allongent les chemins précédemment sélectionnés a toutefois été identifié. Ces chemins sont
décrits dans la Figure 36d.
Figure 36 (début). Analyse du cluster 4 de directons. (a) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 4 sur le sous-graphe des voies métaboliques (tel que représenté en Figure 33) ; (b) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (a) ;
![Page 175: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/175.jpg)
146
Figure 36 (fin). (c) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 4 sur le réseau de RMS de hauteur 1 ; (d) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (c).
![Page 176: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/176.jpg)
147
Cluster 5
Dans le cluster 5, le plus petit des clusters avec seulement 59 directons, cinq RMS sont retrouvées
dans chaque directon. Il n’y a cependant aucune intersection entre ces cinq RMS et les RMS
présentes dans les voies métaboliques connues. La projection de ces RMS sur le réseau global de
RMS de hauteur 1 n’a pas non plus permis d’établir de liens avec les éléments conservés de ces
directons et les BVMOs. Les BVMOs putatives des directons de ce cluster n’ont donc pas pu être
mises dans un contexte métabolique.
L’approche présentée ici permet de remettre les BVMOs à la fois dans un contexte génomique et
dans un contexte métabolique. L’association des projections sur le réseau de voies métaboliques
connues puis sur le réseau de RMS global permet dans un premier temps d’ancrer les BVMOs
dans un contexte métabolique connu pour ensuite l’étendre dans un deuxième temps.
On a ainsi pu placer dans un contexte métabolique plus de 60% des BVMOs dont le contexte
génomique avait été précédemment identifié. La poursuite de cette étude nécessite une expertise
humaine et des expérimentations pour valider les chemins métaboliques prédits. Un criblage
enzymatique à haut débit des BVMOs permettrait d’identifier des métabolites candidats et d’aider
à choisir les chemins optimaux de transformations chimiques que les enzymes des directons, dans
lesquelles se trouvent les BVMOs, sont capables de catalyser.
Une des améliorations possibles, pouvant être apportées à cette étude de cas, est d’affiner le
clustering des directons, notamment en découpant le cluster 1 en 2 clusters, afin d’identifier des
RMS communes à tous les directons et identifier un contexte métabolique pour eux aussi.
L’association des protéines aux RMS, qui, pour l’instant, est effectuée au travers de la
composition des protéines en domaines Pfam [144] devra aussi être améliorée. En effet,
l’association Pfam-RMS est dans certains cas peu fiable, car, tout d’abord, certains domaines
Pfam ne sont pas directement liés à la fonction enzymatique, de plus, un type de réactions peut
être lié à beaucoup d’entrées Pfam, ou, inversement, un domaine Pfam peut être associé à
beaucoup de réactions dont les transformations (RMS) sont différentes. Ce double problème
provient principalement de la généricité de certaines familles Pfam. Une méthode alternative de
prédiction de RMS pour les protéines sera proposée dans les perspectives de ce travail.
![Page 177: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/177.jpg)
148
![Page 178: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/178.jpg)
149
Conclusions et perspectives
Conclusions
Le travail effectué au cours de cette thèse peut être séparé en deux axes principaux : une revue
étendue sur les activités enzymatiques orphelines de séquences et la définition d’une nouvelle
représentation du métabolisme pour la détection de modules de transformations chimiques.
Malgré une diminution importante du nombre d’activités enzymatiques orphelines ces dix
dernières années, le challenge qui leur est lié reste de taille : plus de 20% des activités
enzymatiques annotées avec un EC number complet n’ont aucune séquence qui leur est associée.
De plus, plus de 35% de réactions biochimiques catalysées par des enzymes sont aussi orphelines
de séquences. Bien que les nouvelles technologies de séquençage, combinées avec l’amélioration
constante des méthodes d’analyse de séquences, produisent une quantité exponentielle de
données génomiques, il n’y a pas eu d’augmentation du nombre de nouvelles activités
enzymatiques découvertes, contrairement à ce qui s’est passé dans les années 80 du siècle dernier
lors de la démocratisation des techniques de biologie moléculaire. Ce trou dans les connaissances
est évidemment problématique dans la compréhension globale du métabolisme.
La revue sur les activités enzymatiques orphelines présentée dans ce manuscrit a permis de mettre
à jour les différentes statistiques liées à ce phénomène, ainsi que de réintroduire le concept
d’enzymes orphelines locales. Les difficultés d’annotation fonctionnelle des enzymes, notamment
dans le cas des protéines multifonctionnelles et « moonlightning », ont été discutées car elles
peuvent cacher des activités enzymatiques orphelines. Finalement, les méthodes existantes
« d’adoption » des enzymes orphelines ont été présentées, et une méthode simple basée sur la
détection d’homologies lointaines entre les séquences a été proposée pour trouver des séquences
candidates pour les activités enzymatiques orphelines locales. En effet, l’utilisation plus
systématique d’outils de génomique comparative au travers des domaines du vivant (bactéries,
archées et eucaryotes) peut aider dans la résolution d’une partie du problème posé par les
![Page 179: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/179.jpg)
150
enzymes orphelines locales. Pour les enzymes orphelines globales, le délai de connaissances entre
dans les bases de données est toujours d’actualité et pourrait être résolu par des recherches
bibliographiques étendues et par la mise en place d’un système permettant aux biochimistes de
soumettre de nouvelles enzymes et activités au moment de leur publication.
Dans la deuxième partie de cette thèse, une nouvelle représentation du métabolisme pour la
détection de modules conservés de transformations chimiques a été développée. Dans cette
représentation, les signatures moléculaires de réactions (RMS), au lieu des réactions, sont utilisées
dans un réseau créé à partir de toutes les connaissances disponibles sur le métabolisme, quel que
soit l’organisme. Les réactions qui effectuent le même type de transformation chimique partagent
la même signature ce qui permet de regrouper d’une façon automatisée des réactions similaires, et
de proposer une nouvelle classification. Cette approche est à l’origine d’un modèle plus condensé
du métabolisme qui en facilite l’exploration car moins sensible aux trous éventuels dans le réseau
de réactions (réactions inconnues). Ce modèle de données est particulièrement utile pour la
détection de modules conservés de transformations chimiques car ils correspondent à des
chemins dans le réseau de RMS. Un nombre important de modules a ainsi été découvert. De
plus, de nouvelles métriques (scoreRea, scoreProt et scorePageRank) ont été introduites pour évaluer la
conservation des modules en fonction de différents aspects biologiques. Il a été démontré que les
chemins de RMS présents dans les voies métaboliques connues présentent des scores de
conservation plus élevés que les chemins aléatoires, ces scores peuvent ainsi être conjointement
utilisés pour prédire si un module peut être dans une voie métabolique et si oui, son type
biologique (biosynthèse, dégradation, détoxification, production d’énergie, etc.).
Malgré le fait que le réseau de RMS construit est basé sur un réseau initial de réactions, il offre
une nouvelle vision sur le métabolisme car on peut y capturer des contextes métaboliques
pertinents sans définition initiale précise d’ensembles de réactions ou de structures de molécules
chimiques. En effet, plus de deux mille réactions, dont les voies métaboliques sont inconnues
(donc de contexte métabolique indéfini), ont pu être intégrées dans le réseau de RMS. Elles ont
pu être ainsi placées dans un contexte métabolique par l’intermédiaire de réactions similaires (i.e.
ayant une même signature de RMS) qui appartiennent à une voie métabolique connue.
Ainsi, cette nouvelle représentation du métabolisme s’avère être un outil intéressant pour son
exploration. Des améliorations envisagées pour la méthode, ainsi que d’autres applications
possibles, sont présentées dans la partie « Perspectives » de ce chapitre.
![Page 180: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/180.jpg)
151
Dans la troisième partie de ce manuscrit, a été présenté un exemple d’utilisation du réseau de
RMS pour la définition d’un contexte métabolique pour une famille d’enzymes.
Dans un premier temps, une méthode simple de prédiction de directons (opérons potentiels) a
été développée et utilisée sur l’ensemble des génomes disponibles au sein de la plateforme
MicroScopee [169] qui est développée au sein du laboratoire où la thèse présentée ici s’est
déroulée. Ensuite, un processus de projection de ces directons sur le réseau de RMS a été établi
afin de placer les gènes qui les constituent dans un contexte métabolique cohérent, et de
déterminer si un module conservé de transformations chimiques peut être réalisé par un directon
donné.
Ces deux méthodes ont ensuite été utilisées pour une étude de cas. Les enzymes de la famille des
Baeyer-Villiger monooxygénases (BVMOs) ont été placées dans un contexte génomique en
repérant tous les directon contenant un gène codant une BVMOs, repéré par la présence de deux
motifs de séquence spécifiques. Ces directons contenant une BVMOs ont été classifiés en cinq
groupes distincts en fonction de leur contenu en RMS. Deux de ces cinq groupes n’ont pas pu
être placés dans le réseau de RMS d’une façon cohérente, mais les trois autres ont été assignées à
un contexte métabolique. Dans les trois cas, le contexte métabolique était différent et un ou
plusieurs chemins de RMS (modules) avec des scores élevés de conservation ont été proposés.
Ces modules candidats devront par la suite être analysés par des experts en biochimie et,
éventuellement, testés en laboratoire.
La combinaison des méthodes de contexte génomique au réseau de RMS développé au cours de
cette thèse peut avoir des applications intéressantes pour l’annotation fonctionnelle des enzymes
ainsi que pour la découverte de nouvelles voies métaboliques. Les perspectives envisagées pour la
suite de ce travail de thèse sont décrites dans la section suivante.
![Page 181: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/181.jpg)
152
Perspectives La représentation du métabolisme sous la forme d’un réseau de transformations chimiques
encodées en signatures moléculaires de réactions (RMS) ouvre un grand nombre de perspectives
dans l’étude de celui-ci. Un certain nombre d’entre elles sont présentées dans cette partie.
Cette représentation peut être utile pour l’assignation de séquences pour les enzymes orphelines.
En effet, beaucoup d’outils développés pour résoudre ce problème se basent sur le contexte
métabolique et génomique de ces activités [226, 266], or, beaucoup d’entre elles ont leurs voisines
qui sont aussi orphelines de séquences [8]. Le réseau de RMS permet ainsi de définir un contexte
métabolique plus relâché facilitant son ancrage sur des contextes génomiques pouvant contenir
des gènes candidats pour plusieurs réactions orphelines.
Les RMS regroupent souvent plusieurs réactions, dont certaines sont orphelines. En explorant
une famille d’enzymes connues pour catalyser des réactions décrites par une RMS, des protéines
de cette famille peuvent être proposées comme candidates pour les réactions orphelines de la
RMS. Cela suppose que la famille possède une certaine promiscuité de substrats qui peut, par
exemple, être évaluée par une analyse de la structure de ces protéines : comparaison des sites
actifs et des expériences d'amarrage (docking) moléculaire.
Nous avons soulevé le problème de RMS orphelines dans le deuxième chapitre de cette thèse. En
effet, plus de 35% des RMS n’ont aucune séquence protéique qui a pu leur être associée, ce qui
signifie qu’aucune des réactions qu’elles rassemblent n’est catalysée par une enzyme connue. Il est
donc important de prioriser la recherche de candidats pour les transformations chimiques
orphelines, notamment avec des méthodes existant déjà pour les enzymes orphelines [226, 266]
ou en en développant des nouvelles, adaptées à la représentation du métabolisme avec des RMS.
Comme il a été souligné dans l’article de revue sur les enzymes orphelines, une partie d’entre elles
sont considérées comme orphelines à cause du retard entre les bases de données et la littérature.
Afin de limiter ce retard de connaissances, il est nécessaire de mettre en place un standard
international permettant de déposer des enzymes et des activités caractérisées expérimentalement
en même temps que les publications qui y sont liées, comme c’est le cas pour la soumission des
séquences nucléiques dans les bases de données comme GenBank [267] et l’European Nucleotide
Archive [268]) en même temps que leur publication dans les journaux.
![Page 182: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/182.jpg)
153
Il est aussi envisageable d’étendre le concept des activités orphelines aux métabolites orphelins,
qui sont des métabolites identifiés dans un organisme, mais dont on ne connaît pas les enzymes
qui permettent leur synthèse ni leur dégradation. En effet, les avancées en métabolomique, par
spectrométrie de masse ou résonance magnétique nucléaire, permettent de découvrir un grand
nombre de nouveaux métabolites. Dans ce cas, il s’agirait de trouver des chemins de RMS
permettant de relier ces métabolites orphelins d'enzymes à des voies métaboliques nouvelles. Des
méthodes de reconstruction de novo de voies métaboliques et d’identification de nouvelles activités
enzymatiques à partir de données de métabolomique, comme celle de Kotera et al. [269] ou celle
de Prosser et al. [270] pourraient être adaptées à la représentation du métabolisme sous la forme
de chemins et de réseaux de RMS.
Les RMS sont un moyen efficace et automatique de classification des réactions en fonction du
type de transformation chimique qu’elles réalisent. Comme nous l’avons démontré dans le
chapitre II de cette thèse, cette classification est une bonne alternative à la classification EC. Il
serait donc intéressant pour la communauté scientifique de créer une base de données publique
de RMS et des réactions qu’elles décrivent, avec un accès via un serveur web.
La nouvelle façon de représenter et explorer le métabolisme, développée lors de cette thèse, est
une première brique dans l’exploitation de ce type de réseaux métaboliques. Un certain nombre
d’améliorations, notamment méthodologiques, et de perspectives sont envisagées pour la suite.
Tout d’abord, il est envisagé d’adapter dynamiquement la précision de la signature de réaction
lors de la fusion des nœuds de réactions afin de prendre en compte la topologie locale du graphe
et la taille du groupe de réactions. Ceci peut se faire notamment en s’inspirant de la méthode
proposée par Xu et al. [271] dans laquelle ont été appliqués le principe d’entropie maximale et le
problème de réduction de modèles de chaines de Markov.
Les modules conservés de transformations chimiques décrits dans cette thèse sont linéaires, c’est
à dire que chaque RMS du module est précédée et est suivie au maximum par une autre RMS, et
le module a une RMS initiale (qui n’est pas précédée par une autre RMS) et une RMS terminale
(qui n’est pas suivie par une autre RMS). Or, un certain nombre de voies métaboliques décrites
dans les bases de données présentent des structures topologiques plus complexes qu’un chemin.
![Page 183: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/183.jpg)
154
En effet, on peut retrouver des voies métaboliques branchées (où, par exemple, une réaction peut
produire deux métabolites différents transformés ensuite par deux réactions distinctes) ou
cycliques (où il n’y a pas de réaction initiale ni terminale). Les méthodes de recherche de modules
pour ce type de voies métaboliques sont plus complexes d’un point de vue méthodologique que
la recherche de chemins, mais seront envisagées dans l’avenir pour pouvoir détecter des modules
plus proches de la réalité métabolique.
La reconstruction du réseau initial de réactions nécessaire à la construction des réseaux de RMS a
été limitée aux réactions présentes dans au moins une voie métabolique. Les composés chimiques
impliqués dans ces réactions sont annotés comme « primaires » ou « secondaires », en fonction de
leur implication dans le « backbone » de la voie. Utiliser uniquement les composés primaires évite
de relier des réactions via des métabolites ubiquitaires comme l’eau ou le dioxygène, par exemple,
ce qui n’aurait pas de sens biologique, poserait un certain nombre de problèmes au niveau de la
topologie du réseau reconstruit et fausserait la détection des modules conservés. Cependant, en se
restreignant aux réactions présentes uniquement dans les voies métaboliques, la reconstruction du
réseau de réactions est incomplète, car près d’un tiers des réactions n’appartiennent pas à cette
catégorie. Une stratégie est donc à envisager pour pouvoir détecter les composés ubiquitaires
et/ou secondaires d’une réaction. Cette stratégie pourrait se baser sur une liste de composés
ubiquitaires, la comparaison de la taille des métabolites impliqués dans la réaction ainsi que sur les
flux d’atomes de carbone dans la réaction.
Les RMS sont des définitions textuelles de transformations chimiques, peu pratiques à exploiter
manuellement. Les RMS représentées dans ce manuscrit sous la forme de transformations sur des
molécules génériques ont été dessinées manuellement avec le logiciel ChemDraw. Cependant,
une stratégie est possible pour générer automatiquement des représentations graphiques des
RMS, en extrayant des réactions que les sous-structures de composés ayant des atomes et des
liaisons qui changent au cours de la transformation chimique. Cette représentation graphique
systématique permettra une exploration simplifiée des RMS et des chemins de RMS, notamment
par les biologistes dans les cas appliqués. Elle sera aussi particulièrement utile pour la base de
données de RMS.
L’association des RMS aux protéines qui sont susceptibles de les catalyser via les domaines Pfam
s’est avérée assez peu efficace. En effet, certains domaines Pfam sont plus spécifiques que
d’autres, et tous ne sont pas forcément porteurs de la fonction enzymatique. Nous avons donc
![Page 184: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/184.jpg)
155
prévu d’implémenter une stratégie permettant de définir des domaines pour les RMS en
s’inspirant de celle utilisée par PRIAM [143] pour les EC numbers qui est basée sur l’algorithme
de MKDOM [142]. Ce type d’approche permet d’identifier des segments communs à toutes les
séquences de protéines dans un groupe, dans le cas présent, toutes les séquences associées à une
même RMS. L’identification d’un (ou des) domaine(s) spécifique(s) à une RMS permettra une
meilleure prédiction de RMS pour les protéines, ce qui améliorera le potentiel de la méthode en
termes d’annotation fonctionnelle des gènes et des groupes de gènes comme les opérons.
La méthode de projection de gènes partageant un contexte génomique sous la forme d’un opéron
ou d’un directon présentée dans le chapitre III de cette thèse prévoit que les produits de ces
gènes catalysent des transformations chimiques directement voisines dans le réseau. Or, certains
gènes sans fonction prédite ou des gènes ne faisant pas parti du contexte génomique analysé
peuvent aussi intervenir dans la voie métabolique et posent donc problème car ils ne sont pas pris
en compte dans la méthode actuelle de projection. Un paramètre de « gap » devrait donc être
introduit dans la projection des groupes de gènes sur le réseau de RMS pour tenir compte de ces
éventualités. Pour faire cela, il faudrait prendre en compte les nœuds voisins des nœuds
sélectionnés par la projection. La taille des sous-graphes ainsi sélectionnés sera plus grande. Il
faudra donc envisager une amélioration méthodologique de recherche de chemins optimaux.
Une autre perspective, qui sera explorée dans le cadre de mon projet postdoctoral, est l’étude de
variations métaboliques interindividuelles grâce aux réseaux de RMS. En effet, les individus d’une
même espèce présentent, généralement, de légères variations au niveau de leur génotype. Ces
différences peuvent concerner des gènes impliqués dans des processus métaboliques. Ainsi,
l’étude de l’impact de variations interindividuelles sur un réseau métaboliques permettra une
meilleure compréhension de phénomènes biologiques comme la prédisposition de certains
individus aux maladies ainsi que leur vieillissement. Même si ces variations sont assez difficiles à
détecter, elles ne sont pas moins importantes à étudier, car elles mènent à la compréhension des
spécificités et des réponses à l’environnement de chaque individu. Dans ce cadre, l’utilisation de
réseaux de RMS peut s’avérer particulièrement utile à plusieurs niveaux. En effet, moins sensibles
aux « trous » dus à une absence d’annotation fonctionnelle de gènes que les réseaux de réactions
ou de métabolites, ils permettent en plus d’établir une tendance générale de présence/absence de
types de transformations chimiques dans l’individu, ainsi que d’étudier les différences de chemins
![Page 185: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/185.jpg)
156
métaboliques dans un contexte plus relâché. Ces analyses pourront donner des résultats d’autant
meilleurs si des données ‘omiques’, comme les transcriptomes, les protéomes et les metabolomes
pour chaque individus sont disponibles pour quantifier ces variations métaboliques
interindividuelles.
![Page 186: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/186.jpg)
157
![Page 187: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/187.jpg)
158
Références
1. Karp PD: Call for an enzyme genomics initiative. Genome biology 2004:401.
2. Lespinet O, Labedan B: Puzzling over orphan enzymes. Cellular and Molecular Life Sciences 2006:517–523.
3. Lespinet O, Labedan B: Orphan enzymes could be an unexplored reservoir of new drug targets. Drug Discovery Today 2006:300–305.
4. Lespinet O, Labedan B: ORENZA: a web resource for studying ORphan ENZyme activities. BMC Bioinformatics 2006, 7:436.
5. Pouliot Y, Karp PD: A survey of orphan enzyme activities. BMC Bioinformatics 2007, 8:244.
6. Chen L, Vitkup D: Predicting genes for orphan metabolic activities using phylogenetic profiles. Genome Biol 2006, 7:R17.
7. Hanson AD, Pribat A, Waller JC, de Crécy-Lagard V: “Unknown” proteins and “orphan” enzymes: the missing half of the engineering parts list--and how to find it. Biochem J 2010, 425:1–11.
8. Sorokina M, Stam M, Médigue C, Lespinet O, Vallenet D: Profiling the orphan enzymes. Biol Direct 2014, 9:10.
9. Hu P, Janga SC, Babu M, Díaz-Mejía JJ, Butland G, Yang W, Pogoutse O, Guo X, Phanse S, Wong P, Chandran S, Christopoulos C, Nazarians-Armavil A, Nasseri NK, Musso G, Ali M, Nazemof N, Eroukova V, Golshani A, Paccanaro A, Greenblatt JF, Moreno-Hagelsieb G, Emili A: Global functional atlas of Escherichia coli encompassing previously uncharacterized proteins. PLoS Biol 2009, 7:0929–0947.
10. Díaz-Mejía JJ, Babu M, Emili A: Computational and experimental approaches to chart the Escherichia coli cell-envelope-associated proteome and interactome. FEMS Microbiology Reviews 2009:66–97.
11. Schnoes AM, Brown SD, Dodevski I, Babbitt PC: Annotation error in public databases: misannotation of molecular function in enzyme superfamilies. PLoS Comput Biol 2009, 5:e1000605.
12. Bork P: Powers and pitfalls in sequence analysis: the 70% hurdle. Genome Res 2000, 10:398–400.
13. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ: Basic local alignment search tool. J Mol Biol 1990, 215:403–10.
14. Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ: Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 1997, 25:3389–402.
15. Pearson WR, Lipman DJ: Improved tools for biological sequence comparison.
![Page 188: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/188.jpg)
159
Proc Natl Acad Sci 1988, 85:2444–2448.
16. Eddy SR: A new generation of homology search tools based on probabilistic inference. Genome Inform 2009, 23:205–211.
17. Finn RD, Clements J, Eddy SR: HMMER web server: Interactive sequence similarity searching. Nucleic Acids Res 2011, 39(SUPPL. 2).
18. The UniProt Consortium: UniProt: a hub for protein information. Nucleic Acids Res 2014:gku989–.
19. Forslund K, Sonnhammer ELL: Predicting protein function from domain content. Bioinformatics 2008, 24:1681–1687.
20. Furnham N, de Beer TAP, Thornton JM: Current challenges in genome annotation through structural biology and bioinformatics. Current Opinion in Structural Biology 2012:594–601.
21. Pedruzzi I, Rivoire C, Auchincloss AH, Coudert E, Keller G, de Castro E, Baratin D, Cuche BA, Bougueleret L, Poux S, Redaschi N, Xenarios I, Bridge A: HAMAP in 2015: updates to the protein family classification and annotation system. Nucleic Acids Res 2014, 43:D1064–D1070.
22. Thornton J: Annotations for all by all - the BioSapiens network. Genome biology 2009:401.
23. Bairoch A: Swiss-Prot: Juggling between evolution and stability. Brief Bioinform 2004, 5:39–55.
24. Tautz D, Domazet-Lošo T: The evolutionary origin of orphan genes. Nat Rev Genet 2011, 12:692–702.
25. Lacroix V, Fernandes CG, Sagot MF: Reaction motifs in metabolic networks. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). Volume 3692 LNBI; 2005:178–191.
26. Barba M, Dutoit R, Legrain C, Labedan B: Identifying reaction modules in metabolic pathways: bioinformatic deduction and experimental validation of a new putative route in purine catabolism. BMC Syst Biol 2013, 7:99.
27. Muto A, Kotera M, Tokimatsu T, Nakagawa Z, Goto S, Kanehisa M: Modular architecture of metabolic pathways revealed by conserved sequences of reactions. J Chem Inf Model 2013, 53:613–622.
28. Ogata H, Goto S, Sato K, Fujibuchi W, Bono H, Kanehisa M: KEGG: Kyoto encyclopedia of genes and genomes. Nucleic Acids Res 1999, 27:29–34.
29. Carbonell P, Planson A-G, Fichera D, Faulon J-L: A retrosynthetic biology approach to metabolic pathway design for therapeutic production. BMC Syst Biol 2011, 5:122.
30. Sorokina M, Medigue C, Vallenet D, Medigue C: A new network representation of the metabolism to detect chemical transformation modules. BMC Bioinformatics 2015, 16:385.
31. Orgel LE: The origin of life-a review of facts and speculations. Trends in
![Page 189: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/189.jpg)
160
Biochemical Sciences 1998:491–495.
32. Horowitz NH: To Utopia and Back: The Search for Life in the Solar System. W.H. Freem. San Francisco:; 1986.
33. Ott MA, Vriend G: Correcting ligands, metabolites, and pathways. BMC Bioinformatics 2006, 7:517.
34. Nobeli I, Thornton JM: A bioinformatician’s view of the metabolome. BioEssays 2006:534–545.
35. Weisgerber DW: Chemical abstracts service chemical registry system: History, scope, and impacts. J Am Soc Inf Sci 1997, 48:349–360.
36. Chemistry IU of P and A: Nomenclature of Inorganic Chemistry: IUPAC Recomendations 2005. RSC Publishing; 2005.
37. Anderson E, Veith GD, Weininger D: SMILES: A line notation and computerized interpreter for chemical structures. Duluth, MN US EPA, Environ Res Lab Rep No EPA/600/M-87/021 1987.
38. Weininger D: SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules. J Chem Inf Model 1988, 28:31–36.
39. Heller S, McNaught A, Stein S, Tchekhovskoi D, Pletnev I: InChI - The worldwide chemical structure identifier standard. Journal of Cheminformatics 2013.
40. Todeschini R, Consonni V: Handbook of Molecular Descriptors. John Wiley & Sons; 2008.
41. Carbonell P, Carlsson L, Faulon J-L: Stereo signature molecular descriptor. J Chem Inf Model 2013, 53:887–97.
42. Kotera M, Tabei Y, Yamanishi Y, Moriya Y, Tokimatsu T, Kanehisa M, Goto S: KCF-S: KEGG Chemical Function and Substructure for improved interpretability and prediction in chemical bioinformatics. BMC Syst Biol 2013, 7 Suppl 6(Suppl 6):S2.
43. Annales de Chimie et de Physique. Masson.; 1833.
44. Huberts DHEW, van der Klei IJ: Moonlighting proteins: An intriguing mode of multitasking. Biochimica et Biophysica Acta - Molecular Cell Research 2010:520–525.
45. Jeffery CJ: Moonlighting proteins--an update. Mol Biosyst 2009, 5:345–350.
46. Jeffery CJ: Moonlighting proteins. Trends in Biochemical Sciences 1999:8–11.
47. Hardy JA, Wells JA: Searching for new allosteric sites in enzymes. Current Opinion in Structural Biology 2004:706–715.
48. Changeux J-P, Edelstein SJ: Allosteric mechanisms of signal transduction. Science 2005, 308:1424–1428.
49. Deckert K, Budiardjo SJ, Brunner LC, Lovell S, Karanicolas J: Designing allosteric control into enzymes by chemical rescue of structure. J Am Chem Soc 2012, 134:10055–10060.
50. Denessiouk KA, Rantanen V V, Johnson MS: Adenine recognition: a motif
![Page 190: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/190.jpg)
161
present in ATP-, CoA-, NAD-, NADP-, and FAD-dependent proteins. Proteins 2001, 44:282–91.
51. Morowitz H: A theory of biochemical organization, metabolic pathways, and evolution. Complexity 1999.
52. Braakman R, Smith E: The compositional and evolutionary logic of metabolism. Phys Biol 2013, 10:011001.
53. Barve A, Wagner A: A latent capacity for evolutionary innovation through exaptation in metabolic systems. Nature 2013, 500:203–6.
54. Hall B, Hallgr?msson B: Strickberger’s Evolution. Volume 9. Jones & Bartlett Learning; 2008.
55. Dyson HJ, Wright PE: Intrinsically unstructured proteins and their functions. Nat Rev Mol Cell Biol 2005, 6:197–208.
56. Khersonsky O, Tawfik DS: Enzyme promiscuity: a mechanistic and evolutionary perspective. Annu Rev Biochem 2010, 79:471–505.
57. Neuberg C, Hirsch J: Über ein kohlenstoffketten knÜpfendes ferment (carboligase). Biochem Z 1921.
58. Furnham N, Sillitoe I, Holliday GL, Cuff AL, Laskowski RA, Orengo CA, Thornton JM: Exploring the evolution of novel enzyme functions within structurally defined protein superfamilies. PLoS Comput Biol 2012, 8:e1002403.
59. Glasner ME, Gerlt JA, Babbitt PC: Evolution of enzyme superfamilies. Curr Opin Chem Biol 2006, 10:492–7.
60. Brown SD, Babbitt PC: New Insights about Enzyme Evolution from Large-Scale Studies of Sequence and Structure Relationships. J Biol Chem 2014, 289:30221–8.
61. Martínez-Núñez MA, Rodríguez-Vázquez K, Pérez-Rueda E: The lifestyle of prokaryotic organisms influences the repertoire of promiscuous enzymes. Proteins Struct Funct Bioinforma 2015, 83:n/a–n/a.
62. Carbonell P, Faulon JL: Molecular signatures-based prediction of enzyme promiscuity. Bioinformatics 2010, 26:2012–2019.
63. Aharoni A, Gaidukov L, Khersonsky O, McQ Gould S, Roodveldt C, Tawfik DS: The “evolvability” of promiscuous protein functions. Nat Genet 2005, 37:73–6.
64. Pandya C, Farelli JD, Dunaway-Mariano D, Allen KN: Enzyme Promiscuity: Engine of Evolutionary Innovation *. 2014.
65. Ponce E, Flores N, Martinez A, Valle F, Bolívar F: Cloning of the two pyruvate kinase isoenzyme structural genes from Escherichia coli: the relative roles of these enzymes in pyruvate biosynthesis. J Bacteriol 1995, 177:5719–22.
66. Omelchenko M V, Galperin MY, Wolf YI, Koonin E V: Non-homologous isofunctional enzymes: a systematic analysis of alternative solutions in enzyme evolution. Biol Direct 2010, 5:31.
67. Bastard K, Perret A, de Berardinis V: Digging up the structural keys that drive two non-homologous enzyme families toward successive functional convergences.
![Page 191: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/191.jpg)
162
(In submission). 2016.
68. Brand LA, Strauss E: Characterization of a new pantothenate kinase isoform from Helicobacter pylori. J Biol Chem 2005, 280:20185–8.
69. Schmidt S, Sunyaev S, Bork P, Dandekar T: Metabolites: a helping hand for pathway evolution? Trends Biochem Sci 2003, 28:336–41.
70. Min B, Pelaschier JT, Graham DE, Tumbula-Hansen D, Söll D: Transfer RNA-dependent amino acid biosynthesis: an essential route to asparagine formation. Proc Natl Acad Sci U S A 2002, 99:2678–83.
71. Horowitz NH: On the Evolution of Biochemical Syntheses. Proc Natl Acad Sci U S A 1945, 31:153–157.
72. Fothergill-Gilmore LA, Michels PAM: Evolution of glycolysis. Prog Biophys Mol Biol 1993, 59:105–235.
73. Petsko GA, Kenyon GL, Gerlt JA, Ringe D, Kozarich JW: On the origin of enzymatic species. Trends Biochem Sci 1993, 18:372–376.
74. Granick S: SPECULATIONS ON THE ORIGINS AND EVOLUTION OF PHOTOSYNTHESIS. Ann N Y Acad Sci 1957, 69:292–308.
75. Roy S: Multifunctional enzymes and evolution of biosynthetic pathways: Retro- evolution by jumps. Proteins Struct Funct Genet 1999, 37:303–309.
76. Hrmova M: Structural Basis for Broad Substrate Specificity in Higher Plant beta-D-Glucan Glucohydrolases. PLANT CELL ONLINE 2002, 14:1033–1052.
77. Jensen RA: Enzyme recruitment in evolution of new function. Annu Rev Microbiol 1976, 30:409–425.
78. Huynen M, Snel B, Lathe W, Bork P: Exploitation of gene context. Current Opinion in Structural Biology 2000:366–370.
79. Rison SCG, Thornton JM: Pathway evolution, structurally speaking. Curr Opin Struct Biol 2002, 12:374–82.
80. Kanehisa M: Chemical and genomic evolution of enzyme-catalyzed reaction networks. FEBS Lett 2013, 587:2731–7.
81. Gerlt JA, Babbitt PC: Divergent evolution of enzymatic function: mechanistically diverse superfamilies and functionally distinct suprafamilies. Annu Rev Biochem 2001, 70:209–46.
82. Ycas M: On earlier states of the biochemical system. J Theor Biol 1974, 44:145–160.
83. Copley RR, Bork P: Homology among (betaalpha)(8) barrels: implications for the evolution of metabolic pathways. J Mol Biol 2000, 303:627–41.
84. Nahum LA, Riley M: Divergence of function in sequence-related groups of Escherichia coli proteins. Genome Res 2001, 11:1375–81.
85. Schulenburg C, Miller BG: Enzyme recruitment and its role in metabolic expansion. Biochemistry 2014, 53:836–45.
![Page 192: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/192.jpg)
163
86. Teichmann SA, Rison SC, Thornton JM, Riley M, Gough J, Chothia C: The evolution and structural anatomy of the small molecule metabolic pathways in Escherichia coli. J Mol Biol 2001, 311:693–708.
87. Teichmann S: Small-molecule metabolism: an enzyme mosaic. Trends Biotechnol 2001, 19:482–486.
88. Lazcano A, Miller SL: On the origin of metabolic pathways. J Mol Evol 1999, 49:424–31.
89. Iwasaki W, Takagi T: Rapid pathway evolution facilitated by horizontal gene transfers across prokaryotic lineages. PLoS Genet 2009, 5:e1000402.
90. Thiele I, Swainston N, Fleming RMT, Hoppe A, Sahoo S, Aurich MK, Haraldsdottir H, Mo ML, Rolfsson O, Stobbe MD, Thorleifsson SG, Agren R, Bölling C, Bordel S, Chavali AK, Dobson P, Dunn WB, Endler L, Hala D, Hucka M, Hull D, Jameson D, Jamshidi N, Jonsson JJ, Juty N, Keating S, Nookaew I, Le Novère N, Malys N, Mazein A, et al.: A community-driven global reconstruction of human metabolism. Nat Biotechnol 2013, 31:419–25.
91. Caspi R, Altman T, Billington R, Dreher K, Foerster H, Fulcher CA, Holland TA, Keseler IM, Kothari A, Kubo A, Krummenacker M, Latendresse M, Mueller LA, Ong Q, Paley S, Subhraveti P, Weaver DS, Weerasinghe D, Zhang P, Karp PD: The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of Pathway/Genome Databases. Nucleic Acids Res 2014, 42.
92. Karp PD, Riley M, Paley SM, Pellegrini-Toole A: The MetaCyc Database. Nucleic Acids Res 2002, 30:59–61.
93. Caspi R, Foerster H, Fulcher CA, Hopkinson R, Ingraham J, Kaipa P, Krummenacker M, Paley S, Pick J, Rhee SY, Tissier C, Zhang P, Karp PD: MetaCyc: a multiorganism database of metabolic pathways and enzymes. Nucleic Acids Res 2006, 34(Database issue):D511–D516.
94. Karp PD, Paley SM, Krummenacker M, Latendresse M, Dale JM, Lee TJ, Kaipa P, Gilham F, Spaulding A, Popescu L, Altman T, Paulsen I, Keseler IM, Caspi R: Pathway Tools version 13.0: integrated software for pathway/genome informatics and systems biology. Brief Bioinform 2010, 11:40–79.
95. Karp PD, Latendresse M, Caspi R: The pathway tools pathway prediction algorithm. Stand Genomic Sci 2011, 5:424–9.
96. Krummenacker M, Paley S, Mueller L, Yan T, Karp PD: Querying and computing with BioCyc databases. Bioinformatics 2005, 21:3454–5.
97. Latendresse M, Malerich JP, Travers M, Karp PD: Accurate atom-mapping computation for biochemical reactions. J Chem Inf Model 2012, 52:2970–82.
98. Kanehisa M: The KEGG database. Novartis Found Symp 2002, 247:91–101; discussion 101–103, 119–128, 244–252.
99. Kanehisa M, Goto S, Hattori M, Aoki-Kinoshita KF, Itoh M, Kawashima S, Katayama T, Araki M, Hirakawa M: From genomics to chemical genomics: new developments in KEGG. Nucleic Acids Res 2006, 34(Database issue):D354–D357.
![Page 193: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/193.jpg)
164
100. Kanehisa M, Araki M, Goto S, Hattori M, Hirakawa M, Itoh M, Katayama T, Kawashima S, Okuda S, Tokimatsu T, Yamanishi Y: KEGG for linking genomes to life and the environment. Nucleic Acids Res 2008, 36(SUPPL. 1).
101. Kanehisa M, Goto S, Sato Y, Furumichi M, Tanabe M: KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res 2012, 40.
102. Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M: Data, information, knowledge and principle: Back to metabolism in KEGG. Nucleic Acids Res 2014, 42.
103. Altman T, Travers M, Kothari A, Caspi R, Karp PD: A systematic comparison of the MetaCyc and KEGG pathway databases. BMC Bioinformatics 2013, 14:112.
104. Altman T, Travers M, Kothari A, Caspi R, Karp PD: A systematic comparison of the MetaCyc and KEGG pathway databases. BMC Bioinformatics 2013, 14:112.
105. Schomburg I, Chang A, Placzek S, Söhngen C, Rother M, Lang M, Munaretto C, Ulas S, Stelzer M, Grote A, Scheer M, Schomburg D: BRENDA in 2013: Integrated reactions, kinetic data, enzyme function data, improved disease classification: New options and contents in BRENDA. Nucleic Acids Res 2013, 41.
106. Chang A, Schomburg I, Placzek S, Jeske L, Ulbrich M, Xiao M, Sensen CW, Schomburg D: BRENDA in 2015: exciting developments in its 25th year of existence. Nucleic Acids Res 2015, 43(Database issue):D439–46.
107. Alcántara R, Axelsen KB, Morgat A, Belda E, Coudert E, Bridge A, Cao H, De Matos P, Ennis M, Turner S, Owen G, Bougueleret L, Xenarios I, Steinbeck C: Rhea - A manually curated resource of biochemical reactions. Nucleic Acids Res 2012, 40.
108. Morgat A, Axelsen KB, Lombardot T, Alcántara R, Aimo L, Zerara M, Niknejad A, Belda E, Hyka-Nouspikel N, Coudert E, Redaschi N, Bougueleret L, Steinbeck C, Xenarios I, Bridge A: Updates in Rhea-a manually curated resource of biochemical reactions. Nucleic Acids Res 2014:gku961–.
109. Croft D, O’Kelly G, Wu G, Haw R, Gillespie M, Matthews L, Caudy M, Garapati P, Gopinath G, Jassal B, Jupe S, Kalatskaya I, Mahajan S, May B, Ndegwa N, Schmidt E, Shamovsky V, Yung C, Birney E, Hermjakob H, D’Eustachio P, Stein L: Reactome: a database of reactions, pathways and biological processes. Nucleic Acids Res 2011, 39(Database issue):D691–7.
110. Morgat A, Coissac E, Coudert E, Axelsen KB, Keller G, Bairoch A, Bridge A, Bougueleret L, Xenarios I, Viari A: UniPathway: a resource for the exploration and annotation of metabolic pathways. Nucleic Acids Res 2012, 40(Database issue):D761–9.
111. Karp PD: The MetaCyc metabolic pathway database. Metab Eng Post Genomic Era 2002:139–154.
112. Hastings J, de Matos P, Dekker A, Ennis M, Harsha B, Kale N, Muthukrishnan V, Owen G, Turner S, Williams M, Steinbeck C: The ChEBI reference database and ontology for biologically relevant chemistry: enhancements for 2013. Nucleic Acids Res 2013, 41(Database issue):D456–63.
113. Wang Y, Xiao J, Suzek TO, Zhang J, Wang J, Bryant SH: PubChem: a public
![Page 194: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/194.jpg)
165
information system for analyzing bioactivities of small molecules. Nucleic Acids Res 2009, 37(Web Server issue):W623–33.
114. Tipton K, Boyce S: History of the enzyme nomenclature system. Bioinformatics 2000, 16:34–40.
115. Bairoch A: The ENZYME data bank. Nucleic Acids Res 1994, 22:3626–3627.
116. Bastard K, Smith AAT, Vergne-Vaxelaire C, Perret A, Zaparucha A, De Melo-Minardi R, Mariage A, Boutard M, Debard A, Lechaplais C, Pelle C, Pellouin V, Perchat N, Petit J-L, Kreimeyer A, Medigue C, Weissenbach J, Artiguenave F, De Berardinis V, Vallenet D, Salanoubat M: Revealing the hidden functional diversity of an enzyme family. Nat Chem Biol 2014, 10:42–9.
117. Deville Y: An overview of data models for the analysis of biochemical pathways. Brief Bioinform 2003, 4:246–259.
118. Orth JD, Thiele I, Palsson BØ: What is flux balance analysis? Nat Biotechnol 2010, 28:245–8.
119. Stelling J: Mathematical models in microbial systems biology. Curr Opin Microbiol 2004, 7:513–8.
120. Przytycka TM, Andrews J: Systems-biology dissection of eukaryotic cell growth. BMC Biol 2010, 8:62.
121. Larhlimi A, Blachon S, Selbig J, Nikoloski Z: Robustness of metabolic networks: a review of existing definitions. Biosystems 2011, 106:1–8.
122. Wagner A, Fell DA: The small world inside large metabolic networks. Proc Biol Sci 2001, 268:1803–10.
123. Arita M: The metabolic world of Escherichia coli is not small. Proc Natl Acad Sci U S A 2004, 101:1543–7.
124. Caspi R, Altman T, Dreher K, Fulcher CA, Subhraveti P, Keseler IM, Kothari A, Krummenacker M, Latendresse M, Mueller LA, Ong Q, Paley S, Pujar A, Shearer AG, Travers M, Weerasinghe D, Zhang P, Karp PD: The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of pathway/genome databases. Nucleic Acids Res 2012, 40(Database issue):D742–53.
125. Karp P, Paley S: Representations of metabolic knowledge: pathways. Ismb 1994.
126. Karp P, Paley S: Automated drawing of metabolic pathways. Proc 3rd Int Conf … 1994.
127. Katz L: On the Matric Analysis of Sociometric Data. Sociometry 1947, 10:233–241.
128. Seeley JR: The net of reciprocal influence. Study II: The balance of power. .
129. Brandes U, Erlebach T (Eds): Network Analysis. Volume 3418. Berlin, Heidelberg: Springer Berlin Heidelberg; 2005. [Lecture Notes in Computer Science]
130. Katz L: A new status index derived from sociometric analysis. Psychometrika 1953, 18:39–43.
![Page 195: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/195.jpg)
166
131. Bonacich P: Factoring and weighting approaches to status scores and clique identification. J Math Sociol 1972, 2:113–120.
132. Hubbell CH: An Input-Output Approach to Clique Identification. Sociometry 1965, 28:377–399.
133. The Anatomy of a Search Engine [http://infolab.stanford.edu/~backrub/google.html]
134. Lempel R, Moran S: The stochastic approach for link-structure analysis (SALSA) and the TKC effect. Comput Networks 2000, 33:387–401.
135. Wolf DM, Arkin AP: Motifs, modules and games in bacteria. Curr Opin Microbiol 2003, 6:125–134.
136. Hartwell LH, Hopfield JJ, Leibler S, Murray AW: From molecular to modular cell biology. Nature 1999, 402(6761 Suppl):C47–52.
137. Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabási AL: Hierarchical organization of modularity in metabolic networks. Science 2002, 297:1551–5.
138. Thiele I, Palsson BØ: A protocol for generating a high-quality genome-scale metabolic reconstruction. Nat Protoc 2010, 5:93–121.
139. Bar D: Evidence of massive horizontal gene transfer between humans and Plasmodium vivax. core.ac.uk .
140. Altschul SF, Koonin E V.: Iterated profile searches with PSI-BLAST—a tool for discovery in protein databases. Trends Biochem Sci 1998, 23:444–447.
141. Moreno-Hagelsieb G, Hudy-Yuffa B: Estimating overannotation across prokaryotic genomes using BLAST+, UBLAST, LAST and BLAT. BMC Res Notes 2014, 7:651.
142. Gouzy J, Corpet F, Kahn D: Whole genome protein domain analysis using a new method for domain clustering. Comput Chem 1999, 23:333–340.
143. Claudel-Renard C, Chevalet C, Faraut T, Kahn D: Enzyme-specific profiles for genome annotation: PRIAM. Nucleic Acids Res 2003, 31:6633–6639.
144. Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, Heger A, Hetherington K, Holm L, Mistry J, Sonnhammer ELL, Tate J, Punta M: Pfam: The protein families database. Nucleic Acids Research 2014.
145. Mulder N, Apweiler R: InterPro and InterProScan: tools for protein sequence classification and comparison. Methods Mol Biol 2007, 396:59–70.
146. Mitchell A, Chang H-Y, Daugherty L, Fraser M, Hunter S, Lopez R, McAnulla C, McMenamin C, Nuka G, Pesseat S, Sangrador-Vegas A, Scheremetjew M, Rato C, Yong S-Y, Bateman A, Punta M, Attwood TK, Sigrist CJA, Redaschi N, Rivoire C, Xenarios I, Kahn D, Guyot D, Bork P, Letunic I, Gough J, Oates M, Haft D, Huang H, Natale DA, et al.: The InterPro protein families database: the classification resource after 15 years. Nucleic Acids Res 2014, 43(Database issue):D213–21.
147. Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, Heger A, Hetherington K, Holm L, Mistry J, Sonnhammer ELL, Tate J, Punta M: Pfam: the
![Page 196: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/196.jpg)
167
protein families database. Nucleic Acids Res 2014, 42(Database issue):D222–30.
148. Mistry J, Finn RD, Eddy SR, Bateman A, Punta M: Challenges in homology search: HMMER3 and convergent evolution of coiled-coil regions. Nucleic Acids Res 2013, 41:e121.
149. Meyer F, Overbeek R, Rodriguez A: FIGfams: yet another set of protein families. Nucleic Acids Res 2009, 37:6643–54.
150. Haft DH, Selengut JD, White O: The TIGRFAMs database of protein families. Nucleic Acids Res 2003, 31:371–3.
151. Sillitoe I, Cuff AL, Dessailly BH, Dawson NL, Furnham N, Lee D, Lees JG, Lewis TE, Studer RA, Rentzsch R, Yeats C, Thornton JM, Orengo CA: New functional families (FunFams) in CATH to improve the mapping of conserved functional sites to 3D structures. Nucleic Acids Res 2013, 41(Database issue):D490–8.
152. Vallenet D, Labarre L, Rouy Z, Barbe V, Bocs S, Cruveiller S, Lajus A, Pascal G, Scarpelli C, Médigue C: MaGe: a microbial genome annotation system supported by synteny results. Nucleic Acids Res 2006, 34:53–65.
153. Rogozin I, Makarova K: Connected gene neighborhoods in prokaryotic genomes. Nucleic Acids … 2002.
154. Enright A, Ouzounis C: Functional associations of proteins in entire genomes by means of exhaustive detection of gene fusions. Genome Biol 2001.
155. Yanai I, Derti A, DeLisi C: Genes linked by fusion events are generally of the same functional category: A systematic analysis of 30 microbial genomes. Proc Natl Acad Sci 2001, 98:7940–7945.
156. Pellegrini M, Marcotte EM, Thompson MJ, Eisenberg D, Yeates TO: Assigning protein functions by comparative genome analysis: Protein phylogenetic profiles. Proc Natl Acad Sci 1999, 96:4285–4288.
157. Watson JD, Laskowski RA, Thornton JM: Predicting protein function from sequence and structural data. Curr Opin Struct Biol 2005, 15:275–84.
158. Russell RB: Detection of protein three-dimensional side-chain patterns: new examples of convergent evolution. J Mol Biol 1998, 279:1211–27.
159. Wang Z, Yin P, Lee JS, Parasuram R, Somarowthu S, Ondrechen MJ: Protein function annotation with Structurally Aligned Local Sites of Activity (SALSAs). BMC Bioinformatics 2013, 14 Suppl 3:S13.
160. de Melo-Minardi RC, Bastard K, Artiguenave F: Identification of subfamily-specific sites based on active sites modeling and clustering. Bioinformatics 2010, 26:3075–82.
161. Fan H, Hitchcock DS, Seidel RD, Hillerich B, Lin H, Almo SC, Sali A, Shoichet BK, Raushel FM: Assignment of pterin deaminase activity to an enzyme of unknown function guided by homology modeling and docking. J Am Chem Soc 2013, 135:795–803.
162. Jacobson MP, Kalyanaraman C, Zhao S, Tian B: Leveraging structure for enzyme function prediction: methods, opportunities, and challenges. Trends
![Page 197: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/197.jpg)
168
Biochem Sci 2014, 39:363–71.
163. Bastard K, Smith AAT, Vergne-Vaxelaire C, Perret A, Zaparucha A, De Melo-Minardi R, Mariage A, Boutard M, Debard A, Lechaplais C, Pelle C, Pellouin V, Perchat N, Petit J-L, Kreimeyer A, Medigue C, Weissenbach J, Artiguenave F, De Berardinis V, Vallenet D, Salanoubat M: Revealing the hidden functional diversity of an enzyme family. Nat Chem Biol 2014, 10:42–9.
164. Aze J, Gentils L, Toffano-Nioche C, Loux V, Gibrat J-F, Bessieres P, Rouveirol C, Poupon A, Froidevaux C: Towards a semi-automatic functional annotation tool based on decision-tree techniques. BMC Proc 2008, 2(Suppl 4):S3.
165. Xavier D, Crespo B, Fuentes-Fernández R: A rule-based expert system for inferring functional annotation. Appl Soft Comput 2015, 35:373–385.
166. Friedberg I: Critical Assessment of Function Annotation Meeting, 2011. Argonne, IL (United States); 2015.
167. Salzberg SL: Genome re-annotation: a wiki solution? Genome Biol 2007, 8:102.
168. Huss JW, Orozco C, Goodale J, Wu C, Batalov S, Vickers TJ, Valafar F, Su AI: A gene wiki for community annotation of gene function. PLoS Biol 2008, 6:e175.
169. Vallenet D, Belda E, Calteau A, Cruveiller S, Engelen S, Lajus A, Le Fèvre F, Longin C, Mornico D, Roche D, Rouy Z, Salvignol G, Scarpelli C, Thil Smith AA, Weiman M, Médigue C: MicroScope--an integrated microbial resource for the curation and comparative analysis of genomic and metabolic data. Nucleic Acids Res 2013, 41(Database issue):D636–47.
170. Overbeek R, Olson R, Pusch GD, Olsen GJ, Davis JJ, Disz T, Edwards RA, Gerdes S, Parrello B, Shukla M, Vonstein V, Wattam AR, Xia F, Stevens R: The SEED and the Rapid Annotation of microbial genomes using Subsystems Technology (RAST). Nucleic Acids Res 2014, 42(Database issue):D206–14.
171. Renata H, Wang ZJ, Arnold FH: Expanding the enzyme universe: accessing non-natural reactions by mechanism-guided directed evolution. Angew Chem Int Ed Engl 2015, 54:3351–67.
172. Alastair R. H, Heather K. L: The molecular biology of multidomain proteins. selected examples. In EJB Reviews. Volume 199.; 1995:245–256.
173. Hernández S, Ferragut G, Amela I, Perez-Pons J, Piñol J, Mozo-Villarias A, Cedano J, Querol E: MultitaskProtDB: a database of multitasking proteins. Nucleic Acids Res 2014, 42(Database issue):D517–20.
174. Moreno-Hagelsieb G: The power of operon rearrangements for predicting functional associations. Comput Struct Biotechnol J 2015, 13:402–6.
175. Blumenthal T: Operons in eukaryotes. Briefings Funct Genomics Proteomics 2004, 3:199–211.
176. Blumenthal T, Gleason KS: Caenorhabditis elegans operons: form and function. Nat Rev Genet 2003, 4:112–20.
177. Ream DC, Bankapur AR, Friedberg I: An event-driven approach for studying gene block evolution in bacteria. Bioinformatics 2015, 31:2075–83.
![Page 198: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/198.jpg)
169
178. Salgado H, Peralta-Gil M, Gama-Castro S, Santos-Zavaleta A, Muñiz-Rascado L, García-Sotelo JS, Weiss V, Solano-Lira H, Martínez-Flores I, Medina-Rivera A, Salgado-Osorio G, Alquicira-Hernández S, Alquicira-Hernández K, López-Fuentes A, Porrón-Sotelo L, Huerta AM, Bonavides-Martínez C, Balderas-Martínez YI, Pannier L, Olvera M, Labastida A, Jiménez-Jacinto V, Vega-Alvarado L, Del Moral-Chávez V, Hernández-Alvarez A, Morett E, Collado-Vides J: RegulonDB v8.0: omics data sets, evolutionary conservation, regulatory phrases, cross-validated gold standards and more. Nucleic Acids Res 2013, 41(Database issue):D203–13.
179. Salgado H, Moreno-Hagelsieb G, Smith TF, Collado-Vides J: Operons in Escherichia coli: Genomic analyses and predictions. Proc Natl Acad Sci 2000, 97:6652–6657.
180. Ferrer L, Dale JM, Karp PD: A systematic study of genome context methods: calibration, normalization and combination. BMC Bioinformatics 2010, 11:493.
181. Price MN, Huang KH, Alm EJ, Arkin AP: A novel method for accurate operon predictions in all sequenced prokaryotes. Nucleic Acids Res 2005, 33:880–92.
182. Stormo G: Mining genome databases to identify and understand new gene regulatory systems. Curr Opin Microbiol 2002, 5:149–153.
183. Ermolaeva MD: Prediction of operons in microbial genomes. Nucleic Acids Res 2001, 29:1216–1221.
184. Dandekar T: Conservation of gene order: a fingerprint of proteins that physically interact. Trends Biochem Sci 1998, 23:324–328.
185. Sabatti C: Co-expression pattern from DNA microarray experiments as a tool for operon prediction. Nucleic Acids Res 2002, 30:2886–2893.
186. McClure R, Balasubramanian D, Sun Y, Bobrovskyy M, Sumby P, Genco CA, Vanderpool CK, Tjaden B: Computational analysis of bacterial RNA-Seq data. Nucleic Acids Res 2013, 41:e140.
187. Bockhorst J, Craven M, Page D, Shavlik J, Glasner J: A Bayesian network approach to operon prediction. Bioinformatics 2003, 19:1227–1235.
188. Jacob E, Sasikumar R, Nair KNR: A fuzzy guided genetic algorithm for operon prediction. Bioinformatics 2005, 21:1403–7.
189. McClean PE, Mamidi S, McConnell M, Chikara S, Lee R: Synteny mapping between common bean and soybean reveals extensive blocks of shared loci. BMC Genomics 2010, 11:184.
190. Overbeek R, Fonstein M, D’Souza M, Pusch GD, Maltsev N: Use of contiguity on the chromosome to predict functional coupling. In Silico Biol 1999, 1:93–108.
191. Sinha AU, Meller J: Cinteny: flexible analysis and visualization of synteny and genome rearrangements in multiple organisms. BMC Bioinformatics 2007, 8:82.
192. Deniélou Y-P, Sagot M-F, Boyer F, Viari A: Bacterial syntenies: an exact approach with gene quorum. BMC Bioinformatics 2011, 12:193.
193. Boyer F, Morgat A, Labarre L, Pothier J, Viari A: Syntons, metabolons and interactons: an exact graph-theoretical approach for exploring neighbourhood
![Page 199: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/199.jpg)
170
between genomic and functional data. Bioinformatics 2005, 21:4209–15.
194. Gehrmann T, Reinders MJT: Proteny: discovering and visualizing statistically significant syntenic clusters at the proteome level. Bioinformatics 2015:btv389–.
195. Carver TJ, Rutherford KM, Berriman M, Rajandream M-A, Barrell BG, Parkhill J: ACT: the Artemis Comparison Tool. Bioinformatics 2005, 21:3422–3.
196. Castellana M, Wilson MZ, Xu Y, Joshi P, Cristea IM, Rabinowitz JD, Gitai Z, Wingreen NS: Enzyme clustering accelerates processing of intermediates through metabolic channeling. Nat Biotechnol 2014, 32:1011–8.
197. Snel B, Bork P, Huynen M: Genome evolution. Gene fusion versus gene fission. Trends Genet 2000, 16:9–11.
198. Marcotte EM, Pellegrini M, Thompson MJ, Yeates TO, Eisenberg D: A combined algorithm for genome-wide prediction of protein function. Nature 1999, 402:83–6.
199. Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D: Detecting protein function and protein-protein interactions from genome sequences. Science 1999, 285:751–3.
200. Enright AJ, Iliopoulos I, Kyrpides NC, Ouzounis CA: Protein interaction maps for complete genomes based on gene fusion events. Nature 1999, 402:86–90.
201. Pasek S, Risler J-L, Brézellec P: Gene fusion/fission is a major contributor to evolution of multi-domain bacterial proteins. Bioinformatics 2006, 22:1418–23.
202. Feist AM, Herrgård MJ, Thiele I, Reed JL, Palsson BØ: Reconstruction of biochemical networks in microorganisms. Nat Rev Microbiol 2009, 7:129–43.
203. Zhou J, Rudd KE: EcoGene 3.0. Nucleic Acids Res 2013, 41(Database issue):D613–24.
204. Winsor GL, Lam DKW, Fleming L, Lo R, Whiteside MD, Yu NY, Hancock REW, Brinkman FSL: Pseudomonas Genome Database: improved comparative analysis and population genomics capability for Pseudomonas genomes. Nucleic Acids Res 2011, 39(Database issue):D596–600.
205. Karp PD, Riley M, Saier M, Paulsen IT, Paley SM, Pellegrini-Toole A: The EcoCyc and MetaCyc databases. Nucleic Acids Res 2000, 28:56–59.
206. Schellenberger J, Que R, Fleming RMT, Thiele I, Orth JD, Feist AM, Zielinski DC, Bordbar A, Lewis NE, Rahmanian S, Kang J, Hyduke DR, Palsson BØ: Quantitative prediction of cellular metabolism with constraint-based models: the COBRA Toolbox v2.0. Nat Protoc 2011, 6:1290–307.
207. Saito N, Robert M, Kitamura S, Baran R, Soga T, Mori H, Nishioka T, Tomita M: Metabolomics Approach for Enzyme Discovery. J Proteome Res 2006, 5:1979–1987.
208. Roberts RJ: Identifying protein function--a call for community action. PLoS Biol 2004, 2:E42.
209. Wu CH, Yeh LS, Huang H, Arminski L, Castro-Alvear J, Chen Y, Hu Z, Kourtesis P, Ledley RS, Suzek BE, Vinayaka CR, Zhang J, Barker WC: The protein information resource. Nucleic Acids Res 2003, 31:345–347.
![Page 200: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/200.jpg)
171
210. Peterson JD: The Comprehensive Microbial Resource. Nucleic Acids Res 2001, 29:123–125.
211. Lespinet O, Labedan B: Orphan Enzymes? Science 2005.
212. Ramkissoon KR, Miller JK, Ojha S, Watson DS, Bomar MG, Galande AK, Shearer AG: Rapid identification of sequences for orphan enzymes to power accurate protein annotation. PLoS One 2013, 8:e84508.
213. Shearer AG, Altman T, Rhee CD: Finding sequences for over 270 orphan enzymes. PLoS One 2014, 9.
214. Chen L, Vitkup D: Distribution of orphan metabolic activities. Trends Biotechnol 2007, 25:343–8.
215. Osterman A: Missing genes in metabolic pathways: a comparative genomics approach. Curr Opin Chem Biol 2003, 7:238–251.
216. Kotera M, Okuno Y, Hattori M, Goto S, Kanehisa M: Computational assignment of the EC numbers for genomic-scale analysis of enzymatic reactions. J Am Chem Soc 2004, 126:16487–16498.
217. Kotera M, Tokimatsu T, Kanehisa M, Goto S: MUCHA: multiple chemical alignment algorithm to identify building block substructures of orphan secondary metabolites. BMC Bioinformatics 2011, 12(Suppl 14):S1.
218. Yamanishi Y, Hattori M, Kotera M, Goto S, Kanehisa M: E-zyme: predicting potential EC numbers from the chemical transformation pattern of substrate-product pairs. Bioinformatics 2009, 25:i179–i186.
219. Rahman SA, Cuesta SM, Furnham N, Holliday GL, Thornton JM: EC-BLAST: a tool to automatically search and compare enzyme reactions. Nat Methods 2014, 11:171–4.
220. Giri V, Sivakumar TV, Cho KM, Kim TY, Bhaduri A: RxnSim: a tool to compare biochemical reactions. Bioinformatics 2015:btv416.
221. O’Boyle NM, Holliday GL, Almonacid DE, Mitchell JBO: Using reaction mechanism to measure enzyme similarity. J Mol Biol 2007, 368:1484–99.
222. Holliday GL, Andreini C, Fischer JD, Rahman SA, Almonacid DE, Williams ST, Pearson WR: MACiE: exploring the diversity of biochemical reactions. Nucleic Acids Res 2012, 40(Database issue):D783–9.
223. Zhang Q-Y, Aires-de-Sousa J: Structure-based classification of chemical reactions without assignment of reaction centers. J Chem Inf Model 2005, 45:1775–83.
224. Latino DARS, Aires-de-Sousa J: Assignment of EC numbers to enzymatic reactions with MOLMAP reaction descriptors and random forests. J Chem Inf Model 2009, 49:1839–46.
225. Smith AAT, Belda E, Viari A, Medigue C, Vallenet D: The CanOE strategy: Integrating genomic and metabolic contexts across multiple prokaryote genomes to find candidate genes for orphan enzymes. PLoS Comput Biol 2012, 8:1–12.
226. Yamada T, Waller AS, Raes J, Zelezniak A, Perchat N, Perret A, Salanoubat M,
![Page 201: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/201.jpg)
172
Patil KR, Weissenbach J, Bork P: Prediction and identification of sequences coding for orphan enzymes using genomic and metagenomic neighbours. Molecular Systems Biology 2012.
227. Faust K, Croes D, van Helden J: Prediction of metabolic pathways from genome-scale metabolic networks. Biosystems 2011, 105:109–121.
228. Faust K, Dupont P, Callut J, van Helden J: Pathway discovery in metabolic networks by subgraph extraction. Bioinformatics 2010, 26:1211–8.
229. Croes D, Couche F, Wodak SJ, van Helden J: Metabolic PathFinding: inferring relevant pathways in biochemical networks. Nucleic Acids Res 2005, 33(Web Server issue):W326–30.
230. Schuster S: Detection of elementary flux modes in biochemical networks: a promising tool for pathway analysis and metabolic engineering. Trends Biotechnol 1999, 17:53–60.
231. Heath A, Bennett G, Kavraki L: Finding metabolic pathways using atom tracking. Bioinformatics 2010.
232. Boyer F, Viari A: Ab initio reconstruction of metabolic pathways. Bioinformatics 2003, 19 Suppl 2:ii26–34.
233. Soh K, Hatzimanikatis V: DREAMS of metabolism. Trends Biotechnol 2010.
234. Araki M, Cox RS, Makiguchi H, Ogawa T, Taniguchi T, Miyaoku K, Nakatsui M, Hara KY, Kondo A: M-path: a compass for navigating potential metabolic pathways. Bioinformatics 2015, 31:905–11.
235. Carbonell P, Parutto P, Baudier C, Junot C, Faulon J-L: Retropath: automated pipeline for embedded metabolic circuits. ACS Synth Biol 2014, 3:565–77.
236. Carbonell P, Carlsson L, Faulon J-L: Stereo signature molecular descriptor. J Chem Inf Model 2013, 53:887–97.
237. DANDEKAR T, SCHUSTER S: Pathway alignment: application to the comparative analysis of glycolytic enzymes. Biochem … 1999.
238. Pinter RY, Rokhlenko O, Yeger-Lotem E, Ziv-Ukelson M: Alignment of metabolic pathways. Bioinformatics 2005, 21:3401–8.
239. Tohsato Y, Nishimura Y: Metabolic Pathway Alignment Based on Similarity between Chemical Structures. IPSJ Digit Cour 2007, 3:736–745.
240. Ay F, Kellis M, Kahveci T: SubMAP: aligning metabolic pathways with subnetwork mappings. J Comput Biol 2011, 18:219–35.
241. Tohsato Y, Nishimura Y: Reaction Similarities Focusing Substructure Changes of Chemical Compounds and Metabolic Pathway Alignments. IPSJ Trans Bioinforma 2009, 2:15–24.
242. Abaka G, Bıyıkoğlu T, Erten C: CAMPways: constrained alignment framework for the comparative analysis of a pair of metabolic pathways. Bioinformatics 2013, 29:i145–53.
243. Alves R, Chaleil RA., Sternberg MJ.: Evolution of Enzymes in Metabolism: A
![Page 202: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/202.jpg)
173
Network Perspective. J Mol Biol 2002, 320:751–770.
244. Milo R, Shen-Orr S, Itzkovitz S, Kashtan N, Chklovskii D, Alon U: Network motifs: simple building blocks of complex networks. Science 2002, 298:824–7.
245. Alon U: Network motifs: theory and experimental approaches. Nat Rev Genet 2007, 8:450–61.
246. Lacroix V, Fernandes CG, Sagot MF: Motif search in graphs: Application to metabolic networks. In IEEE/ACM Transactions on Computational Biology and Bioinformatics. Volume 3; 2006:360–368.
247. Smoot ME, Ono K, Ruscheinski J, Wang P-L, Ideker T: Cytoscape 2.8: new features for data integration and network visualization. Bioinformatics 2011, 27:431–2.
248. Auber D: Tulip—A huge graph visualization framework. Graph Draw Softw 2004.
249. Bastian M, Heymann S, Jacomy M: Gephi: an open source software for exploring and manipulating networks. ICWSM 2009.
250. Nishiyama K, Maeda M, Yanagisawa K, Nagase R, Komura H, Iwashita T, Yamagaki T, Kusumoto S, Tokuda H, Shimamoto K: MPIase is a glycolipozyme essential for membrane protein integration. Nat Commun 2012, 3:1260.
251. Nishiyama K, Shimamoto K: Glycolipozyme membrane protein integrase (MPIase): recent data. Biomol Concepts 2014, 5:429–38.
252. Achenbach J, Chiuman W, Cruz R, Li Y: DNAzymes: From Creation In Vitro to Application In Vivo. Curr Pharm Biotechnol 2004, 5:321–336.
253. Fedor MJ, Williamson JR: The catalytic diversity of RNAs. Nat Rev Mol Cell Biol 2005, 6:399–412.
254. Wochner A, Attwater J, Coulson A, Holliger P: Ribozyme-catalyzed transcription of an active ribozyme. Science 2011, 332:209–12.
255. Zaher HS, Unrau PJ: Selection of an improved RNA polymerase ribozyme with superior extension and fidelity. RNA 2007, 13:1017–26.
256. Li Y, Sen D: Toward an efficient DNAzyme. Biochemistry 1997, 36:5589–99.
257. Johnson R: Xeno-nucleic acids: Unnatural biocatalysts. Nat Chem 2015, 7:94–94.
258. Taylor AI, Pinheiro VB, Smola MJ, Morgunov AS, Peak-Chew S, Cozens C, Weeks KM, Herdewijn P, Holliger P: Catalysts from synthetic genetic polymers. Nature 2014, 518:427–430.
259. Pinheiro VB, Taylor AI, Cozens C, Abramov M, Renders M, Zhang S, Chaput JC, Wengel J, Peak-Chew S-Y, McLaughlin SH, Herdewijn P, Holliger P: Synthetic genetic polymers capable of heredity and evolution. Science 2012, 336:341–4.
260. Bocs S: AMIGene: Annotation of MIcrobial Genes. Nucleic Acids Res 2003, 31:3723–3726.
261. Hyatt D, Chen G-L, Locascio PF, Land ML, Larimer FW, Hauser LJ: Prodigal:
![Page 203: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/203.jpg)
174
prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 2010, 11:119.
262. Fraser CM, Casjens S, Huang WM, Sutton GG, Clayton R, Lathigra R, White O, Ketchum KA, Dodson R, Hickey EK, Gwinn M, Dougherty B, Tomb JF, Fleischmann RD, Richardson D, Peterson J, Kerlavage AR, Quackenbush J, Salzberg S, Hanson M, van Vugt R, Palmer N, Adams MD, Gocayne J, Weidman J, Utterback T, Watthey L, McDonald L, Artiach P, Bowman C, et al.: Genomic sequence of a Lyme disease spirochaete, Borrelia burgdorferi. Nature 1997, 390:580–6.
263. Mao F, Dam P, Chou J, Olman V, Xu Y: DOOR: a database for prokaryotic operons. Nucleic Acids Res 2009, 37(Database issue):D459–63.
264. Taboada B, Ciria R, Martinez-Guerrero CE, Merino E: ProOpDB: Prokaryotic Operon DataBase. Nucleic Acids Res 2011, 40:D627–D631.
265. Rebehmed J, Alphand V: Evolution study of the Baeyer–Villiger monooxygenases enzyme family: Functional importance of the highly conserved residues. Biochimie 2013.
266. Smith AAT, Belda E, Viari A, Medigue C, Vallenet D: The CanOE strategy: Integrating genomic and metabolic contexts across multiple prokaryote genomes to find candidate genes for orphan enzymes. PLoS Comput Biol 2012, 8.
267. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL: GenBank. Nucleic Acids Res 2005, 33(Database issue):D34–8.
268. Leinonen R, Akhtar R, Birney E, Bower L, Cerdeno-Tárraga A, Cheng Y, Cleland I, Faruque N, Goodgame N, Gibson R, Hoad G, Jang M, Pakseresht N, Plaister S, Radhakrishnan R, Reddy K, Sobhany S, Ten Hoopen P, Vaughan R, Zalunin V, Cochrane G: The European Nucleotide Archive. Nucleic Acids Res 2011, 39(Database issue):D28–31.
269. Kotera M, Tabei Y, Yamanishi Y, Tokimatsu T, Goto S: Supervised de novo reconstruction of metabolic pathways from metabolome-scale compound sets. Bioinformatics 2013, 29:i135–44.
270. Prosser GA, Larrouy-Maumus G, de Carvalho LPS: Metabolomic strategies for the identification of new enzyme functions and metabolic pathways. EMBO Rep 2014, 15:657–69.
271. Xu Y, Salapaka SM, Beck CL: On reduction of graphs and Markov chain models. In IEEE Conference on Decision and Control and European Control Conference. IEEE; 2011:2317–2322.
![Page 204: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/204.jpg)
175
Annexe Documentation complémentaire à l’article « A new network representation
of the metabolism to detect chemical transformation modules », Sorokina et
al. BMC Bioinformatics 2015.
![Page 205: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/205.jpg)
Additional file 2 – Comparison of Reaction Molecular Signature and Enzyme Commission reaction
partition
o a is the number of reaction pairs that are in the same set in EC and in the same set in RMS = 73408
o b is the number of reaction pairs that are in different sets in EC and in different sets in RMS = 10142098
o c is the number of reaction pairs that are in the same set in EC and in different sets in RMS = 9946
o d is the number of reaction pairs that are in different sets in EC and in the same set in RMS = 232984
𝑅𝑎𝑛𝑑 𝐼𝑛𝑑𝑒𝑥 = 𝑎 + 𝑏
𝑎 + 𝑏 + 𝑐 + 𝑑=
73408 + 10142098
73408 + 10142098 + 9946 + 232984= 0.976
![Page 206: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/206.jpg)
Additional file 4 – Boxplots of conservation scores for enumerated and known metabolic paths
For paths of length 2 (two edges and three nodes) in the RMS-H1 network, distributions of the three
conservation scores (i.e. scoreRea, scoreProt and scorePageRank) are presented in all enumerated paths
versus paths in known metabolic pathways.
The latter present significant higher scores (p-value <2e^-16 using Tukey's HSD tests)
![Page 207: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/207.jpg)
Additional file 5 – Statistical analysis of conservation scores distributions according to the pathway
type their paths are stemming from
Post-hoc analysis on metabolic pathway scores in order to determine if scores distributions are
significantly different regarding the pathway type (biosynthesis, degradation, detoxification, energy or
other). Are presented in following tables p-values from the Tukey HSD test for the three conservation
scores (scoreRea, scorePageRank and scoreProt) for RMS paths from known metabolic pathways in
height 2 RMS network.
Kruskal-Wallis rank sum tests for height 2 RMS network paths scores
H0: The distributions of path scores are identical regardless pathway type they are involved in
scoreRea : Kruskal-Wallis chi-squared = 148.1694, df = 4, p-value < 2.2e-16
scoreProt : Kruskal-Wallis chi-squared = 36.6593, df = 4, p-value = 2.117e-07
scorePageRank : Kruskal-Wallis chi-squared = 66.2534, df = 4, p-value = 1.401e-13
Tukey HSD p-values for distribution comparison for height 2 RMS network paths of length 2.
Compared pathway types scoreRea scoreProt (for all paths where scoreProt>0)
scorePageRank
Degradation - Biosynthesis 0.05 0.03 0.000007
Detox – Biosynthesis 0.99 0.97 0.013
Energy – Biosynthesis 0 0.0001 0.55
Other – Biosynthesis 0.41 0.1 0.0005
Detox – Degradation 0.99 0.68 0.00005
Energy – Degradation 0.0000002 0.09 0.83
Other - Degradation 0.99 0.95 0.71
Energy – Detox 0.0067 0.14 0.0032
Other – Detox 0.98 0.53 0.000015
Other – Energy 0.0001 0.64 0.37
![Page 208: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/208.jpg)
Additional file 6 – Metabolic pathway type prediction rules generated by NNge algorithm
Scheme:weka.classifiers.rules.NNge -G 20 -I 20
Attributes: 4
scoreRea
scoreProtTaxo
scorePageRankTopoDiv
t
Test mode:10-fold cross-validation
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 7822 94.7432 %
Incorrectly Classified Instances 434 5.2568 %
Kappa statistic 0.9076
Mean absolute error 0.021
Root mean squared error 0.145
Relative absolute error 9.2047 %
Root relative squared error 42.9119 %
Total Number of Instances 8256
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.922 0.028 0.927 0.922 0.925 0.947 DEGRADATION
0.965 0.06 0.958 0.965 0.961 0.952 BIOSYNTHESIS
0.929 0.003 0.947 0.929 0.938 0.963 OTHER
0.869 0.001 0.926 0.869 0.897 0.934 DETOX
0.935 0.004 0.939 0.935 0.937 0.966 ENERGY
Weighted Avg. 0.947 0.043 0.947 0.947 0.947 0.952
=== Confusion Matrix ===
a b c d e <-- classified as
2121 151 10 3 15 | a = DEGRADATION
136 4672 16 6 13 | b = BIOSYNTHESIS
13 22 469 0 1 | c = OTHER
6 11 0 113 0 | d = DETOX
11 20 0 0 447 | e = ENERGY
=== Classifier model (full training set) ===
NNGE classifier
Rules generated :
class ENERGY IF : 0.0944911182523068<=scoreRea<=0.11952286093343936 ^ 0.2380660236333224<=scoreProtTaxo<=2.467150522820092 ^ 3.9467331593969805E-
5<=scorePageRankTopoDiv<=8.222097127067186E-5 (19)
class OTHER IF : 0.14824986333222023<=scoreRea<=0.23570226039551584 ^ 34.230955629673105<=scoreProtTaxo<=43.96658510801488 ^ 2.5624430194452117E-
5<=scorePageRankTopoDiv<=3.2215748110582064E-5 (25)
class BIOSYNTHESIS IF : 1.3764944032233706<=scoreRea<=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ 1.715924490479643E-4<=scorePageRankTopoDiv<=1.7442011676202887E-4
(9)
class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=1.0 ^ scoreProtTaxo=0.0 ^ 2.635996114083793E-4<=scorePageRankTopoDiv<=2.6835762452210286E-4 (16)
class BIOSYNTHESIS IF : 0.3333333333333333<=scoreRea<=0.3380617018914066 ^ scoreProtTaxo=0.0 ^ 1.7482405819301152E-4<=scorePageRankTopoDiv<=1.7796160572064972E-4
(8)
class BIOSYNTHESIS IF : 0.6282808624375432<=scoreRea<=0.7071067811865476 ^ 137.05241439564665<=scoreProtTaxo<=187.6103739034471 ^ 8.941788011599709E-
5<=scorePageRankTopoDiv<=1.273031544422776E-4 (14)
![Page 209: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/209.jpg)
class BIOSYNTHESIS IF : 1.3844373104863457<=scoreRea<=1.4142135623730951 ^ 0.0<=scoreProtTaxo<=0.48131847175072956 ^ 1.2511393920411733E-
4<=scorePageRankTopoDiv<=1.2782527724143538E-4 (12)
class DEGRADATION IF : 0.5<=scoreRea<=1.0 ^ scoreProtTaxo=0.0 ^ 4.011826234288762E-5<=scorePageRankTopoDiv<=4.203593126592642E-5 (16)
class DEGRADATION IF : scoreRea=0.46770717334674267 ^ scoreProtTaxo=0.9007059016979746 ^ scorePageRankTopoDiv=3.617856201725098E-5 (2)
class BIOSYNTHESIS IF : 1.1547005383792515<=scoreRea<=2.5585578921327845 ^ 14.106547340156714<=scoreProtTaxo<=18.473453822095284 ^ 1.770564875558003E-
4<=scorePageRankTopoDiv<=2.0789015753772057E-4 (13)
class OTHER IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.9885864310046825E-4 (6)
class BIOSYNTHESIS IF : 0.3535533905932738<=scoreRea<=0.408248290463863 ^ 0.12001422967741608<=scoreProtTaxo<=1.805290514655062 ^ 7.097145389737822E-
5<=scorePageRankTopoDiv<=1.006856779682069E-4 (25)
class ENERGY IF : scoreRea=0.24743582965269673 ^ scoreProtTaxo=45.5775940290842 ^ scorePageRankTopoDiv=6.303181454151838E-5 (3)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.4486469678956296E-4 (3)
class BIOSYNTHESIS IF : 2.3145502494313788<=scoreRea<=4.636809247747852 ^ 0.13557591986987977<=scoreProtTaxo<=40.39566525235376 ^ 6.279108186413624E-
5<=scorePageRankTopoDiv<=1.1946954132219554E-4 (26)
class BIOSYNTHESIS IF : 1.7320508075688772<=scoreRea<=3.055050463303893 ^ 98.40420334876411<=scoreProtTaxo<=378.82319006045105 ^ 1.2993501217585093E-
4<=scorePageRankTopoDiv<=1.3143712413214126E-4 (6)
class DEGRADATION IF : 0.7071067811865476<=scoreRea<=0.8320502943378437 ^ 20.577608238503228<=scoreProtTaxo<=70.40532050487963 ^ 1.4711128835871555E-
4<=scorePageRankTopoDiv<=1.5582750065655076E-4 (6)
class ENERGY IF : 0.14680505487867587<=scoreRea<=0.1749635530559413 ^ 1.5153219406847809<=scoreProtTaxo<=59.68013546214413 ^ 4.522582100052408E-
5<=scorePageRankTopoDiv<=6.316112041496758E-5 (12)
class BIOSYNTHESIS IF : 1.5811388300841898<=scoreRea<=3.3806170189140663 ^ 89.64616712273855<=scoreProtTaxo<=93.87272426424039 ^ 4.616620362534685E-
4<=scorePageRankTopoDiv<=6.13379441752335E-4 (8)
class BIOSYNTHESIS IF : 0.1714399631667259<=scoreRea<=0.75 ^ 0.35675283566636734<=scoreProtTaxo<=0.5896504247749174 ^ 2.5285969726396953E-
5<=scorePageRankTopoDiv<=4.035096476002114E-5 (30)
class BIOSYNTHESIS IF : 1.4675987714106857<=scoreRea<=1.5275252316519465 ^ scoreProtTaxo=0.0 ^ 1.4824279368028657E-4<=scorePageRankTopoDiv<=1.873432940507961E-4
(7)
class DEGRADATION IF : 0.4330127018922193<=scoreRea<=0.6064172948423149 ^ 0.5629775241084929<=scoreProtTaxo<=36.00546680035225 ^ 4.043811427310258E-
5<=scorePageRankTopoDiv<=4.107288757033667E-5 (17)
class DEGRADATION IF : scoreRea=1.3363062095621219 ^ scoreProtTaxo=59.8217421667204 ^ scorePageRankTopoDiv=6.927263515039377E-5 (4)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 2.4385616569174256E-4<=scorePageRankTopoDiv<=2.4446999316006323E-4 (12)
class BIOSYNTHESIS IF : 1.3693063937629153<=scoreRea<=2.4776781245530843 ^ 0.050541374706292774<=scoreProtTaxo<=40.716794145116985 ^ 4.4582055374839147E-
4<=scorePageRankTopoDiv<=5.910409514342583E-4 (23)
class BIOSYNTHESIS IF : 0.28867513459481287<=scoreRea<=0.6695340634119862 ^ 0.0<=scoreProtTaxo<=0.09750442980201487 ^ 2.3078302774459267E-
5<=scorePageRankTopoDiv<=2.654390416091464E-5 (19)
class DEGRADATION IF : 1.0<=scoreRea<=1.0933445471810679 ^ scoreProtTaxo=0.0 ^ 1.5119971642290792E-4<=scorePageRankTopoDiv<=1.5165145812969067E-4 (11)
class DEGRADATION IF : 0.3535533905932738<=scoreRea<=0.408248290463863 ^ scoreProtTaxo=0.0 ^ 1.2760655041187276E-4<=scorePageRankTopoDiv<=1.8234241192197802E-4
(20)
class BIOSYNTHESIS IF : 0.42491829279939874<=scoreRea<=0.4629100498862757 ^ 0.0019539003218056023<=scoreProtTaxo<=10.579425554589232 ^ 6.0762810298399056E-
5<=scorePageRankTopoDiv<=6.0772374429749914E-5 (11)
class BIOSYNTHESIS IF : 1.118033988749895<=scoreRea<=1.5491933384829668 ^ 28.3876733812448<=scoreProtTaxo<=171.2522187159527 ^ 1.214796345552975E-
4<=scorePageRankTopoDiv<=1.339312706332986E-4 (38)
class BIOSYNTHESIS IF : 0.16666666666666666<=scoreRea<=0.5477225575051662 ^ 211.6065492558517<=scoreProtTaxo<=354.05109611467765 ^ 2.4353028660813146E-
5<=scorePageRankTopoDiv<=1.12430516234085E-4 (38)
class DEGRADATION IF : 0.408248290463863<=scoreRea<=0.5443310539518174 ^ 0.05342416342328977<=scoreProtTaxo<=9.574954409747393 ^ 6.276174469714381E-
5<=scorePageRankTopoDiv<=6.541810444814617E-5 (15)
class DEGRADATION IF : scoreRea=0.5773502691896257 ^ scoreProtTaxo=150.93034502106704 ^ scorePageRankTopoDiv=1.3168334991139308E-4 (7)
class DEGRADATION IF : 0.49507377148833714<=scoreRea<=0.6370220572706061 ^ 3.116903115717679<=scoreProtTaxo<=10.859160785877924 ^ 3.192381751198706E-
5<=scorePageRankTopoDiv<=3.283073109307133E-5 (4)
class DEGRADATION IF : 0.9848476085314292<=scoreRea<=1.311651671567906 ^ 0.0015315028922544994<=scoreProtTaxo<=0.012958469829493875 ^ 1.6285332302952283E-
4<=scorePageRankTopoDiv<=1.6807726764800455E-4 (10)
class DEGRADATION IF : 1.5146344928922038<=scoreRea<=1.5387160422974504 ^ 4.37231962355855<=scoreProtTaxo<=45.81247528729291 ^ 1.0060730209984355E-
4<=scorePageRankTopoDiv<=1.0542570447093832E-4 (2)
class DEGRADATION IF : scoreRea=1.4950900031928038 ^ scoreProtTaxo=23.643450906127864 ^ scorePageRankTopoDiv=1.0170788148269443E-4 (4)
class DEGRADATION IF : 1.4038890593022617<=scoreRea<=1.5275252316519465 ^ 0.0<=scoreProtTaxo<=0.22494079551498097 ^ 1.0295047718367274E-
4<=scorePageRankTopoDiv<=1.0359361723184283E-4 (11)
class DEGRADATION IF : 1.5191090506255<=scoreRea<=1.632993161855452 ^ scoreProtTaxo=0.0 ^ 8.767676776912526E-5<=scorePageRankTopoDiv<=9.866342288397187E-5 (6)
class DEGRADATION IF : 1.1473127431577863<=scoreRea<=1.695582495781317 ^ 0.4173866279031499<=scoreProtTaxo<=0.6904483523297835 ^ 8.283363561372424E-
5<=scorePageRankTopoDiv<=1.1294034404114938E-4 (28)
class BIOSYNTHESIS IF : scoreRea=1.495090003192804 ^ scoreProtTaxo=23.643450906127864 ^ scorePageRankTopoDiv=1.0170788148269442E-4 (2)
class BIOSYNTHESIS IF : 0.1767766952966369<=scoreRea<=0.18257418583505536 ^ 1.4521302510479395<=scoreProtTaxo<=4.3847354266734015 ^ 1.872670084424061E-
5<=scorePageRankTopoDiv<=2.0210433645597785E-5 (14)
class DEGRADATION IF : 1.6519994452731097<=scoreRea<=1.7320508075688772 ^ 0.0<=scoreProtTaxo<=0.11859382190794628 ^ 1.659536769761936E-
4<=scorePageRankTopoDiv<=2.1296498231818996E-4 (10)
class DEGRADATION IF : 1.0<=scoreRea<=1.1547005383792515 ^ 0.0<=scoreProtTaxo<=0.5811794521613008 ^ 7.132515955266688E-
5<=scorePageRankTopoDiv<=7.875167426911117E-5 (31)
class DEGRADATION IF : 0.08006407690254357<=scoreRea<=0.08425254637422692 ^ 0.7466289594192045<=scoreProtTaxo<=10.949924907214125 ^ 2.839311395403713E-
5<=scorePageRankTopoDiv<=3.3883828455200255E-5 (8)
class BIOSYNTHESIS IF : scoreRea=0.25 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.1827594371485E-5 (2)
![Page 210: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/210.jpg)
class BIOSYNTHESIS IF : 0.30151134457776363<=scoreRea<=0.35805743701971643 ^ 33.13265144118489<=scoreProtTaxo<=165.40664584751835 ^ 2.1781192991062262E-
5<=scorePageRankTopoDiv<=3.331904960288265E-5 (29)
class DEGRADATION IF : scoreRea=2.0 ^ scoreProtTaxo=52.67513222304043 ^ scorePageRankTopoDiv=2.4625803787683525E-4 (6)
class DEGRADATION IF : scoreRea=0.5 ^ scoreProtTaxo=51.0656694346673 ^ scorePageRankTopoDiv=6.415037616460833E-5 (7)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 1.7047280223499706E-4<=scorePageRankTopoDiv<=1.7681757651857256E-4 (23)
class BIOSYNTHESIS IF : 0.5<=scoreRea<=0.5345224838248488 ^ 92.58392887825794<=scoreProtTaxo<=645.2183120206236 ^ 1.8665619280014382E-
4<=scorePageRankTopoDiv<=3.987942542101376E-4 (34)
class BIOSYNTHESIS IF : 0.816496580927726<=scoreRea<=1.6770509831248424 ^ 0.02414552317287656<=scoreProtTaxo<=60.881932950570835 ^ 2.8126292026083763E-
5<=scorePageRankTopoDiv<=4.606334372579576E-5 (39)
class BIOSYNTHESIS IF : 0.8944271909999159<=scoreRea<=1.0053333711589283 ^ 17.297810329416045<=scoreProtTaxo<=71.7572486719615 ^ 6.17572370468687E-
5<=scorePageRankTopoDiv<=6.430819501851288E-5 (26)
class BIOSYNTHESIS IF : 3.872983346207417<=scoreRea<=5.366563145999495 ^ 0.0<=scoreProtTaxo<=0.15260553574759061 ^ 1.400236268308033E-
4<=scorePageRankTopoDiv<=4.1749250632250665E-4 (39)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.915262928751791E-4<=scorePageRankTopoDiv<=1.9197527419422426E-4 (6)
class BIOSYNTHESIS IF : 1.0540925533894596<=scoreRea<=1.2909944487358058 ^ 27.91959473984153<=scoreProtTaxo<=59.62840121189813 ^ 1.7853466287135828E-
4<=scorePageRankTopoDiv<=2.449337716498709E-4 (21)
class BIOSYNTHESIS IF : 0.7637626158259734<=scoreRea<=0.8944271909999159 ^ 222.78010111168732<=scoreProtTaxo<=260.81456976412017 ^ 7.669479555608071E-
5<=scorePageRankTopoDiv<=1.253740888154235E-4 (14)
class DEGRADATION IF : scoreRea=0.4472135954999579 ^ scoreProtTaxo=0.0 ^ 1.2853202642214428E-4<=scorePageRankTopoDiv<=1.297143538338404E-4 (6)
class BIOSYNTHESIS IF : 1.741143000264028<=scoreRea<=1.9578900207451218 ^ 0.043526169552462184<=scoreProtTaxo<=0.4496737139612123 ^ 7.047799086950667E-
5<=scorePageRankTopoDiv<=1.3754176330353984E-4 (9)
class BIOSYNTHESIS IF : 2.0<=scoreRea<=2.23606797749979 ^ scoreProtTaxo=0.0 ^ 1.3107866933148774E-4<=scorePageRankTopoDiv<=1.5035776480829834E-4 (16)
class BIOSYNTHESIS IF : 0.4330127018922193<=scoreRea<=0.7071067811865476 ^ 37.96986447132463<=scoreProtTaxo<=47.476763977188085 ^ 6.0575541963087874E-
5<=scorePageRankTopoDiv<=8.184055624663284E-5 (38)
class BIOSYNTHESIS IF : 0.4216370213557839<=scoreRea<=0.6666666666666666 ^ 0.0<=scoreProtTaxo<=29.109935803778434 ^ 2.9791555817155357E-
4<=scorePageRankTopoDiv<=4.7186282623621316E-4 (34)
class DEGRADATION IF : 0.12964074471043288<=scoreRea<=0.14625448482542613 ^ 11.675943716030119<=scoreProtTaxo<=12.568556538811487 ^ 5.304913067771752E-
5<=scorePageRankTopoDiv<=5.665850725133843E-5 (3)
class DEGRADATION IF : scoreRea=0.10846522890932808 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=5.484507680933927E-5 (6)
class DEGRADATION IF : 0.13693063937629155<=scoreRea<=0.16484511834894675 ^ 0.1642099863440641<=scoreProtTaxo<=1.4106555334621784 ^ 4.765343982056646E-
5<=scorePageRankTopoDiv<=5.694991249826218E-5 (9)
class DEGRADATION IF : 1.6064386578049976<=scoreRea<=1.6449566416599486 ^ scoreProtTaxo=0.0 ^ 1.1726683964274192E-4<=scorePageRankTopoDiv<=1.449097451000517E-4
(5)
class BIOSYNTHESIS IF : 0.29277002188455997<=scoreRea<=0.5014598571212789 ^ 0.3353271363778662<=scoreProtTaxo<=24.040204420303578 ^ 5.49874466379079E-
5<=scorePageRankTopoDiv<=5.58575845653719E-5 (8)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ 1.744724650945507E-4<=scorePageRankTopoDiv<=2.034274877002086E-4 (15)
class BIOSYNTHESIS IF : 1.1881770515720091<=scoreRea<=1.5029382986043587 ^ 0.0<=scoreProtTaxo<=22.635275882667845 ^ 5.641772204858564E-
5<=scorePageRankTopoDiv<=7.202261364213803E-5 (30)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.184702952142395E-5 (2)
class DEGRADATION IF : scoreRea=0.9274777915203366 ^ scoreProtTaxo=0.5535860737834317 ^ scorePageRankTopoDiv=1.037932024148532E-4 (3)
class DEGRADATION IF : 0.50709255283711<=scoreRea<=1.1631599960755994 ^ 89.65243916336601<=scoreProtTaxo<=100.84577451615787 ^ 7.732571433805503E-
5<=scorePageRankTopoDiv<=8.535041606710396E-5 (10)
class DEGRADATION IF : 1.224744871391589<=scoreRea<=1.3093073414159542 ^ scoreProtTaxo=0.0 ^ 7.82482349181678E-5<=scorePageRankTopoDiv<=9.00962259154721E-5 (5)
class DEGRADATION IF : 1.1547005383792515<=scoreRea<=1.2524485821702989 ^ 11.082570599674515<=scoreProtTaxo<=33.413640851598345 ^ 7.335639963672055E-
5<=scorePageRankTopoDiv<=8.351353906970459E-5 (7)
class DEGRADATION IF : 0.8041247051007595<=scoreRea<=0.816496580927726 ^ 0.0<=scoreProtTaxo<=0.4896220574897665 ^ 9.817141430648813E-
5<=scorePageRankTopoDiv<=1.0140742186772612E-4 (5)
class DEGRADATION IF : 0.7745966692414834<=scoreRea<=0.7905694150420949 ^ 14.979713836562523<=scoreProtTaxo<=62.92772912755101 ^ 9.188674496119563E-
5<=scorePageRankTopoDiv<=9.344114513260257E-5 (9)
class DEGRADATION IF : 0.9354143466934853<=scoreRea<=1.0 ^ 28.41909081319826<=scoreProtTaxo<=81.7234468469862 ^ 7.509686129369359E-
5<=scorePageRankTopoDiv<=8.22600297747681E-5 (10)
class DEGRADATION IF : scoreRea=0.8469010445797931 ^ scoreProtTaxo=29.848706892410423 ^ scorePageRankTopoDiv=9.674817445529926E-5 (2)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 8.076306394889498E-5<=scorePageRankTopoDiv<=8.197307718578433E-5 (8)
class DEGRADATION IF : 0.7494854201795578<=scoreRea<=0.985184366143778 ^ 10.922282224695822<=scoreProtTaxo<=17.77683221349325 ^ 9.980433002573033E-
5<=scorePageRankTopoDiv<=1.0634169150311942E-4 (10)
class DEGRADATION IF : 1.018350154434631<=scoreRea<=1.224744871391589 ^ 22.39494298336476<=scoreProtTaxo<=30.169323270783604 ^ 9.814808299652264E-
5<=scorePageRankTopoDiv<=9.975494599478356E-5 (10)
class DEGRADATION IF : 1.0954451150103324<=scoreRea<=1.1547005383792515 ^ scoreProtTaxo=0.0 ^ 9.654374763933151E-5<=scorePageRankTopoDiv<=1.0165350230008272E-4
(5)
class DEGRADATION IF : scoreRea=0.9537823244295424 ^ scoreProtTaxo=0.0362368127852091 ^ scorePageRankTopoDiv=9.728342671754269E-5 (4)
class DEGRADATION IF : scoreRea=0.9428090415820634 ^ scoreProtTaxo=40.261490960005546 ^ scorePageRankTopoDiv=9.140981407470723E-5 (3)
class DEGRADATION IF : scoreRea=0.9274777915203366 ^ scoreProtTaxo=0.34489461142032407 ^ scorePageRankTopoDiv=8.803860903748013E-5 (6)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=16.564961694015768 ^ scorePageRankTopoDiv=9.38994836757291E-5 (2)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=8.952154062194338E-5 (8)
class DEGRADATION IF : 0.9746794344808964<=scoreRea<=1.0 ^ 2.460269816937521<=scoreProtTaxo<=4.622017759238929 ^ 7.201957047401327E-
5<=scorePageRankTopoDiv<=1.0315296708591542E-4 (13)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.069895169067138E-5 (3)
![Page 211: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/211.jpg)
class DEGRADATION IF : 0.45374260648651504<=scoreRea<=0.4629100498862757 ^ 0.0<=scoreProtTaxo<=1.8771129021538737 ^ 9.224164089012893E-
5<=scorePageRankTopoDiv<=1.0071405108661644E-4 (6)
class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=0.6708203932499369 ^ 274.70343271754246<=scoreProtTaxo<=766.5790693441894 ^ 4.5131690253895185E-
5<=scorePageRankTopoDiv<=1.2501321987107045E-4 (26)
class BIOSYNTHESIS IF : 0.3779644730092272<=scoreRea<=0.5773502691896257 ^ 6.102381276116212<=scoreProtTaxo<=11.022017678245241 ^ 1.8888026238506796E-
4<=scorePageRankTopoDiv<=2.0115792013336494E-4 (19)
class ENERGY IF : scoreRea=0.7150969419341943 ^ scoreProtTaxo=1.6971631401665692 ^ scorePageRankTopoDiv=1.0511897867639374E-4 (6)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ 52.65882180233855<=scoreProtTaxo<=797.4352638302629 ^ 1.8282788138177227E-
4<=scorePageRankTopoDiv<=2.7540019598240703E-4 (35)
class DEGRADATION IF : 0.2581988897471611<=scoreRea<=2.6457513110645907 ^ 0.0<=scoreProtTaxo<=38.05578532590208 ^ 5.2686476747723835E-
5<=scorePageRankTopoDiv<=5.302790721846163E-5 (18)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=122.91212562233233 ^ scorePageRankTopoDiv=1.6215651469509557E-4 (7)
class ENERGY IF : 0.2637521893583148<=scoreRea<=0.3730019232961255 ^ 60.86198732982632<=scoreProtTaxo<=86.07184791481986 ^ 1.6848744964407823E-
4<=scorePageRankTopoDiv<=2.3827723637630932E-4 (23)
class BIOSYNTHESIS IF : 1.0954451150103324<=scoreRea<=1.3228756555322954 ^ 82.12786352410112<=scoreProtTaxo<=119.36925641394684 ^ 1.0627502598211805E-
4<=scorePageRankTopoDiv<=1.1655246691256627E-4 (9)
class BIOSYNTHESIS IF : 1.9148542155126762<=scoreRea<=2.1908902300206647 ^ scoreProtTaxo=0.0 ^ 1.64678663392129E-4<=scorePageRankTopoDiv<=2.181666849824038E-4
(29)
class BIOSYNTHESIS IF : 0.3939192985791677<=scoreRea<=0.7833494518006402 ^ 169.97802057365087<=scoreProtTaxo<=183.56764420773487 ^ 1.253685083966662E-
5<=scorePageRankTopoDiv<=7.240151514526351E-5 (17)
class BIOSYNTHESIS IF : 0.7071067811865476<=scoreRea<=0.8498365855987975 ^ 0.0<=scoreProtTaxo<=0.2705728571551526 ^ 1.7988095066634002E-
4<=scorePageRankTopoDiv<=1.9845237065041013E-4 (23)
class BIOSYNTHESIS IF : 0.7337993857053428<=scoreRea<=0.7947194142390263 ^ 45.944098229304075<=scoreProtTaxo<=81.91194155996973 ^ 7.613039874230699E-
5<=scorePageRankTopoDiv<=7.666851418879933E-5 (16)
class BIOSYNTHESIS IF : 0.2581988897471611<=scoreRea<=0.5477225575051662 ^ 5.532750116334787<=scoreProtTaxo<=7.5348917327195295 ^ 4.1810101055858513E-
5<=scorePageRankTopoDiv<=4.352867374835336E-5 (19)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 6.722085282994288E-5<=scorePageRankTopoDiv<=7.902934973945932E-5 (20)
class BIOSYNTHESIS IF : 0.6577935144802719<=scoreRea<=0.9428090415820634 ^ 22.113552769424796<=scoreProtTaxo<=135.82372101723521 ^ 9.796435133998824E-
5<=scorePageRankTopoDiv<=1.0691434479612118E-4 (21)
class DEGRADATION IF : 0.6340037731068526<=scoreRea<=0.655825835783953 ^ 1.1516798782906763<=scoreProtTaxo<=1.4843251210366566 ^ 7.791134999632446E-
5<=scorePageRankTopoDiv<=7.928770882931432E-5 (7)
class BIOSYNTHESIS IF : 0.30151134457776363<=scoreRea<=0.7905694150420949 ^ 17.01863620075732<=scoreProtTaxo<=19.559777958158104 ^ 1.319538661068268E-
4<=scorePageRankTopoDiv<=1.9256485630141714E-4 (22)
class ENERGY IF : 0.18650096164806276<=scoreRea<=0.25 ^ 43.03592395740993<=scoreProtTaxo<=159.8937216743261 ^ 1.065214877529157E-
4<=scorePageRankTopoDiv<=1.2057775407382344E-4 (14)
class BIOSYNTHESIS IF : 0.2041241452319315<=scoreRea<=0.8100925873009825 ^ 0.847877770446752<=scoreProtTaxo<=1.074881257772181 ^ 4.479895441755911E-
5<=scorePageRankTopoDiv<=5.224748600927068E-5 (43)
class BIOSYNTHESIS IF : 1.4142135623730951<=scoreRea<=1.7320508075688772 ^ 0.0<=scoreProtTaxo<=0.0017025599442490314 ^ 2.2512882518055442E-
4<=scorePageRankTopoDiv<=2.318761271239482E-4 (9)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.741143000264028 ^ 0.9547413240085996<=scoreProtTaxo<=1.087186042233232 ^ 7.339287726861064E-
5<=scorePageRankTopoDiv<=2.2506623584351968E-4 (14)
class BIOSYNTHESIS IF : 1.3764944032233706<=scoreRea<=1.8257418583505536 ^ 0.21419754504487418<=scoreProtTaxo<=0.9059002542530397 ^ 1.4570108837029384E-
4<=scorePageRankTopoDiv<=2.873744946297966E-4 (13)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.9671667363256823E-4<=scorePageRankTopoDiv<=1.9910561982231135E-4 (15)
class DEGRADATION IF : scoreRea=1.0 ^ 53.30721343159817<=scoreProtTaxo<=65.92162734927443 ^ 2.0561721671014314E-4<=scorePageRankTopoDiv<=2.1409527794787715E-4
(10)
class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 2.0636566208728405E-4<=scorePageRankTopoDiv<=2.0648542319897373E-4
(8)
class DEGRADATION IF : scoreRea=1.955384722187607 ^ scoreProtTaxo=74.18271953470759 ^ scorePageRankTopoDiv=8.258174752930541E-5 (3)
class ENERGY IF : 0.07715167498104596<=scoreRea<=0.12838814775327387 ^ 2.769418330851198<=scoreProtTaxo<=58.32783116309947 ^ 5.124932507561116E-
5<=scorePageRankTopoDiv<=5.800682326550666E-5 (10)
class BIOSYNTHESIS IF : 0.22360679774997896<=scoreRea<=0.2672612419124244 ^ 1.141503527382941<=scoreProtTaxo<=13.075793923503037 ^ 2.623148740185707E-
5<=scorePageRankTopoDiv<=2.9645682753051047E-5 (34)
class DEGRADATION IF : scoreRea=0.2587745847533828 ^ scoreProtTaxo=5.139256758115308 ^ scorePageRankTopoDiv=2.3863079676344778E-5 (4)
class DEGRADATION IF : 0.9428090415820634<=scoreRea<=1.0 ^ scoreProtTaxo=0.0 ^ 1.4502820216803015E-4<=scorePageRankTopoDiv<=1.4627385295981182E-4 (16)
class BIOSYNTHESIS IF : 2.860387767736777<=scoreRea<=3.4070284908193678 ^ 0.073153224734412<=scoreProtTaxo<=12.354434163067936 ^ 1.2498272102971447E-
4<=scorePageRankTopoDiv<=2.4284228051064344E-4 (36)
class DEGRADATION IF : 0.2123976976214366<=scoreRea<=0.25 ^ scoreProtTaxo=0.0 ^ 3.586505967582538E-5<=scorePageRankTopoDiv<=4.13572229377226E-5 (3)
class OTHER IF : 0.16666666666666666<=scoreRea<=0.32163376045133846 ^ 50.57748410849425<=scoreProtTaxo<=60.41469432517077 ^ 9.017824067309039E-
6<=scorePageRankTopoDiv<=1.9368859864889623E-5 (31)
class DEGRADATION IF : 0.4330127018922193<=scoreRea<=0.445545919354113 ^ 0.3873573198705962<=scoreProtTaxo<=6.126887661574918 ^ 8.022070904715247E-
5<=scorePageRankTopoDiv<=8.382281480674639E-5 (5)
class DEGRADATION IF : 0.5773502691896257<=scoreRea<=0.5976143046671968 ^ scoreProtTaxo=0.0 ^ 9.293451231433748E-5<=scorePageRankTopoDiv<=9.543701626424988E-5
(5)
class DEGRADATION IF : scoreRea=0.408248290463863 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=8.759460449880492E-5 (1)
class DEGRADATION IF : 0.49065338146265813<=scoreRea<=0.5 ^ scoreProtTaxo=0.0 ^ 8.136860247612824E-5<=scorePageRankTopoDiv<=8.749759780663291E-5 (8)
class DEGRADATION IF : 0.4264014327112209<=scoreRea<=0.4330127018922193 ^ 0.0<=scoreProtTaxo<=5.833138966641785 ^ 8.865063231330154E-
5<=scorePageRankTopoDiv<=9.041648195074965E-5 (5)
![Page 212: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/212.jpg)
class BIOSYNTHESIS IF : scoreRea=0.408248290463863 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.0024486181235397E-4 (3)
class BIOSYNTHESIS IF : scoreRea=0.5 ^ scoreProtTaxo=0.0 ^ 9.144319250957409E-5<=scorePageRankTopoDiv<=1.0459222146356342E-4 (17)
class BIOSYNTHESIS IF : 0.48507125007266594<=scoreRea<=0.7559289460184544 ^ 14.876157414391628<=scoreProtTaxo<=63.77848346900098 ^ 1.1719585732214434E-
4<=scorePageRankTopoDiv<=1.2423485591910442E-4 (30)
class BIOSYNTHESIS IF : 1.35400640077266<=scoreRea<=3.289913283319897 ^ 602.4307334503723<=scoreProtTaxo<=970.2809711123874 ^ 3.2452727807493777E-
4<=scorePageRankTopoDiv<=3.6817602382859356E-4 (8)
class BIOSYNTHESIS IF : 0.8637684928578397<=scoreRea<=1.2433397443204184 ^ 0.7182944373783682<=scoreProtTaxo<=0.9403608156667465 ^ 7.247323472250873E-
5<=scorePageRankTopoDiv<=9.936154209859977E-5 (14)
class BIOSYNTHESIS IF : 0.6324555320336759<=scoreRea<=1.224744871391589 ^ 122.60072594474337<=scoreProtTaxo<=200.61081401361804 ^ 2.9188234495044796E-
4<=scorePageRankTopoDiv<=3.3305101431035033E-4 (17)
class BIOSYNTHESIS IF : 0.18257418583505536<=scoreRea<=0.2041241452319315 ^ 14.689588149434279<=scoreProtTaxo<=29.97574019102781 ^ 4.0274853010570464E-
5<=scorePageRankTopoDiv<=4.312415052681157E-5 (9)
class BIOSYNTHESIS IF : 1.23418791690791<=scoreRea<=1.3113263207824053 ^ 0.06597101090331349<=scoreProtTaxo<=0.3271897037728704 ^ 8.513140588286736E-
5<=scorePageRankTopoDiv<=1.0676933935888684E-4 (9)
class DEGRADATION IF : 0.09166984970282113<=scoreRea<=0.11065666703449763 ^ 8.256138978357354<=scoreProtTaxo<=12.978394627069473 ^ 4.006361468932858E-
5<=scorePageRankTopoDiv<=4.0878463928647076E-5 (5)
class BIOSYNTHESIS IF : 0.8528028654224418<=scoreRea<=1.9094065395649336 ^ 40.57530437366926<=scoreProtTaxo<=108.87019465254258 ^ 7.171085307698987E-
5<=scorePageRankTopoDiv<=7.423092402198566E-5 (14)
class BIOSYNTHESIS IF : 0.40451991747794525<=scoreRea<=0.5 ^ 115.83158598876034<=scoreProtTaxo<=207.2058350485641 ^ 7.608576765126553E-
5<=scorePageRankTopoDiv<=1.0389569195115525E-4 (29)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.4142135623730951 ^ 3.8990465632701667<=scoreProtTaxo<=10.098108594172102 ^ 1.9631626055723037E-
4<=scorePageRankTopoDiv<=3.1452413833726796E-4 (22)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=2.390457218668787 ^ 49.98394804062424<=scoreProtTaxo<=64.39521773703277 ^ 4.2983140265073273E-
4<=scorePageRankTopoDiv<=6.314128497589322E-4 (27)
class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=0.6324555320336759 ^ 541.6808091786036<=scoreProtTaxo<=768.5042916331304 ^ 1.5393073014984863E-
4<=scorePageRankTopoDiv<=1.886876260565613E-4 (5)
class DETOX IF : scoreRea=1.0 ^ 377.5158590055317<=scoreProtTaxo<=491.60960120855555 ^ 4.210951572447113E-4<=scorePageRankTopoDiv<=4.456494538717275E-4 (8)
class DEGRADATION IF : scoreRea=0.6546536707079771 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.671766544956472E-5 (1)
class DEGRADATION IF : scoreRea=0.5 ^ scoreProtTaxo=0.0 ^ 1.0859097090239445E-4<=scorePageRankTopoDiv<=1.7901793321744563E-4 (14)
class DEGRADATION IF : 0.692820323027551<=scoreRea<=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 1.072557301339922E-4<=scorePageRankTopoDiv<=1.131934522697916E-4 (6)
class DEGRADATION IF : 0.5773502691896257<=scoreRea<=0.7071067811865476 ^ 80.70483034769947<=scoreProtTaxo<=119.06929966952241 ^ 8.838725777845112E-
5<=scorePageRankTopoDiv<=9.297206458788736E-5 (4)
class DEGRADATION IF : scoreRea=0.6546536707079771 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=8.766640028603569E-5 (5)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.757823187181929E-5 (2)
class DEGRADATION IF : 0.6324555320336759<=scoreRea<=0.6340037731068526 ^ 0.893383640077447<=scoreProtTaxo<=3.502222811304394 ^ 8.188483602428256E-
5<=scorePageRankTopoDiv<=9.560425960465856E-5 (6)
class DEGRADATION IF : scoreRea=0.6546536707079771 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.671766544956472E-5 (1)
class DEGRADATION IF : scoreRea=0.6546536707079771 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.671766544956472E-5 (1)
class DEGRADATION IF : scoreRea=0.6546536707079771 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.671766544956472E-5 (1)
class DEGRADATION IF : scoreRea=0.6546536707079771 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.671766544956472E-5 (1)
class DEGRADATION IF : scoreRea=0.6546536707079771 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.671766544956472E-5 (1)
class DEGRADATION IF : scoreRea=0.6546536707079771 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.671766544956472E-5 (1)
class ENERGY IF : scoreRea=0.380058475033046 ^ scoreProtTaxo=0.010500103322752346 ^ scorePageRankTopoDiv=8.047646361772154E-5 (4)
class BIOSYNTHESIS IF : 1.0954451150103324<=scoreRea<=1.4142135623730951 ^ 70.22530852940199<=scoreProtTaxo<=244.7833036744955 ^ 1.4704044926818562E-
4<=scorePageRankTopoDiv<=2.4042379903186468E-4 (94)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 138.75068644666334<=scoreProtTaxo<=144.39855030102657 ^ 8.670863232003228E-5<=scorePageRankTopoDiv<=9.025333891358375E-5
(5)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.0327955589886444 ^ 30.727284397150104<=scoreProtTaxo<=129.72023262904227 ^ 9.184702952142395E-
5<=scorePageRankTopoDiv<=9.207609793394737E-5 (18)
class DETOX IF : 1.1547005383792515<=scoreRea<=1.2374368670764582 ^ 79.79045207230868<=scoreProtTaxo<=103.88592820586676 ^ 2.9939658600643723E-
4<=scorePageRankTopoDiv<=3.192543023177126E-4 (10)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 8.00447471683044E-5<=scorePageRankTopoDiv<=9.744629831611159E-5 (31)
class ENERGY IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.0800095601150362E-4 (4)
class BIOSYNTHESIS IF : 0.8451542547285166<=scoreRea<=0.8498365855987975 ^ 0.0163659094191017<=scoreProtTaxo<=132.37326865320478 ^ 5.50176610343286E-
5<=scorePageRankTopoDiv<=5.878118824107198E-5 (9)
class BIOSYNTHESIS IF : 1.1547005383792515<=scoreRea<=1.2018504251546631 ^ scoreProtTaxo=0.0 ^ 1.3380877114798815E-4<=scorePageRankTopoDiv<=1.92725864781061E-4
(22)
class BIOSYNTHESIS IF : 1.1514524291646675<=scoreRea<=1.766966877363964 ^ 2.735928597404479<=scoreProtTaxo<=3.227339672091711 ^ 9.279920632191633E-
5<=scorePageRankTopoDiv<=1.5383984974384253E-4 (13)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 47.56580340961178<=scoreProtTaxo<=65.97520195284082 ^ 2.246824997052055E-4<=scorePageRankTopoDiv<=2.631955395236231E-4
(17)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 3.041377624978212E-4<=scorePageRankTopoDiv<=3.298008762231907E-4 (14)
class BIOSYNTHESIS IF : 0.816496580927726<=scoreRea<=2.14201664188625 ^ 15.742075762667008<=scoreProtTaxo<=86.84275672670222 ^ 9.077163834529936E-
5<=scorePageRankTopoDiv<=9.118516690309108E-5 (11)
class DEGRADATION IF : 0.8041247051007595<=scoreRea<=0.816496580927726 ^ 0.0<=scoreProtTaxo<=0.5190213244719686 ^ 1.1821542163722823E-
4<=scorePageRankTopoDiv<=1.2267757994319142E-4 (16)
class DEGRADATION IF : 0.6009252125773316<=scoreRea<=0.7071067811865476 ^ 21.637137435383995<=scoreProtTaxo<=34.47987352068098 ^ 7.300051546818665E-
5<=scorePageRankTopoDiv<=7.991160054209813E-5 (14)
![Page 213: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/213.jpg)
class DEGRADATION IF : 0.8966167345234256<=scoreRea<=1.4142135623730951 ^ 2.4095196561177734<=scoreProtTaxo<=6.510136530437825 ^ 1.844630092358027E-
4<=scorePageRankTopoDiv<=1.9559114106102574E-4 (8)
class DEGRADATION IF : scoreRea=1.854955583040673 ^ scoreProtTaxo=1.1895184214110706 ^ scorePageRankTopoDiv=1.9876999520340293E-4 (3)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 2.0021218094743186E-4<=scorePageRankTopoDiv<=2.014356600793569E-4 (6)
class DEGRADATION IF : scoreRea=1.224744871391589 ^ scoreProtTaxo=0.0 ^ 1.4558263294901127E-4<=scorePageRankTopoDiv<=1.6056093176895363E-4 (4)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=35.474289812226985 ^ scorePageRankTopoDiv=1.708260808783563E-4 (4)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.9567744754793968E-4 (4)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.6993287011232575E-4<=scorePageRankTopoDiv<=1.7453643114258828E-4 (9)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.8935139453691235E-4 (3)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.796932685997016E-4<=scorePageRankTopoDiv<=1.8150128145194246E-4 (9)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ 1.5263370408995772E-4<=scorePageRankTopoDiv<=1.6334478940908766E-4 (9)
class DEGRADATION IF : 1.713913650100261<=scoreRea<=2.0 ^ 6.790781028238273<=scoreProtTaxo<=7.123150982108755 ^ 1.8279934571149197E-
4<=scorePageRankTopoDiv<=2.2805075653909617E-4 (11)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.7016811839786362E-4 (4)
class DEGRADATION IF : 1.0<=scoreRea<=1.2649110640673518 ^ 67.41088419467627<=scoreProtTaxo<=69.59562376658221 ^ 1.8621323435720702E-
4<=scorePageRankTopoDiv<=1.8902202999632244E-4 (5)
class DEGRADATION IF : 1.224744871391589<=scoreRea<=1.2747548783981961 ^ scoreProtTaxo=0.0 ^ 1.7356471165330003E-4<=scorePageRankTopoDiv<=1.869441828479762E-4
(12)
class DEGRADATION IF : scoreRea=1.0954451150103324 ^ 102.16537911750638<=scoreProtTaxo<=119.36925641394684 ^ 1.1655246691256629E-
4<=scorePageRankTopoDiv<=1.2415402697963014E-4 (4)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.2488847230861333E-4 (2)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 203.22660501475306<=scoreProtTaxo<=497.4811236160592 ^ scorePageRankTopoDiv=9.184702952142395E-5 (15)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.6567412817495268E-4 (5)
class BIOSYNTHESIS IF : 0.31622776601683794<=scoreRea<=0.4714045207910317 ^ 78.57142496387931<=scoreProtTaxo<=107.58985969873252 ^ 3.8284518337852805E-
5<=scorePageRankTopoDiv<=4.917246794022648E-5 (37)
class BIOSYNTHESIS IF : 1.1881770515720091<=scoreRea<=1.224744871391589 ^ scoreProtTaxo=0.0 ^ 9.421736842897945E-5<=scorePageRankTopoDiv<=1.1442075717380128E-4
(10)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=4.574313867155294E-4 (2)
class BIOSYNTHESIS IF : 0.34050261230349943<=scoreRea<=0.7977240352174656 ^ 3.0602949519508496<=scoreProtTaxo<=10.185522301794693 ^ 1.715229030060865E-
5<=scorePageRankTopoDiv<=3.147447837678314E-5 (22)
class ENERGY IF : 0.14744195615489714<=scoreRea<=0.32732683535398854 ^ 1.0121983138172692<=scoreProtTaxo<=1.9978761838910137 ^ 1.2608413347989437E-
4<=scorePageRankTopoDiv<=1.890485460452404E-4 (11)
class BIOSYNTHESIS IF : scoreRea=1.4960909156069733 ^ scoreProtTaxo=0.13138491890319684 ^ scorePageRankTopoDiv=1.0996690323666944E-4 (4)
class BIOSYNTHESIS IF : 0.8498365855987975<=scoreRea<=1.0741723110591495 ^ 0.3514065322154995<=scoreProtTaxo<=0.49235956602335174 ^ 8.767676776912525E-
5<=scorePageRankTopoDiv<=1.3469499829656941E-4 (18)
class DEGRADATION IF : 0.16666666666666666<=scoreRea<=0.3535533905932738 ^ 120.44252652744328<=scoreProtTaxo<=169.67173104287173 ^ 9.357090688646382E-
5<=scorePageRankTopoDiv<=1.008230936271939E-4 (7)
class BIOSYNTHESIS IF : 0.8660254037844386<=scoreRea<=1.2649110640673518 ^ 683.722406473152<=scoreProtTaxo<=2285.021645022659 ^ 9.184702952142395E-
5<=scorePageRankTopoDiv<=3.3611575163561925E-4 (43)
class BIOSYNTHESIS IF : 0.9274777915203366<=scoreRea<=1.0954451150103324 ^ 0.0<=scoreProtTaxo<=0.3136103074603237 ^ 8.476168618352132E-
5<=scorePageRankTopoDiv<=8.770529561401202E-5 (22)
class BIOSYNTHESIS IF : 0.7001400420140049<=scoreRea<=0.7745966692414834 ^ 0.0<=scoreProtTaxo<=0.011411785960777153 ^ 1.1399210988284985E-
4<=scorePageRankTopoDiv<=1.2369853738259412E-4 (38)
class BIOSYNTHESIS IF : 0.8498365855987975<=scoreRea<=0.9274777915203366 ^ 0.0<=scoreProtTaxo<=0.17684850252398204 ^ 1.1884249895025044E-
4<=scorePageRankTopoDiv<=1.336146798704194E-4 (11)
class DEGRADATION IF : 1.889822365046136<=scoreRea<=2.0 ^ scoreProtTaxo=0.0 ^ 1.2475533424711406E-4<=scorePageRankTopoDiv<=1.280016077304211E-4 (2)
class BIOSYNTHESIS IF : 0.31622776601683794<=scoreRea<=0.6183469424008422 ^ 10.926420578880442<=scoreProtTaxo<=12.156635704251286 ^ 2.5481468240134802E-
5<=scorePageRankTopoDiv<=3.212687966439753E-5 (13)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ 9.184702952142395E-5<=scorePageRankTopoDiv<=1.0101442288769912E-4 (5)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=35.24228074716164 ^ scorePageRankTopoDiv=9.184702952142395E-5 (5)
class BIOSYNTHESIS IF : scoreRea=1.3981241472851111 ^ scoreProtTaxo=21.378116572226567 ^ scorePageRankTopoDiv=9.381569842146049E-5 (2)
class BIOSYNTHESIS IF : 0.11826247919781653<=scoreRea<=2.0225995873897267 ^ 10.776152121488197<=scoreProtTaxo<=105.49746842477356 ^ 9.396036002192474E-
5<=scorePageRankTopoDiv<=9.557427168280585E-5 (19)
class BIOSYNTHESIS IF : 0.4472135954999579<=scoreRea<=1.651445647689541 ^ 15.874507866387544<=scoreProtTaxo<=80.22722087675474 ^ 8.395834738030331E-
5<=scorePageRankTopoDiv<=9.05851900355019E-5 (56)
class DEGRADATION IF : scoreRea=1.2747548783981961 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.0154910594416097E-4 (4)
class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=1.0 ^ 202.1185360063624<=scoreProtTaxo<=212.76058532225056 ^ 4.679126315010273E-
5<=scorePageRankTopoDiv<=6.290816188871419E-5 (10)
class BIOSYNTHESIS IF : 0.2231780211373287<=scoreRea<=0.5686020318963798 ^ 0.7364232486787674<=scoreProtTaxo<=131.3492737973759 ^ 5.735621962844952E-
5<=scorePageRankTopoDiv<=5.839220869253309E-5 (29)
class DEGRADATION IF : 0.7453559924999298<=scoreRea<=0.7453559924999299 ^ 38.17176001418311<=scoreProtTaxo<=42.46577637766384 ^ 5.201708028526716E-
5<=scorePageRankTopoDiv<=6.246401784808223E-5 (7)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 105.57777543909937<=scoreProtTaxo<=196.07813179808738 ^ 1.695742324714891E-4<=scorePageRankTopoDiv<=2.0341900322563264E-4
(17)
class DEGRADATION IF : 0.23570226039551584<=scoreRea<=0.2581988897471611 ^ 0.0<=scoreProtTaxo<=15.067688831635602 ^ 1.1838338946480182E-
4<=scorePageRankTopoDiv<=1.2540296301974467E-4 (11)
class BIOSYNTHESIS IF : scoreRea=0.08770580193070292 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.0377721218307198E-4 (4)
class OTHER IF : scoreRea=1.7320508075688772 ^ scoreProtTaxo=113.37384803240559 ^ scorePageRankTopoDiv=9.025333891358375E-5 (2)
![Page 214: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/214.jpg)
class BIOSYNTHESIS IF : scoreRea=0.4472135954999579 ^ scoreProtTaxo=0.0 ^ 8.060115160269311E-5<=scorePageRankTopoDiv<=9.008636540561074E-5 (7)
class DEGRADATION IF : scoreRea=1.0 ^ 459.13672922216<=scoreProtTaxo<=481.6843064871512 ^ 1.7909922888682906E-4<=scorePageRankTopoDiv<=3.40464408328133E-4 (6)
class BIOSYNTHESIS IF : 1.8257418583505536<=scoreRea<=3.265986323710904 ^ 33.12248386674865<=scoreProtTaxo<=136.42726041965906 ^ 2.1269607686288917E-
4<=scorePageRankTopoDiv<=2.3234515563282242E-4 (20)
class BIOSYNTHESIS IF : 0.7745966692414834<=scoreRea<=0.8177595307636584 ^ 0.0<=scoreProtTaxo<=2.037106752619959 ^ 5.453708571594084E-
5<=scorePageRankTopoDiv<=5.7664954295475665E-5 (10)
class ENERGY IF : 0.08099238707340584<=scoreRea<=0.14201432049934526 ^ 22.740488618689128<=scoreProtTaxo<=74.32767683331349 ^ 3.515238536038338E-
5<=scorePageRankTopoDiv<=4.331378370561842E-5 (32)
class ENERGY IF : 0.4714045207910317<=scoreRea<=0.7071067811865476 ^ 5.131234358813483<=scoreProtTaxo<=6.047393765526435 ^ 7.701995272183148E-
5<=scorePageRankTopoDiv<=1.2947129383306984E-4 (14)
class ENERGY IF : 0.1851640199545103<=scoreRea<=0.21908902300206645 ^ 1.0815175480053552<=scoreProtTaxo<=1.3687047831034047 ^ 3.912445526789275E-
5<=scorePageRankTopoDiv<=4.770101382830417E-5 (7)
class ENERGY IF : scoreRea=0.23735633163877065 ^ scoreProtTaxo=8.146624267430086 ^ scorePageRankTopoDiv=7.71820203608201E-5 (2)
class ENERGY IF : 0.14638501094227999<=scoreRea<=0.3039305703971088 ^ 0.005236462280125203<=scoreProtTaxo<=0.041096692455940075 ^ 7.542658385848098E-
5<=scorePageRankTopoDiv<=8.811181365903088E-5 (9)
class ENERGY IF : scoreRea=0.24618298195866548 ^ scoreProtTaxo=5.306184827620615 ^ scorePageRankTopoDiv=5.090704620784785E-5 (8)
class ENERGY IF : 0.16666666666666666<=scoreRea<=0.20701966780270625 ^ 0.058119499839866515<=scoreProtTaxo<=0.16287691064839444 ^ 7.259786429147831E-
5<=scorePageRankTopoDiv<=1.0666929785613536E-4 (15)
class ENERGY IF : scoreRea=0.37399695868987537 ^ scoreProtTaxo=2.176539670611231 ^ scorePageRankTopoDiv=6.928775513126102E-5 (3)
class ENERGY IF : 0.39749048208014426<=scoreRea<=0.49065338146265813 ^ 0.01202320036306871<=scoreProtTaxo<=0.7345465850667467 ^ 6.0236816739474416E-
5<=scorePageRankTopoDiv<=6.0598885144221155E-5 (8)
class ENERGY IF : scoreRea=0.3370999312316211 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=6.778651896076734E-5 (4)
class ENERGY IF : scoreRea=0.19364916731037085 ^ scoreProtTaxo=4.743266578047228 ^ scorePageRankTopoDiv=6.766148967933868E-5 (2)
class ENERGY IF : scoreRea=0.2683281572999748 ^ scoreProtTaxo=1.3245830702395656 ^ scorePageRankTopoDiv=5.84215720463948E-5 (4)
class ENERGY IF : 0.14285714285714285<=scoreRea<=0.21320071635561044 ^ 0.4767035715081458<=scoreProtTaxo<=0.7353385010338678 ^ 6.663890312950396E-
5<=scorePageRankTopoDiv<=9.013481199149459E-5 (6)
class ENERGY IF : scoreRea=0.20100756305184242 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=6.164581976670261E-5 (2)
class ENERGY IF : 0.11826247919781653<=scoreRea<=0.1889822365046136 ^ 35.1112974762364<=scoreProtTaxo<=84.87073599036444 ^ 6.42247008249192E-
5<=scorePageRankTopoDiv<=8.085551988877341E-5 (29)
class ENERGY IF : 0.18569533817705186<=scoreRea<=0.20788767860257112 ^ 14.185160517004936<=scoreProtTaxo<=56.017774202359035 ^ 5.557479307499183E-
5<=scorePageRankTopoDiv<=6.377510375064118E-5 (7)
class BIOSYNTHESIS IF : scoreRea=0.24743582965269675 ^ scoreProtTaxo=45.577594029084196 ^ scorePageRankTopoDiv=6.303181454151838E-5 (4)
class DEGRADATION IF : 0.7071067811865476<=scoreRea<=1.0 ^ 333.2922381910363<=scoreProtTaxo<=335.05701833979776 ^ 1.2080198612630699E-
4<=scorePageRankTopoDiv<=1.4530708930785835E-4 (9)
class DEGRADATION IF : 1.0<=scoreRea<=1.0954451150103321 ^ 54.927732910784854<=scoreProtTaxo<=69.7429349678668 ^ 1.0547963298888047E-
4<=scorePageRankTopoDiv<=1.1900372627817683E-4 (6)
class DEGRADATION IF : scoreRea=0.5 ^ scoreProtTaxo=71.88664045309517 ^ scorePageRankTopoDiv=5.046510182258221E-5 (5)
class OTHER IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.2181717835020451E-4 (3)
class BIOSYNTHESIS IF : 0.4330127018922193<=scoreRea<=0.7071067811865476 ^ 2.368391006896105<=scoreProtTaxo<=45.87562987521707 ^ 3.4589070071606805E-
5<=scorePageRankTopoDiv<=3.918752838690245E-5 (21)
class DEGRADATION IF : scoreRea=0.5773502691896257 ^ 16.241979271931093<=scoreProtTaxo<=16.967711271902253 ^ 1.3994040384206641E-
4<=scorePageRankTopoDiv<=1.4353561834606595E-4 (9)
class DEGRADATION IF : 0.5773502691896257<=scoreRea<=0.7071067811865476 ^ 53.13945655838685<=scoreProtTaxo<=156.685537438235 ^ 1.7250657726510578E-
4<=scorePageRankTopoDiv<=1.7700450746818247E-4 (11)
class BIOSYNTHESIS IF : 0.816496580927726<=scoreRea<=0.8563488385776752 ^ scoreProtTaxo=0.0 ^ 1.1588081705557356E-4<=scorePageRankTopoDiv<=1.1676393832346643E-4
(9)
class BIOSYNTHESIS IF : 0.8660254037844386<=scoreRea<=1.0 ^ 55.5178349721961<=scoreProtTaxo<=165.08662498808434 ^ 1.1966643069700278E-
4<=scorePageRankTopoDiv<=1.276882886463082E-4 (12)
class BIOSYNTHESIS IF : 1.5491933384829668<=scoreRea<=3.7416573867739413 ^ 103.17385445279729<=scoreProtTaxo<=1032.1323526036228 ^ 1.6550584019747294E-
4<=scorePageRankTopoDiv<=2.0794659757250114E-4 (35)
class DEGRADATION IF : 0.09421114395319916<=scoreRea<=0.2401922307076307 ^ 105.54140231826986<=scoreProtTaxo<=158.4040314229278 ^ 1.85814553170896E-
5<=scorePageRankTopoDiv<=4.761594272264702E-5 (16)
class BIOSYNTHESIS IF : 0.816496580927726<=scoreRea<=2.6111648393354674 ^ 0.0<=scoreProtTaxo<=207.6349165468604 ^ 4.100990388848989E-
4<=scorePageRankTopoDiv<=4.219107144029883E-4 (32)
class OTHER IF : 0.15075567228888181<=scoreRea<=0.2041241452319315 ^ 7.058491402900568<=scoreProtTaxo<=24.85219968434863 ^ 7.863745812978191E-
5<=scorePageRankTopoDiv<=9.135602271849298E-5 (3)
class DEGRADATION IF : 0.816496580927726<=scoreRea<=0.8320502943378437 ^ 54.93483103796865<=scoreProtTaxo<=159.97631877899414 ^ 1.7376808566874698E-
4<=scorePageRankTopoDiv<=1.81989932974737E-4 (20)
class BIOSYNTHESIS IF : 0.5720775535473553<=scoreRea<=1.6858544608470492 ^ 1.2185788425532535<=scoreProtTaxo<=1.254188385269777 ^ 1.3565745805312304E-
4<=scorePageRankTopoDiv<=1.5188589615391725E-4 (16)
class BIOSYNTHESIS IF : 0.30151134457776363<=scoreRea<=0.48507125007266594 ^ 43.97644267557982<=scoreProtTaxo<=237.94152843872973 ^ 1.5181458419799012E-
4<=scorePageRankTopoDiv<=1.622561555051185E-4 (24)
class OTHER IF : scoreRea=0.2773500981126146 ^ scoreProtTaxo=10.349540531628243 ^ scorePageRankTopoDiv=4.731675223938819E-5 (7)
class BIOSYNTHESIS IF : scoreRea=1.1677484162422844 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=8.279653168918027E-5 (5)
class DEGRADATION IF : 0.18257418583505536<=scoreRea<=0.2581988897471611 ^ 20.29655143121609<=scoreProtTaxo<=27.408620731817063 ^ 6.379348993329522E-
5<=scorePageRankTopoDiv<=6.679800841717476E-5 (11)
class BIOSYNTHESIS IF : 0.4264014327112209<=scoreRea<=0.42857142857142855 ^ 0.0<=scoreProtTaxo<=16.493671914133294 ^ 1.3819175744626106E-
4<=scorePageRankTopoDiv<=1.5471251659915627E-4 (9)
![Page 215: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/215.jpg)
class BIOSYNTHESIS IF : scoreRea=0.3535533905932738 ^ scoreProtTaxo=22.65668793082446 ^ scorePageRankTopoDiv=1.6950971007434574E-4 (13)
class OTHER IF : scoreRea=0.816496580927726 ^ scoreProtTaxo=109.62502934472009 ^ scorePageRankTopoDiv=3.6792614690010723E-4 (4)
class ENERGY IF : 0.31622776601683794<=scoreRea<=0.32714432804381227 ^ 0.6004119665829322<=scoreProtTaxo<=4.484080035378623 ^ 3.226244283908063E-
5<=scorePageRankTopoDiv<=3.72149218380753E-5 (9)
class DEGRADATION IF : 0.07147416898918632<=scoreRea<=0.5052911526399113 ^ scoreProtTaxo=0.0 ^ 1.7203438390870207E-5<=scorePageRankTopoDiv<=2.2300141489819972E-5
(22)
class OTHER IF : scoreRea=1.0 ^ 294.5535714285243<=scoreProtTaxo<=325.270349094411 ^ 2.0341900322563264E-4<=scorePageRankTopoDiv<=2.0507683798991577E-4 (10)
class BIOSYNTHESIS IF : 1.1952286093343936<=scoreRea<=1.61245154965971 ^ 0.16194510804587167<=scoreProtTaxo<=54.44846840950304 ^ 3.3376497294104843E-
4<=scorePageRankTopoDiv<=3.5209617300788025E-4 (15)
class BIOSYNTHESIS IF : 0.18257418583505536<=scoreRea<=0.2041241452319315 ^ 0.7532020994315557<=scoreProtTaxo<=32.6965054097352 ^ 2.312808880264647E-
5<=scorePageRankTopoDiv<=3.4896462935919714E-5 (23)
class BIOSYNTHESIS IF : 1.0954451150103321<=scoreRea<=1.0954451150103324 ^ scoreProtTaxo=47.31651754796645 ^ scorePageRankTopoDiv=1.1230007606831941E-4 (5)
class BIOSYNTHESIS IF : 0.3535533905932738<=scoreRea<=1.0 ^ 35.772357723564<=scoreProtTaxo<=322.6091560103118 ^ 1.3198585967944532E-
4<=scorePageRankTopoDiv<=1.3306746816423162E-4 (18)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 1.293202030337335E-4<=scorePageRankTopoDiv<=1.333663591583185E-4 (14)
class BIOSYNTHESIS IF : 0.7071067811865476<=scoreRea<=0.8451542547285166 ^ 9.263985137001498<=scoreProtTaxo<=24.028327953004528 ^ 2.136764660064425E-
4<=scorePageRankTopoDiv<=2.5281930371988685E-4 (9)
class BIOSYNTHESIS IF : 0.23570226039551584<=scoreRea<=0.25 ^ 0.0<=scoreProtTaxo<=0.8988650644845613 ^ 1.0711977779640557E-
4<=scorePageRankTopoDiv<=1.1719969391414448E-4 (7)
class DEGRADATION IF : 0.04879500364742666<=scoreRea<=0.09258200997725514 ^ 25.472692692038926<=scoreProtTaxo<=108.39077309645593 ^ 1.806864911473614E-
5<=scorePageRankTopoDiv<=2.7793795106385645E-5 (25)
class OTHER IF : 0.8528028654224418<=scoreRea<=1.0 ^ 10.482301979492092<=scoreProtTaxo<=28.17578747790379 ^ 9.184702952142395E-
5<=scorePageRankTopoDiv<=9.351198002934252E-5 (11)
class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=0.7071067811865476 ^ 0.0<=scoreProtTaxo<=30.48079304932964 ^ 5.3154500055403816E-
5<=scorePageRankTopoDiv<=5.5882189113535004E-5 (15)
class BIOSYNTHESIS IF : 0.6793662204867574<=scoreRea<=0.775791113542719 ^ 0.0<=scoreProtTaxo<=0.0709936559865042 ^ 1.3585363833144514E-
4<=scorePageRankTopoDiv<=1.419800023207035E-4 (24)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.33480015484179E-4<=scorePageRankTopoDiv<=1.3671629379591788E-4 (8)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.6552917690418017E-4<=scorePageRankTopoDiv<=1.6968382380836306E-4 (15)
class BIOSYNTHESIS IF : 0.7071067811865476<=scoreRea<=0.816496580927726 ^ 78.02205121755242<=scoreProtTaxo<=310.4692444030603 ^ 1.4006546779844433E-
4<=scorePageRankTopoDiv<=1.5967022554404776E-4 (10)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=27.6271696741116 ^ scorePageRankTopoDiv=1.630244314637863E-4 (4)
class BIOSYNTHESIS IF : 0.8498365855987975<=scoreRea<=0.8819171036881968 ^ 0.0<=scoreProtTaxo<=0.02987286337893175 ^ 1.6014420706100203E-
4<=scorePageRankTopoDiv<=1.7597335020488872E-4 (6)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.413963764486109E-4 (1)
class BIOSYNTHESIS IF : 0.7071067811865476<=scoreRea<=0.816496580927726 ^ 3.6899216336007026<=scoreProtTaxo<=4.0834889947534485 ^ 8.267082416947604E-
5<=scorePageRankTopoDiv<=2.7107121994508987E-4 (7)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.4183238468692228E-4<=scorePageRankTopoDiv<=1.4208373799633385E-4 (7)
class BIOSYNTHESIS IF : 0.6123724356957945<=scoreRea<=0.8498365855987975 ^ 2.1684886029206134<=scoreProtTaxo<=2.2017607556010725 ^ 1.518898979278972E-
4<=scorePageRankTopoDiv<=2.6238879696150873E-4 (7)
class BIOSYNTHESIS IF : scoreRea=0.8660254037844386 ^ scoreProtTaxo=0.0 ^ 1.4138985419279236E-4<=scorePageRankTopoDiv<=1.5691800610686908E-4 (16)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.426170215875551E-4<=scorePageRankTopoDiv<=1.4491894953559909E-4 (6)
class BIOSYNTHESIS IF : 0.7071067811865476<=scoreRea<=1.0 ^ scoreProtTaxo=0.0 ^ 1.570005579549546E-4<=scorePageRankTopoDiv<=1.5739447872831032E-4 (8)
class BIOSYNTHESIS IF : 0.8660254037844386<=scoreRea<=1.0 ^ 12.33487673829909<=scoreProtTaxo<=220.12790894432126 ^ 1.4036841679306012E-
4<=scorePageRankTopoDiv<=1.60770434204676E-4 (27)
class DEGRADATION IF : 0.7001400420140049<=scoreRea<=0.9309493362512627 ^ 12.36247558554131<=scoreProtTaxo<=116.8689224308081 ^ 1.1254972809590294E-
4<=scorePageRankTopoDiv<=1.1715656138055222E-4 (34)
class DEGRADATION IF : 0.3723646897664626<=scoreRea<=0.5345224838248488 ^ scoreProtTaxo=0.0 ^ 5.9327432063423745E-5<=scorePageRankTopoDiv<=6.385494276414651E-5
(19)
class OTHER IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=5.673579070415349E-5 (1)
class OTHER IF : scoreRea=0.18156825980064073 ^ scoreProtTaxo=21.804187367254194 ^ scorePageRankTopoDiv=4.6880309815237896E-5 (2)
class OTHER IF : scoreRea=1.0801234497346432 ^ scoreProtTaxo=80.10792330008738 ^ scorePageRankTopoDiv=7.039467061986714E-5 (1)
class OTHER IF : scoreRea=0.5 ^ scoreProtTaxo=193.6710726321274 ^ scorePageRankTopoDiv=5.787400974552743E-5 (9)
class OTHER IF : scoreRea=0.4472135954999579 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.735966100425115E-5 (3)
class OTHER IF : 0.3396831102433787<=scoreRea<=0.3922322702763681 ^ 36.03337000244279<=scoreProtTaxo<=64.44969605773143 ^ 3.8086671000353744E-
5<=scorePageRankTopoDiv<=3.8884620735136614E-5 (7)
class OTHER IF : scoreRea=0.6590820436573076 ^ scoreProtTaxo=16.279956356046515 ^ scorePageRankTopoDiv=7.885620403142671E-5 (1)
class OTHER IF : scoreRea=0.7745966692414834 ^ scoreProtTaxo=53.734496423617 ^ scorePageRankTopoDiv=7.774312429831847E-5 (3)
class OTHER IF : scoreRea=1.044465935734187 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=6.556201102852384E-5 (3)
class OTHER IF : scoreRea=0.6546536707079771 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.51875193871095E-5 (3)
class OTHER IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=158.79296259232737 ^ scorePageRankTopoDiv=5.673579070415349E-5 (3)
class OTHER IF : 0.3922322702763681<=scoreRea<=0.408248290463863 ^ 8.609939537894114<=scoreProtTaxo<=23.547981101223865 ^ 3.8884620735136614E-
5<=scorePageRankTopoDiv<=4.7523107196888775E-5 (9)
class OTHER IF : 0.9554425212028317<=scoreRea<=1.044465935734187 ^ 0.0<=scoreProtTaxo<=0.0875166975021412 ^ 6.728558346708853E-
5<=scorePageRankTopoDiv<=6.881127796865302E-5 (12)
class OTHER IF : 0.3872983346207417<=scoreRea<=0.408248290463863 ^ 40.06437409876283<=scoreProtTaxo<=47.54718111935941 ^ 6.086380563487903E-
5<=scorePageRankTopoDiv<=7.323460746215443E-5 (7)
class OTHER IF : scoreRea=0.40206235255037975 ^ scoreProtTaxo=0.18178615015434169 ^ scorePageRankTopoDiv=5.203961345268193E-5 (2)
![Page 216: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/216.jpg)
class OTHER IF : scoreRea=0.5462951617043315 ^ scoreProtTaxo=0.5947363999761335 ^ scorePageRankTopoDiv=4.583609822462573E-5 (4)
class OTHER IF : 0.32025630761017426<=scoreRea<=0.49507377148833714 ^ 39.60578401929289<=scoreProtTaxo<=96.40149730579888 ^ 4.960844882259927E-
5<=scorePageRankTopoDiv<=5.273409131160857E-5 (6)
class OTHER IF : scoreRea=0.4714045207910317 ^ scoreProtTaxo=18.82846753284995 ^ scorePageRankTopoDiv=5.638905553981655E-5 (2)
class OTHER IF : scoreRea=0.8770580193070292 ^ scoreProtTaxo=61.90623858885454 ^ scorePageRankTopoDiv=5.637178992061003E-5 (3)
class OTHER IF : 0.25677629550654774<=scoreRea<=0.5773502691896257 ^ 30.835777491294994<=scoreProtTaxo<=32.56157357141713 ^ 6.448584985880469E-
5<=scorePageRankTopoDiv<=6.629876994896196E-5 (16)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.08182885492431484 ^ scorePageRankTopoDiv=5.673579070415349E-5 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.0507683798991577E-4 (2)
class OTHER IF : 0.24397501823713327<=scoreRea<=0.44781107551989907 ^ 29.521443347764954<=scoreProtTaxo<=38.509613026640984 ^ 2.0674138746251432E-
5<=scorePageRankTopoDiv<=2.152043334018977E-5 (18)
class BIOSYNTHESIS IF : scoreRea=0.5547001962252291 ^ scoreProtTaxo=27.102885552202117 ^ scorePageRankTopoDiv=8.236502969785701E-5 (2)
class DEGRADATION IF : 0.28867513459481287<=scoreRea<=0.2988071523335984 ^ 21.952190576265732<=scoreProtTaxo<=30.177599308096063 ^ 2.4269456232019226E-
5<=scorePageRankTopoDiv<=4.027485301057047E-5 (18)
class BIOSYNTHESIS IF : 0.5504818825631803<=scoreRea<=0.7933470778425575 ^ 10.84536134295424<=scoreProtTaxo<=81.22294317160403 ^ 4.197659114448056E-
5<=scorePageRankTopoDiv<=5.060159247463918E-5 (37)
class DETOX IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=6.49456574064399E-5 (1)
class DETOX IF : scoreRea=0.4714045207910317 ^ scoreProtTaxo=5.626160592721068 ^ scorePageRankTopoDiv=1.8579819527032382E-4 (3)
class DETOX IF : scoreRea=0.5773502691896257 ^ scoreProtTaxo=63.12025864186631 ^ scorePageRankTopoDiv=1.7909317517514394E-4 (3)
class DETOX IF : scoreRea=1.224744871391589 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.7121731471953552E-4 (2)
class DETOX IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.653816457352169E-4 (3)
class DETOX IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.5033597960863803E-4 (3)
class DETOX IF : scoreRea=1.5 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.3793280935725012E-4 (3)
class DETOX IF : scoreRea=0.3333333333333333 ^ scoreProtTaxo=3.978296307157593 ^ scorePageRankTopoDiv=1.313791638078683E-4 (3)
class DETOX IF : scoreRea=0.21821789023599236 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1724400452715474E-4 (6)
class DETOX IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.0815609884967573E-4 (5)
class DETOX IF : 0.28867513459481287<=scoreRea<=0.3086066999241838 ^ scoreProtTaxo=0.0 ^ 1.1754985763092038E-4<=scorePageRankTopoDiv<=2.2198230760370834E-4 (13)
class DETOX IF : scoreRea=1.1677484162422844 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.0311728461534989E-4 (2)
class DETOX IF : scoreRea=1.5491933384829668 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=6.927764921033681E-5 (1)
class DETOX IF : scoreRea=0.816496580927726 ^ scoreProtTaxo=136.4722494436797 ^ scorePageRankTopoDiv=9.957483086475267E-5 (2)
class DETOX IF : scoreRea=1.0274023338281626 ^ scoreProtTaxo=35.59127779829795 ^ scorePageRankTopoDiv=9.314989437145699E-5 (2)
class DETOX IF : scoreRea=1.1649647450214349 ^ scoreProtTaxo=145.869357387843 ^ scorePageRankTopoDiv=5.289018487006144E-5 (2)
class DETOX IF : scoreRea=0.21821789023599236 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=6.327543175025379E-5 (6)
class DETOX IF : scoreRea=0.8660254037844386 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=8.677801489810921E-5 (4)
class DETOX IF : scoreRea=1.1547005383792515 ^ scoreProtTaxo=10.736953861194982 ^ scorePageRankTopoDiv=6.592735397720618E-5 (2)
class DETOX IF : scoreRea=0.9428090415820634 ^ scoreProtTaxo=28.33725463058259 ^ scorePageRankTopoDiv=7.382789095532152E-5 (4)
class DETOX IF : scoreRea=0.8257228238447705 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.291493120905716E-5 (2)
class BIOSYNTHESIS IF : 0.6488856845230502<=scoreRea<=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 6.164120344039986E-5<=scorePageRankTopoDiv<=6.350873347874623E-5
(19)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.515433611321339E-4 (6)
class OTHER IF : scoreRea=2.1032382440206603 ^ scoreProtTaxo=0.032200144283896934 ^ scorePageRankTopoDiv=2.089653430203537E-4 (6)
class BIOSYNTHESIS IF : 3.618347271170902<=scoreRea<=6.323973992579629 ^ 4.17119000018096<=scoreProtTaxo<=29.932079089972547 ^ 2.7861408614411143E-
4<=scorePageRankTopoDiv<=4.491850260334036E-4 (11)
class BIOSYNTHESIS IF : scoreRea=3.7859388972001824 ^ scoreProtTaxo=1.5438918689156014 ^ scorePageRankTopoDiv=5.0759790640253544E-5 (7)
class BIOSYNTHESIS IF : 0.6454972243679028<=scoreRea<=1.860521018838127 ^ 1.786383293240843<=scoreProtTaxo<=2.1278986237028517 ^ 1.1603744675636554E-
4<=scorePageRankTopoDiv<=1.221292855312842E-4 (26)
class DEGRADATION IF : 0.4472135954999579<=scoreRea<=1.0 ^ 86.77558163807879<=scoreProtTaxo<=152.79187765288137 ^ 1.3520119512554292E-
4<=scorePageRankTopoDiv<=1.399925842034762E-4 (20)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=168.14999256616102 ^ scorePageRankTopoDiv=1.3114233478901078E-4 (7)
class DEGRADATION IF : scoreRea=0.5773502691896257 ^ 35.276659918992415<=scoreProtTaxo<=40.259317459798886 ^ 1.1001563219750556E-
4<=scorePageRankTopoDiv<=1.1076060971949355E-4 (12)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.3535170583744646E-4 (1)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.3276998503471255E-4 (4)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.378098766816995E-4 (4)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 1.4943057764010143E-4<=scorePageRankTopoDiv<=1.5357082380142837E-4 (9)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=3.675466178295334 ^ scorePageRankTopoDiv=1.216405836434982E-4 (5)
class DEGRADATION IF : scoreRea=0.6454972243679028 ^ scoreProtTaxo=0.08101161375304392 ^ scorePageRankTopoDiv=1.474440601213266E-4 (4)
class DEGRADATION IF : scoreRea=0.9274777915203366 ^ scoreProtTaxo=0.9481027057697574 ^ scorePageRankTopoDiv=1.3124640696624947E-4 (2)
class DEGRADATION IF : scoreRea=0.6236095644623235 ^ scoreProtTaxo=4.634759947408514 ^ scorePageRankTopoDiv=1.4429449547506584E-4 (2)
class DEGRADATION IF : scoreRea=0.816496580927726 ^ scoreProtTaxo=37.27112086645609 ^ scorePageRankTopoDiv=1.422812003992657E-4 (1)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.437745131890555E-4 (3)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.270951021637754E-4 (5)
class DEGRADATION IF : 0.6859943405700354<=scoreRea<=0.816496580927726 ^ 37.27112086645608<=scoreProtTaxo<=192.08347951924614 ^ 1.275528766157473E-
4<=scorePageRankTopoDiv<=1.3077444691159042E-4 (11)
class DEGRADATION IF : scoreRea=0.816496580927726 ^ scoreProtTaxo=0.0 ^ 1.2621347934763986E-4<=scorePageRankTopoDiv<=1.5558559912676252E-4 (7)
class DEGRADATION IF : 0.5773502691896257<=scoreRea<=0.6030226891555273 ^ scoreProtTaxo=0.0 ^ 1.253709265304216E-4<=scorePageRankTopoDiv<=1.4445450974778128E-4
(7)
class BIOSYNTHESIS IF : scoreRea=0.6605782590758164 ^ scoreProtTaxo=10.60549955225613 ^ scorePageRankTopoDiv=1.163644044771755E-4 (3)
![Page 217: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/217.jpg)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.5491933384829668 ^ scoreProtTaxo=0.0 ^ 2.5468431845195196E-4<=scorePageRankTopoDiv<=2.5693283752350506E-4 (9)
class BIOSYNTHESIS IF : 0.8498365855987975<=scoreRea<=0.8944271909999159 ^ 0.18874604428679911<=scoreProtTaxo<=0.9389651216804074 ^ 1.6829596743622756E-
4<=scorePageRankTopoDiv<=1.6920558443768528E-4 (3)
class BIOSYNTHESIS IF : 1.0377490433255416<=scoreRea<=1.1547005383792515 ^ 0.0<=scoreProtTaxo<=0.006194274740573478 ^ 1.0214790864270169E-
4<=scorePageRankTopoDiv<=1.1856194866072717E-4 (22)
class DEGRADATION IF : scoreRea=0.8660254037844386 ^ scoreProtTaxo=149.76606980270952 ^ scorePageRankTopoDiv=2.018023903939492E-4 (4)
class DEGRADATION IF : 0.15836151649297917<=scoreRea<=0.49507377148833714 ^ 0.0<=scoreProtTaxo<=0.0314917783188618 ^ 3.247282870321995E-
5<=scorePageRankTopoDiv<=3.507847056660574E-5 (33)
class BIOSYNTHESIS IF : 1.118033988749895<=scoreRea<=2.2771001702132443 ^ 222.4609932657902<=scoreProtTaxo<=539.0003923984657 ^ 7.809608686909931E-
5<=scorePageRankTopoDiv<=1.257860095616677E-4 (26)
class BIOSYNTHESIS IF : 2.727851988394575<=scoreRea<=6.2341841409373036 ^ 41.81775198112704<=scoreProtTaxo<=426.4726970783042 ^ 2.572389005929887E-
4<=scorePageRankTopoDiv<=4.229094722569427E-4 (30)
class DEGRADATION IF : 0.75<=scoreRea<=1.0 ^ 20.96265560719317<=scoreProtTaxo<=42.330049501311514 ^ 6.446530518817172E-5<=scorePageRankTopoDiv<=6.94933160911338E-
5 (12)
class DEGRADATION IF : 0.6009252125773316<=scoreRea<=0.9393364366277243 ^ 0.07514655700527341<=scoreProtTaxo<=0.6377796746836621 ^ 6.672413144499774E-
5<=scorePageRankTopoDiv<=6.833813604255634E-5 (18)
class DEGRADATION IF : 0.8744746321952062<=scoreRea<=0.9258200997725514 ^ scoreProtTaxo=0.0 ^ 5.557122140811065E-5<=scorePageRankTopoDiv<=6.655225016107375E-5
(8)
class BIOSYNTHESIS IF : 0.18490006540840973<=scoreRea<=0.28867513459481287 ^ 4.060796026089901<=scoreProtTaxo<=37.18965662133416 ^ 1.8669203833170315E-
4<=scorePageRankTopoDiv<=2.482079768896534E-4 (14)
class BIOSYNTHESIS IF : 0.12403473458920845<=scoreRea<=0.2581988897471611 ^ 0.0<=scoreProtTaxo<=0.08306969993895892 ^ 1.258378581959181E-
4<=scorePageRankTopoDiv<=1.586938187803185E-4 (22)
class OTHER IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=50.01269874088847 ^ scorePageRankTopoDiv=1.715924490479643E-4 (3)
class DEGRADATION IF : 0.816496580927726<=scoreRea<=1.0 ^ scoreProtTaxo=0.0 ^ 3.504179915896579E-4<=scorePageRankTopoDiv<=3.5357794900295656E-4 (4)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.750635775572479E-4<=scorePageRankTopoDiv<=1.7605299533700306E-4 (4)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ 7.411702458499891<=scoreProtTaxo<=23.626209496421488 ^ 1.6607858601140786E-
4<=scorePageRankTopoDiv<=1.7412280277644346E-4 (7)
class BIOSYNTHESIS IF : scoreRea=0.408248290463863 ^ scoreProtTaxo=0.0 ^ 7.845604803753864E-5<=scorePageRankTopoDiv<=7.922169601627488E-5 (8)
class BIOSYNTHESIS IF : 0.31622776601683794<=scoreRea<=0.7071067811865476 ^ 108.98440840078962<=scoreProtTaxo<=139.00552347161903 ^ 6.0036908760882205E-
5<=scorePageRankTopoDiv<=7.51563674818164E-5 (16)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 70.03289743182262<=scoreProtTaxo<=158.40387360617618 ^ 3.480039079140226E-4<=scorePageRankTopoDiv<=3.815772077000262E-4
(15)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ 872.5390659413733<=scoreProtTaxo<=1247.2783381883148 ^ 2.2070202400956655E-
4<=scorePageRankTopoDiv<=2.6174888156318006E-4 (6)
class ENERGY IF : 1.288181280536124<=scoreRea<=1.3184955758367207 ^ 12.81443337256947<=scoreProtTaxo<=19.90789234210125 ^ 2.2606890757750802E-
4<=scorePageRankTopoDiv<=2.518505177794346E-4 (5)
class DEGRADATION IF : 0.125<=scoreRea<=0.18257418583505536 ^ 0.0<=scoreProtTaxo<=43.07890918143643 ^ 4.442793668447999E-
5<=scorePageRankTopoDiv<=4.5095808332954006E-5 (14)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 53.43201654584469<=scoreProtTaxo<=53.61838684574613 ^ 1.8222582181223228E-4<=scorePageRankTopoDiv<=1.8377567901230646E-4
(2)
class OTHER IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.4179066386677404E-4 (1)
class OTHER IF : 0.8498365855987975<=scoreRea<=0.9258200997725514 ^ 0.0<=scoreProtTaxo<=0.02635667702794845 ^ 1.0144989631180699E-
4<=scorePageRankTopoDiv<=1.1424636450965728E-4 (13)
class OTHER IF : 0.816496580927726<=scoreRea<=1.0 ^ 50.01269874088847<=scoreProtTaxo<=78.24924280788699 ^ 1.715924490479643E-
4<=scorePageRankTopoDiv<=1.7327229527089061E-4 (4)
class OTHER IF : scoreRea=0.7171371656006362 ^ scoreProtTaxo=39.11883789500987 ^ scorePageRankTopoDiv=1.4131650372210225E-4 (2)
class OTHER IF : 0.7071067811865476<=scoreRea<=0.816496580927726 ^ scoreProtTaxo=0.0 ^ 1.2496190361871147E-4<=scorePageRankTopoDiv<=1.2604521257776215E-4 (5)
class OTHER IF : scoreRea=1.3764944032233706 ^ scoreProtTaxo=4.672811180653771 ^ scorePageRankTopoDiv=1.7450034043602316E-4 (2)
class OTHER IF : 1.3093073414159542<=scoreRea<=1.5275252316519465 ^ 33.27864608928911<=scoreProtTaxo<=54.765275877937235 ^ 1.1076165501706806E-
4<=scorePageRankTopoDiv<=1.1133601723393347E-4 (10)
class OTHER IF : scoreRea=1.1881770515720091 ^ scoreProtTaxo=35.97190533881746 ^ scorePageRankTopoDiv=1.1442075717380128E-4 (1)
class OTHER IF : scoreRea=0.8660254037844386 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.3438022261259893E-4 (1)
class OTHER IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.5263370408995772E-4 (2)
class OTHER IF : 1.8708286933869707<=scoreRea<=2.0207259421636903 ^ 1.587883023989004<=scoreProtTaxo<=22.943877550201837 ^ 1.116493007709621E-
4<=scorePageRankTopoDiv<=1.376020875302525E-4 (6)
class OTHER IF : scoreRea=1.5430334996209192 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1966632255606324E-4 (1)
class OTHER IF : 0.7745966692414834<=scoreRea<=1.0 ^ 1.7452983457025155<=scoreProtTaxo<=2.1645385819414065 ^ 1.506377396134267E-
4<=scorePageRankTopoDiv<=1.82903042849188E-4 (11)
class OTHER IF : 1.3719886811400708<=scoreRea<=1.4752866122334647 ^ 8.009880206310035<=scoreProtTaxo<=29.305596285694808 ^ 1.0730303042438511E-
4<=scorePageRankTopoDiv<=1.1945951991812146E-4 (7)
class OTHER IF : scoreRea=1.1359236684941296 ^ 0.036214922507728946<=scoreProtTaxo<=0.911596007038787 ^ 1.09640490508312E-
4<=scorePageRankTopoDiv<=1.36630095633726E-4 (8)
class OTHER IF : scoreRea=1.3334899657372021 ^ scoreProtTaxo=0.786336046600834 ^ scorePageRankTopoDiv=1.5245768517501833E-4 (2)
class OTHER IF : 1.4142135623730951<=scoreRea<=1.5078740698501039 ^ 0.0<=scoreProtTaxo<=0.6787384779869023 ^ 1.2954758572089752E-
4<=scorePageRankTopoDiv<=1.3162423737102732E-4 (7)
class OTHER IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.518647951744723E-4 (2)
class OTHER IF : 0.8660254037844386<=scoreRea<=1.3093073414159542 ^ 8.424649067330424<=scoreProtTaxo<=10.204146751821096 ^ 1.3370027787848343E-
4<=scorePageRankTopoDiv<=1.885248244530818E-4 (5)
![Page 218: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/218.jpg)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.48335511616314E-4 (5)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.3842061663477223E-4 (3)
class DETOX IF : scoreRea=0.25 ^ scoreProtTaxo=1.7854366557743602 ^ scorePageRankTopoDiv=1.9902855514769744E-4 (3)
class DEGRADATION IF : scoreRea=1.8516401995451028 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=5.9109305162889634E-5 (3)
class DEGRADATION IF : 1.0<=scoreRea<=1.247219128924647 ^ 26.286231011957284<=scoreProtTaxo<=38.476103319852186 ^ 2.5414532404779787E-
4<=scorePageRankTopoDiv<=2.7478026043357365E-4 (11)
class DEGRADATION IF : 1.0<=scoreRea<=1.3228756555322954 ^ 0.0<=scoreProtTaxo<=44.43519300996254 ^ 4.6324579126172384E-
5<=scorePageRankTopoDiv<=4.7327178179514555E-5 (15)
class BIOSYNTHESIS IF : 0.7905694150420949<=scoreRea<=0.816496580927726 ^ 42.46502705676863<=scoreProtTaxo<=71.02648797843077 ^ 5.8031652298977115E-
5<=scorePageRankTopoDiv<=6.022372792345972E-5 (6)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ 30.982865119868915<=scoreProtTaxo<=69.47147410476717 ^ 1.9700594225831525E-
4<=scorePageRankTopoDiv<=2.4114374672442945E-4 (24)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.035098339013531 ^ 28.753814293592814<=scoreProtTaxo<=32.55759793194711 ^ 3.4092995079697936E-
4<=scorePageRankTopoDiv<=3.739122664785864E-4 (7)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=1.46897744599614 ^ scorePageRankTopoDiv=7.20783349400754E-5 (6)
class BIOSYNTHESIS IF : 0.8451542547285166<=scoreRea<=1.0 ^ scoreProtTaxo=0.0 ^ 2.157200922979042E-4<=scorePageRankTopoDiv<=2.218837803860846E-4 (19)
class BIOSYNTHESIS IF : scoreRea=0.6340037731068526 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.369165963961018E-5 (4)
class BIOSYNTHESIS IF : 0.23570226039551584<=scoreRea<=0.25 ^ 16.82062389998916<=scoreProtTaxo<=118.97441201481755 ^ 1.2244885107621335E-
4<=scorePageRankTopoDiv<=1.7973368048266475E-4 (14)
class BIOSYNTHESIS IF : 0.14213381090374028<=scoreRea<=0.2041241452319315 ^ 0.0<=scoreProtTaxo<=0.5325943121119973 ^ 4.67243619701902E-
5<=scorePageRankTopoDiv<=4.7480361500771855E-5 (12)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 2.2017809896165218E-4<=scorePageRankTopoDiv<=2.2430370788519718E-4 (10)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.2792042981336627 ^ 75.06075604111761<=scoreProtTaxo<=126.37589020471343 ^ 3.69476477757441E-
5<=scorePageRankTopoDiv<=6.820390724750919E-5 (26)
class BIOSYNTHESIS IF : 0.4803844614152614<=scoreRea<=0.7385489458759964 ^ 11.049887980839541<=scoreProtTaxo<=36.19851154731422 ^ 1.9549578836361636E-
5<=scorePageRankTopoDiv<=2.395797125964908E-5 (14)
class ENERGY IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.4166556864442256E-4 (5)
class BIOSYNTHESIS IF : scoreRea=2.057983021710106 ^ scoreProtTaxo=16.820212169959394 ^ scorePageRankTopoDiv=1.2409622007166675E-4 (3)
class BIOSYNTHESIS IF : scoreRea=1.1094003924504583 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.773137898809049E-5 (2)
class ENERGY IF : scoreRea=0.988495919569998 ^ scoreProtTaxo=0.07850958084016749 ^ scorePageRankTopoDiv=8.177462725052139E-5 (2)
class BIOSYNTHESIS IF : 2.623303343135812<=scoreRea<=2.6568446566202857 ^ 6.485298193530774<=scoreProtTaxo<=33.036183566237966 ^ 3.176417486336401E-
4<=scorePageRankTopoDiv<=4.5982431233079004E-4 (9)
class BIOSYNTHESIS IF : 2.3326329481056884<=scoreRea<=2.743189677316311 ^ 0.0<=scoreProtTaxo<=11.502680546417647 ^ 1.2048544308923464E-
4<=scorePageRankTopoDiv<=1.9781045464983038E-4 (36)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=5.673579070415349E-5 (5)
class BIOSYNTHESIS IF : 0.408248290463863<=scoreRea<=0.7071067811865476 ^ 0.0<=scoreProtTaxo<=0.02110942242487886 ^ 4.2470681528740396E-
5<=scorePageRankTopoDiv<=4.3178120633386797E-5 (12)
class OTHER IF : scoreRea=0.3872983346207417 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.0030074501858312E-4 (7)
class BIOSYNTHESIS IF : 0.5707817929853929<=scoreRea<=0.6454972243679028 ^ 3.93137454201378<=scoreProtTaxo<=10.240405284120385 ^ 7.14878342041647E-
5<=scorePageRankTopoDiv<=7.631946035900328E-5 (13)
class BIOSYNTHESIS IF : 0.31622776601683794<=scoreRea<=0.5 ^ 0.0<=scoreProtTaxo<=0.11747829627593917 ^ 1.8641638185916442E-
4<=scorePageRankTopoDiv<=2.465952387977148E-4 (19)
class DEGRADATION IF : 0.408248290463863<=scoreRea<=0.4472135954999579 ^ 0.0<=scoreProtTaxo<=25.4524903361019 ^ 1.1233582394563083E-
4<=scorePageRankTopoDiv<=1.2710021931276782E-4 (7)
class BIOSYNTHESIS IF : 1.5191090506255<=scoreRea<=4.780914437337574 ^ 34.09388015135132<=scoreProtTaxo<=83.23689560348458 ^ 1.6410648387959895E-
4<=scorePageRankTopoDiv<=1.992035753298273E-4 (24)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 2.6929902625606435E-4<=scorePageRankTopoDiv<=2.695305089690564E-4 (8)
class BIOSYNTHESIS IF : 0.21081851067789195<=scoreRea<=0.26967994498529685 ^ scoreProtTaxo=0.0 ^ 1.6946786127234814E-4<=scorePageRankTopoDiv<=1.746618148365526E-4
(5)
class ENERGY IF : 0.4387634544762784<=scoreRea<=0.7006490497453708 ^ 2.3996744093115354<=scoreProtTaxo<=4.109994975148521 ^ 1.3155681634273485E-
4<=scorePageRankTopoDiv<=1.8211138918884125E-4 (3)
class ENERGY IF : 0.19069251784911848<=scoreRea<=0.3464101615137755 ^ scoreProtTaxo=0.0 ^ 8.86812523631926E-5<=scorePageRankTopoDiv<=9.967564087338181E-5 (9)
class ENERGY IF : 0.2738612787525831<=scoreRea<=0.31622776601683794 ^ 6.471473698427908<=scoreProtTaxo<=7.995814409831503 ^ 9.568779635488795E-
5<=scorePageRankTopoDiv<=1.0824895564286868E-4 (11)
class ENERGY IF : 0.5<=scoreRea<=0.5869391856534222 ^ 59.0592922409336<=scoreProtTaxo<=78.80633749366822 ^ 1.510386644478927E-
4<=scorePageRankTopoDiv<=1.602622308140349E-4 (3)
class ENERGY IF : scoreRea=0.17541160386140583 ^ scoreProtTaxo=54.74892009226977 ^ scorePageRankTopoDiv=1.2315241317049314E-4 (1)
class ENERGY IF : 0.7071067811865476<=scoreRea<=0.7200822998230955 ^ 40.0<=scoreProtTaxo<=49.278964507472764 ^ 1.4008561574545367E-
4<=scorePageRankTopoDiv<=1.441165393286038E-4 (3)
class ENERGY IF : scoreRea=0.2672612419124244 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.3980167757492946E-4 (2)
class ENERGY IF : 0.36313651960128146<=scoreRea<=0.37947331922020555 ^ 1.8732433424225876<=scoreProtTaxo<=9.792832691040099 ^ 8.262057952316842E-
5<=scorePageRankTopoDiv<=1.4041321871684098E-4 (11)
class DEGRADATION IF : scoreRea=2.1908902300206647 ^ scoreProtTaxo=744.0707051693515 ^ scorePageRankTopoDiv=2.956950506156661E-4 (3)
class DEGRADATION IF : 0.23570226039551584<=scoreRea<=0.3713906763541037 ^ scoreProtTaxo=0.0 ^ 9.986780345653794E-5<=scorePageRankTopoDiv<=1.053375883940584E-4
(3)
class DEGRADATION IF : scoreRea=0.3535533905932738 ^ scoreProtTaxo=6.037872455605616 ^ scorePageRankTopoDiv=1.0011139754082549E-4 (1)
class DEGRADATION IF : 1.3826657968874303<=scoreRea<=2.0 ^ 33.08715911819257<=scoreProtTaxo<=147.41252166934837 ^ 5.8394113680207267E-
5<=scorePageRankTopoDiv<=6.228331214240753E-5 (12)
![Page 219: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/219.jpg)
class BIOSYNTHESIS IF : 0.9992257064266816<=scoreRea<=1.0709591052033318 ^ 0.007362727567874315<=scoreProtTaxo<=0.05059346213529292 ^ 9.374543842992507E-
5<=scorePageRankTopoDiv<=1.2410510066503347E-4 (8)
class OTHER IF : 0.6030226891555273<=scoreRea<=0.7745966692414834 ^ 4.14886668904373<=scoreProtTaxo<=5.02223911598203 ^ 1.0751660382843966E-
4<=scorePageRankTopoDiv<=1.0974209762183784E-4 (6)
class BIOSYNTHESIS IF : 0.3779644730092272<=scoreRea<=0.48507125007266594 ^ 2.5047877479323812<=scoreProtTaxo<=5.073680764092357 ^ 1.8312929137206794E-
4<=scorePageRankTopoDiv<=2.433875122349829E-4 (17)
class BIOSYNTHESIS IF : scoreRea=1.525660753153479 ^ scoreProtTaxo=1.3487912944653087 ^ scorePageRankTopoDiv=1.1111324093273548E-4 (4)
class BIOSYNTHESIS IF : 0.5107539184552492<=scoreRea<=0.7071067811865476 ^ 6.516959502501294<=scoreProtTaxo<=14.399886431850499 ^ 1.2814039822525947E-
4<=scorePageRankTopoDiv<=1.5623558428847628E-4 (14)
class BIOSYNTHESIS IF : 0.6009252125773316<=scoreRea<=0.6324555320336759 ^ 0.0<=scoreProtTaxo<=0.012258083904586227 ^ 1.0735501366193442E-
4<=scorePageRankTopoDiv<=1.081273666574102E-4 (11)
class BIOSYNTHESIS IF : 0.14824986333222023<=scoreRea<=0.4803844614152614 ^ 0.0<=scoreProtTaxo<=25.596212983965433 ^ 1.1909069617416628E-
5<=scorePageRankTopoDiv<=1.713687157423472E-5 (27)
class DEGRADATION IF : 0.21437323142813605<=scoreRea<=0.25 ^ 1.9837456301647234<=scoreProtTaxo<=13.726780403849244 ^ 3.441799469223626E-
5<=scorePageRankTopoDiv<=4.6315447962956124E-5 (15)
class BIOSYNTHESIS IF : scoreRea=0.23570226039551584 ^ scoreProtTaxo=0.0 ^ 6.426013578233957E-5<=scorePageRankTopoDiv<=6.739248125225802E-5 (15)
class BIOSYNTHESIS IF : 0.5686020318963798<=scoreRea<=0.5773502691896257 ^ 0.0<=scoreProtTaxo<=0.20442280262248982 ^ 5.80121844508716E-
5<=scorePageRankTopoDiv<=6.55979874717408E-5 (22)
class BIOSYNTHESIS IF : 0.5393598899705937<=scoreRea<=0.7935838209659245 ^ 0.0<=scoreProtTaxo<=0.1563812696229734 ^ 2.9144627530234042E-
5<=scorePageRankTopoDiv<=3.1995246100241945E-5 (2)
class BIOSYNTHESIS IF : 0.6000000000000001<=scoreRea<=0.6324555320336759 ^ 89.25049222649379<=scoreProtTaxo<=135.17946844016356 ^ 2.8122177261014897E-
5<=scorePageRankTopoDiv<=3.481353559664781E-5 (6)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.019778459386172E-4<=scorePageRankTopoDiv<=1.061427001844723E-4 (10)
class OTHER IF : scoreRea=1.224744871391589 ^ scoreProtTaxo=69.47865726904281 ^ scorePageRankTopoDiv=1.9161987328237336E-4 (3)
class BIOSYNTHESIS IF : 0.3786412228313765<=scoreRea<=0.4472135954999579 ^ 0.0<=scoreProtTaxo<=32.23146137542037 ^ 6.642179634668017E-
5<=scorePageRankTopoDiv<=6.979292587183943E-5 (26)
class ENERGY IF : scoreRea=0.8498365855987975 ^ scoreProtTaxo=0.037976995945837595 ^ scorePageRankTopoDiv=1.750613415112989E-4 (7)
class BIOSYNTHESIS IF : 1.1952286093343936<=scoreRea<=1.4638501094227998 ^ 28.77526436321188<=scoreProtTaxo<=40.66403414395631 ^
scorePageRankTopoDiv=7.669823584620337E-4 (6)
class BIOSYNTHESIS IF : 1.5275252316519465<=scoreRea<=2.5495097567963922 ^ 19.949670566707734<=scoreProtTaxo<=342.0920172399326 ^ 2.4781928015212094E-
4<=scorePageRankTopoDiv<=2.9525891501065975E-4 (26)
class BIOSYNTHESIS IF : scoreRea=0.3370999312316211 ^ scoreProtTaxo=125.49902487565595 ^ scorePageRankTopoDiv=8.511191847200069E-5 (3)
class BIOSYNTHESIS IF : 0.4425306015783918<=scoreRea<=1.643989873053573 ^ 0.22814918814676075<=scoreProtTaxo<=0.532040781604257 ^ 4.973927196739342E-
5<=scorePageRankTopoDiv<=5.106292680762229E-5 (22)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 0.0<=scoreProtTaxo<=5.949875623489494 ^ 4.588402872559206E-4<=scorePageRankTopoDiv<=5.701127800920489E-4 (29)
class DEGRADATION IF : 3.1826736817817<=scoreRea<=6.207868749305365 ^ 0.5951374046456729<=scoreProtTaxo<=3.9579657727849646 ^ 2.723813599834274E-
4<=scorePageRankTopoDiv<=3.655805459617726E-4 (7)
class DEGRADATION IF : 0.48989794855663565<=scoreRea<=0.546672273590534 ^ 87.1278616789283<=scoreProtTaxo<=100.47307971677706 ^ 4.145231565697189E-
5<=scorePageRankTopoDiv<=4.728125419946526E-5 (10)
class DEGRADATION IF : 0.3535533905932738<=scoreRea<=0.816496580927726 ^ scoreProtTaxo=0.0 ^ 3.6222678185925705E-5<=scorePageRankTopoDiv<=3.826109067452951E-5
(20)
class OTHER IF : scoreRea=2.086370335408023 ^ scoreProtTaxo=2.613965019897625 ^ scorePageRankTopoDiv=1.0319430370482758E-4 (2)
class BIOSYNTHESIS IF : 0.11065666703449763<=scoreRea<=0.13093073414159542 ^ 33.85577672978209<=scoreProtTaxo<=74.37073696766814 ^ 2.645619643482403E-
5<=scorePageRankTopoDiv<=3.1295818290857415E-5 (11)
class DEGRADATION IF : 0.2672612419124244<=scoreRea<=0.31622776601683794 ^ 6.695548428892289<=scoreProtTaxo<=7.793743442645217 ^ 1.3196199246283668E-
4<=scorePageRankTopoDiv<=1.4224012941568427E-4 (10)
class BIOSYNTHESIS IF : scoreRea=2.0 ^ scoreProtTaxo=0.0 ^ 9.350711532682093E-5<=scorePageRankTopoDiv<=1.1747951603456698E-4 (16)
class BIOSYNTHESIS IF : scoreRea=0.7905694150420949 ^ scoreProtTaxo=84.81420871526848 ^ scorePageRankTopoDiv=9.260615655659085E-5 (9)
class DEGRADATION IF : 0.9258200997725514<=scoreRea<=1.2649110640673518 ^ scoreProtTaxo=0.0 ^ 2.450964554055782E-4<=scorePageRankTopoDiv<=2.473229582541308E-4
(11)
class DEGRADATION IF : 1.0<=scoreRea<=1.7566201313073597 ^ 29.36328778093912<=scoreProtTaxo<=52.214331017798195 ^ 1.1457931062108002E-
4<=scorePageRankTopoDiv<=1.1885155162372301E-4 (5)
class ENERGY IF : 2.0<=scoreRea<=2.280350850198276 ^ scoreProtTaxo=0.0 ^ 3.642818610374926E-4<=scorePageRankTopoDiv<=3.957519348612055E-4 (11)
class DEGRADATION IF : 0.816496580927726<=scoreRea<=1.0 ^ 117.68533432023266<=scoreProtTaxo<=268.8896708114055 ^ 7.025164265842389E-
5<=scorePageRankTopoDiv<=7.397333394659904E-5 (7)
class BIOSYNTHESIS IF : 0.655825835783953<=scoreRea<=0.9274777915203366 ^ 0.8159397521989812<=scoreProtTaxo<=1.629651606740295 ^ 1.0610145577243671E-
4<=scorePageRankTopoDiv<=1.1495607808269751E-4 (10)
class ENERGY IF : 0.08559209850218258<=scoreRea<=0.10041928905068677 ^ 0.40713606842348365<=scoreProtTaxo<=18.732065380818764 ^ 2.617285533452988E-
5<=scorePageRankTopoDiv<=3.3995659231272465E-5 (8)
class DETOX IF : scoreRea=1.0 ^ scoreProtTaxo=76.23179487402706 ^ scorePageRankTopoDiv=2.61377610435628E-4 (3)
class BIOSYNTHESIS IF : scoreRea=0.75955452531275 ^ 103.81745827343019<=scoreProtTaxo<=103.8174582734302 ^ 2.0693136818277977E-
4<=scorePageRankTopoDiv<=2.069313681827798E-4 (7)
class DEGRADATION IF : 0.19611613513818404<=scoreRea<=0.2721655269759087 ^ 32.32421212596552<=scoreProtTaxo<=53.712253801759694 ^ 8.048526050907137E-
5<=scorePageRankTopoDiv<=8.527890121925288E-5 (7)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=4.330127018922194 ^ 0.0<=scoreProtTaxo<=0.3025798391224467 ^ 7.607171232442491E-
4<=scorePageRankTopoDiv<=0.0011982853264696502 (17)
class BIOSYNTHESIS IF : scoreRea=0.5773502691896257 ^ scoreProtTaxo=0.0 ^ 8.103062978938698E-5<=scorePageRankTopoDiv<=8.184055624663284E-5 (10)
![Page 220: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/220.jpg)
class BIOSYNTHESIS IF : 0.4472135954999579<=scoreRea<=0.4714045207910317 ^ scoreProtTaxo=0.0 ^ 4.543426893811937E-5<=scorePageRankTopoDiv<=4.5710147296428555E-5
(16)
class DEGRADATION IF : 0.49507377148833714<=scoreRea<=1.224744871391589 ^ scoreProtTaxo=0.0 ^ 4.937666043503516E-5<=scorePageRankTopoDiv<=5.12001351746207E-5
(16)
class BIOSYNTHESIS IF : 0.2672612419124244<=scoreRea<=0.3670310333590629 ^ 0.0<=scoreProtTaxo<=0.11087798752759649 ^ 2.9726589915500942E-
5<=scorePageRankTopoDiv<=3.0254070680625004E-5 (11)
class BIOSYNTHESIS IF : scoreRea=0.15781069215799975 ^ scoreProtTaxo=60.81790855857412 ^ scorePageRankTopoDiv=4.061440716194523E-5 (3)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=370.8806689330153 ^ scorePageRankTopoDiv=2.5005781477850783E-4 (4)
class ENERGY IF : 1.0<=scoreRea<=1.247219128924647 ^ 0.0<=scoreProtTaxo<=64.47592897360235 ^ 3.945430212065747E-4<=scorePageRankTopoDiv<=3.961479461719977E-4 (3)
class BIOSYNTHESIS IF : scoreRea=1.7320508075688772 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=4.02643735176089E-4 (2)
class BIOSYNTHESIS IF : 2.0<=scoreRea<=2.898275349237888 ^ 571.296896181361<=scoreProtTaxo<=668.0528309119322 ^ 2.3706178167107297E-
4<=scorePageRankTopoDiv<=2.3877773348760504E-4 (6)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.4244265517510647E-4 (3)
class BIOSYNTHESIS IF : 0.8660254037844386<=scoreRea<=1.0 ^ 0.0<=scoreProtTaxo<=38.00445116638788 ^ 4.3575656373539553E-
4<=scorePageRankTopoDiv<=4.5685229637384094E-4 (14)
class OTHER IF : scoreRea=0.7745966692414834 ^ scoreProtTaxo=113.05081279896491 ^ scorePageRankTopoDiv=1.173629918315806E-4 (3)
class OTHER IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.3139856423900248E-4 (4)
class DEGRADATION IF : scoreRea=0.5773502691896257 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.802341309156001E-4 (3)
class BIOSYNTHESIS IF : 1.8049705127885605<=scoreRea<=2.2188007849009166 ^ 0.764578403234384<=scoreProtTaxo<=5.384824552790179 ^ 6.709039841234334E-
5<=scorePageRankTopoDiv<=9.583471926338623E-5 (11)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 9.402345660909281E-5<=scorePageRankTopoDiv<=9.926965555736558E-5 (15)
class BIOSYNTHESIS IF : 2.23606797749979<=scoreRea<=7.656929634557929 ^ 829.709602515744<=scoreProtTaxo<=838.1623692966704 ^ 5.044682265188456E-
4<=scorePageRankTopoDiv<=6.285287540492742E-4 (5)
class OTHER IF : scoreRea=0.2672612419124244 ^ scoreProtTaxo=15.042734593454881 ^ scorePageRankTopoDiv=2.8520335842968908E-5 (4)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 9.998233662201861E-5<=scorePageRankTopoDiv<=1.0691434479612118E-4 (15)
class DEGRADATION IF : 0.40206235255037975<=scoreRea<=0.4472135954999579 ^ 0.0<=scoreProtTaxo<=3.6283306109744204 ^ 5.334210778502402E-
5<=scorePageRankTopoDiv<=5.489064449797292E-5 (21)
class OTHER IF : scoreRea=0.4472135954999579 ^ scoreProtTaxo=2.2071721740805414 ^ scorePageRankTopoDiv=9.480868540751403E-5 (1)
class OTHER IF : scoreRea=1.0910894511799618 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.05851900355019E-5 (1)
class OTHER IF : scoreRea=1.0 ^ scoreProtTaxo=94.50752811024493 ^ scorePageRankTopoDiv=9.350711532682093E-5 (7)
class OTHER IF : scoreRea=0.816496580927726 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1357442447585103E-4 (7)
class OTHER IF : scoreRea=0.3333333333333333 ^ scoreProtTaxo=173.14680927853354 ^ scorePageRankTopoDiv=9.530736098891785E-5 (3)
class OTHER IF : scoreRea=0.6666666666666666 ^ scoreProtTaxo=32.70406736719196 ^ scorePageRankTopoDiv=1.0853718564050874E-4 (3)
class OTHER IF : 0.7359800721939872<=scoreRea<=0.7698907906800384 ^ 0.01197185426793928<=scoreProtTaxo<=0.4539913281784976 ^ 8.765155464331727E-
5<=scorePageRankTopoDiv<=8.802148557582406E-5 (4)
class OTHER IF : scoreRea=0.5477225575051662 ^ scoreProtTaxo=67.24186839160802 ^ scorePageRankTopoDiv=1.0356937510804866E-4 (1)
class DEGRADATION IF : scoreRea=0.34641016151377546 ^ scoreProtTaxo=1.954747307721167 ^ scorePageRankTopoDiv=2.923556711062316E-5 (7)
class BIOSYNTHESIS IF : scoreRea=0.5940885257860046 ^ scoreProtTaxo=31.050431547115572 ^ scorePageRankTopoDiv=5.9365156338514805E-5 (2)
class BIOSYNTHESIS IF : 0.408248290463863<=scoreRea<=0.5535807194106618 ^ 1.886492471379138<=scoreProtTaxo<=4.371680783476537 ^ 4.325486328638982E-
5<=scorePageRankTopoDiv<=5.251282995844052E-5 (8)
class BIOSYNTHESIS IF : 0.3131121455425747<=scoreRea<=0.6755998857764941 ^ 0.0019887525736357443<=scoreProtTaxo<=0.11342319195338982 ^ 4.757809234567175E-
5<=scorePageRankTopoDiv<=5.0072739563688465E-5 (14)
class DEGRADATION IF : scoreRea=0.408248290463863 ^ scoreProtTaxo=30.77857385829824 ^ scorePageRankTopoDiv=5.145063627474733E-5 (2)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.2060453783110545 ^ 190.02809180660955<=scoreProtTaxo<=197.63897849209104 ^ 7.706175889745562E-
5<=scorePageRankTopoDiv<=1.085444445793927E-4 (13)
class DEGRADATION IF : 0.4703170810017723<=scoreRea<=0.6340037731068526 ^ 0.0<=scoreProtTaxo<=21.10622305327305 ^ 6.840979034833586E-
5<=scorePageRankTopoDiv<=6.990584825898163E-5 (24)
class BIOSYNTHESIS IF : 0.28867513459481287<=scoreRea<=0.31562138431599956 ^ 1.3035718214630367<=scoreProtTaxo<=19.54048218001416 ^ 6.880899824267984E-
5<=scorePageRankTopoDiv<=7.486846635608594E-5 (19)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 77.49602114288327<=scoreProtTaxo<=196.6616989567411 ^ 2.31633426121055E-4<=scorePageRankTopoDiv<=2.864973939882795E-4 (33)
class BIOSYNTHESIS IF : 0.7905694150420949<=scoreRea<=0.816496580927726 ^ scoreProtTaxo=0.0 ^ 6.518594657127604E-5<=scorePageRankTopoDiv<=7.234054889925801E-5
(17)
class BIOSYNTHESIS IF : scoreRea=0.8498365855987975 ^ scoreProtTaxo=0.09349905172422704 ^ scorePageRankTopoDiv=1.985144240910256E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.949995348430214E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.949995348430214E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.949995348430214E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.949995348430214E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.949995348430214E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.9531762510013157E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.9531762510013157E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.9531762510013157E-4 (1)
class BIOSYNTHESIS IF : 0.816496580927726<=scoreRea<=1.0 ^ 47.76450951875451<=scoreProtTaxo<=50.98652966122344 ^ 2.1185263033224013E-
4<=scorePageRankTopoDiv<=2.1600534257846586E-4 (8)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 36.540114942347955<=scoreProtTaxo<=82.17086870774837 ^ 1.937781347734718E-4<=scorePageRankTopoDiv<=1.9884189741881033E-4
(5)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.0858327937595459E-4 (3)
class DEGRADATION IF : 0.5<=scoreRea<=0.6666666666666666 ^ 0.0<=scoreProtTaxo<=0.23909335856687908 ^ 5.14245539920205E-
5<=scorePageRankTopoDiv<=5.2248192997044404E-5 (2)
![Page 221: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/221.jpg)
class DEGRADATION IF : scoreRea=0.5773502691896257 ^ scoreProtTaxo=10.708252269475352 ^ scorePageRankTopoDiv=4.3863073235157044E-5 (4)
class DEGRADATION IF : scoreRea=0.5204164998665332 ^ scoreProtTaxo=0.016552321931456043 ^ scorePageRankTopoDiv=5.8244475092978616E-5 (3)
class DEGRADATION IF : 0.4815434123430768<=scoreRea<=0.5270462766947299 ^ 5.302581851067899<=scoreProtTaxo<=26.991510355854377 ^ 4.416873060053648E-
5<=scorePageRankTopoDiv<=4.553895986069906E-5 (8)
class DEGRADATION IF : scoreRea=0.40206235255037975 ^ scoreProtTaxo=0.13622903541171683 ^ scorePageRankTopoDiv=4.997238646394681E-5 (2)
class DEGRADATION IF : 0.3660422490704798<=scoreRea<=0.4009791936316524 ^ scoreProtTaxo=0.0 ^ 4.527498930521919E-5<=scorePageRankTopoDiv<=5.232264527040059E-5
(9)
class DEGRADATION IF : scoreRea=0.5773502691896257 ^ scoreProtTaxo=14.091571161109593 ^ scorePageRankTopoDiv=5.12001351746207E-5 (3)
class DEGRADATION IF : scoreRea=0.49507377148833714 ^ scoreProtTaxo=15.88328747496267 ^ scorePageRankTopoDiv=4.960844882259927E-5 (2)
class DEGRADATION IF : 1.4142135623730951<=scoreRea<=1.479019945774904 ^ 111.3342879535984<=scoreProtTaxo<=166.54816786762024 ^ 7.25833440866257E-
5<=scorePageRankTopoDiv<=1.0975966596067927E-4 (10)
class BIOSYNTHESIS IF : 1.5075567228888183<=scoreRea<=2.603165493823874 ^ 5.269272036115494<=scoreProtTaxo<=119.16506409178824 ^ 2.3669319923014094E-
4<=scorePageRankTopoDiv<=2.437145494220669E-4 (14)
class DEGRADATION IF : 1.5811388300841898<=scoreRea<=2.6781362536479447 ^ 584.5628440521533<=scoreProtTaxo<=666.740154779605 ^ 1.157368098759784E-
4<=scorePageRankTopoDiv<=1.225025970323636E-4 (10)
class BIOSYNTHESIS IF : 1.632993161855452<=scoreRea<=1.6803361008336117 ^ 20.78385916888681<=scoreProtTaxo<=44.42351344438902 ^ 1.0010568571973802E-
4<=scorePageRankTopoDiv<=1.1442075717380128E-4 (6)
class DEGRADATION IF : 1.118033988749895<=scoreRea<=1.1547005383792515 ^ 0.0<=scoreProtTaxo<=14.184817258713263 ^ 6.002402324748907E-
5<=scorePageRankTopoDiv<=6.562770578714856E-5 (8)
class BIOSYNTHESIS IF : 0.8451542547285166<=scoreRea<=1.0 ^ 0.30623781212204<=scoreProtTaxo<=11.104941597822085 ^ 3.200660241923604E-
4<=scorePageRankTopoDiv<=3.2727400494463895E-4 (16)
class OTHER IF : scoreRea=1.1547005383792515 ^ scoreProtTaxo=155.03320327485167 ^ scorePageRankTopoDiv=5.203261468978073E-4 (4)
class ENERGY IF : scoreRea=1.5275252316519465 ^ scoreProtTaxo=78.96656333862784 ^ scorePageRankTopoDiv=4.8518016538646547E-4 (6)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=98.47761194044129 ^ scorePageRankTopoDiv=1.957910023569396E-4 (4)
class OTHER IF : scoreRea=1.6733200530681511 ^ scoreProtTaxo=134.6667040504943 ^ scorePageRankTopoDiv=2.477764007401312E-4 (4)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=182.37761461514177 ^ scorePageRankTopoDiv=1.8050963412305737E-4 (5)
class BIOSYNTHESIS IF : 2.0<=scoreRea<=3.599307891947848 ^ 24.143490363208702<=scoreProtTaxo<=30.982865119868915 ^ 1.4079240203545475E-
4<=scorePageRankTopoDiv<=1.837625287804995E-4 (15)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 2.7176809938656905E-4<=scorePageRankTopoDiv<=2.78362307436891E-4 (13)
class BIOSYNTHESIS IF : 0.8660254037844386<=scoreRea<=0.875 ^ 24.173221809594498<=scoreProtTaxo<=97.10127929827577 ^ 1.8046478519252122E-
4<=scorePageRankTopoDiv<=1.893923822891509E-4 (10)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=62.08 ^ scorePageRankTopoDiv=1.7565831571757722E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=62.08 ^ scorePageRankTopoDiv=1.7565831571757722E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=62.08 ^ scorePageRankTopoDiv=1.7565831571757722E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=62.08 ^ scorePageRankTopoDiv=1.7565831571757722E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=62.08 ^ scorePageRankTopoDiv=1.7565831571757722E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=62.08 ^ scorePageRankTopoDiv=1.7565831571757722E-4 (1)
class DEGRADATION IF : 1.0<=scoreRea<=1.2747548783981961 ^ 323.06434708214323<=scoreProtTaxo<=348.6018716603964 ^ 2.2611343905604424E-
4<=scorePageRankTopoDiv<=2.394123836587127E-4 (12)
class ENERGY IF : scoreRea=0.5499938233462375 ^ scoreProtTaxo=0.24390229293905932 ^ scorePageRankTopoDiv=9.226288738251106E-5 (2)
class DEGRADATION IF : 1.0<=scoreRea<=2.0 ^ scoreProtTaxo=0.0 ^ 2.3317278855135453E-4<=scorePageRankTopoDiv<=2.3500344066533635E-4 (10)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=133.96708783565958 ^ scorePageRankTopoDiv=6.738461316833523E-5 (4)
class BIOSYNTHESIS IF : 1.4832396974191324<=scoreRea<=1.5811388300841898 ^ 59.895785832823506<=scoreProtTaxo<=95.77418042847671 ^ 7.888130487513908E-
5<=scorePageRankTopoDiv<=8.290489402761552E-5 (6)
class BIOSYNTHESIS IF : 0.8498365855987975<=scoreRea<=0.9409062968745655 ^ 0.0016810934937112564<=scoreProtTaxo<=0.06871710562352357 ^ 6.784842619768464E-
5<=scorePageRankTopoDiv<=8.338034364305354E-5 (9)
class BIOSYNTHESIS IF : scoreRea=0.8660254037844386 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=4.579874297896567E-4 (5)
class BIOSYNTHESIS IF : scoreRea=0.8944271909999159 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.360444663747284E-5 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=8.003254587501279E-5 (2)
class BIOSYNTHESIS IF : 0.7559289460184544<=scoreRea<=0.7745966692414834 ^ 12.539028237715506<=scoreProtTaxo<=44.35291965001249 ^ 7.829635104071791E-
5<=scorePageRankTopoDiv<=8.138212095481503E-5 (6)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=6.909731573460145E-5 (2)
class BIOSYNTHESIS IF : 0.5686020318963798<=scoreRea<=1.0 ^ 1.17006376814294<=scoreProtTaxo<=15.116611197217916 ^ 6.222498549850633E-
5<=scorePageRankTopoDiv<=6.792037491680598E-5 (25)
class BIOSYNTHESIS IF : 0.7745966692414834<=scoreRea<=0.8401680504168059 ^ 0.0<=scoreProtTaxo<=0.02560781728536047 ^ 7.752753433104671E-
5<=scorePageRankTopoDiv<=8.090769330609419E-5 (17)
class BIOSYNTHESIS IF : 0.9746794344808964<=scoreRea<=1.0677078252031313 ^ 14.589835855947749<=scoreProtTaxo<=23.80429742569377 ^ 7.06951028591058E-
5<=scorePageRankTopoDiv<=8.300133176747531E-5 (12)
class BIOSYNTHESIS IF : scoreRea=0.8498365855987975 ^ scoreProtTaxo=0.177013407153926 ^ scorePageRankTopoDiv=7.63505306242672E-5 (4)
class BIOSYNTHESIS IF : 0.8660254037844386<=scoreRea<=0.9337945803757379 ^ 1.6061868465479219<=scoreProtTaxo<=4.494491622781928 ^ 7.529262716106472E-
5<=scorePageRankTopoDiv<=8.297530221176349E-5 (15)
class BIOSYNTHESIS IF : 0.9128709291752768<=scoreRea<=0.9393364366277243 ^ scoreProtTaxo=0.0 ^ 6.770404143475374E-5<=scorePageRankTopoDiv<=8.093676806635258E-5
(15)
class BIOSYNTHESIS IF : scoreRea=0.8944271909999159 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.360444663747284E-5 (1)
class BIOSYNTHESIS IF : scoreRea=0.8944271909999159 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.360444663747284E-5 (1)
class BIOSYNTHESIS IF : scoreRea=0.8944271909999159 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.360444663747284E-5 (1)
class BIOSYNTHESIS IF : scoreRea=0.8944271909999159 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.360444663747284E-5 (1)
class BIOSYNTHESIS IF : scoreRea=0.8944271909999159 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.360444663747284E-5 (1)
![Page 222: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/222.jpg)
class DEGRADATION IF : 1.632993161855452<=scoreRea<=2.091650066335189 ^ 191.5456894304651<=scoreProtTaxo<=210.79414812610932 ^ 4.456873199567818E-
5<=scorePageRankTopoDiv<=1.0264834960969904E-4 (13)
class DEGRADATION IF : scoreRea=0.816496580927726 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1563460165761201E-4 (8)
class BIOSYNTHESIS IF : scoreRea=0.816496580927726 ^ scoreProtTaxo=0.0 ^ 1.0779997582493334E-4<=scorePageRankTopoDiv<=1.088867514795E-4 (8)
class DEGRADATION IF : scoreRea=0.408248290463863 ^ 693.9891871031006<=scoreProtTaxo<=693.9891871031007 ^ scorePageRankTopoDiv=3.965053058062261E-5 (5)
class BIOSYNTHESIS IF : scoreRea=1.3764944032233706 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.297047059087296E-4 (3)
class BIOSYNTHESIS IF : 2.0816659994661326<=scoreRea<=2.3717082451262845 ^ scoreProtTaxo=0.0 ^ 5.9536362836406984E-5<=scorePageRankTopoDiv<=6.25878900045181E-5
(7)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.586188952919566E-4<=scorePageRankTopoDiv<=1.6139523269247927E-4 (9)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.600797153717709E-4 (6)
class OTHER IF : scoreRea=0.5773502691896257 ^ scoreProtTaxo=273.0486322170335 ^ scorePageRankTopoDiv=1.231543277680165E-4 (4)
class OTHER IF : scoreRea=0.5773502691896257 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.563974202385334E-4 (3)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.2335250775941675E-4<=scorePageRankTopoDiv<=1.265765156839868E-4 (16)
class DEGRADATION IF : 0.3279129178919765<=scoreRea<=0.3472581680740104 ^ 0.7273447634270425<=scoreProtTaxo<=8.65324902488168 ^ 3.5399426680855433E-
5<=scorePageRankTopoDiv<=3.606821312576429E-5 (8)
class DEGRADATION IF : 0.05455447255899809<=scoreRea<=0.2932942300427066 ^ 0.25293043138551174<=scoreProtTaxo<=0.33751706318369323 ^ 3.2713651128993574E-
5<=scorePageRankTopoDiv<=3.28222925273825E-5 (6)
class DEGRADATION IF : 0.19851666679418606<=scoreRea<=0.23186944788008415 ^ 0.6566412741523572<=scoreProtTaxo<=0.7369488592380905 ^ 2.59483006037133E-
5<=scorePageRankTopoDiv<=4.8209446960439775E-5 (8)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.2680075462137053 ^ 4.603361687122849<=scoreProtTaxo<=41.2899157526239 ^ 1.0821870668621276E-
4<=scorePageRankTopoDiv<=1.1191554303089209E-4 (15)
class ENERGY IF : scoreRea=1.0 ^ 1.9240469741764585<=scoreProtTaxo<=3.0367993898542833 ^ 2.795286934123438E-4<=scorePageRankTopoDiv<=2.802591027677582E-4 (11)
class BIOSYNTHESIS IF : 0.8660254037844386<=scoreRea<=1.0 ^ 497.4811236160592<=scoreProtTaxo<=602.306197130625 ^ 1.541920177321397E-
4<=scorePageRankTopoDiv<=1.8564108971871575E-4 (16)
class BIOSYNTHESIS IF : scoreRea=0.8451542547285166 ^ scoreProtTaxo=56.932828304728304 ^ scorePageRankTopoDiv=2.157200922979042E-4 (8)
class DEGRADATION IF : scoreRea=0.5 ^ 57.502569112561936<=scoreProtTaxo<=121.94027845951078 ^ 1.128535739524047E-4<=scorePageRankTopoDiv<=1.1651066441705652E-4
(12)
class ENERGY IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.541628528851764E-4 (5)
class BIOSYNTHESIS IF : 0.14907119849998599<=scoreRea<=0.19069251784911848 ^ scoreProtTaxo=0.0 ^ 1.1983187389885847E-4<=scorePageRankTopoDiv<=1.2350455368527547E-
4 (17)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.1547005383792515 ^ 341.9994152038561<=scoreProtTaxo<=432.5671693840806 ^ 1.3935397686345004E-
4<=scorePageRankTopoDiv<=2.0186555161189252E-4 (13)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=49.001253116811654 ^ scorePageRankTopoDiv=2.1604982948739978E-4 (4)
class BIOSYNTHESIS IF : scoreRea=2.1821789023599236 ^ 39.831974039532746<=scoreProtTaxo<=179.69948040487637 ^ 1.2335020656697353E-
4<=scorePageRankTopoDiv<=1.2529655370089888E-4 (9)
class DEGRADATION IF : 0.3779644730092272<=scoreRea<=2.8284271247461903 ^ 177.27383616031477<=scoreProtTaxo<=803.3713373151944 ^ 4.885814936234887E-
4<=scorePageRankTopoDiv<=9.091077403187453E-4 (24)
class BIOSYNTHESIS IF : 1.6803361008336117<=scoreRea<=1.7320508075688772 ^ scoreProtTaxo=0.0 ^ 8.121377612071065E-5<=scorePageRankTopoDiv<=1.603705539214256E-4
(27)
class BIOSYNTHESIS IF : scoreRea=0.28867513459481287 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=4.585763562318558E-5 (5)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=121.67338448569586 ^ scorePageRankTopoDiv=3.04041959804783E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.986663014466144E-4 (4)
class BIOSYNTHESIS IF : 1.4719601443879744<=scoreRea<=2.3664319132398464 ^ 45.53429513784011<=scoreProtTaxo<=932.2968192705277 ^ 3.044045057770998E-
4<=scorePageRankTopoDiv<=3.140651876434628E-4 (10)
class BIOSYNTHESIS IF : scoreRea=0.5773502691896257 ^ 78.53198537713274<=scoreProtTaxo<=225.0807262591772 ^ 2.937946919422816E-
4<=scorePageRankTopoDiv<=2.942659660207085E-4 (3)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=285.99815137299225 ^ scorePageRankTopoDiv=2.923036083262068E-4 (1)
class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=0.7071067811865476 ^ 26.41275546024839<=scoreProtTaxo<=35.66680826927385 ^ 1.6856849441304446E-
4<=scorePageRankTopoDiv<=2.937946919422816E-4 (12)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 2.852833775240388E-4<=scorePageRankTopoDiv<=2.928124535837693E-4 (8)
class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=1.0 ^ 45.09288417624395<=scoreProtTaxo<=54.4827917683569 ^ 2.8113486581252486E-
4<=scorePageRankTopoDiv<=2.932166491447716E-4 (4)
class BIOSYNTHESIS IF : 0.816496580927726<=scoreRea<=1.0 ^ 219.6139314557716<=scoreProtTaxo<=313.8967414084758 ^ 3.0475815198214423E-
4<=scorePageRankTopoDiv<=4.330581559433888E-4 (14)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=121.67338448569586 ^ scorePageRankTopoDiv=3.04041959804783E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=121.67338448569586 ^ scorePageRankTopoDiv=3.04041959804783E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=121.67338448569586 ^ scorePageRankTopoDiv=3.04041959804783E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=121.67338448569586 ^ scorePageRankTopoDiv=3.04041959804783E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=121.67338448569586 ^ scorePageRankTopoDiv=3.04041959804783E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=121.67338448569586 ^ scorePageRankTopoDiv=3.04041959804783E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0627378626481143 ^ scoreProtTaxo=14.486564680584186 ^ scorePageRankTopoDiv=9.949604816272946E-5 (2)
class BIOSYNTHESIS IF : 1.5491933384829668<=scoreRea<=2.1821789023599236 ^ 142.8863813467606<=scoreProtTaxo<=185.9283985016919 ^ 7.862328457920213E-
5<=scorePageRankTopoDiv<=9.674459453709227E-5 (12)
class BIOSYNTHESIS IF : scoreRea=1.5811388300841898 ^ scoreProtTaxo=0.0 ^ 1.0832471275904642E-4<=scorePageRankTopoDiv<=2.1066550166109774E-4 (10)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.4638501094227998 ^ 12.14962939259461<=scoreProtTaxo<=108.73214139078968 ^ 1.0053122452362036E-
4<=scorePageRankTopoDiv<=1.0546017914666305E-4 (21)
class BIOSYNTHESIS IF : 0.2721655269759087<=scoreRea<=0.3333333333333333 ^ 0.05036843346547486<=scoreProtTaxo<=13.077240249309709 ^ 8.138689745012818E-
5<=scorePageRankTopoDiv<=8.319487741294502E-5 (5)
![Page 223: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/223.jpg)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=682.9083793205016 ^ scorePageRankTopoDiv=2.872901893809181E-4 (3)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.3216355016187466E-4 (3)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1483565662018686E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1483565662018686E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1483565662018686E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1483565662018686E-4 (1)
class BIOSYNTHESIS IF : 0.9860132971832692<=scoreRea<=1.1881770515720091 ^ 7.361536602560318<=scoreProtTaxo<=25.652671227146858 ^ 1.1411806238879287E-
4<=scorePageRankTopoDiv<=1.1821792846611631E-4 (12)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1999325120544981E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1999325120544981E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1999325120544981E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.30151134457776363 ^ scoreProtTaxo=2.507459960924724 ^ scorePageRankTopoDiv=1.315802702417396E-4 (3)
class BIOSYNTHESIS IF : scoreRea=0.45199676466631616 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.5221281088250244E-5 (4)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.3482641633356434E-4 (3)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.531695890641126E-4 (2)
class BIOSYNTHESIS IF : scoreRea=0.6488856845230502 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.864916424241607E-5 (2)
class BIOSYNTHESIS IF : scoreRea=0.5865884600854132 ^ scoreProtTaxo=0.016846010778338756 ^ scorePageRankTopoDiv=9.209075396229983E-5 (6)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.609763911820804E-4 (1)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.2111995434628557E-4 (2)
class DEGRADATION IF : 0.816496580927726<=scoreRea<=1.0 ^ scoreProtTaxo=0.0 ^ 2.1095525286325407E-4<=scorePageRankTopoDiv<=2.156046925054501E-4 (8)
class DEGRADATION IF : scoreRea=0.3535533905932738 ^ scoreProtTaxo=28.234455298768772 ^ scorePageRankTopoDiv=2.8703446527435645E-4 (1)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 2.2527573199519746E-4<=scorePageRankTopoDiv<=2.2746501665296874E-4 (5)
class DEGRADATION IF : scoreRea=0.8819171036881968 ^ scoreProtTaxo=49.44565641564656 ^ scorePageRankTopoDiv=2.2699784921029255E-4 (4)
class DEGRADATION IF : scoreRea=1.632993161855452 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.5577683916162976E-4 (1)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=130.2781338404075 ^ scorePageRankTopoDiv=2.89016577371395E-4 (3)
class DEGRADATION IF : scoreRea=1.224744871391589 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.8718895603203323E-4 (5)
class DEGRADATION IF : 0.4472135954999579<=scoreRea<=0.5 ^ 26.098002609031003<=scoreProtTaxo<=61.54997969131992 ^ 2.0504604532525092E-
4<=scorePageRankTopoDiv<=2.9372551216232394E-4 (10)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.8232844640266373E-4 (1)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.405203763478195E-4 (3)
class BIOSYNTHESIS IF : scoreRea=1.2909944487358056 ^ scoreProtTaxo=7.863722682721194 ^ scorePageRankTopoDiv=4.7724352816539794E-4 (3)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=174.41293300255478 ^ scorePageRankTopoDiv=4.233778112332431E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.7182091341019847E-4 (3)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.642818610374926E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.642818610374926E-4 (1)
class DEGRADATION IF : scoreRea=0.5 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.09543945507385E-5 (4)
class DEGRADATION IF : 0.2773500981126146<=scoreRea<=0.29277002188455997 ^ 51.76085988447591<=scoreProtTaxo<=79.27139361808803 ^ 2.9101694011063927E-
5<=scorePageRankTopoDiv<=4.9277085691789035E-5 (7)
class DEGRADATION IF : scoreRea=0.30403449605253013 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.188925859954084E-5 (4)
class DEGRADATION IF : 0.28867513459481287<=scoreRea<=0.3535533905932738 ^ scoreProtTaxo=0.0 ^ 2.8531030310799123E-5<=scorePageRankTopoDiv<=2.915896725059666E-5
(8)
class DEGRADATION IF : 0.31154265122036146<=scoreRea<=0.3660422490704798 ^ 0.0<=scoreProtTaxo<=0.18601989901028204 ^ 3.086599717478484E-
5<=scorePageRankTopoDiv<=3.1162427507990004E-5 (5)
class DEGRADATION IF : scoreRea=0.3535533905932738 ^ 18.295026892033253<=scoreProtTaxo<=135.57699032842908 ^ 3.549749858825105E-
5<=scorePageRankTopoDiv<=3.687615953751601E-5 (4)
class DEGRADATION IF : scoreRea=0.4472135954999579 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.891465433234945E-5 (3)
class DEGRADATION IF : 0.4472135954999579<=scoreRea<=0.6030226891555273 ^ 14.888777232157643<=scoreProtTaxo<=25.93340227167837 ^ 2.719160309303253E-
5<=scorePageRankTopoDiv<=3.413336931846702E-5 (10)
class DEGRADATION IF : 2.0<=scoreRea<=2.449489742783178 ^ scoreProtTaxo=0.0 ^ 7.75568091423706E-5<=scorePageRankTopoDiv<=9.184702952142395E-5 (4)
class OTHER IF : 1.3333333333333333<=scoreRea<=2.449489742783178 ^ 12.23396062108038<=scoreProtTaxo<=196.6616989567411 ^ 3.1706889880715245E-
4<=scorePageRankTopoDiv<=3.2628709644987394E-4 (15)
class BIOSYNTHESIS IF : scoreRea=0.408248290463863 ^ scoreProtTaxo=17.289366675040693 ^ scorePageRankTopoDiv=2.6039275168697428E-5 (8)
class BIOSYNTHESIS IF : scoreRea=2.0 ^ scoreProtTaxo=404.46246448531906 ^ scorePageRankTopoDiv=4.133797272255148E-4 (1)
class BIOSYNTHESIS IF : 2.6233033431358117<=scoreRea<=3.3189795118379384 ^ 0.018034925656415072<=scoreProtTaxo<=0.03610143342723248 ^ 2.2962848986681343E-
4<=scorePageRankTopoDiv<=4.167988354063402E-4 (6)
class BIOSYNTHESIS IF : 1.4142135623730951<=scoreRea<=1.7320508075688772 ^ scoreProtTaxo=0.0 ^ 4.3390899382588383E-4<=scorePageRankTopoDiv<=5.594139963627898E-4
(8)
class BIOSYNTHESIS IF : 2.4748737341529163<=scoreRea<=2.54000254000381 ^ 0.9842135491902679<=scoreProtTaxo<=83.28699216797433 ^ 3.831836775900027E-
4<=scorePageRankTopoDiv<=3.9007559818462736E-4 (2)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 6.301529812221773E-5<=scorePageRankTopoDiv<=6.679401603124203E-5 (5)
class DEGRADATION IF : 0.2478788664079178<=scoreRea<=0.3637867197989336 ^ 0.10714265193236548<=scoreProtTaxo<=0.3162759272716693 ^ 6.607743171125309E-
5<=scorePageRankTopoDiv<=6.844104169344639E-5 (6)
class BIOSYNTHESIS IF : 2.449489742783178<=scoreRea<=4.558423058385518 ^ 47.09028349250943<=scoreProtTaxo<=192.5298544265061 ^ 1.0265239631480663E-
4<=scorePageRankTopoDiv<=1.0519340961076511E-4 (6)
class BIOSYNTHESIS IF : 0.5477225575051662<=scoreRea<=0.7071067811865476 ^ 23.04241130879896<=scoreProtTaxo<=25.763761925834835 ^ 6.524395329840937E-
5<=scorePageRankTopoDiv<=7.127803006092852E-5 (3)
class DEGRADATION IF : 0.26111648393354675<=scoreRea<=0.2626128657194451 ^ 10.200574818917099<=scoreProtTaxo<=58.56007336799859 ^ 4.156525024183641E-
5<=scorePageRankTopoDiv<=5.010702370674141E-5 (5)
![Page 224: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/224.jpg)
class BIOSYNTHESIS IF : scoreRea=0.3872983346207417 ^ scoreProtTaxo=14.062439847057187 ^ scorePageRankTopoDiv=3.57718714206892E-5 (13)
class BIOSYNTHESIS IF : 0.3457459036417604<=scoreRea<=0.35805743701971643 ^ 12.185683561383481<=scoreProtTaxo<=60.85843502945625 ^ 3.949727682687551E-
5<=scorePageRankTopoDiv<=4.8160184062752934E-5 (9)
class BIOSYNTHESIS IF : scoreRea=0.31622776601683794 ^ scoreProtTaxo=40.35275850475697 ^ scorePageRankTopoDiv=3.873442937778711E-5 (1)
class BIOSYNTHESIS IF : scoreRea=0.1224744871391589 ^ scoreProtTaxo=20.90744024523745 ^ scorePageRankTopoDiv=3.659757676415439E-5 (5)
class BIOSYNTHESIS IF : scoreRea=0.21693045781865616 ^ scoreProtTaxo=1.581334155432704 ^ scorePageRankTopoDiv=3.84149619368706E-5 (2)
class BIOSYNTHESIS IF : scoreRea=0.2581988897471611 ^ scoreProtTaxo=7.811297292035066 ^ scorePageRankTopoDiv=3.7324173731263076E-5 (2)
class BIOSYNTHESIS IF : 0.2672612419124244<=scoreRea<=0.2773500981126146 ^ 15.767142540186411<=scoreProtTaxo<=60.83421144432251 ^ 2.227982915180602E-
5<=scorePageRankTopoDiv<=2.8170111704260316E-5 (16)
class DEGRADATION IF : scoreRea=0.2282177322938192 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.0179017746654186E-5 (1)
class DEGRADATION IF : 0.5773502691896257<=scoreRea<=0.6454972243679027 ^ 0.0<=scoreProtTaxo<=0.3172590498740863 ^ 7.422303094299724E-
5<=scorePageRankTopoDiv<=8.034981572344388E-5 (8)
class BIOSYNTHESIS IF : 0.2041241452319315<=scoreRea<=0.3578810105803186 ^ 0.0<=scoreProtTaxo<=1.4727924657147426 ^ 5.965447660311724E-
5<=scorePageRankTopoDiv<=6.308082194836142E-5 (13)
class ENERGY IF : 0.7385489458759964<=scoreRea<=0.7912565680749444 ^ 24.12140312237191<=scoreProtTaxo<=71.73402074191125 ^ 1.7392856210161315E-
4<=scorePageRankTopoDiv<=2.1357981861322832E-4 (10)
class DEGRADATION IF : scoreRea=2.0 ^ scoreProtTaxo=8.959013470267083 ^ scorePageRankTopoDiv=2.608700894174257E-4 (3)
class DEGRADATION IF : scoreRea=0.28867513459481287 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=4.605630158757446E-5 (2)
class BIOSYNTHESIS IF : scoreRea=0.19245008972987526 ^ scoreProtTaxo=32.10799423357924 ^ scorePageRankTopoDiv=8.527890121925288E-5 (4)
class ENERGY IF : scoreRea=0.24253562503633297 ^ scoreProtTaxo=2.2987411082902036 ^ scorePageRankTopoDiv=2.466515140945271E-5 (2)
class BIOSYNTHESIS IF : scoreRea=0.6009252125773316 ^ scoreProtTaxo=0.1446951787120938 ^ scorePageRankTopoDiv=1.4356825744751527E-4 (2)
class BIOSYNTHESIS IF : 0.408248290463863<=scoreRea<=0.4472135954999579 ^ scoreProtTaxo=0.0 ^ 1.0936108451902584E-4<=scorePageRankTopoDiv<=1.1208874171937474E-4
(12)
class OTHER IF : 1.0<=scoreRea<=1.7320508075688772 ^ scoreProtTaxo=0.0 ^ 5.844004545899021E-4<=scorePageRankTopoDiv<=5.926013986908866E-4 (7)
class DEGRADATION IF : 3.2071349029490923<=scoreRea<=3.4641016151377544 ^ scoreProtTaxo=0.0 ^ 7.84789069021558E-5<=scorePageRankTopoDiv<=1.700829014660686E-4
(17)
class BIOSYNTHESIS IF : 0.06537204504606135<=scoreRea<=0.10741723110591495 ^ 19.350235633395865<=scoreProtTaxo<=126.00744288078114 ^ 6.66200616101798E-
5<=scorePageRankTopoDiv<=8.067388019590874E-5 (20)
class OTHER IF : scoreRea=1.0954451150103324 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=8.47493446785784E-5 (1)
class DEGRADATION IF : scoreRea=2.0976176963403033 ^ scoreProtTaxo=91.32623089960902 ^ scorePageRankTopoDiv=1.8669124202801856E-4 (4)
class DEGRADATION IF : scoreRea=0.3086066999241838 ^ scoreProtTaxo=43.62489741937418 ^ scorePageRankTopoDiv=4.394931004141637E-5 (3)
class BIOSYNTHESIS IF : scoreRea=0.408248290463863 ^ 0.1693690883496217<=scoreProtTaxo<=55.94009746764132 ^ 1.2915211751054413E-
4<=scorePageRankTopoDiv<=1.318723082960551E-4 (2)
class BIOSYNTHESIS IF : 0.31622776601683794<=scoreRea<=0.3892494720807615 ^ 0.0<=scoreProtTaxo<=0.8046255931149046 ^ 1.256658419610188E-
4<=scorePageRankTopoDiv<=1.2611462768251616E-4 (3)
class BIOSYNTHESIS IF : 0.14824986333222023<=scoreRea<=0.408248290463863 ^ 20.91549697888896<=scoreProtTaxo<=33.39177500970544 ^ 9.893705866072709E-
5<=scorePageRankTopoDiv<=1.0299665425326959E-4 (5)
class DETOX IF : scoreRea=1.7320508075688772 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.5605297194339116E-4 (3)
class BIOSYNTHESIS IF : 1.4142135623730951<=scoreRea<=8.090398349558905 ^ 0.0<=scoreProtTaxo<=34.94361669771234 ^ 6.113644840014297E-
4<=scorePageRankTopoDiv<=6.86861693231527E-4 (11)
class BIOSYNTHESIS IF : 0.3779644730092272<=scoreRea<=0.40206235255037975 ^ 0.0<=scoreProtTaxo<=0.6415802624320309 ^ 4.10208090166561E-
5<=scorePageRankTopoDiv<=4.4058285781172826E-5 (8)
class OTHER IF : scoreRea=0.3429971702850177 ^ scoreProtTaxo=12.779161504403755 ^ scorePageRankTopoDiv=2.709465462200697E-5 (4)
class BIOSYNTHESIS IF : 0.9039935293326323<=scoreRea<=0.9117917111913264 ^ 0.014986097067932382<=scoreProtTaxo<=0.12752196982754047 ^ 5.562663384351787E-
5<=scorePageRankTopoDiv<=6.28153376933005E-5 (7)
class DEGRADATION IF : 2.100420126042015<=scoreRea<=2.309401076758503 ^ 0.27763102616899094<=scoreProtTaxo<=20.427731716836988 ^ 1.0491226408433257E-
4<=scorePageRankTopoDiv<=1.5280871764678444E-4 (8)
class BIOSYNTHESIS IF : 0.5<=scoreRea<=0.7071067811865476 ^ 63.563996258345064<=scoreProtTaxo<=121.17298334143021 ^ 5.0986526676321536E-
5<=scorePageRankTopoDiv<=5.673579070415349E-5 (14)
class OTHER IF : scoreRea=1.0 ^ scoreProtTaxo=98.47761194044129 ^ scorePageRankTopoDiv=1.8256592974131777E-4 (6)
class BIOSYNTHESIS IF : 0.1386750490563073<=scoreRea<=0.15191090506255 ^ 178.2014346819538<=scoreProtTaxo<=295.8907046596878 ^ 1.1409009550231638E-
4<=scorePageRankTopoDiv<=1.3709365853150742E-4 (7)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.6282912934427522E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.4472135954999579 ^ scoreProtTaxo=41.94715730728113 ^ scorePageRankTopoDiv=1.6197739285580512E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.6201736729460423 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.4969734830735088E-4 (4)
class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=0.7071067811865476 ^ 54.014760540597656<=scoreProtTaxo<=473.23239832180855 ^ 1.6067019311958588E-
4<=scorePageRankTopoDiv<=1.689506791098228E-4 (17)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.6282912934427522E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.6282912934427522E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.6282912934427522E-4 (1)
class DEGRADATION IF : scoreRea=0.18257418583505536 ^ scoreProtTaxo=22.268720038735957 ^ scorePageRankTopoDiv=6.369478121980365E-5 (1)
class DEGRADATION IF : 0.30950774330130126<=scoreRea<=0.35007002100700246 ^ 0.2474538250752462<=scoreProtTaxo<=19.268303014858162 ^ 7.648579923948595E-
5<=scorePageRankTopoDiv<=7.952826632257314E-5 (7)
class DEGRADATION IF : scoreRea=0.21320071635561044 ^ scoreProtTaxo=21.764641378281617 ^ scorePageRankTopoDiv=7.768413224144437E-5 (3)
class DEGRADATION IF : scoreRea=0.14213381090374028 ^ scoreProtTaxo=113.04884267889307 ^ scorePageRankTopoDiv=7.340639209575947E-5 (3)
class DEGRADATION IF : scoreRea=0.3039305703971088 ^ scoreProtTaxo=0.056819613421865284 ^ scorePageRankTopoDiv=5.170939021601188E-5 (5)
class DEGRADATION IF : scoreRea=0.2041241452319315 ^ scoreProtTaxo=40.89029742320763 ^ scorePageRankTopoDiv=5.026181979438789E-5 (2)
![Page 225: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/225.jpg)
class DEGRADATION IF : 0.11605177063713189<=scoreRea<=0.19069251784911848 ^ scoreProtTaxo=0.0 ^ 7.625650949316087E-5<=scorePageRankTopoDiv<=8.56468047874572E-5
(12)
class DEGRADATION IF : scoreRea=0.3779644730092272 ^ scoreProtTaxo=17.676317209375433 ^ scorePageRankTopoDiv=5.840067482207978E-5 (2)
class DEGRADATION IF : 0.1690308509457033<=scoreRea<=0.2614881801842454 ^ 2.770913290327486<=scoreProtTaxo<=4.389269595667062 ^ 6.872439206549558E-
5<=scorePageRankTopoDiv<=6.900065823830583E-5 (7)
class BIOSYNTHESIS IF : scoreRea=0.816496580927726 ^ scoreProtTaxo=29.381948174963497 ^ scorePageRankTopoDiv=1.3811067031774507E-4 (6)
class BIOSYNTHESIS IF : 0.4731054880004788<=scoreRea<=0.655825835783953 ^ 0.2129451608611354<=scoreProtTaxo<=0.5425207638665946 ^ 4.3947989392497114E-
5<=scorePageRankTopoDiv<=4.553160486790778E-5 (9)
class DEGRADATION IF : 1.0<=scoreRea<=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ 3.779069584777629E-4<=scorePageRankTopoDiv<=3.9300224993881345E-4 (6)
class BIOSYNTHESIS IF : scoreRea=1.949358868961793 ^ scoreProtTaxo=16.89414776770891 ^ scorePageRankTopoDiv=1.0185105332063447E-4 (3)
class DEGRADATION IF : scoreRea=2.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.5710299375717E-4 (2)
class BIOSYNTHESIS IF : 0.7071067811865476<=scoreRea<=0.816496580927726 ^ 297.3580011933267<=scoreProtTaxo<=3913.2410008347624 ^ 6.448584985880469E-
5<=scorePageRankTopoDiv<=1.194769514392008E-4 (26)
class DETOX IF : 0.7071067811865476<=scoreRea<=0.816496580927726 ^ scoreProtTaxo=0.0 ^ 2.990628864272763E-4<=scorePageRankTopoDiv<=3.081020677346779E-4 (5)
class BIOSYNTHESIS IF : scoreRea=7.155417527999327 ^ scoreProtTaxo=350.7536764461839 ^ scorePageRankTopoDiv=2.2226023968397097E-4 (1)
class BIOSYNTHESIS IF : scoreRea=3.162277660168379 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.4574643740035997E-4 (3)
class BIOSYNTHESIS IF : 1.8027756377319946<=scoreRea<=3.779644730092272 ^ 175.50727843332442<=scoreProtTaxo<=707.9816559175148 ^ 1.4033397296821316E-
4<=scorePageRankTopoDiv<=1.5062995730354858E-4 (12)
class BIOSYNTHESIS IF : scoreRea=4.006187165337532 ^ scoreProtTaxo=0.5162840607074476 ^ scorePageRankTopoDiv=2.3928989987570317E-4 (2)
class BIOSYNTHESIS IF : 4.469039979581783<=scoreRea<=4.9613893835683385 ^ 4.06401447787824<=scoreProtTaxo<=5.9733817144801575 ^ 1.500186914875437E-
4<=scorePageRankTopoDiv<=1.9060320625320944E-4 (4)
class BIOSYNTHESIS IF : 6.324555320336759<=scoreRea<=7.2048401940794085 ^ 0.0<=scoreProtTaxo<=0.027107567624810956 ^ 1.3831447392257697E-
4<=scorePageRankTopoDiv<=4.7412393000109237E-4 (10)
class BIOSYNTHESIS IF : 0.5883484054145521<=scoreRea<=0.7125253031944253 ^ 32.85268093843657<=scoreProtTaxo<=54.451591212359055 ^ 1.0963920554047921E-
4<=scorePageRankTopoDiv<=1.1232116545170716E-4 (8)
class OTHER IF : scoreRea=2.752988806446741 ^ scoreProtTaxo=2.140986903025044 ^ scorePageRankTopoDiv=2.4666729467556E-4 (5)
class DEGRADATION IF : scoreRea=2.690370836538197 ^ scoreProtTaxo=115.30167744007765 ^ scorePageRankTopoDiv=1.21168839895759E-4 (3)
class BIOSYNTHESIS IF : scoreRea=1.8257418583505536 ^ scoreProtTaxo=26.946669963812305 ^ scorePageRankTopoDiv=7.086179282175386E-5 (5)
class DEGRADATION IF : 1.224744871391589<=scoreRea<=1.4142135623730951 ^ 79.17823553516814<=scoreProtTaxo<=224.318621212841 ^ 3.4578481937800454E-
4<=scorePageRankTopoDiv<=3.936306327135957E-4 (8)
class ENERGY IF : scoreRea=0.34992710611188255 ^ scoreProtTaxo=72.64854370442542 ^ scorePageRankTopoDiv=8.914044698560096E-5 (4)
class DEGRADATION IF : 0.03571428571428571<=scoreRea<=0.07151985398521515 ^ 2.3881652599676126<=scoreProtTaxo<=7.670614106764109 ^ 2.091755686439555E-
5<=scorePageRankTopoDiv<=4.027498609978394E-5 (14)
class BIOSYNTHESIS IF : 0.4629100498862757<=scoreRea<=0.4803844614152614 ^ scoreProtTaxo=0.0 ^ 1.2222907282488868E-4<=scorePageRankTopoDiv<=1.2257412972154787E-4
(4)
class BIOSYNTHESIS IF : 0.25819888974716115<=scoreRea<=0.31622776601683794 ^ 124.94102171451942<=scoreProtTaxo<=196.26152482287281 ^ 4.731607333123962E-
5<=scorePageRankTopoDiv<=5.672967459123219E-5 (19)
class ENERGY IF : scoreRea=2.0 ^ 23.043090779329386<=scoreProtTaxo<=171.03718661796125 ^ 8.057833970960894E-4<=scorePageRankTopoDiv<=8.212633348548685E-4 (7)
class OTHER IF : scoreRea=3.24037034920393 ^ scoreProtTaxo=16.520431758983598 ^ scorePageRankTopoDiv=1.376020875302525E-4 (5)
class ENERGY IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.621581168434315E-4 (2)
class ENERGY IF : 2.449489742783178<=scoreRea<=2.8284271247461903 ^ 2.603503540460364<=scoreProtTaxo<=3.416462264904479 ^ 2.0579771942454608E-
4<=scorePageRankTopoDiv<=2.3023325596980624E-4 (7)
class ENERGY IF : scoreRea=1.2018504251546631 ^ scoreProtTaxo=20.306853655091704 ^ scorePageRankTopoDiv=1.3345185313772253E-4 (1)
class ENERGY IF : scoreRea=0.6837634587578277 ^ scoreProtTaxo=73.53967834571104 ^ scorePageRankTopoDiv=1.9846985407949105E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.6454972243679028 ^ scoreProtTaxo=3.0093030929956157 ^ scorePageRankTopoDiv=8.528360635683957E-5 (2)
class BIOSYNTHESIS IF : scoreRea=0.5 ^ scoreProtTaxo=1115.3429503058185 ^ scorePageRankTopoDiv=6.967487895208222E-5 (3)
class DEGRADATION IF : 0.9746794344808964<=scoreRea<=1.0 ^ 7.910932501563312<=scoreProtTaxo<=62.32607531484857 ^ 5.5384972988497854E-
5<=scorePageRankTopoDiv<=5.673579070415349E-5 (3)
class ENERGY IF : scoreRea=0.17407765595569785 ^ scoreProtTaxo=2.5899363590874156 ^ scorePageRankTopoDiv=8.642067746743294E-5 (3)
class ENERGY IF : 0.31491832864888675<=scoreRea<=0.3636920293639972 ^ 14.540992002260255<=scoreProtTaxo<=21.347301650371904 ^ 8.53579169959795E-
5<=scorePageRankTopoDiv<=9.34097088632978E-5 (5)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=25.889356934858828 ^ scorePageRankTopoDiv=1.4266988669730282E-4 (1)
class BIOSYNTHESIS IF : 1.2909944487358056<=scoreRea<=1.311651671567906 ^ 0.0<=scoreProtTaxo<=0.6345180997481727 ^ 1.538649778103079E-
4<=scorePageRankTopoDiv<=1.5705232879669777E-4 (5)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.3814148733742277E-4 (2)
class BIOSYNTHESIS IF : 1.3333333333333333<=scoreRea<=1.4142135623730951 ^ 4.254489402727082<=scoreProtTaxo<=18.837414430363225 ^ 1.2775863673017025E-
4<=scorePageRankTopoDiv<=1.4036841679306012E-4 (6)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=25.889356934858828 ^ scorePageRankTopoDiv=1.4266988669730282E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=25.889356934858828 ^ scorePageRankTopoDiv=1.4266988669730282E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=25.889356934858828 ^ scorePageRankTopoDiv=1.4266988669730282E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=25.889356934858828 ^ scorePageRankTopoDiv=1.4266988669730282E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=25.889356934858828 ^ scorePageRankTopoDiv=1.4266988669730282E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=25.889356934858828 ^ scorePageRankTopoDiv=1.4266988669730282E-4 (1)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=49.53075812056128 ^ scorePageRankTopoDiv=2.128797577747855E-4 (3)
class BIOSYNTHESIS IF : 0.18257418583505536<=scoreRea<=0.454858826147342 ^ 86.68743731527776<=scoreProtTaxo<=154.10754286919666 ^ 8.635506247650476E-
6<=scorePageRankTopoDiv<=1.722019170849132E-5 (6)
class DEGRADATION IF : 0.724568837309472<=scoreRea<=0.7385489458759964 ^ 15.845995698294628<=scoreProtTaxo<=33.91166461882087 ^ 3.330277643310726E-
5<=scorePageRankTopoDiv<=4.1805930719753834E-5 (10)
![Page 226: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/226.jpg)
class BIOSYNTHESIS IF : 0.5400617248673216<=scoreRea<=0.6030226891555273 ^ scoreProtTaxo=0.0 ^ 3.856354313589377E-5<=scorePageRankTopoDiv<=3.972820985848399E-5
(10)
class OTHER IF : scoreRea=0.9428090415820634 ^ scoreProtTaxo=66.20588492072285 ^ scorePageRankTopoDiv=2.242015684498887E-4 (3)
class DEGRADATION IF : scoreRea=2.6457513110645907 ^ scoreProtTaxo=241.16138616799333 ^ scorePageRankTopoDiv=3.360824014842919E-4 (2)
class DEGRADATION IF : 2.0<=scoreRea<=3.2498506536772873 ^ 0.0<=scoreProtTaxo<=0.0024079724851000252 ^ 2.542965180805312E-
4<=scorePageRankTopoDiv<=2.95211782315212E-4 (9)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.0243191704417294E-4 (1)
class DEGRADATION IF : 0.5773502691896257<=scoreRea<=0.8660254037844386 ^ 44.831569115369774<=scoreProtTaxo<=77.27660504356028 ^ 3.1345088576072296E-
4<=scorePageRankTopoDiv<=3.6066606573853435E-4 (10)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=160.94856643572083 ^ scorePageRankTopoDiv=3.1005745950147753E-4 (2)
class DEGRADATION IF : scoreRea=1.0 ^ 32.46883637689602<=scoreProtTaxo<=71.39072873809421 ^ 3.140914019212182E-4<=scorePageRankTopoDiv<=3.268750300999243E-4 (7)
class DEGRADATION IF : 1.4142135623730951<=scoreRea<=2.1602468994692865 ^ 21.13898069316951<=scoreProtTaxo<=74.56938331200074 ^ 3.58337921459429E-
4<=scorePageRankTopoDiv<=3.8436270956853036E-4 (10)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.2941395309936893E-4 (3)
class DEGRADATION IF : scoreRea=0.8084520834544432 ^ scoreProtTaxo=16.486688450760568 ^ scorePageRankTopoDiv=4.504717622040652E-5 (2)
class DEGRADATION IF : scoreRea=0.8744746321952062 ^ scoreProtTaxo=62.371656238981856 ^ scorePageRankTopoDiv=5.077560580601176E-5 (4)
class DEGRADATION IF : scoreRea=0.5865884600854132 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=6.626181790340842E-5 (3)
class DEGRADATION IF : scoreRea=0.655825835783953 ^ scoreProtTaxo=0.12645644717105106 ^ scorePageRankTopoDiv=4.7873986812249354E-5 (1)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=29.260568309485883 ^ scorePageRankTopoDiv=6.49456574064399E-5 (4)
class DEGRADATION IF : 0.6123724356957945<=scoreRea<=0.7958224257542215 ^ 0.0<=scoreProtTaxo<=3.8486696703969288 ^ 5.860706774825163E-
5<=scorePageRankTopoDiv<=5.8803733051915237E-5 (5)
class DEGRADATION IF : 0.7071067811865476<=scoreRea<=0.8401680504168059 ^ 15.13088285984221<=scoreProtTaxo<=22.94891351632441 ^ 5.673579070415349E-
5<=scorePageRankTopoDiv<=5.8739070632628016E-5 (6)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=5.7345542270816386E-5 (5)
class BIOSYNTHESIS IF : 2.059867849051379<=scoreRea<=2.11332577548596 ^ 0.32552899071239816<=scoreProtTaxo<=1.3575694107361542 ^ 1.8287761797669406E-
4<=scorePageRankTopoDiv<=2.2495306725919904E-4 (9)
class BIOSYNTHESIS IF : 2.119864892037657<=scoreRea<=2.140872096444188 ^ 3.2379181783169733<=scoreProtTaxo<=3.6899110841277327 ^ 2.660174404203223E-
4<=scorePageRankTopoDiv<=2.985873638512974E-4 (8)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=57.19877992820294 ^ scorePageRankTopoDiv=1.273031544422776E-4 (7)
class BIOSYNTHESIS IF : scoreRea=0.6642111641550714 ^ scoreProtTaxo=4.442629524810974 ^ scorePageRankTopoDiv=9.992258732964255E-5 (2)
class BIOSYNTHESIS IF : scoreRea=0.6546536707079771 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.507727063923345E-5 (1)
class BIOSYNTHESIS IF : 0.18346822357102757<=scoreRea<=0.2672612419124244 ^ 1.0041442365714153<=scoreProtTaxo<=4.894951118682685 ^ 7.206541728125592E-
5<=scorePageRankTopoDiv<=9.91658068652667E-5 (9)
class BIOSYNTHESIS IF : 0.5686020318963798<=scoreRea<=0.5773502691896257 ^ scoreProtTaxo=0.0 ^ 9.680375868053309E-5<=scorePageRankTopoDiv<=1.1386306057343698E-4
(8)
class BIOSYNTHESIS IF : 0.09245003270420486<=scoreRea<=0.4472135954999579 ^ 41.11374693353282<=scoreProtTaxo<=90.72358809850219 ^ 9.68361607384624E-
5<=scorePageRankTopoDiv<=9.71025528247856E-5 (5)
class DEGRADATION IF : scoreRea=1.5 ^ scoreProtTaxo=328.6761930573438 ^ scorePageRankTopoDiv=1.9482402096573516E-4 (3)
class DEGRADATION IF : 2.449489742783178<=scoreRea<=3.4641016151377544 ^ 186.8047092621161<=scoreProtTaxo<=526.7533706709773 ^ 2.1608188604580465E-
4<=scorePageRankTopoDiv<=2.337782760475997E-4 (9)
class BIOSYNTHESIS IF : scoreRea=1.202652838880877 ^ scoreProtTaxo=1.932961341016369 ^ scorePageRankTopoDiv=1.0051476168913065E-4 (4)
class OTHER IF : 0.408248290463863<=scoreRea<=0.5 ^ 355.1112760084071<=scoreProtTaxo<=521.8331253857299 ^ 5.4018423913444024E-
5<=scorePageRankTopoDiv<=6.384999288989806E-5 (7)
class BIOSYNTHESIS IF : 0.19839002137983244<=scoreRea<=0.24397501823713327 ^ 1.2825136528866317<=scoreProtTaxo<=34.62065082470671 ^ 4.958838726520721E-
5<=scorePageRankTopoDiv<=5.205683608903145E-5 (5)
class BIOSYNTHESIS IF : 0.28867513459481287<=scoreRea<=0.408248290463863 ^ 89.0085484841533<=scoreProtTaxo<=98.81836756108136 ^ 1.1510213213064633E-
4<=scorePageRankTopoDiv<=1.185665663845858E-4 (15)
class BIOSYNTHESIS IF : 1.0<=scoreRea<=1.8027756377319946 ^ 199.87966851217695<=scoreProtTaxo<=205.33627510231165 ^ 1.1807420237890181E-
4<=scorePageRankTopoDiv<=1.1924321543192456E-4 (7)
class BIOSYNTHESIS IF : scoreRea=0.3086066999241838 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=4.303619168485682E-5 (1)
class BIOSYNTHESIS IF : scoreRea=0.9746794344808964 ^ scoreProtTaxo=14.537153264002997 ^ scorePageRankTopoDiv=5.4546243901817575E-5 (7)
class OTHER IF : 0.1336306209562122<=scoreRea<=0.2041241452319315 ^ 11.48907832227296<=scoreProtTaxo<=24.204940852237677 ^ 2.277997394999028E-
5<=scorePageRankTopoDiv<=2.2992049064083972E-5 (8)
class DEGRADATION IF : 1.0933445471810679<=scoreRea<=1.2126781251816647 ^ scoreProtTaxo=0.0 ^ 1.220459139739041E-4<=scorePageRankTopoDiv<=1.2410399332421477E-4
(5)
class DEGRADATION IF : scoreRea=1.3258750156531338 ^ scoreProtTaxo=0.7079245963934496 ^ scorePageRankTopoDiv=1.295463900452369E-4 (3)
class DEGRADATION IF : 2.1143765594836976<=scoreRea<=2.211398230003235 ^ 33.436888932748474<=scoreProtTaxo<=157.89757001622166 ^ 1.4383666539306183E-
4<=scorePageRankTopoDiv<=1.5764329330262091E-4 (4)
class DEGRADATION IF : scoreRea=1.8973665961010275 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.068428112262252E-4 (2)
class DEGRADATION IF : 1.5491933384829668<=scoreRea<=2.0 ^ 24.540654200910076<=scoreProtTaxo<=247.55660370974545 ^ 1.37032589402138E-
4<=scorePageRankTopoDiv<=1.3902458959959068E-4 (8)
class DEGRADATION IF : scoreRea=1.224744871391589 ^ scoreProtTaxo=258.6785545214659 ^ scorePageRankTopoDiv=3.191856776052939E-5 (12)
class BIOSYNTHESIS IF : scoreRea=0.8473185457363234 ^ scoreProtTaxo=2.896420549071816 ^ scorePageRankTopoDiv=9.581353925799543E-5 (2)
class DEGRADATION IF : 0.816496580927726<=scoreRea<=1.0 ^ 138.45986359634793<=scoreProtTaxo<=168.12250435495292 ^ 9.184702952142395E-
5<=scorePageRankTopoDiv<=1.0609466112632037E-4 (3)
class DEGRADATION IF : scoreRea=0.816496580927726 ^ scoreProtTaxo=128.28625663138507 ^ scorePageRankTopoDiv=1.0926502894973586E-4 (5)
class DEGRADATION IF : scoreRea=0.356034497458156 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.818754435989404E-5 (2)
class DETOX IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.1605297494252306E-4 (2)
![Page 227: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/227.jpg)
class BIOSYNTHESIS IF : scoreRea=0.4472135954999579 ^ scoreProtTaxo=41.94715730728113 ^ scorePageRankTopoDiv=1.6197739285580512E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.4472135954999579 ^ scoreProtTaxo=41.94715730728113 ^ scorePageRankTopoDiv=1.6197739285580512E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.4472135954999579 ^ scoreProtTaxo=41.94715730728113 ^ scorePageRankTopoDiv=1.6197739285580512E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.8660254037844386 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=9.834448953690958E-5 (3)
class BIOSYNTHESIS IF : scoreRea=1.2909944487358056 ^ scoreProtTaxo=0.6405682128609419 ^ scorePageRankTopoDiv=2.0320445389278625E-4 (3)
class BIOSYNTHESIS IF : scoreRea=0.5 ^ scoreProtTaxo=25.84565026836747 ^ scorePageRankTopoDiv=4.95954293050021E-5 (4)
class DEGRADATION IF : scoreRea=0.11180339887498948 ^ scoreProtTaxo=53.33607029865077 ^ scorePageRankTopoDiv=2.221322151018711E-5 (5)
class DEGRADATION IF : scoreRea=0.33071891388307384 ^ scoreProtTaxo=0.6368952509453817 ^ scorePageRankTopoDiv=2.5582106535976228E-5 (3)
class OTHER IF : scoreRea=2.035529993132299 ^ scoreProtTaxo=37.18309334171484 ^ scorePageRankTopoDiv=1.6214399066947588E-4 (6)
class ENERGY IF : 0.22360679774997896<=scoreRea<=0.439586982263858 ^ 0.03824909535505272<=scoreProtTaxo<=0.25395543377941004 ^ 3.4356952197702415E-
5<=scorePageRankTopoDiv<=3.5129610103536256E-5 (4)
class BIOSYNTHESIS IF : 1.7320508075688772<=scoreRea<=1.9364916731037085 ^ 21.379806720813527<=scoreProtTaxo<=139.060820931979 ^ 1.4466068132218887E-
4<=scorePageRankTopoDiv<=1.492140440385095E-4 (7)
class BIOSYNTHESIS IF : scoreRea=0.3872983346207417 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=5.3414666428876934E-5 (3)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=98.40420334876411 ^ scorePageRankTopoDiv=1.7230729652463356E-4 (2)
class OTHER IF : scoreRea=2.6457513110645907 ^ scoreProtTaxo=11.653831840400214 ^ scorePageRankTopoDiv=1.2548442637641923E-4 (4)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=206.55452266500356 ^ scorePageRankTopoDiv=1.1490929097897867E-4 (2)
class BIOSYNTHESIS IF : 1.224744871391589<=scoreRea<=1.4142135623730951 ^ 51.50365682807401<=scoreProtTaxo<=105.77882039783354 ^ 2.5761354379839283E-
4<=scorePageRankTopoDiv<=2.7358989262553504E-4 (5)
class BIOSYNTHESIS IF : scoreRea=1.7638342073763935 ^ scoreProtTaxo=79.0514992333247 ^ scorePageRankTopoDiv=1.3677116599979192E-4 (3)
class BIOSYNTHESIS IF : scoreRea=1.949358868961793 ^ scoreProtTaxo=34.87119154833509 ^ scorePageRankTopoDiv=1.359130639592478E-4 (4)
class BIOSYNTHESIS IF : scoreRea=0.08333333333333333 ^ scoreProtTaxo=71.90009062732221 ^ scorePageRankTopoDiv=3.470487807565085E-5 (3)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ 109.4646547441358<=scoreProtTaxo<=146.491662142068 ^ 4.371498400030517E-
5<=scorePageRankTopoDiv<=5.058178454993116E-5 (6)
class DEGRADATION IF : scoreRea=0.23570226039551584 ^ scoreProtTaxo=0.2303427360363902 ^ scorePageRankTopoDiv=1.448780413994269E-4 (2)
class DETOX IF : scoreRea=1.0 ^ scoreProtTaxo=608.3681488898235 ^ scorePageRankTopoDiv=3.396371341897463E-4 (1)
class DETOX IF : scoreRea=2.581988897471611 ^ scoreProtTaxo=27.930778633284643 ^ scorePageRankTopoDiv=4.568212402645179E-4 (3)
class DETOX IF : scoreRea=1.2909944487358056 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=4.810911994972087E-4 (3)
class DETOX IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.5005781477850783E-4 (3)
class DETOX IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=146.53881007132415 ^ scorePageRankTopoDiv=2.6652816827249016E-4 (2)
class DETOX IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.3284914715507266E-4 (1)
class DETOX IF : scoreRea=1.0 ^ scoreProtTaxo=290.5100020231181 ^ 2.626806104123039E-4<=scorePageRankTopoDiv<=3.0321704900335665E-4 (5)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 2.2507399536377622E-4<=scorePageRankTopoDiv<=2.2734171088002557E-4 (8)
class BIOSYNTHESIS IF : scoreRea=1.7320508075688772 ^ scoreProtTaxo=113.37384803240558 ^ scorePageRankTopoDiv=9.025333891358375E-5 (3)
class DEGRADATION IF : 0.9013878188659973<=scoreRea<=1.093344547181068 ^ 200.94615943355413<=scoreProtTaxo<=424.7421113040829 ^ 8.070273683221971E-
5<=scorePageRankTopoDiv<=8.622735221921629E-5 (9)
class BIOSYNTHESIS IF : 0.8660254037844386<=scoreRea<=1.0 ^ 308.8787482384362<=scoreProtTaxo<=321.94884504151656 ^ 1.237945613915102E-
4<=scorePageRankTopoDiv<=1.2392035308247696E-4 (3)
class DEGRADATION IF : 0.21081851067789195<=scoreRea<=0.6324555320336759 ^ 6.648788023034921<=scoreProtTaxo<=12.431118389046912 ^ 1.8381833697315455E-
4<=scorePageRankTopoDiv<=1.8416305184943934E-4 (7)
class ENERGY IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=2.883461995813866 ^ scorePageRankTopoDiv=3.288585667948916E-4 (2)
class ENERGY IF : scoreRea=0.5898297717679785 ^ scoreProtTaxo=80.88172121496505 ^ scorePageRankTopoDiv=7.984042811155853E-5 (1)
class BIOSYNTHESIS IF : scoreRea=0.9486832980505138 ^ scoreProtTaxo=492.4769364822055 ^ scorePageRankTopoDiv=6.382584844988021E-5 (4)
class ENERGY IF : scoreRea=0.16035674514745463 ^ scoreProtTaxo=44.11999794819986 ^ scorePageRankTopoDiv=4.305270368731032E-5 (3)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=212.39271801691976 ^ scorePageRankTopoDiv=1.306755114111501E-4 (4)
class DEGRADATION IF : scoreRea=1.1547005383792515 ^ scoreProtTaxo=120.27240963691459 ^ scorePageRankTopoDiv=9.346737750457407E-5 (2)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.3162289563086192E-5 (2)
class ENERGY IF : scoreRea=1.1710800875382399 ^ scoreProtTaxo=83.83084120930127 ^ scorePageRankTopoDiv=3.405667421549469E-4 (4)
class DEGRADATION IF : 3.7951582057210227<=scoreRea<=4.307507614472608 ^ 0.3018617796253848<=scoreProtTaxo<=1.379921366421163 ^ 1.7404809878674647E-
4<=scorePageRankTopoDiv<=1.9574314093248436E-4 (6)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ 2.0875414097402804E-4<=scorePageRankTopoDiv<=2.1395082657941635E-4 (6)
class OTHER IF : 7.082843120291925<=scoreRea<=8.031189202104505 ^ 4.863076241064854<=scoreProtTaxo<=12.209490805052312 ^ 1.0283029333560688E-
4<=scorePageRankTopoDiv<=1.0442531089430809E-4 (6)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=24.522053185615338 ^ scorePageRankTopoDiv=7.175420992019046E-5 (5)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=6.738311679550256 ^ scorePageRankTopoDiv=5.673579070415349E-5 (4)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=6.461124413009387 ^ scorePageRankTopoDiv=7.304909884610215E-4 (3)
class BIOSYNTHESIS IF : scoreRea=1.224744871391589 ^ scoreProtTaxo=150.04371593384334 ^ scorePageRankTopoDiv=7.267741345896467E-5 (4)
class DEGRADATION IF : scoreRea=1.0 ^ 176.6748265891641<=scoreProtTaxo<=265.45642259993303 ^ 1.2292863073691518E-4<=scorePageRankTopoDiv<=1.318125744054719E-4
(7)
class BIOSYNTHESIS IF : 0.6258327785172862<=scoreRea<=0.696630546019236 ^ 0.3172590498740864<=scoreProtTaxo<=1.0730405606481515 ^ 7.221388362580414E-
5<=scorePageRankTopoDiv<=7.693248890515395E-5 (7)
class DEGRADATION IF : scoreRea=0.6324555320336759 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.186184244774277E-5 (4)
class BIOSYNTHESIS IF : 0.7071067811865476<=scoreRea<=0.816496580927726 ^ 122.41731903615599<=scoreProtTaxo<=132.7672987437464 ^ 8.461694462624069E-
5<=scorePageRankTopoDiv<=8.9145592096062E-5 (3)
class BIOSYNTHESIS IF : scoreRea=0.5 ^ scoreProtTaxo=59.600361397029246 ^ scorePageRankTopoDiv=6.177647995694302E-5 (3)
class DEGRADATION IF : 0.5252257314388902<=scoreRea<=1.2909944487358056 ^ 184.36354556058535<=scoreProtTaxo<=184.90955657450604 ^ 7.521950513745555E-
5<=scorePageRankTopoDiv<=8.499128390523789E-5 (7)
class OTHER IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.075060281598621E-4 (2)
![Page 228: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/228.jpg)
class BIOSYNTHESIS IF : scoreRea=0.5 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.06019595021213E-5 (1)
class DEGRADATION IF : scoreRea=0.4714045207910317 ^ scoreProtTaxo=0.21736656470342558 ^ scorePageRankTopoDiv=2.039267862920187E-4 (3)
class DEGRADATION IF : scoreRea=0.5773502691896257 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.1673517381795885E-4 (3)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ 37.351611171971676<=scoreProtTaxo<=46.43188130854518 ^ 2.1106370026593825E-
4<=scorePageRankTopoDiv<=2.8099010423062484E-4 (4)
class DEGRADATION IF : scoreRea=4.242640687119285 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=5.351422632147156E-4 (2)
class OTHER IF : scoreRea=1.0 ^ scoreProtTaxo=278.9260654725549 ^ scorePageRankTopoDiv=1.5119971642290792E-4 (2)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=162.15630319750082 ^ scorePageRankTopoDiv=4.63834105930411E-4 (6)
class DEGRADATION IF : scoreRea=5.392738882336249 ^ scoreProtTaxo=31.56070563126379 ^ scorePageRankTopoDiv=2.6560409197769793E-4 (2)
class ENERGY IF : scoreRea=0.3469443332443555 ^ scoreProtTaxo=0.008501686508290446 ^ scorePageRankTopoDiv=4.25938615935737E-5 (3)
class BIOSYNTHESIS IF : scoreRea=0.5773502691896257 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.8401674405587953E-4 (2)
class BIOSYNTHESIS IF : scoreRea=0.816496580927726 ^ scoreProtTaxo=53.96055802488666 ^ scorePageRankTopoDiv=1.799068798674255E-4 (3)
class DEGRADATION IF : 6.76930789754497<=scoreRea<=17.580173491749164 ^ 0.25453539884412596<=scoreProtTaxo<=48.876164669699776 ^ 2.27214944912841E-
4<=scorePageRankTopoDiv<=5.500256568628485E-4 (3)
class DEGRADATION IF : scoreRea=0.3779644730092272 ^ scoreProtTaxo=27.294314276743904 ^ scorePageRankTopoDiv=4.608224295654832E-5 (3)
class ENERGY IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.9556844973405226E-4 (3)
class BIOSYNTHESIS IF : 0.816496580927726<=scoreRea<=0.8660254037844386 ^ 65.79623872982258<=scoreProtTaxo<=130.03392307060201 ^ 4.77018583093523E-
5<=scorePageRankTopoDiv<=5.0451195012364305E-5 (3)
class DEGRADATION IF : scoreRea=2.8284271247461903 ^ scoreProtTaxo=46.08171497882105 ^ scorePageRankTopoDiv=9.184702952142395E-5 (1)
class OTHER IF : scoreRea=0.39528470752104744 ^ scoreProtTaxo=67.31782581752879 ^ scorePageRankTopoDiv=3.0197216976965264E-5 (3)
class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=0.7071067811865476 ^ 0.0<=scoreProtTaxo<=0.22537446792761007 ^ 2.3274077720938588E-
4<=scorePageRankTopoDiv<=2.423052815653982E-4 (9)
class BIOSYNTHESIS IF : 0.816496580927726<=scoreRea<=1.0 ^ 32.13477923659716<=scoreProtTaxo<=286.698115661492 ^ 2.16674851498363E-
4<=scorePageRankTopoDiv<=2.209479886732525E-4 (12)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 15.54358844509754<=scoreProtTaxo<=20.97192084929702 ^ 4.6220909847007676E-4<=scorePageRankTopoDiv<=5.428246164357167E-4
(5)
class BIOSYNTHESIS IF : 0.8451542547285166<=scoreRea<=0.9428090415820634 ^ 39.943773190847274<=scoreProtTaxo<=217.84101623961143 ^ 2.3351532071486775E-
4<=scorePageRankTopoDiv<=2.500264397421409E-4 (11)
class BIOSYNTHESIS IF : scoreRea=1.632993161855452 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.432112654143253E-5 (2)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.913623939731866E-5 (8)
class DEGRADATION IF : scoreRea=0.8966167345234256 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=7.191567364364338E-5 (1)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=13.050286539712438 ^ scorePageRankTopoDiv=7.175420992019046E-5 (3)
class ENERGY IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=57.22088458559952 ^ scorePageRankTopoDiv=4.163608256714727E-4 (1)
class ENERGY IF : scoreRea=1.2121830534626528 ^ scoreProtTaxo=0.858760746827019 ^ scorePageRankTopoDiv=4.0904708137729363E-4 (1)
class ENERGY IF : scoreRea=1.8708286933869707 ^ scoreProtTaxo=291.22705834189765 ^ scorePageRankTopoDiv=3.676671633311061E-4 (2)
class ENERGY IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=459.6016391037568 ^ scorePageRankTopoDiv=3.0829274756230974E-4 (2)
class ENERGY IF : scoreRea=1.0 ^ scoreProtTaxo=101.09186523842465 ^ scorePageRankTopoDiv=3.147732888004335E-4 (4)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ 0.0<=scoreProtTaxo<=54.48256601886515 ^ 6.892763088378026E-4<=scorePageRankTopoDiv<=6.989120687488944E-4 (2)
class DEGRADATION IF : scoreRea=0.1336306209562122 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.4624678323885254E-5 (1)
class DEGRADATION IF : scoreRea=0.07216878364870322 ^ scoreProtTaxo=2.460316855277241 ^ scorePageRankTopoDiv=1.816769296368919E-5 (2)
class ENERGY IF : scoreRea=0.08006407690254357 ^ scoreProtTaxo=1.653721012550384 ^ scorePageRankTopoDiv=2.2280734529695785E-5 (1)
class BIOSYNTHESIS IF : scoreRea=0.6324555320336759 ^ scoreProtTaxo=65.08449599386569 ^ scorePageRankTopoDiv=2.2907062577451448E-4 (5)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=165.95993492398236 ^ scorePageRankTopoDiv=1.7817525502658317E-4 (2)
class DEGRADATION IF : 1.0954451150103324<=scoreRea<=1.4142135623730951 ^ 608.5348962878501<=scoreProtTaxo<=639.1599181489809 ^ 1.5862456260021715E-
4<=scorePageRankTopoDiv<=2.6220409643941574E-4 (4)
class BIOSYNTHESIS IF : scoreRea=0.408248290463863 ^ scoreProtTaxo=789.8485696478076 ^ scorePageRankTopoDiv=2.7322301369745626E-4 (5)
class DEGRADATION IF : scoreRea=2.8284271247461903 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.666222754058243E-4 (3)
class DEGRADATION IF : scoreRea=1.8257418583505536 ^ scoreProtTaxo=98.4699452170974 ^ scorePageRankTopoDiv=7.104793139068288E-5 (3)
class DEGRADATION IF : scoreRea=3.289913283319897 ^ scoreProtTaxo=559.0074476741592 ^ scorePageRankTopoDiv=3.0701005128886387E-4 (1)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ 0.0<=scoreProtTaxo<=144.7478392962769 ^ 5.034282496324573E-4<=scorePageRankTopoDiv<=6.588344911766697E-4 (5)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=12.004669260881082 ^ scorePageRankTopoDiv=4.909937360556403E-4 (1)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=41.60349216917426 ^ scorePageRankTopoDiv=5.21570208523604E-4 (2)
class BIOSYNTHESIS IF : scoreRea=1.224744871391589 ^ scoreProtTaxo=56.161515770653565 ^ scorePageRankTopoDiv=6.948673131421873E-5 (4)
class BIOSYNTHESIS IF : scoreRea=0.5 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=5.698856430172402E-5 (2)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ 0.0<=scoreProtTaxo<=2.0863620823036073 ^ scorePageRankTopoDiv=4.985531431087294E-4 (4)
class DEGRADATION IF : 0.5773502691896257<=scoreRea<=0.7071067811865476 ^ 20.915987692451182<=scoreProtTaxo<=22.440204905652035 ^ 1.6686662865866955E-
4<=scorePageRankTopoDiv<=1.7408311085569377E-4 (6)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=3.110805504795198 ^ scorePageRankTopoDiv=1.0511522598179651E-4 (3)
class OTHER IF : scoreRea=0.3922322702763681 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.7874776905481745E-5 (4)
class BIOSYNTHESIS IF : scoreRea=0.31622776601683794 ^ scoreProtTaxo=387.6447516157186 ^ scorePageRankTopoDiv=8.360272329903238E-5 (2)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ 1.441783978103374E-4<=scorePageRankTopoDiv<=1.4791573811250174E-4 (9)
class BIOSYNTHESIS IF : scoreRea=1.1547005383792515 ^ scoreProtTaxo=61.78620275022985 ^ scorePageRankTopoDiv=1.1737307636183124E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.118033988749895 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=5.1313350432075225E-5 (5)
class BIOSYNTHESIS IF : scoreRea=0.655825835783953 ^ scoreProtTaxo=0.2566072677695416 ^ scorePageRankTopoDiv=1.0879989589336553E-4 (2)
class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.160640423272123E-4 (3)
class DEGRADATION IF : 1.1372040637927596<=scoreRea<=1.2029375808949572 ^ 1.2821315087821932<=scoreProtTaxo<=1.495970447499228 ^ 1.263409130347141E-
4<=scorePageRankTopoDiv<=1.3817645839686696E-4 (4)
class BIOSYNTHESIS IF : scoreRea=1.118033988749895 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=2.358103253919151E-4 (3)
![Page 229: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/229.jpg)
class BIOSYNTHESIS IF : scoreRea=0.7191949522280763 ^ scoreProtTaxo=55.61823899667411 ^ scorePageRankTopoDiv=1.3556204474833197E-5 (2)
class BIOSYNTHESIS IF : scoreRea=0.1336306209562122 ^ scoreProtTaxo=113.06193486507043 ^ scorePageRankTopoDiv=8.526134756584441E-5 (3)
class DEGRADATION IF : scoreRea=2.680951323690902 ^ scoreProtTaxo=0.011672391865901513 ^ scorePageRankTopoDiv=2.1883160997492087E-4 (4)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.9055649310582596E-4 (2)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.8860851388601528E-4 (1)
class DEGRADATION IF : 1.0<=scoreRea<=1.1881770515720091 ^ 4.7879252966052475<=scoreProtTaxo<=5.411851401620706 ^ 1.1442075717380128E-
4<=scorePageRankTopoDiv<=1.2181717835020451E-4 (4)
class ENERGY IF : scoreRea=3.4641016151377544 ^ scoreProtTaxo=16.560296819002364 ^ scorePageRankTopoDiv=2.120396524500385E-4 (3)
class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.1328728240243136E-4 (4)
class ENERGY IF : scoreRea=1.0 ^ scoreProtTaxo=21.7568033167796 ^ scorePageRankTopoDiv=7.011720372293434E-4 (4)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.3064912264776746E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.1114378604524227 ^ scoreProtTaxo=19.8045615400731 ^ scorePageRankTopoDiv=5.409945344885199E-5 (1)
class DEGRADATION IF : scoreRea=5.372405894758811 ^ scoreProtTaxo=64.86872458326154 ^ scorePageRankTopoDiv=2.5451465611213983E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.9274777915203366 ^ scoreProtTaxo=2.284447209188501 ^ scorePageRankTopoDiv=1.341109037928679E-4 (1)
class BIOSYNTHESIS IF : scoreRea=0.28867513459481287 ^ scoreProtTaxo=1.8435289494404254 ^ scorePageRankTopoDiv=5.057229096274693E-5 (1)
class DEGRADATION IF : scoreRea=7.874007874011811 ^ scoreProtTaxo=83.60493888793984 ^ scorePageRankTopoDiv=9.184702952142395E-5 (4)
class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=488.5222615194924 ^ scorePageRankTopoDiv=2.954382058651906E-4 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=99.94050773418287 ^ scorePageRankTopoDiv=5.84516351945006E-4 (5)
class OTHER IF : scoreRea=2.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=4.088733957652656E-4 (2)
class OTHER IF : scoreRea=0.20965696734438366 ^ scoreProtTaxo=62.006127251263905 ^ scorePageRankTopoDiv=3.6903530145216174E-5 (1)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.9202370889358065E-4 (1)
class BIOSYNTHESIS IF : scoreRea=2.8535691936340255 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.201551503233059E-4 (2)
class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.9202370889358065E-4 (1)
class DEGRADATION IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=1121.1691346845957 ^ scorePageRankTopoDiv=1.50642091339147E-4 (2)
class BIOSYNTHESIS IF : scoreRea=0.5 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=4.787860914058206E-5 (3)
class OTHER IF : scoreRea=2.0 ^ scoreProtTaxo=57.65446242084278 ^ scorePageRankTopoDiv=4.287988675749166E-4 (3)
class DEGRADATION IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=273.33252297887157 ^ scorePageRankTopoDiv=4.474941279021902E-5 (1)
class OTHER IF : scoreRea=0.8498365855987975 ^ scoreProtTaxo=491.14396928120954 ^ scorePageRankTopoDiv=8.933471786716984E-5 (3)
Stat :
class DEGRADATION : 315 exemplar(s) including 288 Hyperrectangle(s) and 27 Single(s).
class BIOSYNTHESIS : 455 exemplar(s) including 385 Hyperrectangle(s) and 70 Single(s).
class OTHER : 92 exemplar(s) including 80 Hyperrectangle(s) and 12 Single(s).
class DETOX : 35 exemplar(s) including 31 Hyperrectangle(s) and 4 Single(s).
class ENERGY : 71 exemplar(s) including 64 Hyperrectangle(s) and 7 Single(s).
Total : 968 exemplars(s) including 848 Hyperrectangle(s) and 120 Single(s).
Feature weights : [0.026621704589354037 0.013098001491379322 0.03430947381803635]
Time taken to build model: 1.72 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 7822 94.7432 %
Incorrectly Classified Instances 434 5.2568 %
Kappa statistic 0.9076
Mean absolute error 0.021
Root mean squared error 0.145
Relative absolute error 9.2047 %
Root relative squared error 42.9119 %
Total Number of Instances 8256
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.922 0.028 0.927 0.922 0.925 0.947 DEGRADATION
0.965 0.06 0.958 0.965 0.961 0.952 BIOSYNTHESIS
0.929 0.003 0.947 0.929 0.938 0.963 OTHER
0.869 0.001 0.926 0.869 0.897 0.934 DETOX
0.935 0.004 0.939 0.935 0.937 0.966 ENERGY
Weighted Avg. 0.947 0.043 0.947 0.947 0.947 0.952
=== Confusion Matrix ===
![Page 230: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/230.jpg)
a b c d e <-- classified as
2121 151 10 3 15 | a = DEGRADATION
136 4672 16 6 13 | b = BIOSYNTHESIS
13 22 469 0 1 | c = OTHER
6 11 0 113 0 | d = DETOX
11 20 0 0 447 | e = ENERGY
![Page 231: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/231.jpg)
![Page 232: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/232.jpg)
Université Paris-Saclay Espace Technologique / Immeuble Discovery Route de l’Orme aux Merisiers RD 128 / 91190 Saint-Aubin, France
Titre : Découverte et exploration de modules conservés de transformations chimiques dans le métabolisme
Mots clés : Métabolisme, Enzymes, Réseaux, Modules conservés
Résumé : La proportion de séquences protéiques dont la fonction est inconnue dans les bases de données publiques est encore très importante (42% de séquences dans UniProt sont étiquetées comme "hypothetical", "uncharacterized", "unknown" ou encore "putative"). D’autre part, de nombreuses d’activités enzymatiques (environ 30%) demeurent orphelines de séquences. L’identification de modules fonctionnels conservés dans le métabolisme est une piste pour améliorer l’annotation fonctionnelle des protéines par la découverte de nouvelles réactions enzymatiques et voies métaboliques. C’est dans ce contexte que s’inscrit mon travail de thèse qui propose une nouvelle représentation d’un réseau métabolique global où les réactions partageant le même type de transformation chimique sont regroupées en signatures moléculaires de réactions (RMS). La signature d’une réaction est la différence des descripteurs moléculaires de signatures stéréochimiques (Carbonell et al. 2013, http://molsig.sourceforge.net) des produits et des substrats qui interviennent dans celle-ci. Ces RMS sont calculées pour toutes les réactions présentes dans au moins une voie métabolique, bien équilibrées et dont substrats et les produits sont identifiés et possèdent une structure moléculaire. Les RMS permettent de classifier les réactions d’une façon automatique et expert-indépendante et ont une couverture plus importante de l’ensemble des réactions enzymatiques que la classification de la Commission Enzymatique (EC numbers). En partant d’un réseau orienté de réactions, les nœuds-réactions partageant la même RMS sont regroupés dans un seul nœud et les arêtes conservent la connectivité initiale entre les réactions. Plusieurs scores sont ensuite calculés pour chaque chemin dans le réseau de RMS dans le but d’évaluer la conservation des voies métaboliques connues et afin d’en découvrir des nouvelles. Le premier de ces scores, le scoreRea, est calculé en utilisant le nombre moyen de réactions par RMS, et représente la conservation chimique des chemins dans tout le métabolisme. Le deuxième, scoreProt, est basé sur le nombre de protéines associées à chaque RMS et reflète la conservation enzymatique du chemin au travers de l’arbre du vivant. Le score suivant, scoreTopo, est basé sur la centralité PageRank et illustre l’importance topologique d’un enchainement de RMS dans le réseau métabolique. La dernière métrique, le Pathway Concervation Index (PCI) est le nombre de chemins de réactions différents parmi les voies métaboliques connues regroupés dans un chemin de RMS et représente la conservation des transformations chimiques dans la partie connue du métabolisme. Les chemins de RMS les plus conservés sont ensuite identifiés pour comprendre le lien entre les différents types de conservation (chimique, enzymatique et topologique) et le type de processus des voies métaboliques (comme la biosynthèse ou la dégradation). Cette représentation du métabolisme possède un potentiel prédictif intéressant et peut être utilisée pour identifier les parties les plus conservées du métabolisme, ainsi que pour découvrir de nouveaux modules métaboliques. De plus, la combinaison des différents scores peut être utilisée pour prédire le rôle métabolique des nouvelles voies en utilisant des approches d’apprentissage artificiel. Associés aux données de contexte génomique comme les opérons, les chemins conservés de transformations chimiques seront un outil utile pour l’annotation fonctionnelle des gènes et de groupes de gènes de fonction inconnue.
![Page 233: These_Maria_Sorokina](https://reader031.vdocuments.site/reader031/viewer/2022030216/5888909a1a28ab3e658b6a15/html5/thumbnails/233.jpg)
Université Paris-Saclay Espace Technologique / Immeuble Discovery Route de l’Orme aux Merisiers RD 128 / 91190 Saint-Aubin, France
Title: Chemical transformation modules discovery and exploration in the metabolism
Keywords: Metabolism, Enzymes, Networks, Conserved modules
Abstract: The proportion of protein sequences of unknown function in public databases stills very important (42% of UniProt sequences are labelled as "hypothetical", "uncharacterized", "unknown" or "putative"). On the other hand, a number of enzyme activities (about 30%) remain orphan (i.e. there is any known sequence that is linked to this activity). Conserved functional modules identification in the metabolism is one of the possible ways to improve protein functional annotation, by discovering new enzyme reactions and new metabolic pathways. It is in this context that has been developed my PhD thesis, proposing a new representation of the global metabolic network, where reactions sharing the same chemical transformation type are grouped in reaction molecular signatures (RMS). A reaction signature is the difference of its products and substrates stereo signatures molecular descriptors involved in this reaction (Carbonell et al. 2013, http://molsig.sourceforge.net). These RMS are computed for all well balanced reactions involved in at least one metabolic pathway, for which all substrates and products are identified and have an available structure. RMS allow reaction classification in an automatic and expert-independent way and a greater coverage of all enzymatic reactions that the classification of the Enzyme Commission (EC numbers). Starting from a directed reaction network, reaction nodes sharing the same RMS are grouped in a single node, and edges conserve the initial connectivity between reactions. Several scores are then computed for each path in the RMS network in order to assess known metabolic pathways conservation and to discover new ones. The first score, scoreRea, is computed using the average reaction number by RMS and represents the chemical conservation of the path in the whole metabolism. The second one, scoreProt, is based on the protein number associated to each RMS and reflects the enzyme conservation of the path through the tree of life. The next score, scoreTopo, is based on the PageRank centrality and depicts the topological importance of an RMS sequence in the metabolic network. The last metric, the Pathway Conservation Index (PCI) is the number of different reaction paths among known metabolic pathways grouped in a same RMS path. It represents the conservation of chemical transformation sequences in the known part of the metabolism. Most conserved RMS paths are next identified in order to understand the linkage between different conservation types (chemical, enzymatic and topologic) and the biological processes type of metabolic pathways (like biosynthesis or degradation). This metabolism representation has an interesting predictive potential and can be used to identify most conserved parts of the metabolism and to discover new metabolic modules. Moreover, combination of different scores can be used to predict the metabolic role of new pathways using machine learning approaches. Conserved paths of chemical transformations associated to genomic context data will be a useful tool for functional annotation of genes and groups of genes of unknown function.