these_maria_sorokina

THESE DE DOCTORAT DE L’UNIVERSITE PARIS-SACLAY,

préparée à l’Université d’Evry Val d’Essonne

ÉCOLE DOCTORALE N° 577 Structure et dynamique des systèmes vivants

Spécialité de doctorat : Sciences de la Vie et de la Santé

Discipline: Bioinformatique

Par

Maria Sorokina

Découverte et exploration des modules conservés de transformations chimiques dans le métabolisme

Numéro national de thèse : 2016SACLE003

Thèse présentée et soutenue publiquement à Evry, le 3 février 2016 : Composition du Jury :

M. Jean-Loup Faulon DR (INRA) Président Mme. Christine Froidevaux PR (Université Paris-Saclay) Rapporteur M. Fabien Jourdan CR1 (INRA) Rapporteur M. Daniel Kahn DR (INRA) Rapporteur M. Ludovic Cottret M. Bernard Labedan

IR (INRA) DR Emérite (CNRS)

Examinateur Invité

Mme. Claudine Médigue DR (CNRS) Directrice de thèse M. David Vallenet CR (CEA) Co-directeur de thèse

« Le développement embryonnaire est la chose la plus difficile que vous ne puissiez jamais faire. Pour devenir embryon, vous avez dû vous construire à partir d’une seule cellule, respirer avant d’avoir des

poumons, digérer avant d’avoir un intestin, construire des os alors que vous étiez flasque et organiser le déploiement de vos neurones avant de savoir comment penser. Une des différences essentielles entre un être vivant et la machine est bien là : on n’exige jamais d’une machine de fonctionner avant d’avoir été

construite, au contraire de l’être qui doit pouvoir fonctionner tout en se construisant. »

Scott F. Gilbert, Developmental Biology, 7th edition

REMERCIEMENTS

Ces trois années de thèse ont été très riches de tout point de vue pour moi, à la fois du point de vue scientifique que personnel. J’ai, certes, appris énormément sur le métabolisme et les diverses techniques computationnelles, mais j’ai surtout beaucoup appris sur moi même. J’ai beaucoup évolué aussi, j’ai « grandi » scientifiquement et émotionnellement.

Beaucoup de personnes que j’ai côtoyées au cours de mon expérience au Génoscope, le Centre National de Séquençage, ont contribué au bon déroulement de ma thèse et ç mon évolution personnelle. Ainsi, en premier lieu, je voudrais remercier David, pour avoir été présent, même dans les moments les plus difficiles. Ça a été très agréable de travailler avec toi, malgré le fait que tous les deux on soit assez têtus. On arrivait toujours à un consensus, et de ces débats naissaient toutes ces bonnes idées ! Aller en conférence avec toi est toujours une garantie de qualité et de rencontres intéressantes (et parfois insolites).

Merci aussi à Claudine de m’avoir accueilli à bras ouverts dans son laboratoire, alors que je débarquais en disant « Bonjour, je voudrais faire ma thèse chez vous, est-ce que je peux faire mon stage de M2 chez vous aussi ?»

Mes collègues de bureau Karine et Mark, merci d’avoir été à mes côtés au cours de ces années ! On a partagé des fous rires, des discussions scientifiques et et d’autres loin d’être scientifiques, du thé, du chocolat… Vous avez contribué à mon bien-être au Génoscope, et avez accepté la décoration un peu excentrique de mon bureau, et ça, ça me fait chaud au cœur.

Je remercie mes rapporteurs, Christine Froidevaux, Fabien Jourdan et Daniel Kahn, pour leurs remarques pertinentes et conseils extrêmement utiles. Christine, depuis que je t’ai rencontrée en master, tu fais partie de mes modèles scientifiques féminins. Merci aussi aux autres membres de mon jury, Ludovic Cottret, Jean-Loup Faulon et Bernard Labedan. Jean-Loup, un grand merci pour tes précieux conseils sur les RMS et tes encouragements tout au long de ma thèse.

Un grand merci à Olivier Lespinet – pour m’avoir accueilli dans son équipe alors que je n’étais qu’en L2 et pour m’avoir donné cette envie de faire de la bioinformatique. C’est en grande partie grâce à toi que j’ai continué dans cette voie et que j’ai eu envie de faire de la recherche !

Je voudrais aussi remercier tous les professeurs de mon master, le master BIBS. Si déjà en licence je savais que je voulais faire de la bioinformatique, la passion que vous m’avez transmise, chacun à votre manière, pour les différents domaines de cette vaste discipline m’ont conforté dans cette voie.

Merci à tous mes collègues du 3ème étage ! Un merci particulier à Alexandre : nos pauses thé de 18h à refaire le monde étaient un pur plaisir. J’espère que tu es heureux à l’EBI, et que tu la feras, un jour, cette thèse ! Merci aussi à Alexis, pour ta présence, tes encouragements, les pauses et les corrections de mon manuscrit ! Merci à mes « consultants techniques » Adrien et Jonathan (aka Jonjon), pour votre présence quand j’avais des questions bêtes sur Java ou Maven ou quand je renversais de la soupe aux champignons sur mon ordinateur portable… David Rrrrr merci pour ta bonne humeur et pour les discussions autour du métal et des Legos. Merci aussi à Franck, Mr Root, pour ta gentillesse et pour toutes les installations de logiciels quand j’en avais besoin ! Live long and prosper !

Une pensée aussi pour Coralie, même si tu es loin, ta présence et ton écoute sont essentielles pour moi ! Merci de m’avoir aidé à traverser tellement de difficultés !

Merci aussi aux autres copines du master BIBS, Marie, Mélanie, Siva, Laura et Adeline – même après le master, on a passé vraiment de chouettes moments ensemble !

Les meilleurs – Sarah et Mario. Nos déjeuners, nos voyages, nos soirées… Tout ce que nous avons partagé et que nous allons encore partager dans les années à venir est tellement important pour moi ! Cette amitié est une des meilleures choses que j’ai trouvés au cours de ma thèse, et je sais qu’elle va durer encore très longtemps ! Nos séances de sport avec toi, Sarah, vont beaucoup me manquer.

Je remercie aussi ma famille, merci de m’accepter telle que je suis, avec mes défauts et mes qualités, avec mes hauts et mes bas. Merci d’avoir toujours été là pour moi ! Vous m’avez, dès le plus jeune âge, dit que je devrais devenir une biologiste, vu mon intérêt pour la nature qui m’entoure. Bon, je suis devenue une « computational biologist » et pas une biologiste-naturaliste, et c’est très bien comme ça !

Le mot qui pourrait résumer ma thèse est « changement ». Le métabolisme est changement. Ma vie a beaucoup changé. Le monde a beaucoup changé au cours de ces années. Pour terminer ces

remerciements, je voudrais citer Mr. Spock :

« Change is the essential process of all existence » (Star Trek : Let that be your last batterfield)

1

Table des matières

TABLE DES MATIERES 1

ABREVIATIONS 5

INTRODUCTION 7 La démarche suivie dans cette thèse 13

CONTEXTE BIOLOGIQUE ET METHODOLOGIQUE 16

I. Le métabolisme 17 I.1 Qu’est-ce qu’est le métabolisme ? 17 I.2 Les acteurs du métabolisme 19

I.2.1 Métabolites 19 I.2.2 Réactions 26 I.2.3 Enzymes 27 I.2.4 Cofacteurs 29 I.2.5 Voies métaboliques 30

I.3 Evolution du métabolisme 33 I.3.1 Evolution des enzymes 33

Divergence des fonctions enzymatiques - enzymes promiscuitaires 33 Isoenzymes 35 Convergence évolutive de fonctions enzymatiques 35

I.3.2 Grandes théories sur l’évolution des voies métaboliques 36 Invention de novo des voies métaboliques 36 Synthèse rétrograde et synthèse progressive 36 Spécialisation d’enzymes multifonctionnelles 37 Duplication de voies métaboliques entières 37 Recrutement enzymatique ou modèle d’évolution en « patchwork » 38 Origine semi-enzymatique des voies métaboliques 38

II. Représentation du métabolisme 39 II.1 Ressources de données métaboliques 42

II.1.1 Grandes bases de données sur le métabolisme 42 BioCyc & MetaCyc 42 KEGG 43 Comparaison des bases de données MetaCyc et KEGG 43 BRENDA 44 RHEA 45 Reactome 45 UniPathway 45

II.1.2 Bases de données de composés chimiques 46 ChEBI 46 PubChem 46

II.2 Classification des activités enzymatiques 47 II.3 Théorie des graphes – quelques définitions et vocabulaire 50 II.4 Réseaux métaboliques 53

II.4.1 Réseau de métabolites 54 II.4.2 Réseau de réactions 54 II.4.3 Réseau d’enzymes 54

2

II.4.4 Graphe biparti et hypergraphe des métabolites 55 II.4.5 Composés ubiquitaires et réseaux « petit-monde » 56

II.5 Analyse topologique de réseaux métaboliques 58 II.5.1 Analyses topologiques classiques 58 II.5.2 Centralités 60

Centralités de distances et de voisinage 60 Centralités des plus courts chemins 61 Centralités basées sur les processus aléatoires 62 Feedback 63 Centralités sur les arêtes 64

II.6 Modularité dans le métabolisme 65

III. Des génomes aux réseaux métaboliques 66 III.1 Annotation fonctionnelle des génomes 67

III.1.1 Liens phylogénétiques et similarité de séquences 68 III.1.1.1 Liens phylogénétiques entre les gènes 68 III.1.1.2 Annotation fonctionnelle basée sur la similarité de séquences 71

III.1.2 La base de données de protéines UniProt 71 III.1.3 Domaines fonctionnels et familles de protéines 72

Pfam 73 InterPro 74 PRIAM 74

III.1.4 Contexte génomique pour l’annotation fonctionnelle 74 III.1.5 Analyse de la structure des protéines 75 III.1.6 Systèmes d’annotation à base de règles 77 III.1.7 Systèmes d’annotation communautaire 77 III.1.8 Cas des protéines multifonctionnelles 78

III.2 Contexte génomique 79 III.2.1 Clusters de gènes 80

III.2.1.1 Opérons 80 Méthodes de prédiction des opérons 80

III.2.1.2 Synténies conservées 82 III.2.2 Profils phylogénétiques 83 III.2.3 Rosetta stone (fusions/fissions de gènes) 83

III.3 Reconstruction de réseaux et modèles métaboliques 84 Etape 1 : Reconstruction automatisée à partir d’un génome complet 84 Etape 2 : Curation de la reconstruction automatique 85 Etape 3 : Conversion du réseau métabolique reconstruit en modèle informatique 86 Etape 4 : Utilisation de modèles métaboliques et intégration des données ‘omiques’ 87

III.4 Lacunes dans les connaissances enzymatiques 88

IV. Méthodes pour l’exploration du métabolisme 90 IV.1 Comment encoder une réaction enzymatique ? 90

IV.1.2 Reaction Pairs et Reaction Class de KEGG 91 IV.1.3 Signatures moléculaires de réactions (RMS) 92 IV.1.4 Cartographie des atomes (Atom Mapping) 94 IV.1.5 EC-BLAST et autres méthodes basées sur la comparaison de fingerprints moléculaires 94 IV.1.6 Mécanisme réactionnel enzymatique 96 IV.1.7 Description des réactions avec MOLMAP 96

IV.2 Méthodes pour détecter des protéines pour les enzymes orphelines 97 IV.3 Recherche de chemins et de motifs dans le réseau métabolique 99

IV.3.1 Recherche de voies métaboliques 99 IV.3.1.1 Recherche de sous-graphes ou chemins 99 IV.3.1.2 Rétro(bio)synthèse 100 IV.3.1.3 Alignement de voies métaboliques 102

IV.3.2 Motifs dans le métabolisme & modules de réactions 103 IV.3.2.1 Motifs dans le métabolisme 104 IV.3.2.2 Modules dans le métabolisme 105

IV.4 Visualisation des réseaux 107

Limites : Réactions métaboliques non-enzymatiques 108

3

CHAPITRE I 111

ACTUALISATION DES CONNAISSANCES SUR LES ACTIVITES ENZYMATIQUES ORPHELINES DE SEQUENCES 111

Profiling the orphan enzymes. Sorokina et al. 2014 113 Conclusion du Chapitre I 114

CHAPITRE II 116

CONSTRUCTION D’UN MODELE REDUIT DU METABOLISME POUR L’IDENTIFICATION DE MODULES CONSERVES 116

A new network representation of the metabolism to detect chemical transformation modules. Sorokina et al. 2015 121 Conclusion du Chapitre II 122

CHAPITRE III 124

ASSOCIATION DE CONTEXTES GENOMIQUES AVEC DES MODULES CONSERVES DE TRANSFORMATIONS CHIMIQUES 124

I. Prédiction des directons dans les génomes bactériens 126

II. Projection des directons sur le réseau de signatures moléculaires de réactions 129

III. Etude de cas : identification de contextes génomiques et métaboliques pour les enzymes Baeyer-Villiger Monooxygénases 133

III.1 Comment encoder une réaction de monooxygénation de type BV ? 134 III.2 Identification des contextes génomiques des BVMOs 136 III.3 Identification des contextes métaboliques des BVMOs 138

CONCLUSIONS ET PERSPECTIVES 149 Conclusions 149 Perspectives 152

REFERENCES 158

ANNEXE 175

5

Abréviations

ADN : Acide Désoxyribonucléique

ARN : Acide Ribonucléique

ARNm : Acide Ribonucléique messager

ARNr : Acide Ribonucléique ribosomique

ARNt : Acide Ribonucléique de transfert

BV : réaction d’oxydation de type Baeyer-Villiger

BVMO : Baeyer-Villiger Monooxygénase

CDS : (angl. CoDing Sequence) séquence codante

CoA : Coenzyme A

DAG : (angl. Directed Acyclic Graph) Graphe Orienté Acyclique

DUF : (angl. Domain of Unknown Function) Domaine de fonction inconnue

EBI : European Bioinformatics Institute

EC number : Enzyme Commission number

ENA : European Nucleotide Archive

FAD : Flavine-Adénine Dinucléotide

FBA : (angl. Flux Balance Analysis) Analyse de balance des flux

FMN : Flavine Mononucléotide

InChi : IUPAC International Chemical Identifier

IUBMB : International Union of Biochemistry and Molecular Biology

IUPAC : International Union of Pure and Applied Chemistry

MOLMAP : MOLecular Map of Atom-level Properties

NAD(H) : Nicotinamide Adénine Dinucléotide (forme réduite)

NADP(H) : Nicotinamide Adénine Dinucléotide Phosphate (forme réduite)

NGS : (angl. Next Generation Sequencing) Technologies de Séquençage Nouvelle Génération

NISE : (angl. Non-Homologous Isofunctional Enzymes) Enzymes isofonctionnelles non-

homologues

PGDB : Pathway/Genome Data Base

RMS : Signature Moléculaire de Réaction

SDF : Structure-Data Format

SMILES : Simplified Molecular-Input Line-Entry System

XNA : (angl. Xeno nucleic acid) Acide Xénonucléique

7

Introduction

Le métabolisme est un des aspects les plus basiques de la vie. Il s'agit d'un système complexe, qui

implique des enzymes, la régulation de leur expression et leurs interactions, ayant pour objectif de

produire, via la catalyse de réactions biochimiques, toutes les substances chimiques (métabolites)

nécessaires au maintien de la vie dans les cellules. L’avènement de la biochimie expérimentale

dans les années 1950 a permis de découvrir la grande partie des activités enzymatiques connues

actuellement. De nos jours, la découverte de nouvelles activités enzymatiques a beaucoup ralenti.

De plus, environ 30% des activités enzymatiques connues, au moment de la rédaction de cette

thèse, sont orphelines de séquence [1–8], c’est à dire que les enzymes qui les catalysent sont

inconnues. Aussi, l’expérimentation in vivo démontre que les organismes, selon les conditions,

peuvent adopter des comportements qui ne peuvent pas être expliqués par les connaissances

actuelles sur le métabolisme, ce qui suggère que beaucoup d’activités enzymatiques sont encore à

découvrir. Dans les années 2000, l’arrivée des nouvelles technologies de séquençage et le

séquençage des génomes complets ont permis d’obtenir un nombre colossal de séquences d’acide

désoxyribonucléique (ADN). Cependant, malgré cette quantité de données brutes, il est très

difficile de découvrir de nouvelles activités enzymatiques à partir des séquences seules, et

parallèlement, une très grande partie (plus d'un tiers chez Escherichia coli K-12 MG1655, un des

organismes les plus étudiés et les mieux connus [9, 10]) demeurent de fonction inconnue, sans

parler des nombreuses annotations erronées dans les banques de séquences [11]. Sans connaître

l’enzyme qui catalyse une réaction d’intérêt, il est compliqué de maîtriser et de reproduire cette

réaction au besoin, et, sans connaître la fonction d’une protéine, on peut passer à côté d’une

activité enzymatique nouvelle qui peut être intéressante. Les conséquences de cette double lacune

dans les connaissances fondamentales sur le fonctionnement du vivant sont nombreuses et

touchent, également, beaucoup de domaines appliqués dont l’ingénierie métabolique, la

pharmacologie, la médecine, l’industrie agro-alimentaire ou encore l’écologie.

Deux axes principaux de recherche pour résoudre ces lacunes sur la connaissance du

métabolisme peuvent être identifiés en observant la littérature. Le premier axe est sur le

développement des techniques autour de l'annotation fonctionnelle des protéines, c'est à dire la

prédiction de la fonction d’une protéine à partir de sa séquence et de données connexes. Le

8

deuxième axe de recherche consiste à résoudre les "trous" dans le métabolisme qui

correspondent à des réactions catalysées dont les enzymes sont inconnues (enzymes orphelines

de séquence) ou à des réactions inconnues, à découvrir via l'exploration des réseaux

métaboliques, qui permettent de produire des métabolites d'intérêt.

L'étude des génomes a commencé dans les années 1990 avec en 1995 le premier séquençage d'un

organisme procaryote, Haemophilus influenzae Rd KW20. Vingt ans plus tard, près de cinquante

mille génomes complets (981 archées, 41001 bactériens et 6481 eucaryotes) sont disponibles dans

les bases de données (source Genomes Online, https://gold.jgi-psf.org), et le séquençage de

beaucoup de génomes et métagénomes est en cours de route. L'annotation fonctionnelle est le

processus d'assignation d'une fonctionnalité moléculaire et/ou biochimique à une séquence

d’ADN et/ou polypeptidique. D'après une étude [12], une fonction peut être potentiellement

associée par homologie pour environ 70% des gènes d'un organisme. Pour cela, les outils de

recherche de similarité entre séquences comme BLAST, FASTA et HMMER [13–17] sont

communément utilisés. Les 30% restants de gènes sont soit homologues à un gène de fonction

inconnue, soit ne ressemblent à aucune autre séquence précédemment élucidée. Ces pourcentages

sont très variables suivant les organismes étudiés et dépendent de leur proximité phylogénétique

avec des organismes expérimentalement étudiés. Dans la base de données UniProt [18], les

protéines de fonction inconnue sont référencées avec des termes comme "hypothetical",

"uncharacterized", "unknown" ou encore "putative" et représentent plus de 42% des 50 millions

de protéines publiées.

Plusieurs méthodes ont été développées pour essayer d'assigner une fonction aux nouvelles

séquences ou d'améliorer la qualité de l'annotation des séquences déjà connues. Parmi ces

méthodes, on trouve de la prédiction de fonction à partir du contenu en domaines structuraux et

fonctionnels d’une protéine [19], en s'aidant des informations sur la structure des protéines [20],

en créant des systèmes à bases de règles [21] ou encore en créant un réseau mondial

d’annotateurs experts [22]. La curation humaine a aussi une place importante dans les projets

d’annotation, notamment grâce aux efforts de SwissProt [23]. Ce genre d'études et de méthodes a

apporté énormément à l’amélioration de la qualité des annotations des gènes et des protéines

qu'ils encodent. Cependant, elles ne permettent pas de trouver la fonction d’un gène si aucune

caractérisation expérimentale directe ou indirecte n’est disponible (on parle alors de gènes

orphelins de fonction [24]).

9

Parallèlement aux efforts liés à l'annotation fonctionnelle des gènes et des protéines, des

approches, plus orientées sur l’analyse de réseaux, sont développées pour en découvrir plus sur le

métabolisme du point de vue biochimique, notamment en résolvant le problème des trous

("gaps" en anglais) dans le métabolisme et celui d’activités enzymatiques inconnues. L’approche

utilisée pour appréhender ce problème est d’étudier la structure des réseaux métaboliques,

notamment en identifiant une logique dans les enchaînements de transformations chimiques de

métabolites, que l’on appelle communément "voies métaboliques".

En 2005, Lacroix et al. [25] mettent en place une méthode de recherche de motifs fonctionnels

dans les réseaux métaboliques et introduisent le terme de "motif réactionnel". Pour la première

fois, ce terme n’est pas basé uniquement sur les caractéristiques topologiques du réseau, mais

aussi sur la nature fonctionnelle des composantes de ce motif. Malgré des preuves exactes du bon

fonctionnement de la méthode, elle se limite à la recherche des motifs fréquents dans les réseaux

métaboliques organisme-centrés, et ne permet pas la découverte de modules qui permettront de

remplir les trous dans ces réseaux, ni d’associer des protéines enzymatiques à ces motifs.

En 2013, Barba et al. [26] ont identifié le fait que l’enchaînement des réactions constituant les

voies de dégradation des purines et pyrimidines présente la même biochimie, ainsi que le fait que

ces réactions sont catalysées par des enzymes homologues. Ceci a permis d’introduire la notion

de module réactionnel, comme étant une succession de transformations enzymatiques catalysées

par des protéines homologues. Ils ont aussi démontré, grâce à l’expérimentation biochimique, que

le module découvert a une capacité prédictive et renferme une voie de catabolisme des purines

encore inconnue. Cependant, cette étude ne permet pas de généraliser l’approche de découverte

de modules conservés du métabolisme et de l’appliquer d’une façon systématique et automatique

afin de découvrir de nouvelles voies métaboliques.

Toujours en 2013, Muto et al. [27] publient les résultats de leur recherche systématique de

modules réactionnels dans la base de données KEGG [28]. A partir de l’analyse des motifs de

transformation structurale des composés chimiques pour toutes les voies métaboliques présentes

dans cette base de données, ils ont mis en évidence l’architecture modulaire du métabolisme, ainsi

que le caractère conservé de ces modules au travers des voies métaboliques en les alignant.

Cependant, le lien entre ces modules réactionnels et les protéines permettant de catalyser les

réactions comprises dans ces modules n’est pas fait, la méthode ne peut s’appliquer à d’autres

donnés que celles présentes dans KEGG.

10

Ces études mettent en évidence la logique modulaire des réseaux métaboliques et on peut voir

que l’idée de prédire des nouvelles activités enzymatiques en explorant cette modularité

commence à apparaître. Cependant, l’étude de Barba et al. ne permet pas de généraliser

l’approche au métabolisme entier, et celles de Lacroix et al. et de Muto et al. ne permettent pas de

faire le lien entre les modules réactionnels et les familles de protéines qui catalysent ces réactions.

De plus, la méthode de Muto et al. ne permet pas de découvrir des modules réactionnels

chevauchant plusieurs voies métaboliques, point plutôt crucial pour découvrir des enchainements

nouveaux d’activités enzymatiques et nécessite une post-curation experte pour valider les

modules trouvés.

C’est dans ce contexte de double problématique de gènes de fonction inconnue et d’activités

enzymatiques inconnues que l'étude à l'origine de cette thèse a été développée. Le travail a

consisté à définir des modules de transformations chimiques dans le métabolisme, à identifier les

plus conservés d'entre eux et à les explorer en les associant à des modules génomiques (comme

les opérons, par exemple) de fonction pas ou peu connue.

Toutefois, avant de développer cette méthode, une étude étendue a été réalisée sur les activités

enzymatiques orphelines de séquences aussi appelées "enzymes orphelines". Il s'agit d'activités

enzymatiques démontrées expérimentalement comme étant présentes dans un organisme donné,

mais dont la séquence codant pour l'enzyme catalysant cette activité est inconnue. En effet,

depuis 2007 [5], il n'y a pas eu de mise à jour sur ce phénomène qui touche pourtant entre 20 et

30% [7, 8] des activités enzymatiques connues. Le concept d'enzyme orpheline locale a aussi été

introduit : une activité enzymatique non-orpheline dans un clade donné mais orpheline dans un

autre. Ce concept met à jour les difficultés rencontrées par l'annotation fonctionnelle

automatique et met en avant les "NISE" - "Non-Homologous Isofunctionnal Enzymes" : des

enzymes non-homologues mais ayant la même activité catalytique. Cette étude a fait l’objet d'une

publication [8] et est décrite dans le premier chapitre de ce manuscrit.

Un travail plus méthodologique a ensuite été réalisé et constitue l’objet principal de cette thèse.

La démarche a consisté en l'exploration du métabolisme au travers de modules conservés de

transformations chimiques via la construction d’un modèle compressé de tout le métabolisme

connu qui regroupe des réactions entre elles selon leur type de transformation chimique. Pour

cela, un réseau de réactions représentant un modèle global du métabolisme a été construit à partir

11

des données sur les réactions et les voies métaboliques présentes dans les bases de données

publiques. Au préalable, une classification des réactions en fonction de leur type de

transformation chimique a été réalisée en utilisant les signatures moléculaires des réactions (RMS)

[29]. En regroupant les nœuds des réactions partageant le même type de transformation chimique

en un seul nœud, un réseau de RMS a été crée. Dans ce réseau, les nœuds représentent un type de

transformation chimique, regroupant ainsi toutes les réactions enzymatiques effectuant ce type de

transformation, et les arêtes reprennent tous les liens existants dans le réseau original de

réactions. Ce réseau de RMS contient l’information sur toutes les réactions connues à partir

desquelles il a été construit, mais aussi l’information sur les réactions encore inconnues, qu’il est

possible de déduire à partir de leur type de transformation chimique et de leur contexte dans ce

réseau. Ainsi, le réseau de RMS est une représentation globale et condensée des connaissances

actuelles sur le métabolisme et possède en plus un potentiel prédictif de nouveaux modules

réactionnels. Si on émet l’hypothèse de la modularité du métabolisme, c'est à dire que les

réactions forment des blocs conservés au cours de l'évolution, le modèle réduit de

transformations chimiques est aussi modulaire et contient des blocs conservés de transformations

chimiques. L’étape suivante consiste donc à identifier les différents types de conservation

d’enchaînements (ou chemins) de transformations chimiques dans ce réseau de RMS. Ensuite,

des métriques de conservation d'un chemin/module de RMS sont définies, basées sur la

conservation des motifs de transformations chimiques entre les voies métaboliques connues, la

conservation de ces motifs au travers de tout le métabolisme, leur conservation du point de vue

enzymatique dans la taxonomie ou encore du point de vue topologique du réseau. L’ensemble

des chemins possibles a été extrait à partir du réseau de RMS et un certain nombre s’est révélé

être très conservé. Cette méthode a fait l’objet d'une publication [30] et est décrite dans le

deuxième chapitre de cette thèse. Une partie de ces chemins conservés est identifiée, car ils

correspondent à des voies métaboliques connues, mais beaucoup de chemins ne correspondent à

rien de connu jusqu’ici, et nécessitent un effort d’identification.

Par conséquent, dans la troisième partie de ce manuscrit, est décrit le processus d’identification

de modules conservés dans le métabolisme de transformations chimiques pour l’annotation des

blocs génomiques fonctionnels tels que les opérons (unités génomiques fonctionnelles, présentes

essentiellement chez les bactéries et archées, contenant un ensemble de gènes co-transcrits et

contrôlés par un même promoteur) de fonction peu ou pas connue. Les gènes, qui encodent des

enzymes et qui sont retrouvés dans ce type de structures génomiques, sont souvent impliqués

dans les mêmes fonctions cellulaires, assimilables aux voies métaboliques. Un exemple classique

12

est l’opéron histidine, contenant généralement huit gènes qui codent des enzymes catalysant les

étapes successives de la biosynthèse de cet acide aminé, lorsque celui ci devient déficient dans

l’organisme. C’est la méthodologie de la mise en relation d’un contexte génomique avec un

contexte métabolique relâché, représenté par le réseau de signatures moléculaires de réactions, qui

est décrite dans le troisième chapitre du présent manuscrit. Un exemple d’application de cette

méthode est ensuite présenté sous la forme d’une étude de cas appliquée à une famille d’enzymes

d’intérêt industriel, les Baeyer-Villigerases monooxygénases (BVMOs). Le contexte génomique

des enzymes de cette famille est calculé à l’aide d’une méthode simple de prédiction d’opérons,

pour ensuite identifier leur contexte métabolique, c’est à dire prédire les voies métaboliques dans

lesquelles elles pourraient être impliquées. Cinq types d’opérons contenant une BVMO ont pu

être repérés en fonction des transformations chimiques catalysées par les enzymes codés par ces

opérons. Chacun de ces types correspond à un module différent de RMS, dont certaines

transformations chimiques n’étaient pas encore connues pour participer dans des voies

métaboliques impliquant des BVMO. L’application de cette méthode, bien que nécessitant pour

l’instant une intervention humaine pour valider les prédictions, s’est donc révélée efficace pour

découvrir de nouvelles voies métaboliques et annoter des gènes dans les opérons qui ont pu y

être associés.

Ce manuscrit présente les résultats obtenus au cours de trois années de travail. Il est introduit par

un état de l’art étendu sur le contexte biologique et méthodologique de cette thèse. Il est ensuite

organisé en trois chapitres, dont les deux premiers sont sous la forme d’articles publiés dans des

revues scientifiques internationales. La discussion de ces résultats, ainsi que les perspectives,

qu’elles soient des améliorations possibles des méthodes décrites, la poursuite des

développements ou les possibilités d’applications pratiques, concluent ce manuscrit.

13

La démarche suivie dans cette thèse

« La séparation des savoirs, la spécialisation en domaine isolé nuit considérablement au développement de la

recherche. »

Historien scientifique Jacques Le Goff.

Cette citation reflète la tendance actuelle au mélange des disciplines et à la nécessité pour les

scientifiques de se spécialiser dans plusieurs sciences, comme c’est le cas des bioinformaticiens,

qui utilisent l’informatique pour résoudre des problèmes biologiques. Mais la recherche

scientifique nécessite un entremêlement des domaines encore plus important, d’autant que

certains sont plus avancés que d’autres sur certains aspects. Par exemple, en sociologie, où

l’informatique est de plus en plus utilisée aussi, les méthodes d’analyse de réseaux sociaux sont

très développées, tendance liée notamment à l’explosion des réseaux sociaux ces dernières

années. Or, en bioinformatique, les méthodes d’analyse de réseaux, qu’ils soient génétiques,

protéiques ou métaboliques ne font que commencer à émerger. Il est donc intéressant d’étudier

les méthodes d’analyse de réseaux propres à la sociologie pour pouvoir éventuellement les

appliquer dans l’analyse de réseaux biologiques. Un autre exemple serait la gestion de très grandes

quantités de données, communément appelées « big data ». En biologie, avec l’avènement de

technologies comme le séquençage, la spectrométrie de masse ou l’imagerie, la quantité de

données est très importante et il faut développer des techniques de stockage et d’analyse efficaces

et adaptées. Le concept du « big data » est aussi présent dans d’autres domaines, en

astrophysique, en finances, en linguistique ou en informatique « pure », et pour l’instant il n’y a

que très peu de dialogue et d’échanges entre ces différentes disciplines pour faire avancer une

cause à priori commune.

Pendant ma thèse je me suis efforcée de sortir des domaines que j’ai exploré pendant mes études

universitaires, qui sont la biologie moléculaire et l’informatique, pour m’intéresser à des

techniques utilisées dans des domaines voisins, comme la biochimie, la chimie et la

chemoinformatique, ainsi qu’à des domaines plus éloignés, comme la sociologie pour ses

méthodes efficaces d’analyse de réseaux.

14

Cette thèse est avant tout un travail exploratoire. Nous sommes partis d’une hypothèse principale

qui est que les modules (ou les enchaînements) de transformations chimiques sont conservés au

cours de l’évolution du métabolisme et, comme c’est le cas pour de nombreux travaux de

recherche, nous ne savions pas du tout où, ni comment, cette hypothèse allait nous emmener. Il y

a eu beaucoup de tâtonnements, notamment pour trouver une façon à la fois efficace et correcte

de regroupement des réactions biochimiques selon le type de transformation chimique qu’elles

réalisent. Il a aussi fallu choisir la bonne source d’information sur le métabolisme, ainsi que de

décider si le travail allait se porter sur le métabolisme d’un organisme donné, d’un groupe

d’organismes ou sur le métabolisme « en général », et dans chacun des cas, la structure de

données à utiliser. Ensuite, il a fallu définir des mesures de conservation des modules dans le

réseau de transformations chimiques obtenu à partir d’un réseau de réactions, et pour cela

adopter différents points de vue, biologique d’un côté et informatique de l’autre. Pour ce dernier

point, j’ai dû me plonger dans le monde merveilleux de l’analyse des réseaux, appliqué dans

beaucoup de domaines comme la physique ou la sociologie, mais malheureusement encore peu à

l’interface avec la biologie. Plusieurs méthodes, inspirées d’analyses de réseaux sociaux, ont donc

été testées pour trouver des parties intéressantes dans le réseau de transformations chimiques

avant d’opter pour une méthode de classement des nœuds basée sur la topologie du réseau qui

est utilisée par le fameux moteur de recherche Google. Chez les procaryotes, les modules

génomiques, comme les opérons, sont souvent associés à une même fonction cellulaire, or, les

méthodes de prédiction des opérons sont nombreuses et parfois complexes à appliquer, il a donc

fallu appliquer une méthode de prédiction d’opérons, qui soit à la fois simple, relativement

efficace et surtout qui puisse être exécutée sur n’importe quel génome procaryote. La projection

de ces blocs génomiques sur le réseau de transformations chimiques a été la finalisation de tous

les paris faits sur les techniques sélectionnées et les approches inventées pour valider l’hypothèse

du départ.

La démarche scientifique menée au cours de cette thèse a ainsi été d’intégrer le plus large éventail

possible de ressources, méthodes et informations tout en gardant le cap sur le but final fixé

initialement : explorer le métabolisme.

16

Contexte biologique et méthodologique

Ce chapitre a pour but d’introduire les concepts biologiques et informatiques utilisés pendant

cette thèse et d’effectuer un état des lieux sur les domaines relatifs. Il est constitué de cinq parties.

Le métabolisme, ses différents acteurs et les théories sur son évolution sont présentés dans la

première partie. Dans la deuxième partie sont passées en revue les différentes façons de

représenter et d’explorer le métabolisme du point de vue informatique, ainsi que les différentes

ressources et bases de données publiques où l’on peut trouver toutes les connaissances actuelles

sur le sujet. La troisième partie est consacrée aux apports de la génomique pour la

compréhension du métabolisme d’un organisme, notamment l’annotation fonctionnelle des

génomes, le contexte génomique, la reconstruction des réseaux métaboliques à partir de génomes

complets ainsi que les lacunes dans les connaissances enzymatiques. Dans la partie suivante sont

présentées différentes méthodes pour l’exploration du métabolisme, avec les différentes façons

d’encoder les réactions pour un traitement automatique plus efficace, des méthodes pour combler

les trous dans les connaissances métaboliques, ainsi que les différentes façons d’explorer la

modularité des réseaux métaboliques et découvrir ainsi de nouvelles voies métaboliques. La

dernière partie de ce chapitre présente les limites de nos connaissances sur le métabolisme,

notamment des aspects non-enzymatiques de celui-ci.

17

I. Le métabolisme

La vie est un concept difficile à définir. Il y a plusieurs façons différentes de penser à la vie, et,

pour compliquer les choses encore plus, il y a de multiples définitions académiques. On peut

penser à la vie comme à « la chair et le sang », ou comme à une machine ou un automate. On

peut aussi penser aux briques élémentaires – les molécules de la vie, ou encore, à l’information

contenue dans celles-ci. Plusieurs définitions scientifiques plus ou moins précises existent. Leslie

Orgel [31] par exemple, a défini une entité vivante avec le terme « CITROENS » (Complex,

Information-Transforming Reproducing Object that Evolves by Natural Selection – des objets complexes

ayant la capacité de transformer l’information et de se reproduire tout en évoluant par sélection

naturelle). Norman Horowitz, un des premiers généticiens à travailler sur les théories de

l’évolution du métabolisme et après avoir travaillé sur la recherche de la vie dans le système

solaire, donne une définition de la vie basée sur la génétique. Selon lui, être en vie équivaut à

posséder des propriétés génétiques, qui sont notamment l’autoréplication, la catalyse et la

mutabilité [32]. De plus en plus de scientifiques, cependant, déclarent que l’on ne peut pas encore

définir ce qu’est la vie, car on n’en sait pas encore suffisamment sur sa nature, mais qu’on peut

toutefois prédire ce qu’est vivant ou non sans avoir une définition générale. La plupart des

définitions de ce que c’est qu’un organisme vivant, bien que différentes sur certains points, se

rejoignent sur le fait que transformer la matière par des réactions chimiques est nécessaire à la

création et au maintien de la vie. L’ensemble de ces réactions, souvent catalysées par des

protéines produites par l’organisme (ou par des protéines « empruntées » à d’autres organismes

comme c’est le cas des virus), ainsi que les petites molécules organiques qu’elles transforment,

s’appelle le métabolisme et est au cœur de cette thèse.

I.1 Qu’est-ce qu’est le métabolisme ?

Le métabolisme est l’ensemble de processus biochimiques à travers lesquels les organismes

vivants se maintiennent en vie, se développent, se reproduisent et interagissent avec

l’environnement. Par ailleurs, le terme « métabolisme », qui est retrouvé dans beaucoup de

langues différentes, vient du grec « µεταβολή » (metabôlé) et signifie changement ou

transformation. Les transformations chimiques opérées dans les organismes vivants concernent

18

principalement des petites molécules appelées métabolites qui sont modifiées par des réactions

chimiques. Ces réactions peuvent avoir lieu à l’intérieur des cellules comme à l’extérieur de celles-

ci (c’est le cas notamment des réactions permettant la digestion, le transport ou la communication

entre cellules). Le métabolisme se repose sur des réactions biochimiques catalysées la plupart du

temps par des protéines possédant la propriété de faciliter des réactions qui leur sont spécifiques.

Ces protéines sont communément appelées des enzymes.

Les réactions métaboliques peuvent être classées en deux grandes catégories : l’anabolisme et le

catabolisme. L’anabolisme regroupe des réactions de biosynthèse, qui permettent de convertir

des nutriments en briques élémentaires ainsi que d’assembler ces briques élémentaires en

composants cellulaires comme les protéines, les acides nucléiques, les polysaccharides de stockage

énergétique et les lipides. Le catabolisme représente l’ensemble des réactions de dégradation de

ces composants cellulaires en petites molécules. Les réactions cataboliques permettent d’obtenir

de l’énergie à partir de la dégradation de nutriments ou de dégrader des macromolécules en

briques élémentaires pour ensuite reconstruire d’autres composants cellulaires.

Le catabolisme et l’anabolisme interviennent aussi dans d’autres fonctions cellulaires telles que la

détoxification (dénaturation des molécules toxiques pour la cellule), la signalisation, la

communication chimique entre les cellules, ou encore la réparation des structures subcellulaires.

La diversité du métabolisme est remarquable. C’est cette diversité qui permet à certaines bactéries

et archées de survivre dans des environnements extrêmes, aux bactéries et aux plantes de

produire l’oxygène dont dépend la survie de beaucoup d’autres organismes vivants, à tous les

êtres vivants de se défendre des intrusions des autres ou, au contraire, de créer des symbioses en

mettant en commun leurs capacités métaboliques.

Les compétences biochimiques des organismes sont utilisées par l’homme depuis très longtemps.

Depuis leur utilisation pour la fabrication du pain, de bière et de vin par fermentation, l’utilisation

des capacités métaboliques des être vivants s’est étendue à de nombreux autres domaines, comme

la santé avec notamment la production d’antibiotiques et l’industrie énergétique avec la synthèse

de carburants par des bactéries et des algues.

Dans la section suivante seront décrites les définitions des entités et des notions étroitement liées

au métabolisme.

19

I.2 Les acteurs du métabolisme

Le métabolisme est un concept qui rassemble de nombreux acteurs et de notions de nature

différente. Il existe un grand nombre de façons de percevoir et de représenter le métabolisme. Ici,

n’est présentée qu’une seule de ces façons, la plus commune en biologie et en biochimie. Seront

ainsi décrits, dans cette section, les entités et les notions sans lesquelles il est impossible de décrire

le métabolisme, c’est à dire, les métabolites, les réactions, les enzymes et les cofacteurs.

I.2.1 Métabolites

Les petites molécules (généralement de poids moléculaire inférieur à 1000 Da), synthétisées ou

dégradées dans une cellule, sont communément appelées métabolites. Ces molécules peuvent

provenir de l’extérieur de l’organisme, dans ce cas on les appelle nutriments (prise de nourriture)

ou xénobiotiques (composés étrangers, non nutritifs pour l’organisme et qui peuvent être

toxiques, comme les médicaments par exemple), ou être fabriquées par l’organisme et voyager

entre les différents compartiments cellulaires, être excrétés dans l’environnement, ou encore être

transférés entre les cellules (dans les organismes multicellulaires par exemple). La plupart des

métabolites sont ce que l’on appelle communément « composés chimiques organiques » à cause

de la présence quasi-systématique d’atomes de carbone. En plus du carbone, les métabolites sont

composés d’oxygène, d’hydrogène, d’azote et de souffre. Des atomes métalliques, comme le fer,

le magnésium ou le calcium sont beaucoup plus rares, mais tout aussi essentiels, les carences en

ces atomes peuvent s’avérer létales pour l’organisme. Les atomes de carbones de molécules

organiques peuvent être marqués très facilement de façon radioactive, ce qui permet de suivre les

échanges de matière au sein de l’organisme.

Figure 1. Structures de l’acide acétiques, du glycoaldehyde et du méthyl formate. Ces composés chimiques ont la même formule chimique (C2H4O2) mais des structures différentes.

20

Le métabolome est l’ensemble des métabolites dans un organisme donné à un temps donné. Il

est donc constitué d’un grand nombre de molécules organiques appartenant à diverses classes

comme les acides aminés, les peptides, les lipides, les nucléotides ou les sucres. Le nombre total

de métabolites est estimé entre 200000 et 1000000 d’après [33].

La métabolomique est l’étude du métabolome dans des conditions biologiques données, et

s’emploie à identifier et quantifier les métabolites d’un organisme. Le métabolome d’un même

organisme peut être très différent selon l’environnement, de son état de stress, de l’âge, d’une

modification génétique, etc.. Deux techniques principales permettent de nos jours d’obtenir un

métabolome : la résonnance magnétique nucléaire et la spectrométrie de masse [34]. Les deux

doivent cependant être combinées pour obtenir un métabolome relativement complet, car aucune

n’est capable de d’identifier tous les types de métabolites. Le traitement automatique de ces

données est un des plus gros défis actuels en bio- et chemo-informatique [34].

Figure 2. Identifiants IUPAC de l’acide acétique, de la L-lysine et du Coenzyme A. Pour certaines molécules, plusieurs identifiants officiels sont possibles. Lorsqu’il s’agit de grosses molécules ces identifiants deviennent compliqués à utiliser pour un humain.

Un composé chimique possède une structure chimique unique et bien définie. La formule brute

d’un composé chimique n’indique que sa composition en atomes et ne reflète pas sa structure,

ainsi, deux composés chimiques distincts peuvent avoir la même formule brute (par exemple la

21

formule brute C2H4O2 décrit l’acide acétique, le glycoaldehyde et le methyl formate, des composés

chimiques ayant une structure pourtant différente Figure 1). L’identification des molécules se fait

de plusieurs façons. Tout d’abord, il y a les numéros CAS (Chemical Abstracts Service Registry

Numbers [35]) qui sont des identifiants numériques uniques assignés à chaque molécule décrite

dans la littérature scientifique. Par exemple, l’identifiant CAS de l’acide acétique est 64-19-7.

Ensuite, il y a la nomenclature IUPAC (International Union of Pure and Applied Chemistry),

qui est une méthode systématique de nommage de composés chimiques organiques [36]. Dans

l’idéal selon cette nomenclature, chaque composé chimique devrait avoir un nom tel qu’une

structure 2D non-ambiguë puisse être crée. Par exemple, le nom IUPAC de l’acide acétique est

« acetic acid ». Cependant, les identifiants IUPAC sont rarement utilisés par la communauté de

biologistes car les noms pour les grandes molécules peuvent devenir très rapidement très

compliqués (Figure 2). Il en résulte des problèmes d’identification des composés chimiques,

notamment donner le même nom à des structures différentes ou des noms différents à la même

structure. Il existe donc plusieurs façons informatiques d’encoder la structure 2D des molécules

chimiques pour lever les ambiguïtés.

La première façon d’encode la structure 2D est celle des fichiers molfile (MDL molfile format).

C’est un format de fichier crée par la société MDL (maintenant devenu Symyx qui a fusionné

avec Accelrys : http://accelrys.com ; Accelrys ayant récemment été racheté par Dassault

Systèmes), et contient l’information sur les atomes, les liaisons entre les atomes, la connectivité et

les coordonnées spatiales pour une molécule (Figure 3). Les fichiers SDF (Structure-Data File)

Figure 3. Fichier MOLFILE de l’aldehydo-D-glucose-6-phosphate. Les fichiers MOLFILE décrivent les coordonnées tridimensionnelles des atomes de la molécule.

22

utilisent le format molfile. Dans ces fichiers, il y a plusieurs composés chimiques au format

molfile séparés par des lignes de quatre caractères dollar ($$$$). Une des particularités du format

SDF est qu’on peut y inclure des données supplémentaires associées aux molécules, comme les

identifiants officiels des molécules, leurs identifiants dans différentes bases de données ou des

commentaires de l’utilisateur.

Figure 4. Descripteurs moléculaires de l’aldehydo-D-glucose-6-phosphate. (a) SMILES, (b) InChi, (c) InChi Key.

Une autre façon d’encoder la structure bidimensionnelle des composés chimiques est le format

SMILES (Simplified Molecular-Input Line-Entry System [37, 38]). C’est une notation linéaire

décrivant la structure de la molécule en utilisant des courtes chaines de caractères ASCII. Le

concept de génération d’une entrée SMILES est assez simple : il faut casser les éventuels cycles

pour ensuite décrire les branches à partir du squelette carboné de la molécule (Figure 4a).

Cependant, une même molécule peut être décrite par plusieurs signatures SMILES valables (par

exemple CCO, OCC et C(O)C spécifient correctement la structure de l’éthanol). Ainsi, des

algorithmes de canonisation de SMILES ont été créés pour assurer un code SMILES unique pour

une structure donnée indépendamment de l’ordre des atomes considéré dans la structure

dessinée. De ce fait, un SMILES officiel est unique pour chaque structure grâce à cette étape de

canonisation, c’est le SMILES canonique (Canonical SMILES). Pour une molécule donnée, il

peut aussi y avoir un SMILES isomérique, qui est une chaine de caractères contenant

l’information sur la conformation des doubles liaisons et la chiralité.

23

La dernière façon standard de représenter une structure chimique est le code InChI [39] (IUPAC

International Chemical Identifier - http://www.iupac.org/inchi). C’est un identifiant textuel pour

les composés chimiques basé sur plusieurs types d’information : les atomes, la connectivité

interatomique, l’information sur les tautomères, les isotopes, la stéréochimie et sur les charges

électroniques. C’est un identifiant unique à chaque molécule indépendamment de la façon dont

celle-ci est dessinée (contrairement, notamment, aux fichiers molfile et aux codes SMILES qui

varient en fonction de la façon dont la molécule est dessinée). Depuis 2009, est disponible un

logiciel générant des InChI standardisés, à partir desquels il est possible de générer des clés

uniques InChI Keys (Figure 4b et c). La standardisation des InChi simplifie leur comparaison du

point de vue informatique et permet une uniformisation des données à travers les ressources

publiques.

La conception et l’utilisation de descripteurs moléculaires (méthodes pour décrire toutes sortes

d’informations chimiques et topologiques d’une molécule chimique) est une branche à part

entière de la chemo-informatique (on pourra notamment consulter le livre [40] pour constater

l’étendue du domaine). Contrairement aux identifiants moléculaires présentés précédemment, les

descripteurs moléculaires sont utilisés pour calculer des propriétés chimiques (QSPR – quantitative

structure-property relationship – relation quantitative structure-propriété) ou d’activité chimique

(QSAR – quantitative structure-activity relationship – relation quantitative structure-activité). Les

descripteurs moléculaires peuvent être classifiés en cinq catégories, selon les dimensions qu’ils

couvrent : 0D (nombre de liens, poids moléculaire, nombre d’atomes), 1D (comptages de

fragments moléculaires, liens hydrogène, surface polaire, etc), 2D (rassemblant les descripteurs

Figure 5. Fullerène. Cette molécule sphérique est composée de cycles de carbone et est généralement complexe à décrire d’une façon systématique avec des descripteurs moléculaires.

24

topologiques), 3D (contenant les descripteurs géométriques et les informations sur les propriétés

de surface) et 4D (contenant les coordonnées 3D ainsi que les informations de conformation).

Deux descripteurs moléculaires seront décrits ici : les descripteurs moléculaires de signatures

stéréo [41] calculés par le logiciel MolSig (http://molsig.sourceforge.net) et les descripteurs

KEGG Chemical Function and Substructure (KCF-S) [42].

L’algorithme MolSig [41], générateur des descripteurs moléculaires de signatures stéréo (MS),

tient compte de la conformation stéréochimique des molécules en plus de leur topologie. Il

permet de générer des MS pour des structures stéréochimiques complexes comme par exemple

les fullerènes (Figure 5) et est efficace du point de vue computationnel. Cette méthode considère

une molécule comme un graphe où les atomes sont des nœuds et les liens entre les atomes des

arêtes et calcule un sous-graphe d’un diamètre donné centré sur chacun des atomes de la

molécule. Le formalisme SMILES est utilisé pour décrire les sous-graphes pour chaque atome.

L’algorithme prend en entrée un fichier molfile. La signature moléculaire obtenue est une

représentation sur plusieurs lignes, avec une sous-structure par ligne et le nombre de fois où cette

sous-structure est rencontrée dans la molécule (un exemple de MS est présenté en Figure 6).

Figure 6. Signature moléculaire de hauteur 1 de l’aldehydo-D-glucose-6-phosphate calculée avec le logiciel MolSig.

25

Les KEGG Chemical Function and Substructure (KCF-S [42]) étend le format KCF en y

ajoutant sept attributs décrivant des sous-structures biochimiques. Le format KCF comporte

trois sections, « ENTRY », « BOND » et « ATOM ». ENTRY indique l’identifiant KEGG (base

de données métaboliques, cf. section II) de l’entrée ainsi que son type. Dans la section ATOM

sont présentés les numérotations des atomes, les « KEGG atom types » (les types d’atomes selon

le formalisme KEGG) pour les étiquettes sur les atomes, l’espèce chimique de chaque atome

(« C » pour carbone par exemple) ainsi que leurs coordonnées 2D. La section BOND décrit la

numérotation des liens, les numérotations des deux atomes impliqués dans le lien ainsi que la

configuration stérique du lien (Figure 7). Le descripteur moléculaire KCF-S étend cette

représentation de la molécule en y ajoutant les attributs suivants : TRIPLET, VICINITY, RING,

SKELETON, INORGANIC. La conversion en KCF et KCF-S se fait à partir d’un fichier

molfile.

Ces deux exemples de descripteurs moléculaires ajoutent des informations sur les sous-structures

moléculaires aux coordonnées spatiales de chaque atome, présentes dans un simple fichier

molfile. Ceci permet de réaliser des manipulations plus complexes sur les molécules, notamment

de suivre leurs implications dans les réactions ainsi que la façon dont les réactions les

transforment.

26

I.2.2 Réactions Les métabolites sont transformés au cours des réactions biochimiques. Les molécules

transformées au cours d’une réaction sont appelées substrats et les molécules résultantes d’une

réaction sont des produits. Une réaction est souvent représentée par son équation bilan, dans

laquelle sont décrites les formules chimiques des produits et des substrats, leurs relations, la

direction de la réaction ainsi que sa stœchiométrie, c’est à dire la proportion de molécules

nécessaire au maintien du principe de conservation de la masse (« Rien ne se perd, rien ne se crée,

tout se transforme » d’après Antoine de Lavoisier, un des pères de la chimie moderne). Ainsi, au

cours d’une réaction les molécules échangent des atomes ou des groupes d’atomes. La

transformation chimique opérée pendant une réaction, c’est à dire la façon dont l’échange

d’atomes ou de groupes d’atomes se produit, peut être la même pour des réactions agissant sur

des molécules différentes. On dit alors que ces réactions réalisent le même type de

transformation chimique.

Figure 7. Descripteur moléculaire KEGG Chemical Function and Substructure (KCF-S) (image extraite de Kotera et al. [42]).

27

La vitesse d’une réaction biochimique dépend de la nature des composés chimiques et de

l’environnement réactionnel (température, pression, PH, concentration des substrats, présence

d’un catalyseur de la réaction). Un catalyseur de réaction est une entité qui ne fait pas partie des

substrats ni des produits de la réaction, qui n’est pas directement altéré par cette dernière mais qui

augmente la vitesse de la transformation chimique. Dans une cellule, les catalyseurs sont

principalement des protéines ou des complexes protéiques, communément appelés enzymes,

mais ils peuvent aussi être des complexes hétérogènes protéine-ARN, voire des molécules seules

d’ARN non-codant à capacité catalytique, appelées ribozymes. Une réaction pouvant être

réalisée dans les deux sens est dite réversible (les produits peuvent être des substrats de la

réaction). En théorie, toute réaction est réversible mais dans des conditions physiologiques un

sens de réaction est souvent privilégié. Une réaction peut même être considérée comme

irréversible quand il n’y a pas de catalyseur dans le milieu cellulaire permettant à la transformation

chimique de se faire dans l’autre sens (par exemple une décarboxylation – Figure 8).

I.2.3 Enzymes Les enzymes sont généralement des protéines ou des complexes protéiques ayant la capacité de

catalyser des réactions biochimiques plus ou moins spécifiques. Dans la langue française, le

masculin et le féminin sont acceptés pour le terme « enzyme », ce qui peut provoquer une

confusion sur les bancs universitaires, chaque professeur ayant une préférence pour l’un ou pour

l’autre. Dans les ouvrages les plus anciens, c’est le féminin qui domine, mais depuis une dizaine

d’années, il semblerait que le masculin a de plus en plus de succès. Toutefois, les deux

déterminants sont pour l’instant considérés corrects par l’Académie Française :

http://ptitlien.com/ojz1o). La première enzyme fût isolée en 1833 par Anselme Payen et Jean-

Figure 8. Réaction de décarboxylation du 2-oxoglutarate. Cette réaction est considérée comme irréversible dans le milieu cellulaire en absence d’un catalyseur.

28

François Persoz [43], elle dégradait l’amidon et a été nommée « diastase », ce qui signifie

« séparation » en grec. Même si cette enzyme a par la suite été renommée en « amylase », la

tendance à donner aux enzymes des noms qui se terminent par le suffixe « ase » date de cette

époque. Le mot « enzyme » vient du grec ancien « zumê » qui signifie « levain », et a été introduit

en 1877 par Wilhelm Kühne qui travaillait sur le processus de fermentation.

Les enzymes sont généralement des protéines, elles sont donc encodées dans le génome et font

suite à l’expression des gènes par le processus de transcription et traduction amenant à la

synthèse de chaines polypeptides composés à partir d’acides aminés. Ces protéines peuvent être

constituées d’un seul polypeptide (protéine monomérique) ou de plusieurs chaines

polypeptidiques (protéine multimérique) encodées par un ou plusieurs gènes. D’autre part, les

protéines sont aussi constituées de domaines protéiques, qui sont des parties d’une ou plusieurs

chaines polypeptidiques ayant des propriétés particulières, par exemple, adopter une structure de

manière autonome ou quasi-autonome du reste de la molécule. Une des branches importantes de

la bioinformatique structurale consiste à effectuer une classification étendue des domaines

structuraux et des protéines en général. Un domaine peut être porteur, par exemple, de la

fonction de catalyse (c’est à dire qu’il contiendra le site catalytique de l’enzyme) et un autre peut

servir à lier le substrat. Les multiples aspects liés à l’assignation de fonctions enzymatiques aux

protéines et aux domaines protéiques sont présentés dans la section III de ce chapitre.

La catalyse est une action qui permet à la réaction de se dérouler dans un milieu dans lequel elle

ne pourrait pas se faire et/ou d’accélérer grandement cette réaction. Les enzymes agissent à faible

concentration (il en faut très peu dans le compartiment cellulaire donné pour que la catalyse

puisse avoir lieu) et ne sont généralement pas modifiées au cours de la réaction. Les enzymes

possèdent des poches catalytiques dans lesquelles les substrats sont stabilisés (différents

mécanismes sont utilisés pour cette stabilisation, comme le rapprochement forcé des substrats,

stabilisation par effet électrostatique ou par l’hydrophobicité, par exemple) afin que la réaction

puisse se produire. La taille et la forme de la poche catalytique de l’enzyme, ainsi que certains

acides aminés clés impliqués directement dans le mécanisme réactionnel, régissent la spécificité de

l’enzyme. En effet, certaines enzymes sont spécifiques d’un substrat donné, d’autres sont plus

généralistes et peuvent transformer plusieurs substrats possédant une même fonction chimique.

Une enzyme peut avoir plusieurs sites catalytiques, soit dans une même poche catalytique soit

dans deux poches catalytiques différentes (situées sur des domaines différents ou non), on parle

29

alors d’enzyme multifonctionnelle. Une enzyme peut aussi changer de fonction catalytique et de

spécificité de substrat en fonction de l’environnement dans lequel elle est présente (température,

PH) ou en fonction de la présence de certains métabolites pouvant provoquer un changement de

conformation spatiale de l’enzyme. Les enzymes du premier cas se nomment les « moonlighting

proteins » et leur étude est assez complexe [44–46]. Les enzymes du deuxième cas appartiennent

à la catégorie des enzymes allostériques [47, 48]. Ces enzymes possèdent au moins un site de

fixation de métabolite distant de la poche catalytique, et la fixation d’un métabolite sur ce site

modifie la conformation structurale de l’enzyme. Ce changement de conformation peut avoir un

effet négatif (le métabolite est alors un inhibiteur) ou positif (métabolite activateur). En

ingénierie enzymatique, l’allostérie est de plus en plus utilisée pour contrôler les enzymes d’intérêt

[49].

I.2.4 Cofacteurs

Les derniers acteurs du métabolisme qui seront décrits ici sont les cofacteurs. Un cofacteur est

une molécule non-protéique qui se fixe sur une enzyme. Ces molécules sont souvent

indispensables à leur bon fonctionnement, ce sont des « molécules d’assistance ». Une enzyme

sans cofacteur et inactive est appelée apoenzyme. L’enzyme avec le cofacteur fixé est

l’holoenzyme. Les cofacteurs peuvent être classifiés en trois catégories : les ions métalliques, les

cofacteurs faiblement liés à l’enzyme et les cofacteurs fortement liés à l’enzyme.

Les ions métalliques permettent principalement le maintien de la structure de l’enzyme. Les ions

les plus fréquents sont les ions fer, cuivre, magnésium, nickel, zinc, manganèse et molybdenium.

Ils se lient d’une façon covalente à l’enzyme. Un ou plusieurs ions de même nature ou de natures

chimiques différentes peuvent être nécessaires à son bon fonctionnement. Les ions métalliques

ne sont pas transformés pendant la réaction enzymatique et n’apparaissent pas dans l’équation de

la réaction.

Les cofacteurs faiblement liés à l’enzyme sont des coenzymes et sont généralement libérés après

la réaction. La liaison à l’enzyme est généralement une liaison hydrogène ou ionique. Ils sont

transformés pendant la réaction enzymatique, sont souvent appelés co-substrats et apparaissent

dans l’équation de la réaction. Les coenzymes sont généralement en excès dans le milieu

cellulaire. Parmi les coenzymes les plus fréquents il y a le nucléotide adénosine monophosphate

(AMP), le nucléotide adénosine triphosphate (ATP), le coenzyme A (CoA), la nicotinamide

30

adénine dinucléotide (NAD) et la nicotinamide adénine dinucléotide phosphate (NADP) et leur

formes réduites NADH et NADPH. Il est d’ailleurs intéressant de préciser que beaucoup de

cofacteurs possèdent dans leur structure l’AMP, ce qui peut refléter une origine évolutive

commune. Une hypothèse [50] suggère que la structure de l’AMP est considérée comme une

sorte de poignée dont les enzymes se servent pour basculer le coenzyme entre les différentes

poches catalytiques. Par ailleurs, la géométrie de la liaison de l’AMP mime d’une façon presque

exacte la géométrie de l’appariement des bases dans l’ADN et l’ARN.

Les cofacteurs fortement liés à l’enzyme, c’est à dire par une liaison covalente, sont appelés

groupements prosthétiques. Ce sont des molécules organiques au centre desquelles sont

souvent trouvés un ou plusieurs atomes métalliques. Les exemples les plus fréquents de

groupements prosthétiques sont l’hème (intervenant dans la plupart des réactions avec de

l’oxygène) et un certain nombre de vitamines.

Tous les acteurs du métabolisme ont pour but de satisfaire des objectifs de la cellule. Ces

objectifs peuvent concerner la production d’énergie, la communication, la défense ou la

construction ou le remplacement d’éléments constituant la structure même de la cellule. Afin

d’atteindre ces objectifs, il est souvent nécessaire d’effectuer plusieurs transformations chimiques

consécutives sur les métabolites. Ces enchainements sont aussi appelés voies métaboliques et

sont présentés dans la section suivante.

I.2.5 Voies métaboliques Classiquement, on définit une voie métabolique comme un enchainement d’étapes de

transformations de métabolites, ces étapes de transformations étant catalysées la plupart du

temps par des enzymes. Une voie métabolique est caractérisée par un métabolite de départ

(substrat initial) et un métabolite cible (produit final de la voie). Il peut y avoir plusieurs

enchainements de réactions différents qui ont le même substrat initial et le même produit final.

Dans ce cas on dit que la voie métabolique possède plusieurs variants.

En 1999 Harold Morowitz [51] décrit l’ensemble des voies métaboliques connues comme « une

vaste généralisation empirique basée sur un siècle et demi de travail d’une armée de biochimistes

qui se sont efforcés de caractériser toutes les réactions chimiques se déroulant dans les cellules

vivantes ». Ainsi, lorsque l’on veut définir la notion de voie métabolique, il faut garder à l’esprit

31

que celle-ci est une vision humaine pour diviser le réseau métabolique en sous-parties plus faciles

à comprendre, à étudier et à reproduire. C’est avant tout un concept créé pour appréhender une

fonction biologique donnée, car les enzymes et les métabolites sont la plupart du temps en état

libre dans le compartiment cellulaire où ils se trouvent, et la rencontre d’un métabolite et d’une

poche catalytique d’une enzyme peut âtre considérée comme « accidentelle/fortuite ». La

nécessité des organismes d’avoir l’ensemble des enzymes qui catalysent les réactions servant à

obtenir un métabolite essentiel à un moment donné, les « pousse » à co-réguler l’expression des

gènes codant pour ces enzymes. En effet, chez les procaryotes et certains eucaryotes, il existe

une relation entre l’ordre et la co-localisation des gènes sur les chromosomes qui favorise leur co-

expression et, ainsi, l’enchainement en voie métabolique des réactions catalysées par les enzymes

correspondantes [52]. De plus, des similitudes dans la structure des voies métaboliques dans un

organisme et entre les organismes, même éloignés du point de vue taxonomique et intra-

organismes, sont observées [25, 26]. Ainsi, il existe bien une logique conservée au cours de

l’évolution de l’agencement des réactions en voies métaboliques.

Les voies métaboliques peuvent être séparées en deux grands groupes selon qu’elles sont

essentielles ou non à la survie de l’organisme. Les voies essentielles à la survie de l’organisme

composent le métabolisme primaire, comme par exemple, les voies de biosynthèse des acides

aminés ou des nucléotides. Il est généralement très conservé au travers de l’arbre du vivant (un

ensemble de 124 réactions « super-essentielles » communes à tous les organismes a d’ailleurs été

défini [53]). Les voies métaboliques qui ne sont pas indispensables à la survie de l’organisme

composent le métabolisme secondaire. Le métabolisme secondaire varie beaucoup entre

différentes branches taxonomiques, mais aussi en fonction de l’environnement des organismes.

Ce sont notamment les voies du métabolisme secondaires qui permettent la production de

molécules de défense comme les toxines ou les antibiotiques, ou encore des molécules de

communication comme les hormones (Figure 9).

32

Des théories sur l’évolution du métabolisme ont donc émergé dès les débuts de la biochimie pour

tenter d’expliquer cette logique, et sont présentées conjointement avec les théories sur l’évolution

des enzymes dans la section suivante de ce manuscrit.

Figure 9. Exemples de métabolites produits du métabolisme secondaire de la bactérie Streptomyces griseus.

33

I.3 Evolution du métabolisme

L’évolution (du latin « evolutio » - action de dérouler) est le passage progressif d’un état à un autre.

L’évolution biologique se définit comme le changement dans les traits héréditaires des

populations au fil des générations successives [54]. Les processus évolutifs ont des implications à

tous les niveaux de l’organisation biologique, que ce soit au niveau des espèces, des individus, des

cellules ou des molécules. L’évolution du métabolisme peut se définir comme l’acquisition de

nouvelles capacités métaboliques, c’est à dire la capacité de synthétiser et de dégrader de

nouvelles molécules, ou de réaliser ces transformations d’une manière plus efficace. La perte de

certaines parties du métabolisme fait aussi partie de son évolution. Dans cette section nous allons

nous intéresser à deux aspects complémentaires de l’évolution du métabolisme, l’évolution des

enzymes dans un premier temps et l’évolution des voies métaboliques ensuite.

I.3.1 Evolution des enzymes Les protéines en général, et les protéines enzymatiques en particulier, ont différentes

formes/structures et tailles. Pour réaliser certaines fonctions, les protéines n’ont besoin que d’un

seul domaine, une unité de structure protéique stable. Il existe même des protéines qui n’ont pas

besoin d’être repliées en une structure particulière pour avoir une fonction catalytique, on parle

alors de protéines intrinsèquement non-structurées [55]. D’autres protéines, pour être

fonctionnelles, sont composées de plusieurs domaines reliés entre eux ou même de plusieurs

polypeptides formant un complexe protéique. L’apparition de nouvelles fonctions enzymatiques

dans les organismes se fait principalement via duplication de gènes suivie d’une divergence des

copies par acquisition de mutations qui sont sélectionnées pour être plus viables et/ou favoriser

l’adaptation de l’organisme à un milieu donné en augmentant son efficacité métabolique.

Divergence des fonctions enzymatiques - enzymes promiscuitaires

Les enzymes sont connues pour être des catalyseurs extrêmement spécifiques. Pourtant, l’idée

que beaucoup d’enzymes sont capables de catalyser d’autres réactions et/ou de transformer

34

d’autres substrats en plus de ceux pour lesquels elles ont se sont spécialisées au cours de

l’évolution n’est pas nouvelle [56]. Ces enzymes, qui ne font pas que ce qu’on attend d’elles, sont

appelées enzymes promiscuitaires. Une des premières publications sur une enzyme

promiscuitaire date de 1921 et décrit la pyruvate décarboxylase pour sa capacité à former des

liaisons carbone-carbone entre de nombreuses molécules [57]. Une des grandes hypothèses

actuelles propose que les activités enzymatiques promiscuitaires servent de point de départ pour

l’évolution des organismes et de leur métabolisme. Il existe trois types de promiscuité :

• la promiscuité de substrat, où l’enzyme est capable de catalyser la même transformation

sur d’autres substrats que ceux pour lesquels elle est spécialisée, avec une plus ou moins

bonne efficacité

• la promiscuité de réaction, où l’enzyme a la capacité de catalyser plusieurs

transformations différentes

• la promiscuité de condition, remarquée chez des protéines dont la fonction peut varier

considérablement suivant les conditions physico-chimiques (variation de température,

pH, salinité, ou présence/absence de certaines molécules dans le milieu). Les enzymes

promiscuitaires de condition sont souvent appelées « moonlighting enzymes ».

Le potentiel promiscuitaire des enzymes entraine l’évolution de nouvelles fonctions enzymatiques

au sein de superfamilles structurales [58] et par conséquence, l’émergence de nouvelles familles

ou superfamilles d’enzymes [59, 60]. Chez les organismes procaryotes notamment, leur style de

vie influence les enzymes à être promiscuitaires [61], cette plasticité catalytique favorisant

grandement la survie en cas de changement brutal de l’environnement.

La promiscuité enzymatique, ainsi que le potentiel « d’évolvabilité » promiscuitaire des enzymes

peut être prédite avec des méthodes chémoinformatiques et statistiques [62].

Comme évoqué précédemment, la duplication de gènes est un des principaux facteurs favorisant

l’évolution de la fonction des protéines. La duplication d’un gène codant une enzyme entraine la

présence de deux versions de l’enzyme dans l’organisme. La pression évolutive pour garder la

fonction enzymatique présente initialement dans l’organisme ne s’exerçant que sur une seule des

deux copies, l’autre version peut évoluer en subissant un taux plus important de mutations [63].

Ce mécanisme permet à un organisme d’acquérir de nouvelles enzymes, soit ayant une activité

catalytique innovante et éventuellement bénéfique pour l’organisme [64], soit ayant la même

activité, mais la réalisant avec une efficacité plus ou moins grande. Ce dernier cas concerne les

isoenzymes.

35

Isoenzymes Les isoenzymes (aussi appelées « isozymes ») sont des enzymes qui ont des séquences d’acides

aminés différentes mais qui catalysent la même réaction biochimique. La différence en séquence

peut être très importante, impliquant une origine évolutive différente des isoenzymes, ou

relativement faible, les isoenzymes étant homologues. Dans le premier cas, la même activité

enzymatique est acquise par convergence évolutive et le cas de ces enzymes isofonctionnelles sera

abordé dans la section suivante.

La présence de deux isoenzymes homologues dans un organisme a pour origine un événement de

duplication de gènes suivi de la différenciation des deux copies. Ces enzymes ont généralement

des modes de fonctionnement différents et/ou des propriétés de régulation différentes. Souvent,

les deux enzymes ont des vitesses d’évolution différentes, la pression de sélection ne s’exerçant

pas de la même manière sur les deux copies. La présence de deux isoenzymes dans un organisme

permet une meilleure adaptation de son métabolisme pour répondre à des besoins différents

suivant des conditions extérieures variables.

Un exemple très étudié d’isoenzymes porte sur l’activité pyruvate kinase chez Escherichia coli. Cette

bactérie, comme beaucoup d’autres, possède deux protéines ayant cette activité catalytique : PykA

et PykF. Ces protéines sont homologues (37% d’identité de séquence en acides aminés), mais

présentent des propriétés physico-chimiques différentes, sont sous un contrôle génétique

différent [65] et ne sont pas interchangeables.

Convergence évolutive de fonctions enzymatiques Les NISE (Non-homologous Isofunctional Enzymes – des enzymes non-homologues isofonctionnelles)

[66] sont des enzymes qui catalysent les mêmes réactions biochimiques, mais qui ne sont pas

homologues, c’est à dire qu’elles n’ont pas évolué à partir d’un même gène ancestral. La plupart

du temps, elles ont des repliements structuraux différents, preuve d’une convergence évolutive

résultant de la nécessité des organismes à acquérir une fonction précise. On retrouve des NISE

dans des voies métaboliques essentielles comme dans la biosynthèse de la méthionine [67] ou du

coenzyme A (3 types d’enzyme réalisent l’activité pantothenate kinase dont une ne présentant

aucune homologie avec les deux autres types [68]). Un autre exemple pour illustrer les NISE est

l’activité enzymatique cellulase. Pour cette activité, catalysant la réaction de dégradation du

cellulose, il existe six versions différentes de la séquence avec des repliements très différents [66].

36

L’acquisition d’une seule nouvelle fonction enzymatique dans un organisme est rarement

suffisante pour modifier profondément ses capacités métaboliques. Elle se fait de concert avec les

autres activités enzymatiques présentes dans l’organisme et par l’acquisition d’un ensemble

cohérent de fonctions catalysant une succession de réactions pour, par exemple, la dégradation

d’un nouveau composé de l’environnement en un métabolite d’intérêt pour l’organisme. Dans la

section suivante sont décrites les grandes théories sur les mécanismes d’acquisition de nouvelles

voies métaboliques par les organismes.

I.3.2 Grandes théories sur l’évolution des voies métaboliques

Il existe plusieurs grandes théories pour expliquer la façon dont les voies métaboliques sont

apparues et ont évolué. Les modèles correspondants à ces théories sont résumés dans la Figure

10 (partiellement inspirée de Schmidt et. al [69]).

Invention de novo des voies métaboliques Le modèle le plus simple (voire simpliste) de l’évolution des voies métaboliques est celui de

l’invention de novo (Figure10a). Les voies métaboliques auraient pu apparaître et évoluer

spontanément, sans adapter ou réutiliser des enzymes préexistantes. Par exemple, un certain

nombre de d’ARNt synthétases semblent avoir initialement évolué d’une façon indépendante,

pour ensuite être impliquées dans différentes voies métaboliques comme celle de la traduction

des protéines et la transamidation ARNt-dépendante [70].

Synthèse rétrograde et synthèse progressive La théorie sur l’évolution rétrograde des voies métaboliques par Norman Horowitz [71] est

historiquement la première a avoir été formulée (1945). Cette hypothèse soutient que la pression

de sélection sur une voie métabolique cible principalement la production fructueuse de son

produit final (Figure 10b). La formation du produit final à partir d’un métabolite intermédiaire

augmente la capacité vitale de l’organisme. Comme ce métabolite final peut dériver de

métabolites de plus en plus éloignés du point de vue chimique, la capacité vitale augmente et la

37

voie métabolique évolue à rebours. Cette rétro-évolution semble être un bon modèle pour la

glycolyse [72] et la voie de biosynthèse du mandelate [73].

Une hypothèse alternative et moins connue que celle de la synthèse rétrograde est celle du

développement des voies de biosynthèse dans le sens avant [74] (aussi connue sous le nom de

celui qui l’a proposée, Sam Granick), où les composés terminaux ne joueraient aucun rôle dans

l’évolution. Granick proposa que la biosynthèse de certains produits terminaux pourrait être

expliquée par une évolution « vers l’avant » à partir de précurseurs relativement simples. Ce

modèle prédit que les composés biochimiques plus simples précèdent l’apparition des plus

compliqués. Par conséquent, les enzymes catalysant les étapes antérieures d’une voie métabolique

sont plus anciennes que celles catalysant les étapes suivantes. Pour que ce modèle puisse

fonctionner, il faudrait que les métabolites intermédiaires soient utiles à l’organisme, car

l’apparition simultanée de plusieurs enzymes catalysant des réactions consécutives est trop

improbable. Cette hypothèse peut fonctionner pour la biosynthèse de l’hème et de la chlorophylle

[74], mais ne fonctionne pas pour de nombreuses voies métaboliques comme la biosynthèse des

acides aminés ou des purines où les métabolites intermédiaires n’ont pas d’utilité apparente et

peuvent même être toxiques.

Spécialisation d’enzymes multifonctionnelles Les voies métaboliques pourraient aussi évoluer à partir d’enzymes multifonctionnelles [64, 75]

(Figure 10c). A partir d’une enzyme multifonctionnelle catalysant plusieurs réactions consécutives

sur le même métabolite, la voie métabolique aurait pu évoluer avec la duplication et la

diversification de cette enzyme initiale vers des enzymes plus efficaces et plus spécialisées ne

catalysant chacune qu’une seule des étapes dans la voie. Des enzymes multifonctionnelles

actuelles, comme, par exemple, la carbamoyl phosphate synthase, sont utilisées dans de

nombreuses fonctions cellulaires et voies métaboliques, et pourraient être des précurseurs pour

de nouvelles voies métaboliques [76].

Duplication de voies métaboliques entières De la même façon qu’une seule enzyme peut être dupliquée et se spécialiser, un bloc de gènes

participant à un même processus cellulaire peut aussi être dupliqué et se spécialiser, entrainant

naturellement la création d’une nouvelle voie métabolique [64, 77] (Figure 10d). Ce mécanisme

d’acquisition de nouvelles fonctions peut notamment être identifié en utilisant la génomique

comparative [78–80], notamment en observant une coévolution des opérons et des voies

38

métaboliques. Par exemple, la voie de biosynthèse de l’histidine partage avec celles de la sérine et

du tryptophane plusieurs étapes qui possèdent un même type de transformation chimique et qui

sont catalysées par des enzymes homologues [77, 81]. Il est donc très probable que ces voies

métaboliques proviennent de duplications de voies ancestrales communes.

Recrutement enzymatique ou modèle d’évolution en « patchwork » Les voies métaboliques pourraient aussi évoluer en « recrutant » des enzymes impliquées dans

d’autres voies métaboliques existantes, résultant en une mosaïque ou un « patchwork » d’enzymes

homologues qui catalysent des réactions dans différentes voies métaboliques [77, 82] (Figure 10e).

De nombreuse familles ou superfamilles d’enzymes catalysent des réactions similaires qui sont

rencontrées dans des voies métaboliques très différentes [83, 84], prouvant la plasticité des

réseaux métaboliques modernes [53]. Le recrutement des enzymes promiscuitaires dans les voies

métaboliques joue ainsi un grand rôle dans l’expansion du métabolisme [85]. Cette « versatilité »

enzymatique a été montrée à maintes reprises dont notamment chez Escherichia coli [86, 87].

Origine semi-enzymatique des voies métaboliques Dans le but d’expliquer l’origine des toutes premières voies métaboliques, Lazcano et Miller [88]

ont proposé une hypothèse très différente des autres. Il est admis que la plupart des étapes des

voies métaboliques sont catalysées par des enzymes, mais certaines peuvent être naturellement

spontanées dans certaines conditions (température, pression, pH, présence/absence de molécules

particulières dans le milieu). Dans cette hypothèse, des enzymes très généralistes auraient permis

de modifier légèrement l’environnement de métabolites pour permettre aux réactions de se

dérouler spontanément. Il s’agirait alors d’étapes semi-enzymatiques dans les voies métaboliques

qui par la suite seraient remplacées par des étapes complètement enzymatiques au cours de

l’évolution, avec la spécialisation des enzymes (Figure 10f adaptée d’après Lazcano et Miller [88]).

D’après des études récentes [69, 79], le recrutement enzymatique semble être la principale force

motrice pour l’évolution de nouvelles voies métaboliques. La duplication de voies métaboliques

entières aurait aussi une grande importance dans l’évolution du métabolisme moderne. Les autres

hypothèses présentées semblent être des mécanismes évolutifs beaucoup plus rares ou

ancestraux. Il est important de noter également le rôle important du transfert horizontal de gènes

qui permet aux organismes microbiens d’acquérir rapidement de nouvelles compétences

métaboliques par échange de matériel génétique [89].

39

Figure 10. Illustrations des grandes théories de l’évolution des voies métaboliques (adaptées d’après Scmidt et al. [69] et Lazcano et Miller [88]). (a) Invention de novo des voies métaboliques, (b) Synthèse rétrograde, (c) Spécialisation d’enzymes multifonctionnelles, (d) Duplication de voies métaboliques entières, (e) Modèle d’évolution en « patchwork », (f) Modèle semi-enzymatique.

40

II. Représentation du métabolisme

En sciences, comme dans la vie de tous les jours, nous avons besoin de concepts et de structures

définis et communs à tous pour représenter les notions et les objets et communiquer d’une façon

efficace avec les autres individus. Comme nous l’avons vu dans la section précédente, le

métabolisme implique beaucoup d’acteurs de nature différente qui interagissent entre eux. Il est

donc nécessaire de codifier ces acteurs et leurs interactions. La quantité et la complexité des

données du métabolisme nécessitent l’utilisation des ordinateurs pour les intégrer et les

comprendre : c’est l’essence même de la bioinformatique.

Dans cette section seront décrits les différents niveaux et façons de représentation du

métabolisme. Dans un premier temps les différentes ressources de données publiques liées au

métabolisme seront passées en revue. Ensuite seront présentées diverses façons de classifier les

réactions chimiques catalysées par les enzymes : les activités enzymatiques.

Le métabolisme est souvent représenté sous la forme d’un graphe (Figure 11 d’après [90] et[120]).

En effet, ce type de structure permet d’intégrer à la fois des données sur les acteurs du

métabolisme (comme les métabolites, les réactions qui les transforment et les enzymes qui

catalysent ces réactions) et les interactions entre ces acteurs. Les troisième et quatrième parties de

cette section seront donc consacrées aux réseaux métaboliques.

Les études en biologie évolutive ont, à de très nombreuses reprises, démontré que le vivant est

modulaire, c’est à dire qu’il est composé, à tous les niveaux, d’unités conservées, ou modules,

ayant une existence propre et garantissant la cohérence de l’ensemble du système. A l’échelle

macroscopique, on pourra donner l’exemple de la transplantation médicale d’organes : un organe

est donc un des modules du système qu’est le corps d’un individu. A l’échelle microscopique, les

transposons, qui sont des petits morceaux d’ADN qui peuvent changer de place dans le génome

d’un organisme et même être échangés entre les organismes, pourront servir d’exemple de

modularité. La définition et la recherche des modules conservés de réactions dans les réseaux

métaboliques sont au cœur de cette thèse. La modularité du métabolisme et les concepts qui y

sont liés seront donc abordés dans la dernière partie de cette section.

41

Figure 11. Réseau métabolique construit à partir de voies métaboliques des procaryotes et d’eucaryotes (extraite de www.biochemical-pathways.com).

42

II.1 Ressources de données métaboliques

Dans cette section seront présentées et décrites les différentes sources biologiques de données

publiques disponibles actuellement pour la communauté scientifique. La classification de ces

ressources en catégories bien distinctes est loin d’être évidente, car certaines d’entre elles sont

plutôt généralistes et contiennent beaucoup de types de données différentes (par exemple, des

données sur les molécules, les réactions, les enzymes et les voies métaboliques à la fois) et

d’autres ne contiennent qu’un seul type de données (par exemple uniquement des composés

chimiques).

II.1.1 Grandes bases de données sur le métabolisme

BioCyc & MetaCyc BioCyc [91] est une collection de bases de données de génomes et de voies métaboliques (PGDB

– Pathway/Genome Data Base) et des outils pour comprendre ces données. MetaCyc [91–93] un des

PGDB de BioCyc, est une base de données curée de voies métaboliques expérimentalement

élucidées issues de tous les domaines du vivant. Au moment de l’écriture de ce manuscrit,

MetaCyc contient des données issues de 2600 organismes différents et 2260 voies métaboliques.

De plus, on y retrouve les métabolites, réactions, enzymes et gènes associés à ces voies

métaboliques. Le but de MetaCyc est de faire une description exhaustive du métabolisme via des

échantillons de voies métaboliques représentatives et expérimentalement élucidées. Les données

contenues dans MetaCyc sont accessibles au travers de son interface web (http://metacyc.org) ou

avec l’outil Pathway Tools [94, 95] qui permet une exploitation plus approfondie des données.

Les données des PGDBs peuvent aussi être utilisées directement en écrivant des programmes en

Java, Perl et Lisp. Les requêtes en Java et en Perl sont exécutées en utilisant les APIs (Application

Progam Interfaces) des systèmes appelés JavaCyc et PerlCyc [96].

Une des dernières nouveautés de MetaCyc est de proposer un atom mapping [97], c’est à dire le

marquage des atomes des molécules impliquées dans une réaction pour suivre leur flux au cours

de la transformation chimique.

43

Ce sont les données issues de MetaCyc qui ont été les plus utilisées pour les travaux présentés

dans cette thèse. Les données sur les voies métaboliques, les réactions et les métabolites ont été

extraites à l’aide de JavaCyc.

KEGG KEGG [98–102] (Kyoto Encyclopedia of Genes and Genomes) est une des plus anciennes des bases de

données de réactions et de voies métaboliques. Ici, les voies métaboliques sont organisées en

cartes (maps) définies par objectif cellulaire et rassemblant tous les variants connus chez les

différents organismes. Dans cette base de données on retrouve tous les acteurs du métabolisme :

les métabolites (dans la section KEGG LIGAND), les réactions (KEGG REACTION), les

enzymes (KEGG ENZYME) et les voies métaboliques (KEGG PATHWAY et KEGG

MODULE). Il y a en plus des données sur les gènes et les génomes (KEGG GENES et KEGG

GENOME) ainsi que les groupes d’orthologues (KEGG ORTHOLOGY). Les cartes

métaboliques dans KEGG sont subdivisées en modules, qui sont des unités fonctionnelles

utilisées pour l’annotation et l’interprétation biologique des génomes.

Comparaison des bases de données MetaCyc et KEGG La majeure différence entre KEGG et MetaCyc se trouve au niveau de la définition d’une voie

métabolique – il y a les « cartes » du côté de KEGG qui rassemblent pour tous les génomes

analysés, tous les variants possibles avec le même objectif cellulaire et, du côté de MetaCyc, des

voies métaboliques organisme (ou clade) spécifique. Dans KEGG, les voies métaboliques sont

généralement plus longues que dans MetaCyc (cf. Table 1). Les données dans MetaCyc sont

validées manuellement par des experts (ne travaillant pas nécessairement directement pour

MetaCyc), alors que dans KEGG une partie seulement est expertisée par des spécialistes internes

et les informations de l’autre partie sont inférées automatiquement. Une étude [103] comparant

les deux ressources a été publiée en 2013, et une partie de cette étude est résumée dans la Table 1.

44

Table 1. KEGG versus MetaCyc

Tableau de comparaison des bases de données de ressources métaboliques KEGG et MetaCyc. Adapté d’après [104]. Sont comparées les différentes statistiques sur les composés chimiques, les réactions et les voies métaboliques décrits dans ces bases de données.

MetaCyc KEGG

Nombre de composés chimiques 11 991 15 161

Composés avec description 1 486 2 997

Longueur moyenne de la description 47,69 6,51

Nombre moyen de réactions associées à un composé 3,59 2,17

Nombre moyen de voies métaboliques par composé 1,78 0,67

Nombre de réactions 10 262 8 879

Nombre de réactions non-équilibrées 532 1 475

Nombre moyen de voies métaboliques associées à une réaction 0,84 0,90

Nombre de voies métaboliques 2 142 416

Nombre moyen de réactions par voie métabolique 5,73 19,10

BRENDA BRENDA (BRaunschweig ENzyme DAtabase [105, 106]) est une ressource très complète sur les

enzymes, les réactions enzymatiques et les métabolites, contenant des données de très haute

qualité. Depuis peu de temps, on peut y retrouver aussi des informations sur les voies

métaboliques, mais celles-ci sont pour l’instant difficilement exploitables du point de vue

informatique. Les informations de cette base de données sont obtenues manuellement à partir de

la littérature, ainsi qu’en faisant de la fouille de données et de la fouille de texte et en utilisant des

algorithmes de prédiction.

Les données issues de BRENDA ont été particulièrement utiles pour l’étude sur les enzymes

orphelines présentée dans le premier chapitre de cette thèse.

45

RHEA RHEA [107, 108] est une base de données de réactions non-redondantes annotées manuellement.

Elle est issue d’un projet collaboratif initié par l’EBI (European Bioinformatics Institute) et le

SIB (Swiss Institute of Bioinformatics). Les réactions y sont décrites en utilisant les espèces

chimiques issues de ChEBI (cf. section suivante pour la description de cette ressource), et sont

chimiquement équilibrées au niveau des masses et des charges (les structures chimiques y sont

normalisées au pH 7.3). Des références croisées avec les autres bases de données métaboliques

ainsi que des références bibliographiques sont associées aux réactions quand elles sont

disponibles.

Reactome Reactome [109] est une base de données publique de réactions et voies métaboliques eucaryotes

(surtout humaines) manuellement validées par des experts. La particularité de cette ressource

consiste dans les très nombreuses références croisées avec les autres bases de données, avec un

accent particulier sur les données d’orthologie entre les espèces eucaryotes.

UniPathway UniPathway [110] est une ressource pour la représentation et l’annotation de voies métaboliques

totalement validées manuellement par des experts et disponible en libre accès

(http://www.unipathway.org). Elle fournit une représentation explicite des réactions chimiques

spontanées et catalysées par des enzymes ainsi qu’une représentation hiérarchique des voies

métaboliques. Cette hiérarchie utilise des sous-voies linéaires comme des briques basiques pour

reconstruire des voies métaboliques plus grandes et plus complexes. Cette méthode permet ainsi

d’inclure des variants de voies métaboliques espèce-spécifiques plus facilement. Toutes les voies

métaboliques dans UniPathway possèdent des références croisées vers les autres ressources

métaboliques comme KEGG [98] et MetaCyc [111], ainsi que vers les ressources de protéines

comme UniProtKB [18] pour laquelle UniPathway fournit un vocabulaire contrôlé pour

l’annotation des activités enzymatiques et des voies métaboliques.

46

II.1.2 Bases de données de composés chimiques

En plus des ressources contenant plusieurs types d’acteurs du métabolisme, il existe aussi des

bases de données spécialisées uniquement pour les métabolites.

ChEBI Chemical Entities of Biological Interest [112] (ChEBI) est une base de données non-redondante

de composés chimiques, de groupements chimiques (c’est à dire des parties d’entités chimiques)

et de classes d’entités chimiques annotés manuellement et d’intérêt pour le biologie. Elle est

maintenue par l’EBI. Cette base de données fournit aussi une ontologie chimique qui permet de

décrire les relations entre les molécules et leurs classes chimiques. On n’y trouve que des petites

molécules, donc les molécules (polymères) comme les acides nucléiques, les protéines et les

peptides n’y sont pas inclus. Certaines entrées dans ChEBI peuvent être marquées par trois

étoiles. Cela garantie un niveau de qualité pour l’entrée considérée : la molécule possède un

identifiant unique et stable ainsi qu’un nom unique et non-ambigu. Ces molécules sont aussi

associées à une structure bidimensionnelle, une description, une collection de synonymes incluant

les noms recommandés par l’IUPAC ainsi que des références bibliographiques quand les

molécules ont été citées dans une publication. Cette base de données propose un moteur de

recherche de molécule très performant, on peut y rechercher une molécule par son nom, sa

formule chimique, son identifiant (notamment SMILES ou InChi), sa structure si on dispose d’un

fichier mol, ou même en dessinant la molécule ou une partie de la molécule dans une application

mise à disposition.

PubChem La base de données de petites molécules PubChem [113] est maintenue par le National Center

for Biotechnology Information (NCBI) aux Etats-Unis d’Amérique. Y sont décrites les molécules

et les complexes moléculaires, des échantillons moléculaires déposés par des chercheurs ainsi que

des molécules issues de bases de données payantes (mais qui ne sont toutefois pas en libre accès).

Le site web inclue un moteur de recherche assez complet ainsi que la description des structures

des molécules.

47

II.2 Classification des activités enzymatiques Une enzyme est une protéine qui possède le pouvoir de catalyser des transformations chimiques,

c’est à dire qui possède une activité enzymatique. On confond souvent dans le langage courant la

classification des enzymes, qui est en fait une classification des protéines (selon, par exemple, leur

similarité de séquence, leurs domaines ou leur structure), et la classification des activités (ou

réactions) enzymatiques qui, en fait, catalogue les différents types de transformations chimiques

qui peuvent être catalysées par les enzymes.

La classification des objets et des notions est un caractère inhérent de l’espèce humaine. Au-delà

de cet aspect, la classification des réactions enzymatiques est nécessaire pour standardiser leurs

noms, leur type de transformation chimique, les molécules impliquées, les cofacteurs, ainsi que

toutes les autres informations pertinentes. La classification des réactions enzymatiques va de pair

avec la classification des enzymes qui les catalysent, mais dans le premier cas on classifie des

transformations chimiques et dans l’autre des séquences protéiques. Il est, bien sûr, très commun

de donner le nom des réactions aux enzymes, mais ce choix peut porter à confusion lorsqu’une

enzyme catalyse différentes réactions, ou la même réaction est catalysée par des enzymes qui

n’ont pas la même origine évolutive. Les difficultés de partage de travaux scientifiques avant l’ère

d’internet, qui ne sont pas encore totalement résolus, ont entrainé beaucoup de cas où les mêmes

enzymes étaient connues sous des noms différents, et, inversement, le même nom était parfois

donné à des enzymes différentes.

La classification de la Commission Enzymatique (EC) est la seule classification officielle des

activités enzymatiques [114]. Cette commission, crée en 1956 par l’Union Internationale de

Biochimie et de Biologie Moléculaire (IUBMB), a pour but de créer une nomenclature pour

décrire les activités enzymatiques, et résoudre ainsi le problème des réactions aux noms multiples

et de même noms pour des réactions différentes.

Ainsi, le numéro de Commission Enzymatiques (ou EC number) est un système de classification

numérique pour les réactions enzymatiques. Chaque EC number est aussi associé à un nom de

réaction précis.

48

Chaque EC number se compose de lettres « EC » suivies de quatre nombres séparés par des

points. Ces chiffres représentent une classification hiérarchique des activités. Les EC numbers

préliminaires (non-validés par la Commission Enzymatique) sont marqués avec un « n » dans le

quatrième niveau (par exemple EC 1.3.5.n3). Le premier chiffre, qui va de 1 à 6 et qui correspond

à la classe de l’activité enzymatique, définit son type :

1. Oxydoréductases : catalyse des réactions d’oxydation et de réduction ; il s’agit d’un

transfert d’atomes d’hydrogène et d’oxygène ou d’électrons d’une molécule à une autre

2. Transférases : effectuent un transfert d’un groupement fonctionnel d’une molécule à

une autre

3. Hydrolases : permettent la formation de deux produits à partir d’un substrat par

hydrolyse

4. Lyases : effectuent un ajout ou une ablation non-hydrolytique d’un groupement

fonctionnel

5. Isomérases : réarrangement intramoléculaire, c’est à dire des changements de

l’isomérisation au sein d’une seule molécule

6. Ligases : jointure de deux molécules par création d’une nouvelle liaison de type C-O, C-

S, C-N ou C-C

Le deuxième niveau de la classification EC réfère à la sous-classe, qui contient généralement

l’information sur le type des composés chimiques ou de groupements chimiques impliqués (c’est

à dire, par exemple, si la réaction se déroule sur des groupements aldéhyde ou oxo). Le troisième,

représentant la sous-sous-classe de la réaction, spécifie sa nature. Enfin, le quatrième chiffre est

un numéro de série utilisé pour identifier une activité individuelle au sein de la sous-sous-classe

[114] (Figure 12).

Figure 12. Description d’un EC number. Le 1.13.13.54 correspond à une ketosteroide monooxygenase.

49

Les EC numbers sont répertoriés initialement dans une base de données officielle

(http://www.chem.qmul.ac.uk/iubmb/enzyme) et sont utilisées dans toutes les bases de données

qui contiennent des informations sur les enzymes et les réactions enzymatiques comme la base de

données ENZYME [115] qui fait le lien entre les EC numbers et des séquences de protéines.

Néanmoins cette classification présente quelques limites. La création d’un nouveau EC number

suite à la découverte d’une nouvelle activité enzymatique se fait lors des réunions de la

Commission Enzymatique. Désormais ces réunions se font tous les six mois (avant elles avaient

lieu tous les deux ans), mais ce délai provoque des décalages entre les connaissances accessibles

dans les publications, l’attribution d’un EC number permanent et son intégration dans les bases

de données. L’attribution d’un nouveau EC number officiel est donc manuelle, même si il y a des

méthodes computationnelles (décrites dans les sections suivantes) qui cherchent à automatiser le

processus. Une autre limite de ce système est que les EC numbers ne recouvrent que la moitié

des réactions enzymatiques connues (il y a un peu plus de cinq mille EC numbers au moment de

l’écriture de ce manuscrit et plus de onze mille réactions enzymatiques connues). De plus,

certaines réactions enzymatiques ne correspondent à aucune des six classes de la classification

[116].

50

II.3 Théorie des graphes – quelques définitions et vocabulaire

La théorie des graphes est une théorie mathématique et informatique. Elle s’intéresse aux

multiples propriétés des graphes qui sont une représentation de collections d’éléments mis en

relation entre eux. Les graphes sont utiles dès qu’il s’agit de représenter des relations entre des

entités, comme les relations de connaissance dans les réseaux sociaux, les interactions de

régulation dans les réseaux de gènes ou les enchaînements de réactions dans les graphes

métaboliques.

Un graphe est une structure mathématique qui permet de représenter des entités et les liens entre

ces entités. Souvent noté G(V,E) où V (de vertex en anglais) est l’ensemble fini de nœuds ou

sommets qui le composent et E (edges en anglais) l’ensemble de liens entre les nœuds tel que E

est un sous-ensemble de V2. Généralement, on utilise le terme « arête » pour désigner les liens

dans le cas d’un graphe non-orienté (graphe dans lequel les liens entre les nœuds n’ont pas de

direction) et le terme « arc » dans le cas d’un graphe orienté (aussi appelé digraphe). Cependant,

dans ce manuscrit, j’ai fait le choix d’utiliser uniquement le terme « arêtes » tout en précisant la

nature du graphe. Dans un graphe orienté, le nœud dont l’arête est issue est le nœud initial (ou

nœud-source) et le nœud vers lequel elle pointe est le nœud terminal (ou nœud-puits). Le

voisinage d’un nœud v est l’ensemble des nœuds adjacents à v dans un graphe. L’ordre d’un

graphe est le nombre de nœuds de ce graphe.

Lorsqu’il y a plusieurs arêtes entre deux nœuds dans un graphe, ce dernier s’appelle un

multigraphe. Deux arêtes sont dites parallèles si dans un graphe orienté elles ont le même

nœud initial et le même nœud terminal.

Un sous-graphe est un graphe contenu dans un autre graphe.

Un graphe complet est un graphe dans lequel chaque nœud est relié à tous les autres nœuds du

graphe. Un sous-graphe complet dans un graphe est appelé clique.

Une boucle est une arête qui relie un nœud à lui-même.

Le degré (aussi appelé valence) d’un nœud dans un graphe est le nombre d’arêtes ayant une

extrémité connectée à ce nœud. Une boucle augmente de deux le degré d’un nœud. Dans un

graphe orienté on peut décomposer le degré en demi-degré extérieur ou degré entrant (in-

degree en anglais) et en demi-degré intérieur ou degré sortant (out-degree). Le degré sortant d’un

51

nœud v est le nombre d’arêtes ayant comme nœud initial v. Le degré entrant d’un nœud v est le

nombre d’arêtes ayant comme nœud terminal v. Un nœud isolé est un nœud dont le degré est de

zéro.

Une chaîne est une séquence ordonnée d’arêtes telle que chacune des arêtes ait une extrémité en

commun avec l’arête suivante. Une chaîne qui passe strictement une fois par chaque nœud est

dite élémentaire ou simple. On considère souvent implicitement le cas de chemins élémentaires.

Un chemin est une chaîne particulière dans un graphe orienté telle que l’extrémité terminale

d’une arête coïncide avec l’extrémité initiale de l’arête suivante. Le premier nœud du chemin est

appelé nœud initial (ou source) et le dernier est le nœud terminal (ou nœud puits). Un cycle est

une chaîne simple dont les nœuds aux extrémités coïncident. Un circuit est un chemin dont les

nœuds aux extrémités coïncident. Un graphe acyclique est un graphe qui ne contient pas de

cycle.

La taille est le nombre de nœuds ou d’arêtes dans un graphe ou un chemin.

Un graphe est connexe s’il existe un chemin entre tout couple de sommets. Lorsqu’il s’agit d’un

graphe orienté, la direction des arêtes n’est pas prise en compte pour le calcul des chemins. Un

graphe orienté est dit fortement connexe si, pour tout couple de nœuds (u,v), il existe un chemin

de u à v et de v à u.

Un graphe orienté acyclique (Directed Acyclic Graph ou DAG en anglais) est un graphe qui ne

contient pas de circuit. Il est utilisé pour représenter une hiérarchie. Un nœud dans un DAG peut

avoir plusieurs arcs entrants et sortants.

Un arbre est un graphe connexe sans cycle ayant n nœuds et n-1 arêtes. Il y a deux types de

nœuds dans un arbre, les feuilles dont le degré est de 1 et les nœuds internes dont le degré est

supérieur à 1. Il est possible d’enraciner un arbre avec n’importe quel nœud de l’arbre, appelé

alors racine, c’est à dire orienter toutes les arêtes de sorte qu’il existe un chemin de la racine à

tous les autres nœuds. Un arbre enraciné est un DAG où il y a une racine de degré entrant nul

et où tous les autres nœuds sont de degré entrant de 1.

Une partition est une séparation des sommets d’un graphe en des ensembles disjoints et non-

vides de nœuds, dont l’union permet de retrouver tous les nœuds.

Un réseau est un graphe étiqueté, c’est à dire qu’il porte des informations sur les nœuds et/ou

sur les arêtes. Il peut s’agir d’informations qualitatives, comme les identifiants (dans le cas d’un

52

réseau de protéines, par exemple, il s’agira d’identifiants de ces protéines) sur leurs nœuds ou la

nature de la relation sur les arêtes (relation d’activation ou d’inactivation d’un gène par un autre

dans le cas d’un réseau de régulation, par exemple), ou d’informations quantitatives, comme des

poids ou des probabilités de transition d’un nœud à un autre.

Deux graphes sont isomorphes s’il existe un isomorphisme de graphe l’un vers l’autre. C’est à

dire s’ils ont exactement la même structure. Dans ce cas, il suffirait de remplacer les étiquettes des

sommets pour qu’un graphe soit la copie exacte de l’autre. Un graphe automorphique est un

graphe isomorphique sur lui même.

L’utilisation des réseaux dans l’étude du métabolisme est décrite d’une façon étendue dans la

section suivante.

53

II.4 Réseaux métaboliques

Il existe plusieurs catégories de modèles pour décrire le métabolisme [117].

Tout d’abord, les modèles pour l’analyse structurelle du métabolisme. Ces modèles

regroupent principalement les modèles reposant sur la théorie des graphes. Ces derniers sont

basés sur les données qualitatives et sont utilisés pour analyser des propriétés topologiques du

réseau ainsi que les différentes interactions entre les entités qui y sont représentées.

Les modèles pour l’analyse des flux de matière dans le réseau, notamment avec des

techniques comme la « Flux Balance Analysis » [118]. Ce sont la plupart du temps des modèles à

base de contraintes qui prennent en compte la stœchiométrie des réactions afin de prédire la

formation d’une « biomasse » (c’est à dire la survie de la cellule) en fonction des inputs dans le

modèle, qui est une façon de représenter l’environnement de la cellule et surtout ce qui y rentre.

Les modèles pour l’analyse dynamique du métabolisme. Ces modèles sont orientés pour la

simulation du métabolisme et l’étude de ses propriétés dynamiques. Dans ce genre de modèles les

graphes peuvent être utilisés, mais étant donné qu’il s’agit d’étude de la dynamique, des

informations quantitatives sont requises, faisant que les réseaux ne sont que des intermédiaires

dans le processus de modélisation. Ce sont des modèles assez complexes à construire car

nécessitent des données dur la cinétique de chacune des transformations chimiques dans la cellule

[119].

Durant ma thèse je n’ai travaillé que sur les modèles pour l’analyse structurelle du métabolisme.

Ainsi, les sections suivantes seront consacrées à la description de l’utilisation des graphes pour

représenter le métabolisme ainsi qu’aux différentes techniques pour analyser ces graphes.

Le métabolisme est l’ensemble des interactions moléculaires qui se produisent dans un

organisme. Les molécules peuvent être divisées en deux grands types : les métabolites (molécules

souvent de petite taille et qui sont les briques cellulaires) et les enzymes qui catalysent la

transformation des métabolites. Il est commun de représenter le métabolisme d’un organisme,

54

comme d’autres notions biologiques où l’interaction entre ses éléments est présente, sous forme

d’un réseau. Une belle illustration d’un tel réseau a été empruntée de [120] et est présentée en

Figure 11. La modélisation des réseaux en graphes mathématiques en bioinformatique en facilite

l’analyse. Un graphe est une structure utilisée pour modéliser des relations binaires entre les

objets d’une collection donnée. D’une façon formelle, un graphe G est défini par un couple (V,E)

où V est un ensemble fini de nœuds (ou sommets) et E est une partie de V2 est un ensemble

d’arêtes (en cas de graphe non-orienté) ou d’arcs (en cas de graphe orienté). Ainsi, un réseau

biologique est un ensemble de nœuds et d’arêtes (ou d’arcs si la direction de l’interaction existe

et/ou est connue) étiquetés. Ces étiquettes, ou labels, peuvent être qualitatifs, comme, par

exemple, des identifiants de gènes, de protéines, de réactions, ou quantitatifs, notamment des

poids ou des probabilités de transition sur les nœuds ou les arêtes. Il existe plusieurs types de

réseaux métaboliques, où les nœuds et les liens entre les nœuds représentent des entités

biologiques différentes [121].

II.4.1 Réseau de métabolites Dans le réseau de métabolites, les nœuds représentent les composés chimiques et deux nœuds

sont liés par une arête si il existe une réaction qui permet la transformation du premier métabolite

en deuxième (c’est à dire si un des métabolites est le substrat et l’autre le produit).

II.4.2 Réseau de réactions Dans le réseau de réactions, les nœuds représentent les réactions biochimiques (catalysées par des

enzymes ou spontanées) et deux nœuds sont reliés s’il existe un composé chimique produit par la

première réaction substrat de la deuxième.

II.4.3 Réseau d’enzymes Dans le réseau d’enzymes, les nœuds correspondent aux enzymes. Elles sont reliées par une arête

si elles catalysent des réactions qui ont un composé chimique en commun. Ce type de réseau est

55

cependant très peu utilisé car présente des limites. D’abord, une enzyme peut catalyser plusieurs

réactions, et, particulièrement, des réactions qui ont un nombre différent de substrats et/ou de

produits. Ce cas introduit des cours-circuits dans le réseau. Il existe aussi des réactions qui

peuvent être catalysées par plusieurs enzymes (c’est le cas des isoenzymes et des enzymes peu

spécifiques à grande promiscuité de substrat comme les alcools déshydrogénases). Dans ce cas, la

réaction sera dupliquée dans le réseau. Enfin, la connaissance sur les enzymes n’est pas encore

complète (de nombreuses réactions enzymatiques sont orphelines d’enzymes, cf. section

« Lacunes dans les connaissances enzymatiques ») donc le réseau enzymatique contient forcément

des trous. Cependant, si on ne s’intéresse qu’aux enzymes et aux relations entre elles, la perte

d’information structurelle qu’entraine l’utilisation de ce type de réseaux n’est pas dommageable.

II.4.4 Graphe biparti et hypergraphe des métabolites Selon ce que l’on souhaite représenter et les informations que l’on veut en tirer, le réseau de

métabolites et le réseau de réactions peuvent être imprécis. Cette imprécision peut être résolue en

ajoutant des étiquettes sur les arêtes (avec les identifiants des réactions ou des métabolites pour

lever l’ambiguïté respectivement sur un réseau de métabolites ou un réseau de réactions). Il existe

aussi des modèles de graphes plus éloquents pour lever cette ambiguïté : le graphe biparti et

l’hypergraphe de métabolites. Un graphe biparti est un graphe dans lequel l’ensemble des nœuds peut être divisé en deux

ensembles totalement disjoints V et U tel que chaque arête du graphe relie un nœud d’un

ensemble à un nœud de l’autre ensemble. Concrètement, deux nœuds d’un même ensemble ne

peuvent être reliés par une arête. Dans la modélisation du métabolisme, ces deux ensembles de

nœuds correspondent aux métabolites et aux réactions et les arêtes relient les métabolites et les

réactions.

Un hypergraphe de métabolites est un graphe où les nœuds représentent des métabolites qui sont

reliés entre eux par une hyperarête s’ils interviennent dans une même réaction comme substrats

ou comme produits. Une hyperarête est une arête qui peut lier deux nœuds et plus (une arête

simple relie au plus deux nœuds).

Un graphe biparti et un hypergraphe de métabolites sont strictement équivalents en termes de

quantité et qualité d’informations et le passage de l’un à l’autre est très simple.

56

Il existe d’autres façons de représenter le métabolisme sous la forme d’un réseau, mais elles sont

moins fréquemment étudiées et ne seront pas décrites ici.

Tous les métabolites n’ont pas la même fonction et ne sont pas présents en mêmes quantités ou

au même moment dans la cellule. Même si l’étude décrite ici se porte essentiellement sur un

modèle statique du métabolisme, qui représente tous les états possibles connus du métabolisme,

la question des composés ubiquitaires demeure importante.

II.4.5 Composés ubiquitaires et réseaux « petit-monde » Dans toutes les façons de représenter le métabolisme, décrites précédemment, les réactions et les

métabolites sont considérés comme des acteurs équivalents. Or, comme décrit dans la première

section de ce chapitre, parmi les métabolites on trouve les cofacteurs (par exemple l’ATP et le

NAD), qui, bien que parfois présents dans les équations de réactions ne sont pas leurs

composants principaux. Interviennent, également, dans les réactions, des molécules ubiquitaires

comme par exemple l’eau (H2O), le dioxyde de carbone (CO2) et le dioxygène (O2). Ces

molécules sont souvent en excès dans le milieu cellulaire et elles se retrouvent impliquées dans de

très nombreuses réactions. Si on tient compte de ces composés ubiquitaires dans la modélisation

du métabolisme, on risque de se retrouver avec des réseaux trop connexes (pour un grand

nombre de couples (u, v) de sommets dans ce réseau, il existe un chemin de u à v) et concentrés

autour de ces métabolites. Ceci peut mener à de mauvaises interprétations, car on va notamment

connecter entre eux des réactions et des enzymes qui n’ont rien en commun à part un cofacteur.

Une étude publiée en 2001 [122] montre qu’une modélisation d’un réseau métabolique complet,

où tous les métabolites, mêmes les ubiquitaires, sont présents, exhibe des propriétés de réseaux

« petit monde ». Un réseau dit « petit monde » est un modèle mathématique utilisé pour

représenter des réseaux réels. Le coefficient de clustering de ces réseaux est élevé et la distance

moyenne entre deux nœuds est faible. Par exemple, les réseaux sociaux ont la propriété de petit

monde car dans la majorité des cas, deux nœuds (c’est à dire deux individus), peuvent être reliés

par un très faible nombre de connaissances intermédiaires. Dans le cadre de cette étude de 2001

sur le métabolisme de Escherichia coli, les auteurs montrent que l’on peut relier n’importe quelle

paire de métabolites de ce réseau par un chemin relativement court. Cependant, en se

positionnant du point de vue cellulaire, on ne s’intéresse pas simplement à relier des métabolites

entre eux via n’importe quel chemin possible, mais dans un ordre bien précis ayant un sens

57

biologique. Comme l’a démontré une étude parue en 2004 [123], d’un point de vue biochimique,

la meilleure alternative est de se concentrer sur les motifs de changements structuraux des

métabolites d’intérêt et sur les flux d’atomes de carbone dans les voies métaboliques. L’auteur

démontre entre autres que le réseau métabolique de Escherichia coli n’est pas un réseau petit

monde, et que l’on a tout intérêt à retirer (ou démarquer) les composés ubiquitaires pour étudier

le métabolisme d’une façon optimale et calculer des chemins réalistes entre les composés.

Plusieurs techniques permettent de traiter ces métabolites gênants. La première consiste à tout

simplement retirer les métabolites les plus fréquents. Il faut toutefois fixer un seuil pour définir à

partir de quel moment un métabolite est « trop » fréquent. On court aussi le risque d’éliminer des

réactions essentielles dans lesquelles des molécules ubiquitaires interviennent comme composants

principaux (la synthèse de l’ATP à partir de l’ADP par exemple, ou la réaction qui permet

d’obtenir du dihydrogène (H2) à partir de deux protons).

Une autre méthode consiste à retirer les métabolites auxiliaires des réactions. Elle est plus

pertinente que la première car elle a l’avantage de ne pas retirer systématiquement les métabolites

ubiquitaires, considérant le contexte dans lequel ceux-là sont employés. Ainsi, en reprenant

l’exemple de la synthèse de l’ATP à partir de l’ADP, où ces métabolites sont les composés

principaux, ils ne seront pas retirés. Par contre, dans une réaction où l’ATP agit comme un

donneur de phosphate et d’énergie, il sera enlevé. La difficulté principale de cette méthode est de

définir systématiquement pour chaque réaction les composés principaux et auxiliaires. Cette

sélection peut se faire automatiquement en utilisant la notion de voie métabolique, où un

composé est principal (ou « primaire ») s’il est produit et consommé dans la voie. Dans la base de

données MetaCyc [124], lorsqu’une réaction fait partie d’une voie métabolique, les composés

chimiques sont marqués comme « primaires » ou « secondaires » selon si ils sont un des substrats

initiaux ou produits finaux, ou décrits comme composé intermédiaire dans la voie métabolique

[125, 126]. La distinction entre les métabolites principaux et auxiliaires peut aussi se faire

manuellement à partir de dessins de cartes métaboliques comme celles de KEGG [102].

58

II.5 Analyse topologique de réseaux métaboliques

On peut imaginer qu’il existe une corrélation entre la structure d’un réseau métabolique et les

fonctions biologiques retrouvées dans ce dernier. Le défi consiste alors à retrouver des structures

topologiques intéressantes d’un point de vue biologique dans les réseaux métaboliques. Pour cela,

il faut confronter des analyses informatiques de réseaux (ce type d’analyses est très utilisé pour

analyser des réseaux sociaux) avec des données biologiques diverses. Deux sortes d’analyses

topologiques seront décrites ici, les analyses topologiques dites « classiques » et les centralités de

graphes.

II.5.1 Analyses topologiques classiques

Soit G(V,E) un graphe tel que E contient l’ensemble des arêtes du graphe et V contient

l’ensemble de ses nœuds. Soit v un nœud du graphe G tel que v ∍ V. Le degré d(v) d’un nœud v

dans un graphe est le nombre d’arêtes qui le lient à d’autres nœuds du même graphe. Dans le cas

d’un graphe orienté, on pourra distinguer le degré sortant d+(v) (« out degree » en anglais) qui est

le nombre d’arcs ayant le nœud comme source et le degré entrant d-(v) (« in degree ») qui

correspond au nombre d’arcs qui ont le nœud comme cible.

La distance entre deux nœuds dans un graphe est la longueur du (ou des) plus court chemin

entre ces deux nœuds.

Le rayon d’un graphe correspond à la plus petite distance à laquelle puisse se trouver un nœud de

tous les autres nœuds du graphe. Cette mesure correspond à l’excentricité minimale des nœuds

du graphe.

Le diamètre d’un graphe est la distance maximale parmi les distances entre toutes les paires de

nœuds dans le graphe. Le diamètre correspond à l’excentricité maximale du graphe.

Le centre d’un graphe correspond à l’ensemble non-nul des nœuds d’excentricité minimale.

Le coefficient d'agglomération (ou de « clustering ») est la mesure de regroupement de

nœuds dans un réseau. Concrètement, pour un nœud, ce coefficient mesure à quel point le

voisinage de ce nœud est connecté (Figure 13c).

59

Figure 13. Analyses topologiques classiques de réseaux. Plus le nœud du réseau est grand et rouge, plus il est topologiquement important selon la métrique. (a) Réseau initial, (b) Centralité de degré, (c) Coefficient de clustering, (d) Centralité d’excentricité, (e) Centralité de proximité, (f) Centralité « betweenness ».

60

II.5.2 Centralités

Les indices de centralité quantifient le sentiment intuitif que dans la plupart des réseaux certains

nœuds ou arêtes sont plus importants (ou plus centraux) que d’autres. Beaucoup d’indices de

centralité relatifs aux nœuds ont été introduits à partir des années 1940, comme la « degree

centrality » [127] ou la première « feedback centrality » [128]. Depuis, des dizaines de nouveaux

indices de centralités ont été publiés, car toutes les centralités ne représentent pas la même chose,

et il faut adapter cette mesure à chaque application. Ici seront présentés des indices de centralité

les plus classiques, qui ont cependant influencé la plupart des travaux dans ce domaine.

L’importance des nœuds et des arêtes dans un graphe est évaluée selon des valeurs réelles qui y

sont associées, et ces valeurs dépendent uniquement de la structure de ce graphe. Aussi, une

centralité doit rester invariante dans le cas de graphes isomorphiques et automorphiques.

Les indices de centralité peuvent être classés dans plusieurs catégories, décrites dans les sections

qui suivent.

Centralités de distances et de voisinage Les centralités liées au voisinage des nœuds et aux distances qui les séparent évaluent

l’accessibilité d’un nœud. Dans un réseau, ces mesures permettent de classer les nœuds en

fonction du nombre de leurs voisins et/ou du coût nécessaire pour atteindre tous les autres

nœuds. La centralité basée sur la notion de voisinage est l’indice le plus basique. Les centralités

impliquant la notion de voisinage au sein d’un graphe sont plus complexes, et seront présentées

ensuite.

La « degree centrality », ou la centralité de voisinage, est l’indice de centralité le plus simple. Soit

v un nœud dans un graphe G(E,V) tel que v ∍ V. La « degree centrality » de v notée cD(v) est ce

qui est simplement défini comme le degré d(v) du nœud v si le graphe G n’est pas orienté (Figure

13b). Dans les graphes orientés, deux variantes supplémentaires de la centralité de degré sont

possibles : la « in-degree centrality » ciD(v) = d-(v) et la « out-degree centrality » coD(v) = d+(v).

La centralité de degré est une mesure locale car sa valeur pour un nœud donné est simplement

déterminée par le nombre de ses voisins. Les centralités impliquant la notion de distances dans un

graphe sont des mesures globales de centralité. Généralement ces mesures sont assimilées aux

problèmes de localisation des établissements (« Facility Location Problems »), car elles servent à

61

trouver le ou les nœuds les plus accessibles à partir de tous les autres nœuds du graphe. La

mesure de l’excentricité, par exemple, peut être assimilée à la recherche du nœud qui minimise la

distance maximale jusqu’à tous les autres emplacements dans le réseau. Pour illustrer cette

mesure, il faut imaginer que l’on veut trouver l’endroit optimal pour un hôpital dans une ville, où

le temps de trajet jusqu’à cet hôpital soit optimisé quel que soit le point de départ (Figure 13d).

Mesurer le barycentre d’un graphe est souvent utilisé pout trouver le nœud le plus proche de

tous les autres, en sachant qu’il peut y avoir plusieurs solutions. On retrouve cette mesure dans

les problèmes d’établissements compétitifs (deux magasins vendant des choses équivalentes par

exemple), où il faut trouver l’endroit optimal pour l’établissement, en sachant que le concurrent

peut décider après où placer son magasin. La dernière des centralités de distance, la centralité de

proximité (aussi appelée centralité médiane) consiste à minimiser la somme des distances entre

un nœud et tous les autres nœuds (l’illustration ici est celle d’un centre commercial dont sa

distance avec tous les clients potentiels doit être minimale pour attirer un maximum de monde -

Figure 13e).

Centralités des plus courts chemins Les indices de centralité basés sur les ensembles de plus courts chemins dans un réseau sont aussi

des centralités globales. Soit deux nœuds u et v dans un graphe. Le plus court chemin entre u et v

est une séquence de nœuds connectés par des arêtes tel que u et v soient aux extrémités de ce

chemin, et que le nombre de nœuds intermédiaires soit minimal. Il s’agit en fait, de la distance

entre u et v. Pour calculer les centralités basées sur cette notion, une étape de pré-calcul des plus

courts chemins pour toutes les paires de nœuds du réseau est nécessaire.

La première centralité basée sur les plus courts chemins est la centralité de stress. La question à

laquelle cette centralité répond est combien de « travail » (ou « stress ») est réalisé par chaque

nœud (initialement il s’agissait de réseaux de communication, où les nœuds étaient des personnes,

mais on peut aussi faire une projection très simple sur les réseaux biologiques). Ainsi, cette

mesure de centralité représente le nombre de plus courts chemins passant par un nœud donné :

𝑐" 𝑣 = 𝜎&'(𝑣)'*+∈-&*+∈-

où s et t représentent tous les sources et puits de tous les plus courts chemins possibles dans le

graphe G(E,V) et 𝜎&'(𝑣) est le nombre de plus courts chemins entre les s et t passant par v.

La centralité « betweenness » ressemble beaucoup à la centralité de stress, mais au lieu de

compter le nombre absolu de plus courts chemins, cette centralité résume le nombre relatif de

62

plus courts chemins pour chaque paire de nœuds. Ceci peut être interprété comme une mesure

dans laquelle un nœud v contrôle la communication entre une paire de nœuds s et t.

Soit 𝛿&' 𝑣 la fraction de tous les plus courts chemins entre s et t qui contiennent le sommet v :

𝛿&' 𝑣 =𝜎&'(𝑣)𝜎&'

où 𝜎&' est le nombre total de plus courts chemins entre s et t, tels que 𝑠 ≠ 𝑣 ∈ 𝑉et 𝑡 ≠ 𝑣 ∈ 𝑉. Cette

fraction peut être considérée comme la probabilité que v est impliqué dans la communication

entre s et t. La centralité « betweenness » 𝑐3 𝑣 du nœud v est alors donnée par :

𝑐3 𝑣 = 𝛿&' 𝑣'*+∈-&*+∈-

La centralité « betweenness » va donc être très élevée pour les nœuds par lesquels passent

beaucoup de chemins du graphe (Figure 13f).

Centralités basées sur les processus aléatoires Les centralités basées sur les processus aléatoires sont utiles lorsqu’il n’est pas possible de calculer

tous les plus courts chemins dans un graphe. Dans ce type de cas, un modèle de marche aléatoire

fournit une façon alternative de traverser le graphe. Dans une marche aléatoire, une entité

« marche » d’un nœud à un autre, en suivant les arêtes du réseau. En étant sur un des nœuds,

cette entité choisit d’une façon aléatoire une des arêtes (sortantes si le réseau est orienté) du nœud

afin de la suivre jusqu’au nœud suivant. Le nombre de « pas » de cette entité doit être

suffisamment important pour que les résultats de la marche soient significatifs et reproductibles.

Globalement, plus le degré d’un nœud est important, plus l’entité marchant aléatoirement dans le

graphe risque d’y revenir souvent. La marche aléatoire donne aussi de très bons résultats en tant

qu’alternative à la centralité « betweenness », et permet aussi de repérer les nœuds par lesquels

transitent le plus de flux. La centralité de Markov [129], est quand à elle, basée sur le temps

moyen de premier passage (« mean first time passage » - MFPT), qui est le nombre attendu de nœuds

traversés en partant d’un nœud s jusqu’à la première rencontre du nœud t.

Le modèle de surfeur aléatoire, créé pour modéliser le comportement des utilisateurs d’Internet,

introduit un paramètre de « saut » dans la marche aléatoire. Il faut imaginer alors un utilisateur qui

« surfe » sur le Web, en allant d’une page à une autre en cliquant sur des liens hypertextes. Il peut

aussi passer d’une page à une autre sans cliquer sur un lien, parce qu’il connaît, par exemple,

l’adresse de la page par cœur. Il s’agit alors d’un saut car il n’y a probablement pas de lien entre

les deux pages. Ce type de modèle est très utile pour analyser des réseaux biologiques, que l’on

63

sait « à trous » parce que des informations sont manquantes. Le paramètre de saut permet de

mieux gérer ces nœuds manquants dans le cadre de l’exploration d’un tel réseau.

Feedback La centralité dite « feedback » (ou de « retour d’information ») est basée sur le principe

d’influence du voisinage : plus un nœud a de voisins, plus il est central, et plus il est central, plus

ses voisins le sont aussi.

Ce type de centralités, plus complexes que celles présentées précédemment, est très utilisé dans

l’analyse de réseaux internet, de réseaux sociaux, et, moins, pour l’instant, dans les réseaux

biologiques. Parmi les centralités « feedback » les plus connues, on retrouve l’indice de Katz

[130], la centralité de vecteurs propres de Bonacich [131], l’indice de Hubbell [132], PageRank

[133] et SALSA [134]. Les notions de « hubs » et « d’autorités » sont très importantes dans ces

centralités. Un hub est un nœud qui pointe vers beaucoup de bonnes autorités, et une autorité

est un nœud pointé par beaucoup de bons hubs.

Figure 14. Centralité PageRank. Plus un nœud est pointé par d’autres nœuds, plus il est influent. Plus un nœud est influent, plus les nœuds qu’il pointe sont influents.

64

Ici ne sera présentée que la centralité PageRank [133]. Elle a, pendant très longtemps, été un des

ingrédients principaux du célèbre moteur de recherche Google. L’idée principale de cet

algorithme est de marquer une page internet en tenant compte de ses propriétés topologiques

(c’est à dire de sa position dans le réseau). Il s’agit bien d’une centralité feedback, car ici le score

d’une page web dépend du nombre et des scores de ses pages voisines. La Figure 14 représente

bien le fonctionnement de cette centralité. C’est cette centralité qui a été utilisée dans une partie

du travail réalisé pendant la thèse décrite dans ce manuscrit pour calculer l’importance des

réactions les unes par rapport aux autres du point de vue topologique. Cette centralité peut être

considérée comme « semi-globale », car elle permet de calculer des centralités par zones

d’influence de nœuds très autoritaires, qui définissent des régions autour d’eux.

Centralités sur les arêtes Les centralités décrites dans les sections précédentes définissent l’importance d’un nœud par

rapport aux autres dans un réseau. La plupart de ces centralités peuvent aussi être calculées pour

les arêtes d’un réseau, et ce avec très peu de changements au niveau des algorithmes.

65

II.6 Modularité dans le métabolisme

De la molécule jusqu’à un organisme multicellulaire, toutes les entités biologiques peuvent être

décomposées en modules. La définition la plus simple d’un module est une unité d’un système

pouvant exister ou être décrit indépendamment. De nombreux chercheurs argumentent le fait

que la modularité est présente dans le monde vivant à tous les niveaux [135]. Une molécule est

composée de plusieurs atomes qui ont une existence propre indépendamment de cette molécule,

et peuvent être considérés comme des modules. La molécule elle-même peut être considérée

comme un module d’un complexe moléculaire ou d’un tissu. Les protéines peuvent être

découpées en domaines. Les organes d’un organisme sont les modules de celui-ci, la

transplantation d’organes en est un bon exemple.

En 1999, Hartwell et al. pressentent le fait que la biologie cellulaire va transiter de la simple étude

des molécules indépendantes vers l’étude de modules moléculaires accompagnée de l’essor de la

bioinformatique et de l’ingénierie du vivant [136]. Ils donnent de nombreux exemples de modules

dans les fonctions cellulaires, comme le mécanisme de synthèse des protéines, la réplication de

l’ADN, la glycolyse ou encore les processus de mitose permettant la distribution correcte des

chromosomes. Ces modules ont pu être reconstitués/reproduits in vitro ce qui est déjà un très bon

critère de validation en faveur de l’hypothèse de modularité.

Le métabolisme peut aussi être considéré comme modulaire. Les voies métaboliques, telles que

définies précédemment, peuvent être considérées comme des modules biochimiques du

métabolisme. On peut aussi retrouver des petits modules topologiques dans le réseau

métaboliques d’un organisme donné, pouvant être combinés d’une façon hiérarchique dans des

unités plus grandes [137]. L’identification de modules conservés dans le métabolisme est au cœur

de cette thèse. Les théories et les méthodes existantes sont présentées dans la quatrième section

de cet état de l’art, et celles développées lors de ce travail sont décrites dans le deuxième chapitre.

66

III. Des génomes aux réseaux métaboliques

Les enzymes qui catalysent les réactions métaboliques essentielles à la survie d’un organisme sont

encodées par des gènes contenus dans le génome d’un organisme. Le génome est l’ensemble du

matériel génétique d’une cellule et est encodé généralement dans des séquences de molécules

d’Acide DésoxyriboNucléiques (ADN), à l’exception de certains virus où le génome est porté par

des séquences d’Acide RiboNucléique (ARN). Le séquençage massif de génomes, dont le coût ne

cesse de diminuer grâce à des technologies de plus en plus performantes, permet d’obtenir les

séquences ADN complètes de génomes. Au moment de l’écriture de ce manuscrit, la banque de

données génomiques européenne (European Nucleotide Archive,

http://www.ebi.ac.uk/genomes) contient des génomes complets pour 3316 bactéries, 179

eucaryotes, 202 archées et plus de 4000 virus. En plus de ces génomes complets, des dizaines de

milliers de génomes non finis (nommés « draft ») sont également disponibles. Cependant, au vu de

la masse que ces données représentent, la plupart de ces génomes n’ont été annotés que de façon

automatique. Il existe trois niveaux principaux d’annotation, l’annotation structurale, qui

consiste notamment à rechercher le début et la fin des gènes dans le génome, l’annotation

fonctionnelle, qui elle, consiste à associer une fonction biologique à une séquence et

l’annotation relationnelle, qui est la mise en relation des éléments précédemment prédits pour

décrire les modules fonctionnels telles que les voies métaboliques. De nombreuses méthodes

existent pour les trois niveaux d’annotation, mais celles auxquelles on va s’intéresser dans cette

partie du manuscrit, sont les méthodes d’annotation fonctionnelle, permettant de relier les gènes

aux fonctions biologiques en général, et aux fonctions enzymatiques en particulier.

Ainsi, dans cette section, seront présentés d’abord les différentes méthodes d’annotation

fonctionnelle de génomes et les ressources publiques contenant des informations sur les

protéines, puis la notion de contexte génomique qui permet de mettre en relation les gènes les

uns par rapport aux autres. Ensuite, on abordera la reconstruction de réseaux métaboliques à

partir de données génomiques, pour terminer avec les lacunes dans les connaissances

enzymatiques actuelles.

67

III.1 Annotation fonctionnelle des génomes L’annotation fonctionnelle consiste principalement à assigner des fonctions aux séquences

protéiques codées par les gènes, notamment, pour les enzymes, à décrire leurs activités

enzymatiques et les voies métaboliques associées.

On peut distinguer trois différents niveaux de fonctions :

• les fonctions moléculaires, qui capturent le rôle biochimique ou structural de la

protéine

• les fonctions cellulaires, décrivant le rôle de la protéine dans un processus cellulaire de

plus haut niveau (implication dans une voie métabolique, par exemple, pour des enzymes)

• les fonctions phénotypiques, associant une protéine à un niveau systémique comme la

croissance cellulaire ou la virulence. Dans ce cas, la fonction moléculaire de la protéine

n’est pas forcément connue mais une modification/délétion du gène codant la protéine

impacte un processus cellulaire observable expérimentalement.

La description des fonctions se fait préférentiellement via du vocabulaire contrôlé et des

ontologies (comme les EC numbers, décrits dans la section II de ce chapitre, pour les enzymes),

même si beaucoup sont aussi décrites en texte libre par les experts annotateurs.

Pour les gènes codant des enzymes, le lien entre les gènes, les protéines qu’ils encodent et les

réactions que ces protéines catalysent est souvent retrouvé dans la littérature sous l’appellation

« association GPR » (Gene – Protein - Reaction) [138]. Ce mode de représentation permet faire la

distinction entre les isoenzymes (plusieurs gènes codant des enzymes différentes catalysant la

même réaction) et les enzymes multimériques et/ou multifonctionnelles (plusieurs gènes codant

des protéines formant un complexe protéique pour catalyser une ou plusieurs réactions). Avec ce

formalisme, il y a une connexion évidente entre la présence/absence d’un gène et la

présence/absence d’une fonction (c’est à dire d’une réaction) réalisée par la protéine.

68

III.1.1 Liens phylogénétiques et similarité de séquences

III.1.1.1 Liens phylogénétiques entre les gènes

Historiquement, l’homologie était utilisée par les naturalistes pour décrire des liens évolutifs

entre différentes espèces de plantes ou d’animaux. Des similarités entre la forme, la couleur et

l’utilisation des membres ou des organes permettait aux scientifiques d’identifier ces liens : on

comparait par exemple la structure des os du bras humain, de l’aile d’un oiseau et de la nageoire

d’un dauphin, qu’on disait homologues. Des traits dont l’utilité et la forme se ressemblent, mais

ne proviennent pas d’une même origine évolutive (comme l’aile d’un oiseau et celle d’un papillon)

sont dits analogues.

Ces notions sont aussi applicables en génétique. Deux gènes (ou produits de gènes) de deux

organismes différents sont dits homologues lorsqu’ils se ressemblent suffisamment du point de

vue moléculaire et qu’il y a des preuves suffisantes que les deux gènes ont évolué à partir d’un

même gène présent dans un ancêtre commun aux deux organismes. Des gènes analogues ont

des fonctions moléculaires similaires mais ont évolué séparément et ne présentent pas de

similarité de séquence notable. La notion d’homologie est utilisée pour l’annotation fonctionnelle

et suppose que des gènes homologues codent pour des protéines ayant des fonctions similaires ce

qui par de nombreux exemples peut se révéler inexact [11]. Il faut souligner ici que l’homologie

est un concept binaire, soit deux gènes sont homologues soit ils ne le sont pas. Il existe plusieurs

catégories d’homologie qui correspondent à des chemins évolutifs différents ayant mené à des

pressions de sélection différentes sur les gènes.

Un événement de spéciation est un évènement complexe qui mène à l’émergence de deux

nouvelles espèces à partir d’une seule espèce ancestrale. En raison de l’ascendance commune, la

plupart des gènes des deux nouvelles espèces possèdent des gènes ancestraux communs. Les

gènes ayant un ancêtre commun avec lequel ils n’ont été séparés que par des événements de

spéciations sont des gènes orthologues (Figure 15). Les gènes orthologues subissent

généralement la même pression de sélection dans leurs organismes respectifs, assurant ainsi la

conservation de leur fonction.

69

Les évènements de duplication de gènes entrainent la création de deux copies d’un même gène

au sein d’un même génome. Ces gènes peuvent évoluer sous différentes pressions de sélection,

car un seul des deux est nécessaire d’une façon vitale à la survie de l’organisme. Les gènes dans

cette configuration sont dits paralogues (Figure 15) et vu la pression sélective plus faible ou

différente entre les deux copies, la fonction n’est pas considérée comme systématiquement

conservée, même si la fonction peut demeurer similaire (des spécificités de substrats différentes

par exemple pour des enzymes).

Comme les événements de spéciation et de duplication de gènes ne sont pas linéaires dans le

temps et produisent des configurations assez complexes, deux termes supplémentaires pour

décrire la paralogie ont été introduits. Lorsque la duplication de gènes est ancienne (c’est à dire

qu’elle est survenue avant un évènement de spéciation), les gènes sont dits « out-paralogues ».

On les considère alors suffisamment éloignés l’un de l’autre pour avoir des fonctions différentes.

Si l’évènement de duplication est récent (c’est à dire qu’il n’y a pas eu a priori d’évènement de

spéciation après cette duplication), les gènes sont dits « in-paralogues » et sont considérés

comme étant suffisamment proches pour avoir une même fonction ou une fonction fortement

similaire (Figure 15).

L’évolution des génomes ne se fait pas uniquement dans le sens vertical, où les parents seuls

transmettent l’ensemble de l’information génétique à leur descendance. En effet, dans la nature, il

existe aussi un mode horizontal de transfert d’information génétique, où des morceaux d’ADN

sont transférés entre organismes de deux espèces différentes. Ce type de transmission géniques

survient la plupart du temps entre organisme unicellulaires et est particulièrement fréquent chez

les bactéries (même si des cas de transfert de gènes concernant les organismes pluricellulaires

complexes ont aussi été mis en évidence [139]). Les gènes dans cette configuration se nomment

xénologues (Figure 15).

70

Figure 15. Homologie, orthologie, paralogie et xénologie. Tous les gènes « G » sont homologues. Les gènes G1 et G2 sont orthologues. Les gènes G1 et G1’ sont in-paralogues. Les paires de gènes (G1a, G1’a) et (G1b, G1’b) sont out-paralogues. Les gènes T et T’ sont xénologues.

71

III.1.1.2 Annotation fonctionnelle basée sur la similarité de séquences

La façon la plus classique et la plus rapide d’associer une fonction biologique à une séquence est

basée sur la comparaison des séquences des nouvelles protéines aux séquences de protéines déjà

connues. Ceci provient de l’hypothèse que des protéines homologues possèdent des fonctions

similaires et la même fonction si elles sont orthologues. La comparaison des protéines se fait via

la similarité de leurs séquences en acides aminés et, si elles sont suffisamment proches,

l’annotation est transférée de la protéine connue vers la nouvelle. La similarité entre les séquences

est calculée en utilisant des programmes comme FASTA [15] et BLAST [13] (PSI-BLAST [140]

en particulier pour les séquences d’acides aminés). Le problème de cette méthode provient du fait

que des protéines ayant des séquences relativement proches peuvent avoir des fonctions

différentes. Beaucoup d’annotations dans les bases de données publiques ne sont inférées qu’en

utilisant cette technique seule, ce qui conduit à beaucoup d’annotations erronées [11]. Par

exemple, toujours d’après [11], plus de 90% de certaines familles d’enolase ne sont pas

correctement annotées dans la plupart des bases de données publiques. Une étude récente [141]

qui a été réalisée pour estimer la sur-annotation par similarité de séquence dans les génomes

procaryotes, montre notamment que toutes les méthodes utilisées actuellement ont tendance à

beaucoup sur-prédire la fonction des protéines. Pour éviter les annotations erronées, la

comparaison de séquences protéiques peut (et doit) être associées à d’autres techniques

d’annotation fonctionnelle.

III.1.2 La base de données de protéines UniProt

L’entrepôt principal à l’heure actuelle de séquences protéiques est la base de données UniProt

[18]. Cette base de données est maintenue par le UniProt Consortium, constitué en 2002 et

regroupant les ressources et expertises de l’EBI (European Bioinformatics Institute) basé dans le

comté de Cambridge au Royaume-Uni, de PIR (Protein Information Ressource) basé à

Georgetown aux Etats-Unis d’Amérique et du SIB (Swiss Institute of Bioinformatics) en Suisse.

En plus d’être un entrepôt pour les séquences protéiques qui peuvent être déposées par les

équipes scientifiques du monde entier, UniProt propose diverses annotations qui peuvent y être

associées, telles que les fonctions, les ontologies, les références bibliographiques liées à la

séquence, le découpage de la protéine en domaines ou encore les liens vers d’autres séquences ou

72

des bases de données plus spécialisées (cross-references). Cette énorme ressource est constituée de

plusieurs modules dont les objectifs scientifiques sont différents.

La partie de UniProt la plus connue et la plus utilisée est UniProt Knowledge Base (UniProtKB),

elle-même constituée de deux parties, SwissProt et TrEMBL. SwissProt est une base de données

de séquences de protéines de haute qualité d’annotation dont une partie est expertisée

manuellement. Le nombre d’entrées dans cette resource représente cependant moins de 1% du

total de séquences de UniProtKB. TrEMBL est une base de données dont les protéines sont

obtenues par la traduction automatique de séquences codantes (CDS) de l’ENA et dont

l’annotation est réalisée d’une façon automatique. Jusqu’en avril 2015, UniProtKB contenait

l’intégralité des protéines issues des projets de séquençage des génomes. Ces protéomes (i.e., un

protéome correspond à l’ensemble des séquences protéiques d’un organisme qui sont prédites à

partir de son génome) représentaient une quantité d’information trop importante (près de 100

millions d’entrées) pour être gérée convenablement par le consortium. Depuis la mise à jour du

27 mai 2015, UniProtKB ne contient plus que des protéines de protéomes dits « de référence » :

un seul protéome de référence est gardé parmi les groupes de protéomes se ressemblant entre

eux à plus de 90% dans leur contenu en séquence

(http://www.uniprot.org/help/2015/04/01/release). Le nombre d’entrées est ainsi redescendu à

50 millions.

La base de données UniParc est une collection regroupant l’ensemble des séquences de protéines

d’une manière non-redondante et sert également d’archive pour les anciennes séquences. Depuis

la mise à jour mentionnée ci-dessus, elle contient aussi toutes les protéines des protéomes qui ne

sont plus intégrés dans UniProtKB. Cependant, cette base de données ne contient pas

d’annotations sur les séquences.

III.1.3 Domaines fonctionnels et familles de protéines Une des façons d’améliorer la prédiction de fonction des protéines est d’étudier leur composition

en domaines structuraux et/ou fonctionnels. L’hypothèse guidant cette approche est que certains

domaines sont des unités fonctionnelles, et ceux-ci sont très conservés au cours de l’évolution.

Souvent, une protéine est constituée de plusieurs domaines, un seul domaine principal peut ainsi

porter la fonction moléculaire ou, alors, c’est la combinaison de ces domaines qui permettra de

réaliser la fonction. Des méthodes comme MKDOM [142], PRIAM [143] et Pfam [144] ont été

73

développées pour découper les protéines en domaines, trouver comment les identifier (parfois,

quelques acides aminés placés à des endroits spécifiques suffisent pour déterminer un domaine et

une fonction enzymatique) et y associer une activité biologique. La ressource InterPro [145, 146]

permet de regrouper et hiérarchiser ces différentes méthodes au sein de mêmes entrées

caractérisées par des signatures correspondant à des résultats des méthodes intégrées dans

InterPro. Certaines méthodes, comme EnzML ou Pfam2GO [19], se basent sur la composition

en domaines d’une séquence et leurs combinaisons pour identifier au mieux la fonction

biologique.

Pfam La base de données de Familles de Protéines (Pfam) [147] est basée sur la recherche de domaines

conservés dans les séquences protéiques. La présence d’un domaine donné (ou d’un ensemble de

domaines aussi appelé « architecture ») est utilisée pour définir les familles de protéines. Les

domaines sont détectés dans les protéines en se basant sur des alignements multiples de

séquences qui sont utilisés ensuite pour construire des profils de modèles de Markov cachés

(HMM) représentant ces domaines. Ces profils permettent d’assigner à d’autres séquences de

protéines un ou plusieurs domaines Pfam via le logiciel HMMER [148]. Il existe deux types de

familles de protéines dans Pfam : les familles Pfam-A qui sont établies manuellement par des

experts et les familles Pfam-B dont les profils sont générées automatiquement et pas encore

validés. Cette section Pfam-B n’est pour l’instant plus maintenue (la dernière mise à jour date de

mai 2013). Les domaines Pfam ont une bonne couverture sur UniProtKB : 80% des protéines

sont associées à au moins un domaine.

Les domaines dont la fonction est encore inconnue sont désignés comme des DUFs (Domains of

Unknown Function) et représentent environ 25% des familles Pfam [144].

Il faut remarquer que dans Pfam, la taille des différentes familles de protéines est très variable,

ainsi que le niveau de résolution des domaines : certains domaines vont représenter toute une

famille d’enzyme (par exemple, PF00171 regroupe les enzymes de la famille des aldéhyde

déshydrogénases), d’autre vont décrire un sous-domaine structural d’une enzyme particulière (par

exemple, PF00712 représente la partie N-terminal de la chaîne beta de la DNA polymérase III).

Cette granularité variable pose donc des problèmes dans l’utilisation directe de Pfam pour prédire

des fonctions.

Néanmoins, les familles Pfam ont été beaucoup utilisées dans le cadre de cette thèse, notamment

pour relier des protéines de fonction inconnue à des transformations chimiques.

74

InterPro InterPro [146] est un entrepôt intégratif pour plusieurs méthodes de définition de signatures

(domaines, motifs, familles) de protéines. En plus d’intégrer diverses informations sur les familles

de protéines, les domaines et les sites fonctionnels, InterPro propose un outil, InterProScan qui

permet de prédire les signatures issues de différentes sources à partir d’une séquence.

PRIAM La méthode PRIAM [143] est dédiée à l’identification des gènes codant pour des enzymes et leurs

activités enzymatiques en utilisant des règles combinant des « profils » spécifiques à l’activité

enzymatique construits à partir de collections de séquences enzymatiques connues. PRIAM utilise

la classification en EC numbers pour les activités enzymatiques et les protéines annotées de

SwissProt pour construire les profils PSSM (Position‐Specific Scoring Matrices) de référence via le

programme MKDOM [142]. Ces profils sont comparables à des domaines protéiques. PRIAM

permet ainsi d’assigner des fonctions aux nouvelles séquences en se basant sur la détection de

similarité de profils via le logiciel PSI-BLAST [140].

Cette approche a été utilisée dans l’étude sur les enzymes orphelines (Chapitre I de cette thèse)

pour trouver des séquences candidates pour les enzymes orphelines de séquences.

Il existe aussi d’autres ressources permettant de classifier les protéines en familles de protéines

équivalogues (i.e. protéines homologues ayant leurs fonctions conservées), comme FIGFam

[149], TIGRFam [150], FunFams [151] ou encore HAMAP [21], mais elles ne seront pas

abordées ici.

III.1.4 Contexte génomique pour l’annotation fonctionnelle

Les différentes méthodes de contexte génomique sont décrites plus tard dans cette section. Elles

peuvent être utilisées dans le cadre de l’annotation fonctionnelle. Par exemple, chez les

procaryotes, les gènes impliqués dans une même fonction cellulaire ont tendance à être proches

sur le chromosome, voire être co-transcrits sous l’influence d’un même promoteur (on appelle

75

cette structure « opéron »). La conservation de cette co-localisation au cours de l’évolution

s’appelle la synténie. Cette information de contexte d’un gène peut être utilisée pour y inférer

une fonction [152, 153].

L’information sur la fusion de deux gènes au cours de l’évolution peut aussi être utilisée pour

relier fonctionnellement des gènes homologues non fusionnés [154, 155].

Le phénomène de coévolution des protéines repose sur la tendance observée des protéines

fonctionnellement reliées à évoluer de façon corrélée. En prenant un grand nombre de génomes,

un profil de présence/absence dans chacun d’entre eux est établi pour chaque protéine. Ce profil

correspond généralement à un vecteur booléen, où « vrai » signifie la présence d’un homologue

de la protéine dans le génome correspondant, et « faux » son absence. Les protéines sont alors

classées en fonction de la similarité de profils phylogénétiques et leurs fonctions déterminées en

conséquence [156].

III.1.5 Analyse de la structure des protéines L’étude de la conformation structurale des protéines, ainsi que la comparaison de leurs structures

est aussi une méthode d’annotation fonctionnelle. Bien que prometteuse, elle ne s’est pas encore

révélée suffisamment efficace pour être appliquée à grande échelle, mais il s’agit d’un domaine

relativement nouveau et dynamique. Il se pourrait donc que dans un avenir relativement proche

cette méthode prouvera son efficacité [157]. En effet, la structure d’une enzyme, et

particulièrement de sa poche catalytique (l’endroit où la transformation chimique des molécules

est catalysée), est directement liée à la fonction qu’elle effectue.

En théorie, des enzymes n’ayant aucune homologie de séquence mais présentant le même

arrangement en 3D des acides aminés dans les poches catalytiques, ont de forte chance de

catalyser la même réaction. C’est par exemple le cas de la subtilisine et de la chymotrypsine [158].

Ainsi, les logiciels de comparaison de sites actifs vont rechercher les motifs tridimensionnels

connus (c’est à dire répertoriés dans des bases de données de sites actifs) se trouvant dans la

protéine de fonction inconnue.

76

Cependant, la plupart des logiciels ne vérifient pas que le motif tridimensionnel trouvé se trouve

bien dans la poche (ce motif peut aussi être enfoui dans la protéine et non-accessible aux

métabolites). Selon les enzymes étudiées, les logiciels ne peuvent repérer qu’un motif de trois

résidus. Celui-ci n’est souvent pas assez spécifique d’une activité donnée, comme par exemple la

triade catalytique Serine-Histidine-Aspartate, qui est retrouvée dans un très grand nombre

d’hydrolases et de transférases. D’autres logiciels (comme, par exemple, SALSAs [159] et ASMC

[160]) comparent les structures des sites actifs de familles d’enzyme et recherche le motif

tridimensionnel consensus de sous-familles potentielles. Ces méthodes révèlent ainsi la diversité

des réactions possibles au sein d’une famille et par conséquent aide à affiner l’annotation

fonctionnelle et spécifique des enzymes.

Il est aussi possible de faire de la prédiction ab initio de compatibilité d’une poche catalytique et

d’un métabolite d’un point de vue géométrique et énergétique, grâce à l’amarrage moléculaire

(aussi appelée « docking » moléculaire). C’est en testant in silico plusieurs milliers de métabolites

dans une poche catalytique d’une protéine de fonction inconnue par amarrage, que, par exemple,

Fan et al. ont découvert une activité pterin deaminase [161]. La limite la plus importante des

méthodes basées sur la comparaison des structures protéiques est le manque de structures

résolues expérimentalement (par cristallographie aux rayons X ou par résonance magnétique

nucléaire) qui sont couteuses et assez longues à obtenir. La modélisation d’une structure par

homologie apparaît donc comme un bon compromis. Aussi, la prédiction d’activité grâce à

l’amarrage moléculaire est limitée par le nombre restreint de métabolites répertoriés dans les

banques.

En combinant les approches de comparaison de séquences, de contexte génomique et de

structure, la qualité de l’annotation fonctionnelle automatique peut être largement améliorée

[162]. Cette efficacité a été démontrée récemment par Bastard et al. [163] qui, grâce à une

approche combinant plusieurs méthodes informatiques et des résultats expérimentaux de criblage

enzymatique ont réussi à annoter la famille Pfam de protéines de fonction inconnue DUF849

comme étant des enzymes réalisant le clivage de β-keto acides (3-keto acides). Ils ont aussi pu

définir des sous-familles pour lesquelles ils ont associés 14 nouvelles réactions enzymatiques

spécifiques.

77

III.1.6 Systèmes d’annotation à base de règles Des méthodes combinant plusieurs approches d’annotation fonctionnelle d’une façon

« intelligente » ont aussi été développées. Appelées « systèmes à base de règles », ce sont des

méthodes d’annotation fonctionnelle automatique basées sur plusieurs méthodes d’annotation

fonctionnelle et d’un système de décision. La méthode publiée en 2008 par Azé et al. [164], par

exemple, considère l’annotation d’une protéine en termes de hiérarchie fonctionnelle, et propose

un ensemble de règles qui prédisent la ou les classes fonctionnelles pour une protéine.

Des méthodes plus simples ont été développées au sein du consortium UniProt. Les règles

(HAMAP et UniRule) sont basées sur des propriétés simples des protéines (longueur de la

séquence en acides aminés, par exemple), ainsi que sur leur composition en domaines et leur

appartenance taxonomique, et servent à annoter automatiquement les protéines de la base de

données UniProtKB [21].

Une autre méthode, INFAES, publiée en 2015 par Xavier et al. [165] est un système expert à base

de règles qui mime le raisonnement d’un être humain pour l’inférence d’une annotation

fonctionnelle. Ce système intègre les connaissances sur la biologie ainsi que les heuristiques sur

l’utilisation des méthodes automatiques d’annotation fonctionnelle. Très souple, il permet une

intégration continue de nouvelles connaissances, et est aussi très performant (il a montré

notamment de bons résultats en comparaison avec les résultats du concours CAFA [166] qui

rassemble des équipes du monde entier travaillant sur les problèmes liés à l’annotation

fonctionnelle).

III.1.7 Systèmes d’annotation communautaire

En dehors des différentes technologies automatisant l’annotation fonctionnelle de grandes

quantités de données, l’annotation fonctionnelle des gènes et des protéines devrait aussi être

gérée par la communauté scientifique. Ainsi, lorsqu’un chercheur remarque une erreur

d’annotation dans les bases de données publiques, l’édition de l’annotation devrait être facilitée.

Certains auteurs [11, 144, 167, 168] proposent notamment un système d’éditions expertes basé

sur le modèle de Wikipédia pour permettre à la communauté d’écrire et de rectifier les

annotations. Ce travail de curation nécessite des environnements informatiques intégrés, appelés

78

plateformes d’annotation (comme Microscope [169] ou SEED [170] par exemple) qui fournissent

de puissantes interfaces graphiques pour aider les experts à nettoyer ou à compléter les

annotations générées par les méthodes automatiques.

III.1.8 Cas des protéines multifonctionnelles Les protéines multifonctionnelles sont des enzymes capables de jouer plusieurs rôles dans le

métabolisme en catalysant des réactions (parfois très) différentes. Plusieurs sortes de

multifonctionnalité sont connues actuellement. Certaines enzymes sont capables de catalyser une

même réaction chimique sur plusieurs composés chimiques différents, c’est la promiscuité de

métabolites [56]. D’autres enzymes sont capables de catalyser différentes transformations

chimiques en utilisant le même site catalytique, c’est la promiscuité de réactions [171]. On peut

aussi avoir des protéines constituées de deux ou plus domaines fonctionnels avec différents sites

actifs [172]. L’association de plusieurs domaines au sein d’une protéine, qui résulte généralement

d’un événement de fusion de gènes au cours de l’évolution, peut notamment faciliter la

conversion des substrats et la régulation des flux métaboliques. Il existe aussi des protéines

multifonctionnelles assez particulières, appelées « moonlighting enzymes » [44, 45]. Ces protéines ont

la capacité de changer d’activité enzymatique en fonction des conditions environnementales, de

leur localisation cellulaire, du type de la cellule (dans le cas d’organismes multicellulaires), des

concentrations en ligands ou en cofacteurs, ou en formant des complexes avec d’autres protéines.

Il existe une base de données dédiée aux enzymes multifonctionnelles répertoriant leurs

différents types : MultitaskProtDB [173].

Les enzymes multifonctionnelles sont assez difficiles à annoter, car la plupart des méthodes ne

cherchent à associer qu’une seule fonction à une séquence. De plus, hormis les enzymes multi-

domaines, la recherche des autres fonctions est assez complexe et nécessite souvent des données

expérimentales.

79

III.2 Contexte génomique

La génomique comparative est l’étude comparative de la structure et de la fonction des génomes

de différents organismes. Ce domaine de la bioinformatique bénéficie grandement du nombre de

plus en plus grand de séquences génomiques disponibles grâce aux progrès des technologies de

séquençage. Le « contexte génomique » d’un gène est l’ensemble des données concernant le

génome et les autres gènes liés d’une façon spatiale et/ou fonctionnelle à celui-ci. Le lien de

contexte génomique le plus évident est la proximité chromosomique. L’organisation des gènes

entre eux, et surtout, la conservation de cette organisation entre différents organismes est un

indicateur intéressant pour déterminer les relations fonctionnelles entre ces gènes, ainsi que leur

implication dans un même processus biologique comme une voie métabolique. La recherche et

l’analyse de clusters de gènes, c’est à dire des gènes proches sur le chromosome, est une des

techniques de contexte génomique la plus utilisée en génomique comparative. Les clusters de

gènes peuvent être repérés par deux approches différentes : la recherche d’opérons et la

détection de synténie conservée. Un opéron est un ensemble de gènes contrôlés par un même

promoteur et co-transcrits en un ARNm polycistronique. Les gènes sont organisés en opérons

principalement chez les organismes procaryotes. Pour détecter des synténies conservées, c’est à

dire des gènes dont la co-localisation est conservée au cours de l’évolution dans plusieurs

organismes, il est nécessaire de comparer l’organisation de plusieurs génomes entre eux. La

détection des clusters de gènes est abordée dans la première partie de cette section. La présence

(ou l’absence) simultanée d’un ensemble de gènes dans des génomes est aussi un indicateur sur

leurs capacités métaboliques. Ainsi, la comparaison de vecteurs de présence/absence de familles

de gènes (aussi appelés profils phylogénétiques) entre différents organismes est un outil

puissant d’étude de contexte génomique. Si deux gènes sont souvent retrouvés dans différents

organismes, il y a beaucoup de chances pour que leurs produits soient liés d’une façon ou d’une

autre. Cette approche est discutée dans la deuxième partie de cette section. Dans certains

organismes certaines protéines impliquées dans le même processus physiologique peuvent être

des produits de deux gènes séparés, alors qu’ils sont encodés par un seul gène dans d’autres

organismes. Il s’agit là de mécanismes de fusion ou de fission de gènes au cours de l’évolution,

détectables notamment avec l’approche appelée « Rosetta stone ». Cette approche est introduite

dans la dernière partie de cette section.

80

III.2.1 Clusters de gènes

III.2.1.1 Opérons

Un opéron est une unité génomique contenant un groupe de gènes co-localisés sur le même brin

d’ADN et souvent associés à une même fonction cellulaire sous contrôle d’un même promoteur

(Figure 16a). Les gènes d’un opéron sont co-transcrits en un seul ARN messager, appelé ARN

polycistronique. Environ 60% des gènes chez les procaryotes sont regroupés en opérons [174].

Chez les eucaryotes, les opérons sont beaucoup plus rares : des transcrits polycistroniques ont

tout de même été observés, par exemple chez le nématode et chez la drosophile [175, 176]. Les

opérons sont souvent conservés entre différentes espèces, même s’il peut y avoir des

réarrangements génomiques (gains, pertes, duplications de gènes) [177].

Il a été remarqué que les gènes d’un opéron sont fréquemment impliqués dans une même

fonction cellulaire. Par exemple, un opéron peut contenir des gènes codant des enzymes

catalysant des réactions d’une même voie métabolique. Il est donc intéressant d’explorer

l’information contenue dans les opérons pour prédire de nouveaux processus biologiques comme

des voies métaboliques et améliorer l’annotation des protéines.

Méthodes de prédiction des opérons

Une première hypothèse pouvant être formulée pour la détection d’opérons est que la distance

entre les gènes d’un même opéron est plus faible qu’entre les gènes appartenant à des unités de

transcription différentes, puisqu’ils sont co-transcrits et que la présence de divers signaux de

transcription n’est pas nécessaire. Cette hypothèse a été confirmée en étudiant les opérons

connus de Escherichia coli, rassemblés dans la base de données RegulonDB [178, 179]. La distance

intergénique est le critère le plus informatif dans la prédiction des opérons [180–182]. Ainsi, la

prédiction des opérons peut être vue comme la recherche des limites des unités de transcription,

où la distance entre les gènes adjacents est faible et il n’y a pas de gènes sur le brin opposé de

l’ADN. Les groupes de gènes correspondant à cette description sont appelés des directons.

Une autre hypothèse de base est que les opérons vont avoir tendance à être conservés dans les

organismes procaryotes. Des résultats d’investigation en génomique comparative [183, 184]

montrent que les gènes adjacents sur le même brin d’ADN ont tendance à rester proches dans les

génomes d’espèces différentes, contrairement aux gènes sur les brins opposés. Ainsi, la

81

comparaison de la conservation de gènes entre différents organismes permet une prédiction de

grande qualité des opérons dont on ne dispose pas de données expérimentales sur les unités de

transcription [183].

Figure 16. Clusters de gènes.

(a) Structure d’un opéron procaryote. La séquence régulatrice contrôle l’expression des multiples régions codantes (en rouge). Le promoteur, l’opérateur et l’enhancer (en jaune) régulent la transcription de cette région en ARNm. Les régions non-traduites de l’ARNm (en bleu), régulent la traduction en protéines. Image adaptée de Wikipedia (https://en.wikipedia.org/wiki/Operon).

(b) Groupes de synténie conservée entre les génomes A et B. Ces groupes de synténie sont détectés avec un algorithme utilisant le concept de multigraphe [190,191], qui permet l’association de plusieurs gènes homologues entre les génomes, ainsi que la détection d’évènements de fusion, duplication, insertion, inversion et réarrangement de gènes.

82

Des méthodes de prédiction des opérons plus complexes et très divers ont été développées ces

dernières années. On pourra notamment citer des méthodes intégrant des données

expérimentales comme des données d’expression via des micro-puces à ADN [185], ou du

séquençage d’ARN [186], des méthodes utilisant l’apprentissage artificiel comme des réseaux

bayésiens [187] ainsi que l’utilisation des algorithmes génétiques [188].

Une approche simple basée sur la première hypothèse présentée ici a été appliquée dans le cadre

de cette thèse pour prédire des opérons potentiels (directons) d’une façon systématique dans un

grand nombre de génomes procaryotes. Cette analyse sera présentée dans le chapitre 3 de ce

manuscrit.

III.2.1.2 Synténies conservées

Du point de vue de la génomique, la synténie est la présence simultanée (et éventuellement dans

le même ordre) sur le même chromosome de deux ou plusieurs gènes dans plusieurs organismes

(Figure 16b). Elle permet de conclure qu’une région génomique dans deux ou plusieurs

organismes provient d’une seule région génomique ancestrale. Les régions synténiques peuvent

appartenir à des organismes différents, et sont donc dérivés d’évènements de spéciation, ou au

même organisme et ont pour origine des évènements de duplication (on pourra donner l’exemple

de polyploïdie – duplication de chromosomes entiers – chez les plantes). Un bloc synténique (ou

groupe de synténie, ou synton) comprend l’ensemble des gènes en synténie.

Les analyses de synténie sont une façon pratique de comparer les organismes et d’étudier

l’évolution des génomes. Elles permettent de détecter la conservation de fonctions biologiques

[189, 190], d’identifier des réarrangements de génomes [191], aider à l’annotation fonctionnelle

des génomes [152] et même prédire des erreurs d’assemblage de génomes après le séquençage.

Il existe un grand nombre d’outils de détection et de visualisation de synténie entre les génomes,

on citera, notamment, cette méthode basée sur le recherche de composantes connexes maximales

dans un multigraphe [192, 193], Cinteny [191] et Proteny [194]. Les blocs synténiques sont

facilement visibles avec les outils de visualisation de génomes les plus simples, comme Artemis

Comparison Tool [195], ou intégrés dans des plateformes pour une aide à l’annotation, comme

dans MicroScope [169].

83

III.2.2 Profils phylogénétiques

Un profil phylogénétique (parfois aussi appelé « profil phylogénomique ») est un vecteur

décrivant la présence/absence de familles de gènes dans un ensemble d’organismes. La

comparaison des vecteurs de présence/absence de gènes entre différents organismes permet

d’établir une dépendance fonctionnelle entre les gènes : deux gènes impliqués dans un même

processus biologique ont beaucoup de chance d’être soit tous les deux présents, soit tous les deux

absents dans un organisme, la perte de l’un d’entre eux pouvant entrainer la perturbation, voire la

perte, du processus. En 1999, Pellegrini et. al [156] étaient les premiers à proposer l’utilisation des

profils phylogénétiques pour mesurer cette dépendance inter-génique. Beaucoup de variantes de

la méthode ont été proposées depuis, utilisant notamment des mesures différentes de similarité

de gènes ou des vecteurs pondérés à la place de vecteurs booléens. Les profils phylogénétiques

sont principalement utilisés comme des indicateurs de la co-évolution des gènes plutôt que

comme des outils directs pour l’annotation fonctionnelle, même s’ils peuvent l’améliorer.

III.2.3 Rosetta stone (fusions/fissions de gènes)

La fusion de gènes permet la création de gènes hybrides à partir de deux gènes initialement

séparés. Ce mécanisme joue un rôle important dans l’évolution de l’architecture génique. En

effet, lorsque ce genre d’altération génique n’est pas létale pour l’organisme, la fusion de gènes

entraine l’apparition de nouvelles fonctions ou une augmentation d’efficacité des fonctions

métaboliques déjà existantes (via le « metabolic channeling » par exemple [196]), en ajoutant un

module peptidique pour former une protéine multimérique. C’est aussi un bon indice par rapport

à l’implication des deux gènes dans une même fonction cellulaire dans différents organismes. Les

évènements de fission de gènes, où un gène ancestral constitué de plusieurs domaines est séparé

en deux gènes fonctionnels sont beaucoup plus rares [197]. On appelle « Rosetta stone » un

triplet constitué d’un gène fusionné dans un génome et de deux gènes séparés et homologues au

premier dans un autre génome, car ce genre de structure permet de « déchiffrer » des interactions

possibles entre les produits de ces gènes [198, 199]. Beaucoup d’autres travaux ont inclus les

évènements de fusion et de fission de gènes dans les analyses de génomique comparative [197,

200, 201]. L’analyse de ces évènements fait désormais partie des méthodes de référence dans

l’analyse du contexte génomique.

84

III.3 Reconstruction de réseaux et modèles métaboliques

L’information génomique disponible à partir du séquençage d’un génome complet permet la

reconstruction d’un réseau métabolique entier et spécifique de l’organisme. Comme nous l’avons

vu dans les sections précédentes, il peut y avoir différents types de réseaux métaboliques, centrés

sur les métabolites, les réactions ou les enzymes, orientés ou non, contenant des arêtes simples ou

des hyperarêtes.

Pour reconstruire le réseau métabolique d’un organisme donné, son génome doit être

fonctionnellement annoté. Ceci signifie que chaque gène (lorsque c’est possible) doit être associé

à une fonction biologique, plus précisément, à une activité enzymatique pour les gènes codant des

enzymes. On peut ainsi déduire toutes les capacités métaboliques de l’organisme en traduisant les

activités enzymatiques prédites en réactions pouvant être catalysées dans l’organisme. Les autres

données ‘omiques’ sur l’organisme, comme le transcriptome (données qualitatives et quantitatives

sur les ARNs), le protéome (données qualitatives et quantitatives sur les protéines), le

métabolome (données qualitatives et quantitatives sur les métabolites) et le bibliome

(informations issues de la littérature) permettent d’améliorer la qualité du réseau construit [202].

La reconstruction de réseaux métaboliques à partir de génomes complets comprend quatre

grandes étapes fondamentales : la reconstruction automatique à partir des annotations

fonctionnelles des gènes, la curation de cette reconstruction, sa conversion en un modèle

informatique et l’intégration d’autres données ‘omiques’ pour affiner le modèle. Ces différentes

étapes, ainsi que les données utilisées, sont représentées sur la Figure 17 (adaptée d’après [202]).

Etape 1 : Reconstruction automatisée à partir d’un génome complet Le point de départ pour toutes les reconstructions métaboliques est le génome annoté d’un

organisme donné. Les données d’annotation fonctionnelle peuvent être trouvées dans des

banques généralistes de génomes (Genbank ou EMBL), des banques généralistes de protéines

(UniProtKB) ou dans des ressources spécialisées pour un organisme (comme Ecogene [203] pour

E. coli K-12 ou la « Pseudomonas Genome Database » [204] pour les Pseudomonas). Elles

peuvent également être issues de plateformes d’annotation ou être produites localement en

utilisant différentes méthodes d’annotation fonctionnelle. Ces multiples sources d’annotations ne

85

facilitent pas la reconstruction. De plus, la plupart du temps, seuls les EC numbers, avec leurs

limites (cf. section « Classification des activités enzymatiques »), sont disponibles pour décrire les

activités enzymatiques avec un vocabulaire contrôlé. A partir de ces fonctions prédites, un

ensemble de réactions enzymatiques potentiellement présentes dans l’organisme est projeté sur

des voies métaboliques de référence qui peuvent être issues de bases de données généralistes

(comme KEGG [102] ou MetaCyc [91]) ou spécifiques d’une espèce (EcoCyc [205] pour E. coli

par exemple). Cette reconstruction par homologie suppose que les voies métaboliques sont

conservées entre les organismes et a pour but de prédire si une voie métabolique existe ou non

dans un organisme étant donné un ensemble d’activités enzymatiques prédites. Quelques

méthodes facilitant cette reconstruction automatique de réseaux métaboliques existent, on pourra

notamment citer PathwayTools [94] et SEED [170].

Ces méthodes sont relativement rapides mais une annotation fonctionnelle correcte des protéines

est cruciale pour une reconstruction de bonne qualité. Pour établir correctement les associations

GPR (cf. début de section), une difficulté supplémentaire est d’être capable de faire la différence

entre des protéines qui sont des isoenzymes et des protéines formant un complexe protéique. Les

cas d’enzymes multifonctionnelles et de promiscuité sont également difficiles à appréhender pour

définir un bon ensemble de réactions pouvant être catalysés dans un organisme. Cette étape

permet d’obtenir une structure appelée GENRE (GEnome-scale Network REconstruction).

Etape 2 : Curation de la reconstruction automatique Bien que l’extraction automatisée de réactions métaboliques des bases de données à partir des

annotations fonctionnelles permet d’obtenir une collection initiale de réactions biochimiques que

l’organisme est capable de réaliser, elle ne permet pas d’établir certaines caractéristiques

organisme-spécifiques, comme des réactions ou des voies métaboliques non représentées dans les

bases de données généralistes ou la localisation subcellulaire des enzymes. Ce type d’informations

requiert la connaissance experte de l’organisme ; ainsi, le réseau métabolique reconstruit

automatiquement nécessite une curation manuelle. Celle-ci est nécessaire pour ajouter et corriger

les informations que les procédures automatisées manquent ou placent mal. Cette étape est

souvent assez laborieuse et peut prendre beaucoup de temps, nécessitant la recherche

d’informations spécifiques dans la littérature spécialisée ou directement auprès des spécialistes.

86

Etape 3 : Conversion du réseau métabolique reconstruit en modèle

informatique Avant qu’une reconstruction puisse être utilisée pour les calculs, notamment pour les calculs de

capacités physiologiques de l’organisme, la conversion de cette reconstruction en une

représentation mathématique doit être faite. Cette conversion traduit un GENRE en un modèle

mathématique à l’échelle d’un génome – GEM (GEnome-scale Model). La représentation d’un

réseau dans un format mathématique permet le déploiement d’un large éventail d’outils de calcul

pour analyser les propriétés de celui-ci. Ces outils de calculs permettent l’évaluation des

propriétés systémiques du réseau, ainsi que des fonctions que le réseau peut accomplir sous des

Figure 17. Etapes et données pour la reconstruction d’un réseau métabolique à partir d’un génome complet (image extraite de Feist et al. [202]). La reconstruction de modèles métaboliques à partir de génomes complets peut être divisée en quatre phases majeures successives. Une des caractéristiques de ce processus de reconstruction est son raffinement itératif dirigé par les données expérimentales des trois dernières phases. Pour chaque phase, des types de données spécifiques sont nécessaires. Ces données peuvent être très différentes en fonction de la phase, allant des données à haut débit (comme les données de métabolomique ou de phénomique) aux données issues d’analyses détaillées caractérisant des composants individuels (par exemple, données biochimiques pour une réaction particulière). Les modèles intermédiaires générés par chaque phase de la reconstruction peuvent être utilisés et appliqués pour répondre à une quantité croissante de questions, mais c’est bien la version finale du modèle qui a le plus d’applications.

87

contraintes physico-chimiques. Cette approche a mené au développement des méthodes de

reconstruction et d’analyses à base de contraintes, dont la boite à outils COBRA [206] est

l’exemple le plus connu. Ce type d’approches permet d’étudier notamment le comportement de

l’organisme dans des conditions de croissance spécifiques ou des conditions environnementales

particulières.

Etape 4 : Utilisation de modèles métaboliques et intégration des données

‘omiques’ Les données ‘omiques’ qui évaluent un très grand nombre d’interactions au travers de différentes

conditions peuvent être utilisées pour raffiner et développer le contenu métabolique d’un modèle.

Ces types de comparaisons et d’analyses permettent d’améliorer la compréhension du

fonctionnement de l’organisme dans différentes conditions environnementales. On pourra

notamment donner l’exemple de l’utilisation de données de croissance cellulaire sur des milieux

définis via la technologie Biolog (http://www.biolog.com), ou des données issues de la

métabolomique et de dosages enzymatiques in vitro systématiques qui ont mené à la découverte de

nouvelles réactions et voies métaboliques comme par exemple dans cette étude de Saito et al.

[207]. La confrontation de données expérimentales aux prédictions du modèle permet ainsi de

valider le modèle. En cas d’incohérences, le réseau métabolique reconstruit doit être amélioré (cf.

étape 2).

Malgré les avancées grandioses des connaissances sur l’organisation et le fonctionnement des

organismes vivants, beaucoup de parts d’ombre demeurent. Ces lacunes dans les connaissances

actuelles sur le métabolisme sont présentées dans la section suivante.

88

III.4 Lacunes dans les connaissances enzymatiques

Les connaissances sur les enzymes et les activités enzymatiques sont très diversifiées et produites

par des scientifiques issus de domaines différents. La caractérisation des activités enzymatiques

est plutôt du ressort de la (bio)chimie avec par exemple des applications en biocatalyse, alors que

l’étude des protéines enzymatiques et des gènes qui les encodent implique plutôt la biologie

moléculaire, la protéomique, la génomique et la biologie structurale. La multiplicité des approches

et des représentations des données, les difficultés de communication entre les différents

domaines scientifiques, ainsi que les limites technologiques font qu’il existe des lacunes dans les

connaissances. Dans cette partie, seront présentés le problème des activités enzymatiques

« orphelines » de séquences, les causes et les conséquences de ce problème.

En 2004, Richard J. Roberts a lancé un appel pour une action communautaire pour l’annotation

de gènes de fonction inconnue dans les génomes microbiens [208]. La même année, Peter Karp

proposa une approche complémentaire, aussi via un appel à la communauté scientifique, qui

consistait à essayer d’associer au moins une séquence protéique à chaque activité enzymatique

biochimiquement caractérisée [1]. Il a proposé de combiner les approches bioinformatiques et

des stratégies « de paillasse » pour identifier et valider des protéines candidates issues de données

génomiques. Il a été notamment mis en avant que parmi les 3736 activités enzymatiques (EC

numbers) listées dans la base de données ENZYME [115], 1437 (c’est à dire 38%) d’entre elles

n’avaient aucune séquence protéique associée, même en combinant différentes sources

d’annotation de protéines (SwissProt [23], TrEMBL [18], PIR (Protein Information Ressource

[209]), CMR (Comprehensive Microbial Ressource [210]) et BioCyc [124]). Comme la

classification EC n’inclue pas toutes les activités enzymatiques connues et que certaines

annotations protéiques ne sont pas associées avec les bons EC numbers, Peter Karp a estimé

alors que cette estimation pouvait être biaisée. Ces activités enzymatiques sans séquences

associées ont été baptisées « activités enzymatiques orphelines de séquences » (ou « enzymes

orphelines » pour faire court) en 2005 [211] par Olivier Lespinet et Bernard Labedan.

Ces activités enzymatiques orphelines sont répertoriées dans la base de données dédiée,

ORENZA (http://www.orenza.u-psud.fr) [4], qui existe depuis 2006, ainsi que, depuis peu dans

89

le « Orphan Enzymes Project » (http://www.orphanenzymes.org) initié par Alexander Shearer

[212, 213].

Au sein de la classification EC, les activités orphelines se répartissent plutôt uniformément dans

les 6 grandes classes : il y en a le moins parmi les ligases (21%) et le plus parmi les

oxydoréductases et les transférases (respectivement 37% et 38%) [214].

Elles ont tendance à provenir des organismes autres que les 10 organismes modèles les plus

étudiés (37% des enzymes orphelines proviennent des organismes modèles contre 63% des

organismes non-modèles [214]) Par exemple, seulement 4% des enzymes orphelines ont pour

organisme source initiale Escherichia coli. Par ailleurs, 75% d’activités annotées avec des EC

numbers incomplets (où il manque un ou plusieurs digits) sont orphelines de séquence [214].

L’existence des enzymes orphelines pause ainsi un problème dans les analyses du métabolisme.

En effet, parmi les 124 voies métaboliques bien connues en 2006 issues de KEGG [102] et de

MetaCyc [91], seulement 24 ne contiennent aucune enzyme orpheline [2].

Les activités enzymatiques orphelines peuvent être classifiées comme « locales » et « globales »

[215]. Les enzymes orphelines globales, celles décrites précédemment, n’ont aucune séquence

représentative associée dans aucun des organismes. En revanche, les enzymes orphelines

locales représentent des activités pour lesquelles on n’a pas de séquence représentative associée

dans un organisme ou clade (groupe d’organismes) d’intérêt, bien qu’une ou plusieurs séquences

protéiques catalysant la réaction peuvent être connues dans d’autres organismes.

L’existence de ces enzymes, dont les protéines qui les catalysent sont inconnues, pose notamment

un gros problème lors de l’annotation fonctionnelle des séquences et de la reconstruction de

réseaux métaboliques à partir de génomes complets. Aussi, les enzymes orphelines de séquences

pourraient être importantes pour des applications industrielles et pharmacologiques [3] (synthèse

de nouveaux médicaments par exemple), c’est pourquoi il peut être intéressant de découvrir les

protéines qui les réalisent, pour pouvoir les maitriser et les utiliser. Dans la section suivante sont

décrites différentes méthodes permettant d’explorer le métabolisme et pour, notamment, associer

des séquences aux activités enzymatiques orphelines.

90

IV. Méthodes pour l’exploration du métabolisme Le métabolisme, qu’il soit représenté sous la forme d’un réseau ou d’un modèle, n’est pas encore

connu dans son intégralité, et beaucoup de choses restent encore à découvrir. En dehors des

méthodes expérimentales, permettant de découvrir et de valider des métabolites et des réactions

enzymatiques, il est aussi indispensable d’explorer le métabolisme dans sa globalité, ce qui

nécessite des approches bioinformatiques, biostatistiques et chemoinformatiques. Certaines de

ces approches seront présentées et discutées dans cette section.

Plusieurs questions seront soulevées ici. Tout d’abord, sera abordée la problématique de

représentation des réactions et des activités enzymatiques, afin d’en faciliter l’intégration et

l’analyse computationnelles. Ensuite, seront abordées les méthodes pour combler les lacunes

dans les connaissances enzymatiques représentées par les activités enzymatiques orphelines des

séquences. Dans la dernière partie de ce chapitre, différentes techniques de recherche d’unités

fonctionnelles dans les réseaux métaboliques comme les modules, les motifs et les voies

métaboliques seront présentées.

IV.1 Comment encoder une réaction enzymatique ?

La façon la plus classique pour décrire une réaction enzymatique est le numéro EC défini par la

Commission Enzymatique. Cependant, cette description des activités enzymatiques présente un

certain nombre de limites, comme le fait qu’elle ne couvre pas toutes les réactions métaboliques

connues, la difficulté d’intégrer de nouveaux types d’activités enzymatiques ou encore la grande

ambiguïté des EC numbers (description de plusieurs réactions consécutives comme une seule

activité, ou regroupement de réactions différentes, voire génériques dans une seule catégorie).

Il faut donc trouver une façon de décrire des réactions enzymatiques sur la base des métabolites

qu’elles transforment et de leur mécanisme réactionnel pour pouvoir les encoder et les classifier

automatiquement.

91

Il existe un grand nombre de représentations de métabolites (cf section I de cette partie du

manuscrit) et autant de façons de décrire les réactions qui les transforment. Dans les sections

suivantes, sera présentée une sélection de méthodes de représentation, de classification et

d’utilisation des réactions enzymatiques.

IV.1.2 Reaction Pairs et Reaction Class de KEGG KEGG [98] est une ressource très complète sur les génomes et sur le métabolisme au sein de

laquelle un grand nombre de méthodes sont développées.

Chacune des réactions présentes dans la base de données KEGG est découpée en un ensemble

de paires substrats-produits. Pour chaque paire, les molécules sont comparées entre elles avec une

représentation en motifs RDM ayant pour but de déterminer les atomes du centre réactionnel

(atomes R), les atomes adjacents au centre réactionnel (atomes D) et les atomes qui changent au

cours de la réaction (atomes M) [216]. Cette comparaison est basée sur une représentation de

sous-structures de molécules appelée KCF/KCF-S [42] qui rassemble 68 types d’atomes avec une

distinction particulière des groupements chimiques fonctionnels et des environnements

atomiques. La signature d’une réaction en motif RDM (Figure 18) pour chaque paire de

molécules est nommée RPair. Les RPairs sont utilisés pour calculer des classes de réactions

(RClass), qui rassemblent les réactions partageant les mêmes RPair. Les RClass sont ensuite

utilisés pour prédire un EC number pour de nouvelles réactions (deux algorithmes ont été

développés dans ce cadre, MUCHA [217] et E-zyme [218]).

Figure 18. Motifs RDM permettant de décrire les changements atomiques dans les molécules au cours d’une réaction (image extraite de Kotera et al. [216]). Ces motifs sont utilisés dans la base de données KEGG. Les types KEGG d’atomes permettent l’identification de l’endroit de la molécule où se déroule la réaction ainsi que les changement opérés au cours de celle-ci. Ces atomes permettent de définir un motif de conversion chimique. Trois types d’atomes sont définis : les atomes du centre réactionnel (atomes R), les atome qui sont impliqués dans la différence de structure (atomes D) et les atomes qui ne changent pas au cours de la réaction (atomes M).

92

IV.1.3 Signatures moléculaires de réactions (RMS) Comme évoqué précédemment (cf. section I.2.1), la signature moléculaire (MS) [41] permet une

représentation canonique des molécules en sous-graphes circonvoisins d’un atome dans une

structure moléculaire jusqu’à un diamètre prédéfini, aussi appelé hauteur. Ces sous-graphes,

encodés en format SMILES, sont calculés pour chaque atome de la molécule pour un diamètre

donné.

Une signature moléculaire pour une réaction métabolique (« RMS » pour Reaction Molecular

Signature) est obtenue par la différence entre les signatures des produits et des substrats. Ce

système d’encodage des réactions en signatures permet d’avoir plus ou moins de précisions sur la

sous-structure chimique autour des atomes impliqués dans la transformation en jouant sur la

hauteur des signatures moléculaires (les hauteurs élevées permettent une plus grande précision,

les plus basses étant moins précises). Le processus de création des RMS est illustré en Figure 19

(extraite de l’article de Carbonell et. al [29]).

Les RMS ont été utilisées lors du travail décrit dans cette thèse pour encoder et regrouper les

réactions de la base de données MetaCyc.

93

Figure 19. Processus de création d’une signature moléculaire de réaction (RMS) (image extraite de Carbonell et al. [29]).

(A) Processus de calcul d’une signature moléculaire pour le 6-aminohexanate. La première étape est le calcul de la signature pour chacun des atomes. Dans l’exemple présenté, la signature atomique du carbone du groupement carboxyle est calculée jusqu’à la hauteur 2. A hauteur 0 (en bleu), le graphe moléculaire est enraciné à l’atome n’est représenté que par cet atome. A hauteur 1 (en vert) est donnée la représentation canonique de l’atome de carbone central et de ses voisins immédiats. Le processus est répété pour les hauteurs suivantes : à hauteur 2 (en orange) ce sont les voisins des voisins qui sont pris en compte. Les signatures des atomes sont calculées pour tous les atomes de la molécule.

(B) Processus de création d’une signature moléculaire pour la réaction 6-aminohexanoate hydrolase. La signature de réaction contient la différence entre les signatures des produits et des substrats. Ici, la RMS a été calculée pour la hauteur 1.

94

IV.1.4 Cartographie des atomes (Atom Mapping) L’atom mapping (« cartographie des atomes » en français) d’une réaction chimique est la

bijection des atomes réactants vers les atomes des produits qui spécifie le terminus de chaque

atome réactant. Concrètement, il s’agit de suivre le devenir de chaque atome des molécules

impliquées dans la réaction. Historiquement, plusieurs méthodes, souvent basées sur

l’isomorphisme de graphes, ont été utilisées pour calculer les atom mappings, mais ici une seule

sera présentée, celle qui est implémentée dans MetaCyc [97].

L’atom mapping de MetaCyc est basé sur une métrique minimisant les distances d’édition entre

atomes (MWED) et qui s’avère être très efficace. Concrètement, des poids sont assignés à

presque toutes les liaisons atomiques de tous les substrats et les produits de la réaction. Ces poids

représentent la tendance des liaisons atomiques à être rompues, créées ou à changer de type (la

transformation d’une liaison simple en liaison double par exemple). Un cout basé sur ces poids

est associé à chaque type de changement de liaison. La distance d’édition de l’atom mapping est la

somme des coûts. Ce type de modélisation de réactions chimiques s’avère assez efficace et peu

coûteux en terme de complexité computationnelle (Figure 20).

IV.1.5 EC-BLAST et autres méthodes basées sur la comparaison

de fingerprints moléculaires

EC-BLAST [219] est un algorithme et un outil pour la recherche de similarités quantitatives entre

les réactions enzymatiques. Les résultats de cette méthode sont disponibles sur un site web

(http://www.ebi.ac.uk/thornton-srv/software/rbl). Il y a trois niveaux de similarité possibles qui

sont calculés suivant : les changements de liaisons entre les atomes des molécules impliquées dans

Figure 20. Cartographe des atomes pour une réaction de monooxygénation de type Baeyer-Villiger issue de MetaCyc. L’atome 70 de la molécule de dioxygène est inséré dans le lien carbone-carbone des atomes 17 et 19.

95

une réaction, les changements au niveau du centre réactionnel et la similarité de structure des

molécules. EC-BLAST utilise l’atom mapping pour calculer les changements de liaisons et permet

également d’aider à classifier les activités enzymatiques en EC numbers. Le fonctionnement de

EC-BLAST est décrit en Figure 21. Les trois niveaux de similarité sont décrits par des vecteurs

booléens, communément appelés « fingerprints ».

Une autre méthode de comparaison de réactions biochimiques basée sur les fingerprints est

RxnSim [220]. Elle utilise des signatures moléculaires des participants d’une réaction encodées

dans un ensemble de vecteurs binaires. Cet ensemble est construit en utilisant trois méthodes

pour capturer les signatures moléculaires à des niveaux différents de granularité. L’avantage de

cette méthode est de comparer les réactions sur la base des similarités entre les substrats et les

produits en plus de leur transformation chimique.

L’avantage des méthodes basées sur les fingerprints est que ceux-ci sont relativement faciles à

construire à partir des données structurales des molécules impliquées dans les réactions, et qu’il

est computationnellement facile de les comparer entre eux. Leur plus gros désavantage réside

dans leur limitation descriptive, car il faut définir chaque caractéristique qu’une molécule

biologique pourrait avoir pour la marquer ensuite comme présente ou absente dans la molécule

Figure 21. Description du workflow EC-BLAST (image extraite de Rahman et al. [219]).

96

considérée, et cette description de toutes les possibilités peut être assez fastidieuse et requiert une

expertise humaine importante.

IV.1.6 Mécanisme réactionnel enzymatique Le concept de similarité des réactions est surtout étudié du point de vue des transformations

chimiques associées aux réactions, mais pas en termes du mécanisme réactionnel. La méthode de

mesure quantitative de similarité de réactions basée sur leur mécanisme explicite a été publiée en

2007 par O’Boyle et al. [221] et c’est la seule réellement efficace pour le moment. La différence

entre une transformation chimique d’une réaction et son mécanisme est que le mécanisme

présente en plus l’ordre des modifications des liaisons interatomiques, étape par étape. Deux

approches complémentaires sont utilisées par cette méthode pour mesurer la similarité entre les

étapes réactionnelles : une approche basée sur des fingerprints (représentés par des vecteurs) qui

incorporent les informations sur chaque étape mécanistique, et une approche basée uniquement

sur l’ordre des modifications des liaisons atomiques. La similarité globale de deux mécanismes

réactionnels est calculée en utilisant un algorithme d’alignement simple sur les fingerprints.

Il existe une base de données de mécanismes enzymatiques qui classifie les enzymes selon le

mécanisme utilisé pour catalyser les réactions – MACiE [222]. Une analyse de cette base de

données, en utilisant les résultats de classification des réactions selon leur mécanisme, a permis

une identification de mécanismes chimiques convergents (enzymes d’origines évolutives

différentes réalisant des transformations avec le même mécanisme). Cette analyse a d’ailleurs

souligné que la classification EC ne couvre pas la similarité de transformation chimique [221].

IV.1.7 Description des réactions avec MOLMAP Le descripteur MOLMAP (molecular maps of atom-level properties) [223] est relativement récent et

semble de plus en plus utilisé pour décrire les réactions. Ce descripteur moléculaire permet de

définir les types des liaisons covalentes par rapport à leurs propriétés physico-chimiques et

topologiques. Ainsi, le descripteur MOLMAP d’une molécule représente les types de liaisons

dans cette molécule. Par ailleurs, le descripteur MOLMAP d’une réaction, de la même façon que

97

les RMS [41], se définit comme la différence des MOLMAPs des produits et des substrats de la

réaction. Il permet d’encoder d’une façon numérique les changements dans les liaisons

interatomiques au cours de la réaction. Ce système permet ainsi de classifier des réactions sur la

base des modifications de liaisons qu’elles engendrent dans les molécules participantes. Ce

système a notamment été utilisé pour assigner d’une façon automatisée des EC numbers aux

réactions enzymatiques [224].

IV.2 Méthodes pour détecter des protéines pour les enzymes orphelines

Le problème des enzymes orphelines pourrait être en partie résolu avec des techniques de fouille

de littérature, car seulement 80% de ces activités seraient vraiment orphelines de séquence [5], les

20% restantes ont leur séquences manquantes à cause du décalage dans les connaissances dans les

bases de données publiques et d’erreurs d’annotation.

Il existe plusieurs façons d’identifier des protéines candidates pour les enzymes vraiment

orphelines de séquences.

L’hypothèse que des enzymes participant à une même processus biologiques (i.e. une voie

métabolique) partagent une histoire évolutive commune, est à l’origine de l’utilisation des profils

phylogénétiques pour trouver des séquences candidates pour les enzymes orphelines [6]. La

méthode des profils phylogénétiques se base sur le fait que des protéines, ayant des vecteurs de

présence/absence similaires dans un ensemble d’espèces, sont souvent fonctionnellement liées

[156]. Ainsi, si deux protéines co-occurrent fréquemment dans des génomes, qu’une d’entre elles

est de fonction inconnue et l’autre catalyse une réaction métabolique voisine d’une réaction

orpheline, il y a de fortes chances que la protéine de fonction inconnue catalyse en fait la réaction

orpheline.

Une autre approche, basée également sur le contexte génomique, est de combiner les contextes

de co-localisation chromosomique et métaboliques [225, 226]. En effet, et c’est particulièrement

le cas chez les bactéries et archées, des gènes participant à un même processus cellulaire sont

98

souvent co-localisés sur le chromosome dans des structures en opérons. En détectant des

métabolons [193], c’est à dire des groupes de gènes co-localisés codant pour certains des enzymes

catalysant des réactions voisines dans le réseau métabolique (i.e. liées entre elles par des

métabolites), on peut réussir, là aussi, à associer des gènes de fonction peu ou pas connue à des

gaps métaboliques (c’est à dire à des activités orphelines).

Un des problèmes de ces méthodes utilisant le contexte métabolique vient du fait que

généralement, dans les voies métaboliques, les réactions voisines de réactions associées à une

activité enzymatique orpheline sont elles aussi orphelines. Par conséquent, ces méthodes donnent

de bons résultats uniquement dans les cas où très peu d’enzymes orphelines sont présentes dans

une voie métabolique et qu’elles sont entourées d’enzymes non-orphelines.

Les données expérimentales post-génomiques, telles que celles issues de la transcriptomique

quantitative, de la protéomique, les structures tridimensionnelles ou encore les données de

phénotypes de croissance, peuvent aussi s’avérer très utiles pour associer des séquences aux

activités enzymatiques orphelines [7]. Il est notamment important de prendre en compte

simultanément les informations dans les organismes procaryotes et eucaryotes, pour trouver des

enzymes homologues partagées dans les différents règnes, ce qui pourrait aussi être utile dans

l’association de séquences à des activités enzymatiques orphelines locales [7].

Il n’existe donc pas encore de méthode parfaite qui permettrait de retrouver des séquences

protéiques candidates pour l’intégralité des enzymes orphelines mais, en combinant différentes

méthodes et approches présentées dans cette section, un certain nombre d’entre elles ont déjà été

résolues.

Dans le premier chapitre de cette thèse sont présentées différentes statistiques sur les enzymes

orphelines, de nouvelles perspectives pour l’association de séquences à ces activités et de

nouvelles définitions dans les lacunes sur les connaissances enzymatiques.

99

IV.3 Recherche de chemins et de motifs dans le réseau métabolique

La représentation mathématique du métabolisme sous la forme d’un réseau facilite sa

manipulation et son exploration. Cette exploration peut notamment consister à rechercher des

voies métaboliques dans le réseau, ou encore des structures biologiquement importantes qui sont

indépendantes du reste (modules) ou répétées (motifs). Dans cette section, seront présentées les

différentes méthodes de recherche de telles structures.

IV.3.1 Recherche de voies métaboliques Trois approches sont possibles pour trouver de nouvelles voies métaboliques :

- la rechercher de sous-graphe ou de chemins dans le réseau métabolique

- la rétrobiosynthèse

- l’alignement de voies métaboliques qui utilise la similarité d’enchainements de réactions

entre des voies connues et de nouvelles voies potentielles.

Les trois approches sont présentées dans les sections suivantes.

IV.3.1.1 Recherche de sous-graphes ou chemins

L’analyse de données variées, expérimentales (e.g. transcriptomique, protéomique) ou non (e.g.

profils phylogénétiques, les opérons ou les groupes de synténie), permet la détection de groupes

de gènes/protéines dont les fonctions peuvent être reliées. Ces fonctions (i.e. activités

enzymatiques) peuvent ainsi être projetées sur le réseau métabolique de l’organisme étudié pour

déterminer des sous-graphes connexes pouvant correspondre à des voies métaboliques [227,

228]. Il existe plusieurs variations dans ces méthodes, en fonction du type des données

disponibles (données sur les gènes/protéines, ou sur les métabolites) et des approches

informatiques (utilisation d’hypergraphes ou de graphes pondérés).

100

La pondération d’un réseau métabolique en fonction du degré de ses nœuds et la recherche de

chemins de score le plus bas est une méthode qui s’est montrée efficace pour la découverte de

voies métaboliques dans un réseau biparti [229]. La comparaison des chemins trouvés grâce à

cette technique pour la dégradation de l’arginine avec les voies métaboliques réelles en a prouvé la

cohérence.

Les modes élémentaires, introduits en 1999 par Schuster [230], sont aussi une bonne technique

pour trouver des voies métaboliques dans un réseau. Il s’agit de déterminer un ensemble minimal

de réactions pouvant opérer à l’état stable du système et où toutes les réactions irréversibles

procèdent dans la direction appropriée. Pour être qualifiée de mode élémentaire, une voie

métabolique doit respecter l’équilibre stœchiométrique et ne doit pas pouvoir être décomposée en

sous-chemins plus petits respectant cette propriété.

L’atom tracking (le suivi des atomes) est aussi un bon moyen de trouver des voies métaboliques

cohérentes dans un réseau métabolique. Des algorithmes [231, 232], étant donné un métabolite

de départ et un d’arrivée, recherchent des chemins basés sur la conservation des atomes en

suivant leurs échanges dans un réseau métaboliques. Ces méthodes permettent de trouver des

voies métaboliques linéaires, mais aussi ramifiées.

Ces méthodes de recherche de sous-graphes ou chemins dans un réseau métabolique se limitent

uniquement à l’univers des réactions décrites dans le réseau et ne peuvent donc pas trouver des

voies métaboliques composées de nouvelles réactions.

IV.3.1.2 Rétro(bio)synthèse

La biosynthèse est un processus biologique dont les étapes sont catalysées par des enzymes,

transformant les substrats dans des produits complexes. C’est un processus naturel faisant partie

du métabolisme. L’émergence de l’ingénierie métabolique, où le génome d’un organisme est

spécialement modifié pour lui faire acquérir de nouvelles compétences métaboliques, permet de

créer des organismes capables de synthétiser des métabolites d’intérêt pour des applications

industrielles ou pharmaceutiques, qu’ils ne pourraient pas synthétiser naturellement.

La rétrobiosynthèse est une technique de résolution de problèmes dans le design de ces

nouvelles voies métaboliques. Elle consiste à décomposer récursivement le composé chimique

101

d’intérêt en précurseurs, en suivant des chemins de transformations jusqu’à des molécules

disponibles dans le commerce à moindre coût ou naturellement produites par l’organisme

modifié. Dans le cas de l’ingénierie métabolique, la rétrobiosynthèse consiste à appliquer des

transformations chimiques réverses (c’est à dire des réactions catalysées par des enzymes dans le

sens réverse) au produit souhaité, en suivant des chemins jusqu’aux substrats endogènes à

l’organisme modifié. Le but final est d’identifier les gènes des enzymes à insérer dans l’organisme

pour le rendre capable de synthétiser une molécule d’intérêt. Un exemple de voie de

rétrobiosynthèse est celle de la production du taxol dans la levure [29].

Souvent, la synthèse d’un composé chimique va avoir plus d’un chemin de synthèse possible. La

rétrobiosynthèse permet de sélectionner les meilleurs chemins, notamment grâce à l’étude du

rendement catalytique des enzymes et son optimisation.

Ainsi, les approches de rétrobiosynthèse permettent de trouver de nouvelles voies métaboliques.

Deux d’entre elles sont présentées dans ce manuscrit.

Le framework BNICE (Biochemical Network Integrated Computational Explorer) [233] permet de

générer de nouvelles réactions biochimiques à partir d’un ensemble de règles de réactions

enzymatiques et d’un ensemble de composés chimiques de départ. Cette technique permet, à

partir de nos connaissances sur les activités enzymatiques, de simuler toutes les façons dont les

composés chimiques peuvent être transformés, ce qui peut permettre la découverte et le design

de nouvelles voies métaboliques. L’algorithme M-path [234] fonctionne aussi sur ce principe. A

partir des connaissances sur les métabolites et les réactions enzymatiques disponibles dans les

bases de données publiques, il permet de générer des voies métaboliques et des réactions

enzymatiques potentielles.

RetroPath [235] est un pipeline automatisé qui permet l’exploration des possibles circuits

métaboliques à partir des signatures moléculaires des métabolites et des réactions (RMS) [236] et

de sélectionner les meilleures voies métaboliques possibles en fonction des contraintes

souhaitées. Les molécules potentielles pouvant être produites par les réactions données sont

énumérées et permettent l’assemblage de nouvelles voies métaboliques (synthétiques). Intégré

dans une approche globale comprenant aussi la recherche de gènes codant pour des enzymes

pouvant catalyser les réactions d’intérêt, et la prédiction du potentiel promiscuitaire de ces

enzymes grâce à l’apprentissage artificiel, il s’agit d’une méthode efficace de prédiction ab initio de

chemins métaboliques.

102

Il faut cependant se rappeler qu’une bonne modélisation du réseau métabolique est nécessaire

pour découvrir efficacement de nouvelles voies métaboliques. En effet, les métabolites

ubiquitaires et secondaires ainsi que le sens des réactions, peuvent poser problème et entrainer

des prédictions fausses.

IV.3.1.3 Alignement de voies métaboliques

A la fin du siècle dernier, des approches de comparaison et d’alignement de voies métaboliques

entre les organismes ont commencé à émerger [237]. Depuis, des méthodes de plus en plus

élaborées ont été publiées pour comparer et aligner efficacement, et surtout automatiquement, les

voies métaboliques.

Il est important d’être capable de détecter à la fois une topologie similaire entre des voies

métaboliques, mais aussi de prendre en compte les étiquettes sur les nœuds (les enzymes que ces

nœuds représentent). L’algorithme MetaPathwayHunter [238], notamment, permet d’aligner les

voies métaboliques sur ces deux critères simultanément.

L’alignement des voies métaboliques en se basant sur la structure des molécules chimiques

impliquées dans les réactions peut aussi s’avérer très efficace. Il s’agit de mesurer la similarité de

structure des métabolites. Ces structures peuvent être représentées par différents descripteurs

moléculaires qui sont comparés ensuite sous la forme de fingerprints en utilisant des métriques

comme le coefficient de Tanimoto ou de Jaccard. Cette méthode a, notamment, été appliquée par

Tohsato et al. [239] pour mettre en évidence des similarités entre les voies de biosynthèse du

glucose, du mannose et du galactose chez Escherichia coli. L’alignement des molécules entre voies

métaboliques permet aussi faire du mapping d’une molécule d’une voie métabolique donnée sur

plusieurs molécules d’une autre voie métabolique, ce qui serait biologiquement plus correct. Cette

approche, combinée à la comparaison de topologie de voies métaboliques intégrée dans SubMAP

[240] a été testée sur les données de KEGG et permet d’aligner très efficacement des voies

métaboliques entre elles, et est donc un bon outil de recherche de nouvelles voies métaboliques

par ce biais.

103

La comparaison des modifications subies par les molécules au cours des réactions peut aussi être

utilisée pour aligner les voies métaboliques entre elles [241]. Les voies métaboliques peuvent

d’ailleurs aussi être directement alignées sur les réactions (et non pas sur les molécules et/ou leur

modifications), à condition de pouvoir aligner une réaction sur plusieurs autres et ainsi prendre

en compte la variabilité enzymatique inter-espèces (CAMPways [242]).

La détection de similarités entre voies métaboliques par leur alignement permet aussi de détecter

des séquences répétées de réactions similaires dans le réseau métabolique (motifs) ainsi que des

ensembles de réactions relativement indépendants du reste de ce réseau (modules). Ces deux

notions, ainsi que les méthodes orientées spécialement vers leur détection, sont présentées dans

la section suivante.

IV.3.2 Motifs dans le métabolisme & modules de réactions

Des blocs fonctionnels réalisant la même chimie sont souvent retrouvés dans les réseaux

métaboliques. On peut donc supposer que l’évolution du métabolisme peut se faire par blocs

conservés de transformations chimiques qui se diversifient en termes de réactions spécifiques

[243]. C’est d’ailleurs autour de cette constatation que s’est construit le travail présenté dans cette

thèse. Ces blocs fonctionnels peuvent être perçus de deux façons différentes dans les

représentations mathématiques du métabolisme : comme des motifs et comme des modules. La

différence entre ces deux notions est illustrée dans la Figure 22. Concrètement, il faut retenir

qu’un motif est répété et qu’un module est autonome. Dans un réseau métabolique, un module

correspondrait à un sous-graphe qui aurait plus de connections entre ses éléments qu’avec les

autres éléments. Pour comprendre la notion de motif dans un réseau métabolique, il faut

imaginer que les nœuds partageant une même propriété (métabolites appartenant à une même

classe chimique ou réactions effectuant le même type de transformation sur les molécules, par

exemple) sont coloriés de la même façon. Le même enchainement d’un ensemble de couleurs

répété à différents endroits du réseau sera considéré comme un motif. Les motifs sont donc des

outils très pratiques pour détecter des cooccurrences fréquentes d’un ensemble de

transformations chimiques qui peuvent être considérés comme des modules conservés.

104

Dans les deux cas, la recherche de telles sous-structures topologiques peut s’apparenter à la

recherche d’ensembles de réactions et/ou de métabolites d’importance biologique, ce qui

ressemble beaucoup à la recherche de voies métaboliques. Il existe un certain nombre de

définitions et méthodes de recherche de modules et de motifs dans les réseaux métaboliques,

quelques unes sont présentées dans les sections suivantes.

Figure 22. Motif vs module.

IV.3.2.1 Motifs dans le métabolisme

Dans un réseau biologique, un « motif » est souvent défini comme un ensemble de connections

qui se retrouve de manière exceptionnelle dans un réseau (c’est à dire qui apparaît

significativement plus souvent qu’un ensemble aléatoire de connections). Dans ce cas, où seule la

topologie des connections entre les nœuds compte, on parle de « motifs topologiques » [244,

245].

Une définition améliorée d’un motif, particulièrement adaptée aux réseaux métaboliques, a été

proposée par la suite par Vincent Lacroix [25]. Dans le contexte d’un graphe de réactions, tous

les nœuds ne sont pas équivalents. On peut les distinguer par classes fonctionnelles (qu’on peut

105

aussi appeler « couleurs » pour imager et généraliser le concept). La topologie exacte de

l’ensemble des nœuds n’a alors qu’une importance secondaire, tant que les nœuds sont connectés.

Ici, un motif, que l’on appellera « motif coloré », est un multi-ensemble de classes fonctionnelles

de réactions prises dans toutes les classes fonctionnelles de réactions possibles apparaissant dans

le réseau. Plus le motif est fréquent, plus il a d’occurrences dans le réseau, et plus il a donc une

signification biologique importante. La recherche de motifs, topologiques comme colorés, est un

problème difficile du point de vue computationnel (NP-complet) [246].

Cette figure présente un exemple de voies impliquées dans la biosynthèse d’acides aminés (Figure

23). Dans la biosynthèse de la valine, de la leucine et de l’isoleucine, on constate que l’on retrouve

des nœuds appartenant aux mêmes classes fonctionnelles de réactions (dans l’exemple présenté

dans la figure, les réactions sont classées ensemble si elles sont toutes les deux annotées avec les

mêmes trois premiers nombres d’EC numbers).

IV.3.2.2 Modules dans le métabolisme

Un module réactionnel est un ensemble conservé de transformations chimiques. Un motif de

réactions conservé dans un réseau métabolique est finalement un outil pour détecter des modules

de transformations conservés. Ces modules peuvent être considérés comme des briques de

construction d’un réseau métabolique et reflètent une logique chimique d’un enchainement de

Figure 22. Exemple d’un motif dans le métabolisme (image extraite de Lacroix et al. [25]). Dans la biosynthèse de la leucine, valine et isoleucine, une partie des réactions impliquées sont annotées avec des EC numbers similaires (au moins les trois premiers nombres des EC numbers identiques).

106

réactions dans le métabolisme. Les limites des modules correspondent souvent aux voies

métaboliques ou à des sous parties. Deux méthodes de recherche de modules seront présentées

ici.

La détection des RModules [27] dans les voies métaboliques de KEGG est basée sur la

classification des réactions selon leur RClass (cf. section IV.1.2). Les RClass étant trop précises

pour décrire les réactions, Muto et al. ont comparé les RClass en utilisant des fingerprints pour

obtenir au final 376 groupes de réactions (et 1190 singletons) ayant des RClass similaires. Les

voies métaboliques de KEGG ont ensuite été alignées à partir d’un calcul de tous les chemins

possibles de réactions (de longueur de 2 à 8 réactions) convertis en groupes de RClass. Ils ont

obtenu entre 88 (longueur 8) et 928 (longueur 2) chemins conservés. Cependant, cette méthode

demande une curation manuelle car la classification des réactions selon les groupes de RClass ne

garantit pas la conservation de la transformation chimique entre des réactions d’un même groupe

du à l’utilisation des fingerprints.

Une curation manuelle a donc été réalisée par les auteurs pour arriver au final à une liste de 34

modules conservés (http://www.kegg.jp/kegg/reaction/rmodule.html).

L’identification de modules conservés de réactions peut aussi se baser sur l’homologie des

enzymes qui catalysent des réactions. Ainsi, un module réactionnel peut être défini comme au

moins deux réactions successives catalysées par des enzymes homologues dans des voies

métaboliques alignables par rapport à leur similarité de réactions. Cette définition a notamment

permis d’identifier des similarités réactionnelles et enzymatiques dans le catabolisme des purines,

ce qui a entrainé la découverte d’une nouvelle voie de dégradation [26].

107

IV.4 Visualisation des réseaux

Une partie de l’analyse de réseaux et de voies métaboliques peut se faire en visualisant les

données. Il existe un certain nombre d’outils qui permettent de visualiser d’une façon efficace les

données sous forme de réseaux. Tout d’abord, les grandes ressources de données métaboliques,

KEGG [98] et BioCyc [91] proposent une visualisation des voies métaboliques. Cependant, pour

une analyse globale d’un réseau métabolique, le visualiser en entier est plus intéressant. Les deux

ressources proposent donc des cartes métaboliques globales, où l’utilisateur peut colorier les

nœuds, mais il y a un manque d’interactivité et de possibilité d’édition des réseaux affichés.

Plusieurs logiciels, permettant à l’utilisateur d’interagir, d’éditer et d’analyser directement les

réseaux, existent.

Cytoscape [247], le plus populaire dans la communauté bioinformatique, est codé en langage

Java et présente de nombreux avantages. La possibilité d’intégrer au logiciel diverses applications

développées par la communauté en fait un outil d’analyse, en plus d’être un outil de visualisation.

Il offre aussi la possibilité d’interactions directes avec les grandes bases de données publiques

biologiques en croisant les données très facilement. Son plus gros défaut vient de sa

consommation de ressources mémoires de l’ordinateur sur lequel il est exécuté, ce qui peut

ralentir fortement les interactions humaines avec le logiciel. Tulip [248] est un autre logiciel de

visualisation particulièrement bien adapté à de très grandes quantités de données. Ecrit en langage

C++, il offre un certain nombre de possibilités pour l’exploration rapide de réseaux biologiques,

notamment le croisement efficace avec les bases de données biologiques publiques. Gephi [249]

le dernier présenté ici, est un logiciel de visualisation et d’analyse de graphes qui utilise un moteur

de rendu tridimensionnel qui permet l’affichage des réseaux en temps réel et d’en accélérer

l’exploration.

108

Limites : Réactions métaboliques non-enzymatiques

Il est convenu que les réactions transformant les petites molécules dans le métabolisme sont

spontanées ou catalysées par des protéines enzymatiques. Cependant, il existe des enzymes non-

protéiques, qui catalysent avec succès des réactions métaboliques. Leur présence peut expliquer

notamment l’existence d’activités enzymatiques orphelines. Elles sont aussi un grand challenge

pour la reconstruction métabolique à l’échelle génomique, car elles sont difficiles à prédire avec

les moyens actuels. Parmi les catalystes non-protéiques, on retrouve principalement les

ribozymes (aussi appelées RNA catalytique ou RNAzymes et qui sont des complexes

moléculaires constitués d’ARN pur ou d’une association entre des molécules d’ARN et des

peptides), des glycolipozymes [250, 251] qui sont des molécules composées d’un sucre et d’un

lipide et ayant une activité assimilée à une activité enzymatique et les DNAzymes [252]

(molécules d’ADN capables de repliement et de catalyse). Les ribozymes sont assez largement

étudiées, car sont considérées comme les vestiges du « monde à ARN » par les défenseurs de

cette théorie de l’évolution. De nombreuses publications [253–255] peuvent être consultées pour

en apprendre plus sur cette partie passionnante du métabolisme. Par ailleurs, le prix Nobel de

Chimie 1989 a été décerné à Thomas R. Cech et Sidney Altman pour la découverte des propriétés

catalytiques de l’ARN. Les glycolipozymes, par contre, sont encore très méconnues et n’ont été

découvertes qu’au début des années 2010 [250]. Elles auraient une activité liée au transport

transmembranaire, mais beaucoup de travail reste encore à faire pour comprendre comment elles

fonctionnent réellement, si elles sont fréquentes dans la nature et pour éventuellement établir une

stratégie pour en découvrir de nouvelles. Quand aux DNAzymes, ce sont des constructions

artificielles à partir d’ADN, sélectionnées pour leurs capacités d’auto-repliement, de fixation et de

catalyse de ligands. La recherche dans ce domaine est relativement récente (on parle pour la

première fois d’oligomères d’ADN ayant une fonction catalytique dans les années 1990 [256]) et

reste relativement discrète.

Pour conclure cette partie sur les réactions métaboliques non-enzymatiques, je voudrais évoquer

l’une des branches de la biologie de synthèse en plein développement, le XNA et les XNAzymes

[257]. Les XNA, pour « xeno-nucleic acids » sont des polymères génétiques synthétiques

composés de briques non-naturelles comme des sucres et des nucléobases alternatifs ou

connectés entre eux par une structure chimique différente. Les aptamères (oligonucléotides

109

synthétiques capables de fixer un ligand) de XNA sont capables de se replier, de fixer des ligands,

sont plus résistants que l’ADN et l’ARN et sont aussi capables de catalyser des réactions

métaboliques [258]. De plus, un certain nombre de systèmes génétiques synthétiques constitués

de XNA supportent les notions d’hérédité et peuvent évoluer [259]. Toutes ces caractéristiques

font des XNAzymes des outils alternatifs très intéressants pour la biologie de synthèse.

L’avenir de l’étude du métabolisme réside donc non seulement en la compréhension de plus en

plus précise de son fonctionnement, mais aussi à la création de nouvelles briques de celui-ci.

111

Chapitre I Actualisation des connaissances sur les activités enzymatiques orphelines de séquences

Les activités enzymatiques orphelines de séquences (surnommées aussi « enzymes orphelines »)

sont des activités enzymatiques connues et validées expérimentalement dans au moins un

organisme, mais pour lesquelles aucune protéine n’est connue pour les catalyser. Environ 20%

des activités enzymatiques annotées par un EC number sont orphelines de séquences. Ces

lacunes dans la connaissance sur les enzymes sont problématiques pour plusieurs raisons. En

effet, lors de la reconstruction des réseaux métaboliques à partir de génomes entiers, l’absence

d’association séquence-réaction laisse des trous dans les modèles métaboliques et engendre donc

des prédictions erronées. Aussi, l’absence de gène associé à ces activités orphelines ne permet pas

de produire l’enzyme en laboratoire par des techniques de biologie moléculaires et complique

ainsi une caractérisation biochimique fine. De même, cette lacune ne facilite pas l’utilisation ou la

modification de l’activité enzymatique dans des applications en ingénierie métabolique ou en

biologie de synthèse.

Dans ce premier chapitre, est présenté une revue complète des enzymes orphelines, publiée en

juin 2014 dans le journal Biology Direct. Un cas particulier d’activités enzymatiques orphelines, les

enzymes orphelines « locales » (par opposition aux classiques, qui elles sont « globales »), est

réintroduit et développé. Ces activités ont des séquences connues qui leur sont associées dans un

groupe taxonomique donné, mais pas dans un autre alors que l’activité a été également

caractérisée. Pour déterminer si un candidat homologue aux enzymes connues pourrait être

présent dans ces organismes orphelins, une stratégie simple, basée sur la méthode PRIAM [143],

a été appliquée. Cette méthode utilise des profils spécifiques à une activité enzymatique (plus

112

sensibles et spécifiques qu’une simple comparaison de séquence par BLAST [13] pour détecter

par similarité de séquences des protéines candidates. Finalement, une étude de la relation entre les

familles de protéines et les activités enzymatiques auxquelles elles sont associées a été réalisée.

Une réflexion sur la promiscuité enzymatique et la multifonctionnalité des protéines conclut cette

revue sur les enzymes orphelines.

Sorokina et al. Biology Direct 2014, 9:10http://www.biologydirect.com/content/9/1/10

REVIEW Open Access

Profiling the orphan enzymesMaria Sorokina1,2,3*, Mark Stam1,2,3, Claudine Médigue1,2,3, Olivier Lespinet4,5,6 and David Vallenet1,2,3*

Abstract

The emergence of Next Generation Sequencing generates an incredible amount of sequence and great potentialfor new enzyme discovery. Despite this huge amount of data and the profusion of bioinformatic methods forfunction prediction, a large part of known enzyme activities is still lacking an associated protein sequence. Theseparticular activities are called “orphan enzymes”. The present review proposes an update of previous surveys onorphan enzymes by mining the current content of public databases. While the percentage of orphan enzymeactivities has decreased from 38% to 22% in ten years, there are still more than 1,000 orphans among the 5,000entries of the Enzyme Commission (EC) classification. Taking into account all the reactions present in metabolicdatabases, this proportion dramatically increases to reach nearly 50% of orphans and many of them are notassociated to a known pathway. We extended our survey to “local orphan enzymes” that are activities which haveno representative sequence in a given clade, but have at least one in organisms belonging to other clades. Weobserve an important bias in Archaea and find that in general more than 30% of the EC activities have incompletesequence information in at least one superkingdom. To estimate if candidate proteins for local orphans could beretrieved by homology search, we applied a simple strategy based on the PRIAM software and noticed thatcandidates may be proposed for an important fraction of local orphan enzymes. Finally, by studying relationbetween protein domains and catalyzed activities, it appears that newly discovered enzymes are mostly associatedwith already known enzyme domains. Thus, the exploration of the promiscuity and the multifunctional aspect ofknown enzyme families may solve part of the orphan enzyme issue. We conclude this review with a presentation ofrecent initiatives in finding proteins for orphan enzymes and in extending the enzyme world by the discovery ofnew activities.Reviewers: This article was reviewed by Michael Galperin, Daniel Haft and Daniel Kahn.

Keywords: Orphan enzyme activities, Enzyme discovery, Metabolic pathways, Enzyme promiscuity, Data survey,Biological databases, Local orphan enzymes

ReviewNew progress in sequencing technologies generatesthousands of new sequences each day. With the largepublic sequence databases combined with efficient bio-informatic methods, it is possible to predict the functionof some new proteins mainly by comparative genomicsapproaches. Nevertheless, millions of protein entries arenot assigned reliable functions due to the lack of trust-worthy annotations and the drawbacks of homology-basedpredictions [1]. This shortcoming illustrates our limited

* Correspondence: [email protected]; [email protected] des Sciences du Vivant, Commissariat à l’Energie Atomique (CEA),Institut de Génomique, Genoscope, Laboratoire d’Analyses Bioinformatiquespour la Génomique et le Métabolisme, 2 rue Gaston Crémieux, 91057 Evry,France2CNRS-UMR8030, 2 rue Gaston Crémieux, 91057 Evry, FranceFull list of author information is available at the end of the article

© 2014 Sorokina et al.; licensee BioMed CentraCommons Attribution License (http://creativecreproduction in any medium, provided the orDedication waiver (http://creativecommons.orunless otherwise stated.

knowledge of the functional diversity in the protein worldand restricts the analyses of an organism starting from itsgenome. This is particularly the case for enzymatic activ-ities that can be predicted by gene functional assignmentsand used as a starting point to reconstruct genome-scalemetabolic models.The first enzyme was discovered and isolated in 1833 by

Anselme Payen [2]. It was the first time a non-living com-pound was shown to have properties of an organic catalyst,a discovery which shook the scientific community. Thisenzyme was named “diastase” (now called α-amylase) andthe suffix –‘ase’ will be henceforth used to refer to enzymes.Since then, the number of discovered enzymes has continu-ally increased, thanks to the experimental work of chemistsand biologists. In the beginning of enzymology, the namingof enzyme was not systematic. Many different enzymes

l Ltd. This is an Open Access article distributed under the terms of the Creativeommons.org/licenses/by/4.0), which permits unrestricted use, distribution, andiginal work is properly credited. The Creative Commons Public Domaing/publicdomain/zero/1.0/) applies to the data made available in this article,

mailto:[email protected]

mailto:[email protected]

http://creativecommons.org/licenses/by/4.0

http://creativecommons.org/publicdomain/zero/1.0/

Sorokina et al. Biology Direct 2014, 9:10 Page 2 of 16http://www.biologydirect.com/content/9/1/10

were given similar names and, on the other hand, the sameenzymes had several names. An Enzyme Commission,whose first meeting took place in 1961, was created to giverules and recommendations that could be implemented forthe systematic naming of enzymes [3]. Enzyme activitiesare nowadays classified with EC (Enzyme Commission)numbers, a nomenclature maintained by the IUBMB(International Union of Biochemistry and MolecularBiology) [4-6]. To be integrated into the EC classification,an activity must be observed and biochemically character-ized without the necessity to identify the associated proteinthat catalyzes the reaction.Since 2003, several teams around the world have no-

ticed that many EC numbers have no identified coding

Figure 1 Orphan enzyme chronicles. Studies on orphan enzymatic activ

sequences for the enzymes catalyzing the correspondingactivities (Figure 1). In order to fill the missing knowledgebetween genes and their function, Richard J. Robertscalled, in 2004, for a community action for the annotationof genes of unknown function in microbial genomes [7].The same year, Peter Karp proposed an enzyme genomicinitiative to associate at least one protein sequence forevery biochemically characterized enzymatic activity [8].He noticed that many EC numbers (38% among 3,736entries) were lacking an associated nucleic or proteinsequence in public databases, a problem that hadn’t beenreally considered before by the scientific community. Heobserved that his estimation could be biased as the ECclassification does not cover all known enzymatic activities.

ities in the past ten years.


Indeed, in sequence databases, some entries are missing anEC number even if a correct textual description of theenzymatic activity is annotated. He proposed to takeadvantage of the numerous accessible sequenced genomesand to cross this genetic information with published exper-iments that have characterized the enzymatic activities.This first data mining step should identify some candidateproteins which could be experimentally validated.In 2005, sequence-lacking enzymatic activities were

named “orphan enzymes” by Bernard Labedan and Oliv-ier Lespinet in an open letter [9]. They conducted asimilar analysis to that of Peter Karp and showed that42% of the EC numbers were orphan enzymes (1,625 ECnumbers among 3,820). One of the main surprises ofthis study was the fact that 200 organisms had orphanenzymes, despite the availability of their complete gen-ome. They also noticed that, in several cases, the proteincatalyzing the enzymatic activity had been identified butnot sequenced. The following year they published twoexploratory articles on orphan enzymes [10,11]. Theproportion of orphan enzymes was updated, giving aslight decrease of 3% (39% of orphans, 1,525 EC entriesamong 3,877). They pointed out that a number of path-ways (~100) had at least one orphan enzyme. They alsomade several remarks on the use of EC numbers. More-over, they created a public database, called ORENZA,listing all orphan enzymes present in the EC nomencla-ture and allowing users to perform queries by trackingthem between organisms and pathways [10].In 2007, Lifeng Chen and Dennis Vitkup carried out a

very detailed review on the historical accumulation oforphan enzyme activities and a wide range of statisticalanalyses on their distribution across different classifications[12]. They found 1,360 orphans, representing 34% of the4,003 valid EC entries. They investigated the number ofbiochemical characterizations per year of discovery andnoticed that it decreased in the 1970s and 1990s. A studyof the relation between orphan enzymes and their pathwayneighbors was conducted: 39% of network neighbors fororphan activities were orphan themselves, compared with29% for neighbors of non-orphan activities. They alsonoticed that a majority of orphan activities were found inthe most studied organisms. Finally, they pinpointed apossible bias in the EC classification because many reac-tions in metabolic databases were not associated with anyEC number. Considering this limitation, they estimated thatup to 50% of all know biochemical reactions were orphan.Here, we present an extended review on orphan

enzyme activities by updating previously conductedsurveys and performing new analyses. We first updatethe estimation of the number of orphan enzymes andinterpret their decrease in the light of past and recentenzyme activity discoveries. As the EC classificationdoes not totally cover all known activities, we briefly

introduce two main metabolic databases and analyzetheir content to estimate orphans at the reaction level.Also, an analysis of their connectivity in metabolic net-work is made. The concept of orphan enzymes is thenextended to local orphans (i.e. activities which have norepresentative sequence in a given clade, but have onein other organisms) and an analysis is made at thesuperkingdom level to estimate their number and toevaluate if candidate proteins for local orphans couldbe retrieved by sequence homology. Finally, we exposethe notion of promiscuity and multifunctionality in theenzyme world and explore the relation between proteindomains and catalyzed activities. In conclusion, wepresent some new initiatives and concepts of interest toreduce the number of orphan enzymes but, also, to extendthe landscape of enzymes by finding new activities.

An updated view of orphan enzymesIn this study, we estimated the number of orphan enzymesby using EC numbers present in the IntEnz [13] andUniProt [14] databases (versions of February 2013).UniProt is a resource of proteins where enzymatic activ-ities are described using the EC classification. Only validand complete EC entries were considered without takinginto account deleted or transferred entries. We alsoconsidered as valid entries the nearly 100 provisionalEC numbers of IntEnz waiting to be confirmed by theIUBMB. It appears that 22.4% of the enzymatic activitiesare orphans; among the 5,096 EC numbers, 1,143 entrieshave no associated protein in UniProt. As noticed previ-ously [12], the proportion of orphan enzymes is not uni-formly distributed across the different classes of the ECnomenclature: in EC class 1 the fraction is 25%, 26% inclass 2, 19% in class 3 and 4, 15% in class 5 and 13% inclass 6 (Additional file 1: Figure S1.1 and Additional file 2:Table S2.1 for the complete list of orphan EC numbers).In comparison with the first study made by Peter Karp

in 2003 [8], we observe a significant decrease in thenumber of orphan activities (−294 EC entries) whilethe number of EC entries has increased considerably(+1,360 entries) in the last ten years. To interpret thisresult, we performed a survey of the EC classificationdynamics in terms of entry creations and updates (Figure 2).Since 2010, more than 800 EC numbers have been createdand a substantial number of old entries have beenre-classified (i.e. deleted or transferred to another entry).Over the last few years, the EC commission has consider-ably enhanced its activity and increased the coverage ofthe EC classification in terms of number of new enzymaticactivities. Before the year 2000, the EC classification wasnot updated regularly each year, whereas new EC numbersare now created several times a year, suggesting that theEnzyme Commission tries to minimize the time betweenthe publication of a new activity and its EC attribution.

Figure 2 EC classification evolution over years. (a) Snapshot of EC number status by year of creation. This barplot represents the number ofcreated EC numbers over years and the proportion of nowadays active entries in red and transferred/deleted entries in pink. (b) Dynamics of theEC entry creations and status changes over years. This barplot represents the number of EC entry modifications over years: creation (yellow), transfer(light red) and deletion (dark red).


Nevertheless, many of these new EC entries correspond toolder biochemical characterizations as depicted in Figure 3,where the delay between activity discoveries and corre-sponding EC creations is shown. This pitfall limits thesearch of enzymes in public databases since EC numbersare the only standardized way for scientists to publish anenzymatic activity associated with a protein sequence.Moreover, many recently characterized activities haveno associated protein entries, see Figure 4. We can sup-pose that the annotations of the corresponding proteinswere not updated accordingly with the correct completeEC numbers. This delay of knowledge in databases,which was reported by Yannick Pouliot and Peter Karpin 2007 [15], remains the case today and it impacts theevaluation of orphan enzymes because numbers ofrecently discovered enzymes are wrongly considered asorphans. These authors defined a strategy in order todetermine which orphans might be salvageable andextrapolated that around 18% of them can be solvedwith a literature search. At the time of writing, this typeof analysis was applied to a wide list of orphan ECnumbers [16]. The authors found protein sequencesfor about 270 activities among 1,122 putative orphanenzymes that were extracted from databanks in 2009.Using their results and the current knowledge in data-banks, protein entries for 112 false orphans could beupdated with the corresponding activities and literatureevidences.

To get a better view of the dynamics of the enzymediscovery in the past century, we computed the numberof characterized activities over the years, represented bythe solid red curve in Figure 5. As previously reportedby Chen et al. [12] several phases can be observed.The 1930s and 1940s correspond to the beginning ofbiochemistry with a few numbers of characterizedenzymatic activities. The 1950s and 1960s then saw anexplosion of newly discovered activities due to tech-nical progress in biochemistry and scientists’ increas-ing interest in this new field. This golden age ofbiochemistry took place in parallel with the progress inDNA knowledge and the emergence of molecular biol-ogy. These two complementary disciplines synergizedin the 1980s and 1990s as shown by a second peak ofenzymatic activities in Figure 5. Simultaneously, thenumber of activities associated for the first time with aprotein sequence increased considerably (dashed greencurve in Figure 5). Before this period, the purificationand the direct sequencing of proteins were laboriousand very few enzyme sequences were determined as itrequired highly purified polypeptides and was limitedto short polypeptides. The improvements in molecularbiology techniques, like DNA sequencing and expressioncloning, permitted quick association between nucleicsequences (i.e. genes) and enzymes, whether the latterwas long-known or recently discovered. The emergence ofwhole-genome sequencing projects and then, the Next

Figure 3 Delayed knowledge in the EC classification. Heatmap of the number of EC entries reported by the year of the activity discovery(X axis) versus the year of the corresponding EC entry creation (Y axis). The square’s shade of gray is proportional to the number of EC entries.A delay can be observed between the discovery of an activity and the creation of the corresponding EC number.


Generation Sequencing (NGS) technologies should haveeased the discovery of associations between genes andenzymatic activities. Unfortunately, since the year 2000the number of newly discovered activities is not main-tained at the established level and starts to dramaticallydecrease (Figure 5). It may be due to difficulties inpublishing such biochemical characterizations, and alsoto the fact that funding is now directed towards otherpriorities. The gap between the number of sequencespresent in public databases and the number of cha-racterized enzymes continues to increase dramatically[17-19]. In 2010, Hanson et al. pointed out the dualproblem of increasing number of proteins of unknownfunction produced by genome projects, facing the orphanenzymes missing sequence information [20]. Theysuggested using experimental data and comparativegenomics in order to predict candidate genes.

Orphan enzymes in the metabolic worldIt is important to distinguish the terms “enzyme” and“enzymatic activity”. The first designates a protein ableto catalyze a chemical reaction and the second one thechemical reaction catalyzed by the enzyme. Therefore, anEC number does not represent the enzyme itself, but onlythe activity. As a consequence, non-homologous isoen-zymes (i.e. with different ancestral origin) may share thesame EC number as they catalyze the same enzymaticreaction. In the case of substrate promiscuity, differentEC numbers may exist to give precision to the nature oftransformed compounds. Otherwise, only one EC numbermay be available and represents a generic transformationthat could occur on different substrates (e.g. alcoholdehydrogenase, hexokinase). The promiscuity aspect ofenzymes is extensively described below. Besides, a samechemical transformation may be represented by different

Figure 4 Proportion of orphan EC activities by their year of discovery. This bar plot represents the proportion of orphans among all discoveredEC activities for a given year. In the aim to easily represent their evolution, the data is smoothed by a non-parametric local regression (blue line).

Figure 5 The dynamics of enzyme discovery. The solid red line represents the number of enzymatic activities by their year of discovery, whichis estimated by using the earliest publication linked to the corresponding EC entries in IntEnz database. If no publication is mentioned, the year ofcreation of the EC entry is used instead. The dotted green line represents the number of activities associated to a biological sequence for the first time.The year of protein-EC number association is estimated using UniProt’s PubMed cross-references and by selecting only articles with less than ten othercited proteins in order to avoid publications related to the sequencing of large genomic regions. The artefact peak in 1961 is due to large number ofcreated entries during the first EC meeting, where many activities were assigned to an EC number without any tractable publication.



EC numbers when, for example, different cofactors areused. This multiplicity between related activities and ECnumbers may lead to discrepancies in databases and masksome orphan enzymes. Another point, reported by Greenet al. [21], is the ambiguity in the use of incomplete ECnumbers that could lead to enzyme annotation errors inpublic databases. This is because incomplete EC numbersdon’t distinguish between the lack of knowledge of theexact substrate specificity of an enzyme and the lack of anofficial EC number to describe the given activity. Conse-quently, the use of EC numbers may have introducedsome biases in our survey. It should be noticed that theUniProt consortium is making improvements in the repre-sentation of the enzymatic activities through Rhea [22]and UniPathway [23] databases, which are focused on thedefinition of chemical reactions and metabolic pathways,respectively.To complete our survey at the chemical reaction level,

we performed a study on orphan enzymes using twometabolic databases, named KEGG (version 65.0) [24]and MetaCyc (version 17.0) [25]. The comparison ofthese two databases was extensively reviewed in a recentpublication [26]. As a difference with EC nomenclature,KEGG and MetaCyc make a clear distinction betweenthe chemical reactions and the enzymatic activities.MetaCyc has adopted a formal representation of therelation between proteins and chemical reactions theycan catalyze and thus deals with the multiplicity ofenzymatic activity-reaction relations. For example, if anenzyme is able to catalyze the same chemical transform-ation on a wide range of substrates (i.e. the substratepromiscuity of the enzyme), the different chemical reac-tions will be explicitly linked to the enzymatic activitydescription. In other cases, an EC entry may give only ageneral description of the overall reaction whereas thedifferent steps of this chemical transformation may bemore precisely described using several reaction steps.The results of our analysis are summarized in Table 1.

Table 1 Statistics on orphan reactions in KEGG andMetaCyc metabolic databases

MetaCyc KEGG

Total number of non-spontaneous reactions 10126 9148

Number of orphan reactions 3929 4348

Number of reactions in a pathway 6873 6271

Number of orphan reactions in a pathway 1833 1716

Number of orphan reactions having a nonorphan pathway neighbour

915 1223

Number of pathways 2002 150

Average number of reactions per pathway 4 80

Number of pathways with only non orphanreactions

1264 19

Number of pathways with only orphan reactions 155 0

About twice as many reactions are found in the twopathway databases in comparison to the ~5,000 ECentries. This high number of reactions is partly due tothe multiple relations between enzymatic activities andreactions described above: in KEGG and MetaCyc, thereis an average of 1.15 and 2.2 reactions per EC number,respectively. Conversely, a large proportion of thesereactions correspond to enzymatic activities not de-scribed by a complete EC entry, reflecting the previouslymentioned delay between an activity discovery and itsofficial classification by the commission. In KEGG andMetaCyc, there are 4,588 and 4,497 reactions notlinked to a complete EC number, respectively. As aconsequence and as noted previously [12,27], the per-centage of orphan enzymes may be underestimatedusing only the EC classification. It increases consider-ably when the estimation is made at the reaction levelusing metabolic resources: in KEGG and MetaCyc,48% and 39% of the reactions are lacking associatedprotein or nucleic sequences, respectively.Enzymes are classically studied through metabolic

pathways, which are groups of activities taking part in asame biological process. In this survey, we studied theorphan enzyme content and their connectivity at thepathway level. As described previously [26], there areseveral key differences between the way the databasesrepresent the notion of a pathway: KEGG pathways are akind of mosaic of similar pathways predicted in differentspecies; in MetaCyc, the overall reactions in a pathwayare supposed to occur in a defined group of species.Therefore, there are 12 times more pathways in Meta-Cyc than in KEGG, as MetaCyc attempts to providedistinct pathway variants for a given metabolic process(Table 1). An important fraction of pathways (87% inKEGG and 36% in MetaCyc) contains at least oneorphan activity. There is no pathway in KEGG containingonly orphan enzyme activities, whereas it is the casefor about a quarter of the MetaCyc pathways. This isexplained by the very large number of reactions inKEGG pathways in comparison to MetaCyc (80 on aver-age per pathway versus 4). Considering pathways contain-ing a mix of orphan and non-orphan activities in KEGGand MetaCyc, an average of 26.0% and 39.5% of thereactions per pathway corresponds to orphan enzymes,respectively (Table 1). These statistics show that an im-portant proportion of pathways are still not completelyresolved at the gene level, which limits in silico recon-structions of genome-scale metabolic models [28,29].To cope with this problem, computational tools weredeveloped to find candidate genes for these missingenzymes by using genome and metabolic context-basedmethods [30-32]. The concept of these methods and theillustration of integrated tools using genomic and post-genomic data to link gene and function have been


reviewed recently [33]. Another illustration is presentedthrough the MicroScope platform as a combination ofCanOE and phylogenetic profile methods [32,34]. Actu-ally, these in silico predictions have not raised a lot oforphan cases despite the sophistication of the methodsand their relative independence from classical sequencebased methods. As many orphan enzymes (1,223 reactionsin KEGG and 915 in MetaCyc) have pathway neighborsthat are orphans themselves, one difficulty is the definitionof correct genomic contexts including candidate genesand known enzymes. Furthermore, there is some part ofthe metabolism with a lot of missing knowledge like gly-can and lipid pathways. For example, a number of orphanenzymes still exist in ether lipid metabolism, even if somerecent progresses were made [35].

Local orphan enzymesFrom a taxonomic point of view, we propose to makethe distinction between global and local orphan en-zymes. Orphan enzymes were previously defined as ac-tivities having no associated gene in any organism,which we called here global orphans. In addition, alocal orphan is an experimentally observed activity in atleast one organism of a given clade with only associatedsequences in organisms from other clades [36,37]. Toillustrate this concept at the superkingdom level, wepresent here the example of the EC number 4.1.1.12,the aspartate 4-decarboxylase, which catalyzes thetransformation of an L-aspartate in an L-alanine byreleasing a molecule of CO2. In UniProt, 327 bacterialproteins are annotated with this EC number, includingtwo SwissProt entries, but no eukaryotic or archaealsequences can be found. Nevertheless, the aspartate4-decarboxylase activity has been characterized in vari-ous mammalians (e.g. rat, pig, chicken) [38], making theEC number 4.1.1.12 a local orphan activity in eukary-otes. For the Archaea, there is no associated sequenceand no literature evidence of its presence in this super-kingdom. Thus, the aspartate 4-decarboxylase activitycould be considered as absent in the Archaea.To conduct a survey of local orphans, a resource

of characterized activities in identified organisms isrequired and should be exhaustive enough to gatherall the biochemical knowledge published in the pastcentury. We used the BRaunschweig ENzyme DAta-base (BRENDA, version 2013), which is one of themajor public resources on enzymes and enzymaticactivities, and contains a very large spectrum of infor-mation related to them [39]. BRENDA is based on the ECnumber classification and gathers valuable informationabout biochemical experiments that were extracted fromthe literature. In complement to BRENDA that containsonly manually annotated data, the FRENDA (Full Refer-ence ENzyme DAta) and AMENDA (Automatic Mining

of ENzyme DAta) subsections are based on an automatictext-mining of article abstracts and provide an exhaust-ive collection of organism-specific enzyme information.BRENDA was used in our survey to extract, for eachenzymatic activity, a set of organisms for which theactivity was observed. In combination with UniProtdata, the proportion of global and local orphan enzymesat the superkingdom level was then estimated (Figure 6;the lists of local orphan and not observed EC numbersare available in Additional file 2: Tables S2.2 and S2.3for Bacteria, S2.4 and S2.5 for Eukaryota, and, S2.6 andS2.7 for Archaea). Interestingly, we found that the pro-portion of orphan enzymes is higher in Eukaryota thanin Bacteria (26% and 18%, respectively). Among the onethousand orphan activities in eukaryotes, a third corre-sponds to local orphans (31%) whereas the fraction islower in Bacteria (21%). These slight differences couldreflect a higher difficulty in experimental procedures toidentify genes or proteins in eukaryotes. In Archaea, thelow number of enzymatic activities (1,322 EC numbers),which are reported in BRENDA and UniProt, clearlyillustrates our limited knowledge of metabolism of thissuperkingdom. In our study, the proportion of archaealorphan enzymes is thus clearly underestimated. Indeed,new specific enzymatic activities need to be discovered astheir chemistry shows many differences from other formsof life. Nevertheless, a high proportion of reportedorphans in Archaea (77%) are local orphans, suggestingeither homolog proteins could be candidates for theseactivities or specific isoenzymes have emerged duringtheir evolution. A similar analysis was conducted byadding FRENDA/AMENDA data (Additional file 1:Figure S1.2). Surprisingly, the number of orphan en-zymes considerably increased in each superkingdomwith a high proportion of local orphans (52% forEukaryota and Bacteria, and 91% for Archaea). Theseresults should be taken with caution as FRENDA/AMENDA data is not subjected to manual curation(e.g. we found false-positive local orphans for Bacteriathat correspond to heterologous expressions of eukaryoticproteins in Escherichia coli BL21). Nevertheless, thisanalysis demonstrates that, in addition to the 22.4% ofglobal orphan, the proportion of EC numbers which arelocal orphans in at least one superkingdom is consider-able and is estimated between 9.5% (BRENDA alone)and 33.5% (including FRENDA/AMENDA). Despite theobserved decrease of orphans at a global level, this highnumber of enzyme activities (>30%), for which no orincomplete sequence information is available, remainsproblematic in our knowledge of metabolism.Two reasons may explain this high proportion of local

orphan enzymes. Firstly, non-homologous isofunctionalenzymes, referred as NISE [40], may remain to bediscovered. They correspond to proteins that evolved

Figure 6 Orphan and non-orphan EC number distribution across superkingdoms. The green pie chart represents the proportion of orphanEC activities among all valid entries. Other pie charts represent the proportion of orphan activities among each superkingdom. An activity isconsidered as present in a superkingdom if at least one protein is annotated with corresponding EC number or the activity has been observed inan organism according to BRENDA database. The number and percentage of local and global orphans are given for each superkingdom. Thesmall amount of characterized EC numbers in Archaea shows the obvious lack of knowledge about their metabolism.


independently, but catalyze the same biochemical reac-tions. Therefore, these analogous enzymes cannot bedetected by classical comparative genomics approaches,as they do not share any detectable sequence similarity.Secondly, candidate homologous proteins may exist forlocal orphans but remain to be experimentally confirmedand annotated in databanks. To address this second point,we conducted a preliminary analysis to find homologousproteins for all local orphan enzymes in a given superking-dom. For that purpose, we applied the PRIAM software(release of March 2013) [41] against all UniProt proteinsfrom the Eukaryota, Bacteria and Archaea superkingdoms(see Additional file 1: Figure S1.3). PRIAM relies on a setof profiles (i.e. position-specific scoring matrices), whichare supposed to be characteristic of protein modulessharing same enzyme activities (i.e. same EC numbers).We found that PRIAM is able to retrieve candidateproteins for a non-negligible fraction of local orphanspreviously defined using BRENDA data: 30% for Archaeaand Bacteria, and 59% in Eukaryota (Table 2; the lists ofcandidate proteins for local orphan and not observed EC

numbers are available in Additional file 3: Tables S3.1 andS3.2 for Bacteria, S3.3 and S3.4 for Eukaryota, and, S3.5and S3.6 for Archaea). Even if these predictions cannot betransferred directly without supplementary bioinformaticsanalyses or experiments, they give strong clues on proteincandidates for local orphan enzymes. Another interestingfeature is the substantial number of putative candidatesfor activities that have never been seen in a given super-kingdom (“not observed” columns in Table 2). Only 21%of not observed EC numbers in Archaea have candidateproteins whereas the total number of known enzymaticactivities is low in this superkingdom (n = 1,322, Figure 6).This result is in agreement with the specificity of theirmetabolism, which may be a reservoir of new enzymefamilies and pathways. Conversely, the percentages ofpotentially resolvable local orphans and not observedenzymes in eukaryotes are higher than the two othersuperkingdoms, at 59% and 46% respectively. This sug-gests that the set of common enzymes between Bacteriaand Eukaryota may be underappreciated in proteindatabanks and could be partially solved by a curation

Table 2 Potential candidates for local orphan enzymes retrieved by PRIAM

Archaea Bacteria Eukaryota

local orphan EC not observed EC local orphan EC not observed EC local orphan EC not observed EC

Total number 79 3774 133 1521 299 1348

Number of predictable 56 2247 115 817 150 718

Number of predicted 17 475 35 203 88 333

Percent of predicted 30% 21% 30% 25% 59% 46%

Number of candidate 400 9406 2929 11451 2996 9727

Not observed EC numbers correspond to entries than have never been associated to a protein or an organism in the superkingdom. Predictable EC numbers areentries having an associated PRIAM profile. A predicted EC number is an entry for which PRIAM detected a significant hit with at least one protein sequence(see Additional file 1: Figure S1.3).


effort of eukaryotic genome annotations. As already illus-trated, comparative genomics analyses between prokary-otes and eukaryotes are successful in finding commonand specific enzymes in shared pathways [20]. Thesehomology-based predictions of enzymatic functionscould be also completed by probabilistic annotation ofmetabolic networks to increase the accuracy of thisstrategy [42].

Enzyme promiscuity and protein familiesMultifunctional enzymes are enzymes capable of playingseveral roles in metabolism by catalyzing different trans-formations that may occur in different pathways. Severalkinds of multifunctionality can be observed. Someenzymes may show broad substrate specificity. Thissubstrate promiscuity is a feature of enzymes able tocatalyze the same chemical reaction on a variety ofrelated compounds [43]. Other enzymes may catalyzedifferent chemical transformations. One can observeproteins having two or more functional domains withdifferent active sites [44]. The association of severaldomains within a protein, which is generally the resultof a gene fusion event during evolution, may facilitatesubstrate conversion and regulation of the metabolicfluxes. Another origin of this catalytic promiscuity isthe special case of moonlighting enzymes [45]. Theseproteins switch between activities under environmen-tal changes according to their cellular localization,expression in a novel cell type, ligand or cofactor con-centrations, oligomerization or complex formation withother proteins. A repository of multitasking proteinswas recently set up and several examples of moonlight-ing enzymes may be explored [46].The proportion of multifunctional enzymes may be

underestimated [47,48] and only a few enzymes aredescribed as multifunctional in databases: amongthe ~250,000 enzymes in Swiss-Prot, 5% are associatedwith two or more EC numbers and 3% with EC num-bers having different classification at third-level. Thisproportion should dramatically increase when we will finda simpler way to detect them. Recently, a bioinformatic

method based on reaction molecular signatures was pro-posed to predict catalytic and substrate promiscuity [49].Using this method, a complementary study showedthat highly promiscuous enzymes are more likely to bewidespread in the tree of life [50]. Because multifunctionalenzymes are so difficult to discover and annotate,they represent an interesting and relatively unexploredreservoir to find sequences for orphan enzymes. Quiteoften, biochemists discover a “new” activity performedby an enzyme known to catalyze other type of reac-tions [45]. The point is that the characterization of anovel protein generally leads to the discovery of onlyone function, but does not automatically include asearch for all possible additional functions. Nevertheless,the characterization of supplementary in vitro activitiesdoes not necessarily imply the elucidation of bona fidein vivo functions.To explore the potential promiscuity of enzymes in a

broader way, we conducted an analysis of enzyme activity/domain associations among all known enzymes usingPfam as a resource of domains [51]. We show that sincethe 1990s and despite the increasing number of availablecomplete genomes in the last few years, the proportionof newly discovered activities associated to new do-mains (i.e. domains that were not previously associated toan enzyme) is continuously decreasing (Figure 7). Thus,the exploration of the functional diversity of knownenzyme domains may be a good approach for findingproteins for new or orphan activities. Conversely, 22%of protein domains in Pfam remains without functionand could be a reservoir of new enzyme families, con-siderably extending the enzyme world. A recent studysuccessfully led to the discovery of new activities andpathways through the exploration of the enzymaticdiversity of a protein family of unknown function [52].On the structural side, a majority of enzyme activitiesare performed by a relative small number of proteinsuperfamilies [53]. Indeed, we can observe an import-ant diversity between the presence of a structuraldomain and the number of potential activities: usingCATH as a resource of structural domains [54], there

Figure 7 Proportion of EC activities with new protein domains. This bar plot represents the proportion of EC numbers having at least onenew Pfam domain which was never associated to any enzyme before, by year of discovery. An EC number is considered to be associated to anew domain if this domain has never been seen associated to any other EC number discovered previously. Only EC numbers with at least oneassociated sequence were taken into account.


is an average of 6.37 EC numbers per CATH domainand of 27.20 CATH domains per EC class at third-digit. These observations reflect the importance ofconvergence in the evolution of enzymes [55]. In 2010,Omelchenko et al. found 185 enzyme activities with atleast two structurally unrelated proteins [40]. Theamount of NISE may even be revised upwards, as toour knowledge a systematic research of all potentialstructures performing the same activity has not beencarried out. These complex relations between proteinfamilies and enzymatic activity diversity can introducebarely detectable, but easily spreadable, misannotationsusing homology based bioinformatics strategy duringthe annotation process [1]. Complementary analysescombining structural modeling, ligand docking andactive site comparisons could lead to more accuratepredictions and may open new ways to find candidateproteins for orphan enzymes.

ConclusionDespite an observed decrease of the number of orphanenzyme activities over the last ten years, the orphanenzyme challenge remains important: more than 30% ofthe enzymatic activities reported in the EC classificationhave no or incomplete sequence information. ThoughNGS, combined with improvements in sequence analysismethods, produces an exponential growth of genomicdata, an explosion in the number of newly discoveredactivities has not occurred unlike the 80’s when thedemocratization of molecular biology techniques tookplace. This lack of knowledge is obviously problematicin the overall comprehension of metabolism and inpotential biotechnological applications like biocatalysis.

As shown in our survey and as previously reported[20], a more systematic use of comparative genomicsacross superkingdoms may help to solve part of the localorphans. For the global ones, a delay of knowledge indatabases still exists and could be resolved by intensivebibliographical searches. In this way, the OrphanEnzyme Project initiative [56] recently conducted asystematic analysis of databases and publications, andfound protein sequences for about 270 presumedorphans among an initial list of 1,122 activities establishedin 2009 [16]. Similarly to what is done for protein struc-tures with the PDB [57] and nucleic sequences by theINSDC (International Nucleotide Sequence DatabaseCollaboration) [58], the design of a central and commonscientific framework to submit enzymes with their activ-ities is of priority to reduce the loss of knowledgebetween publications and databases. Indeed, collabora-tive initiatives were recently established to discover newactivities and enzymes: the Enzyme Function Initiative[59] which addresses the challenge of assigning reliablefunctions to enzymes discovered in bacterial genomeprojects, and the COMBREX project [60], connectingcomputational and experimental biologists to improveprotein annotation and proposing grants to experimen-tally validate new functions. These kinds of projectscombining in silico and wet lab strategies should lead toa breakthrough in the discovery of new enzymes andactivities since classical sequence based methods havelost momentum in function prediction. In fact, severalrecent studies have successfully applied this approach byexploiting mass-spectrometry or high throughput enzym-atic assay experiments and computational methods usingsequence similarity networks, genomic contexts, structural


modeling with metabolite docking and active site com-parison [52,61,62]. Another field of research concernsnon-protein enzymes. The most well-known are ribo-zymes and all kinds of protein-RNA complexes, likeribosomes, that are a real challenge to study and ex-tremely hard to discover [63,64]. The existence of activeRNA has been known for a long time, but expertize inthis area is far from being as exhaustive as in classicalbiochemistry. More recently, the discovery of a glyco-lipid playing a “membrane protein integrase” role inEscherichia coli has pushed back the limits of knowncatalytic activities [65]. After all, not only should weenlarge the limits of potential catalysts, but also enlargethe limits of the known metabolites. Progress in meta-bolomics will certainly catalyze the discovery of numer-ous chemical compounds orphan of activities.

Reviewers’ commentsWe thank the reviewers for their comments. We haverevised the manuscript taking into account their remarks.

Reviewer 1 (First Round): Dr. Michael GalperinThe paper by Sorokina et al. addresses an importantquestion and includes some interesting results. However,I think that in order to justify publication in BiologyDirect, the paper needs to be much better written. Thecurrent version is something intermediate between areview and a regular research paper and does not makefor either a good review or a good research paper. As anexample, I would suggest moving Figure 1 to Supple-mentary Materials (it is not a new result) and movingFigure S2 into the main text (it is a new result).Authors’ response: Our article is not a regular research

article but a review paper written in a format similar toprevious studies listed in Figure 1. It includes updatedanalyses of existing data from public databanks thatsubstantially enhance our knowledge about orphanenzymes. We thus decided not to move Figure 1 to Sup-plementary Materials as it resumes previous studies.Figure S2 (now S1.2) is an estimation of orphan enzymesat the superkingdom level based on non-curated datafrom FRENDA and AMENDA whereas Figure 6 wasmade using manually curated data. Therefore, we prefernot to move Figure S1.2 to the main text.In addition, I am afraid that the current version of the

manuscript does not really benefit the scientific communityas it simply enumerates the enzymes in each categorywithout providing the specific lists of these enzymes. Icould support publication of this paper only after theauthors include (at least as Supplementary Materials) thelists of global and local orphans from Figure S2. Unlessthis is done, the data in Figures 2, 3 and 4 cannot beindependently verified and the entire manuscript cannotbe considered acceptable for publication.

Authors’ response: We added the lists of global andlocal orphans and proteins in Supplementary Materials2 and 3.Finally, the entire paper looks like a promotion for the

Orphan Enzymes Project [http://www.orphanenzymes.org, ref. 49]. However, according to the Orphan Enzymesweb site, this project is also the subject of an upcomingpaper “Finding sequences for over 270 orphan enzymes”(currently in press). The reviewers should have beenprovided the text of that other paper to ensure that therewas no significant overlap between the two.Authors’ response: We have no relation or contact with

the Orphan Enzymes Project and had not access to theirupcoming paper at the time of writing the present article.This article is now published and sentences were includedin the main text to present their work.To help revision of this manuscript, I provide below

some specific examples of the poorly formulated sen-tences. However, the entire text must be carefully revisedand made less descriptive and more concise.

1. The Abstract needs to be revised to clearly explainwhat are the new results communicated in thiswork. Right now, the new results seem to start from“Besides, we extended our study”? Please rewrite thefirst 4 sentences of the Abstract to explain whatexactly was the goal of this work and what exactlyhas been done.

2. The statement in the Abstract “We developed asimple strategy to rescue these local orphanenzymes” is totally enigmatic and has to be deletedor reformulated.

3. The last sentence of the Abstract does not seemrelevant to the rest of the text. Please either deleteor at least reformulate.
Authors’ response: Part of the abstract has beenrewritten according to the reviewer suggestions.
4. The Introduction could (and should) be made morecompact and succinct. That said, the last paragraphof the Introduction contains a much betterdescription of the work presented in this paper thanthe Abstract does.Authors’ response: We removed the definition of theEC nomenclature but we think that it is important tokeep a description of previous analysis reviews onorphan enzymes in the introduction.

5. Citations of the enzyme and EC number databasesin the Introduction and other sections of the paperpresent are unfortunately biased. The authorsshould, at the very least acknowledge the officialweb sites of the EC classification, the IUBMB list(http://www.chem.qmul.ac.uk/iubmb/enzyme/) and/or the ExplorEnz (http://www.enzyme-database.org,PMID: 18776214) as well as the ENZYME database

http://www.orphanenzymes.org

http://www.orphanenzymes.org

http://www.chem.qmul.ac.uk/iubmb/enzyme/

http://www.enzyme-database.org


(http://www.expasy.org/enzyme/ PMID: 10592255),That would also make it unnecessary to explain theorganization of the EC system in the Introductionsection. INSDC should be cited (PMID: 23180798).The section on Enzyme promiscuity should probablymention the availability of the MultiTaskDB (http://wallace.uab.es/multitask/, PMID: 24253302).Authors’ response: Suggested references have beenadded.

Reviewer 2 (First Round): Dr. Daniel HaftThe manuscript submission by Sorokina et al., “Profilingthe Orphan Enzymes”, functions fairly well as a reviewarticle on the chronology of the growth of EC numberswith and without associations with specific sequences.The authors define a problem space - identifying enzymesthat have no representative in some superkingdom -. Theyintroduce a strategy for generating lists of candidatesequences to fill the void. The revised form of the manu-script now provides lists of these candidate sequences insupplementary materials, rather than their count only, andit clearly warns that the associations offered by their tech-nique are in no way validated.The strategy relies on PRIAM, an update from March

2013. But there is no discussion of how PRIAM itself isformed and whether its design could be appropriate tothe task. PRIAM was described in 2003, and relies onMKDOM. Therefore, PRIAM requires an unsuperviseddomain definition algorithm to find signature regionsone enzyme has but another enzyme lacks. The domaincould be a C-terminal extension with no relevance toenzyme function, and could be eukaryotic only, butPRIAM would make it a signature. Should this methodbe used to identify probable “local orphan enzymes” inthe archaea? Not without validation.Other homology strategies might do as well PRIAM or

better, such as searching for bi-directional best BLASThit matches that link a known exemplar of enzyme func-tion in one superkingdom to a homolog in anothersuperkingdom. The PRIAM strategy itself could havebeen benchmarked somewhat be seeing how much itspredictions vary from one version to the next. Readersare strongly cautioned that the output from the PRIAMstrategy should be viewed only as anecdotal evidence,appropriate to a review article, that simple homologymethods could generate lists of sequences that containcandidates to represent the first extension into a newsuperkingdom of enzymatic activities that have beenassigned to sequences in other superkingdoms.Authors’ response: This strategy is not a methodo-

logical development but just a way to estimate if candi-date proteins for local orphans could be retrieved byhomology search. We agree that PRIAM profiles havelimitations but, as far as we know, it is one of the best

tools to track potential conserved domains which areenzyme specific and have a wide coverage of Swiss-Protenzymes. BBH cannot be computed for all the Swiss-Protenzymes as many of them are not from complete organ-isms. As mentioned in the manuscript: “these [PRIAM]predictions cannot be transferred directly without supple-mentary bioinformatics analyses or experiments”.As a review, the manuscript did not do justice to the

methods that might be used to find orphan enzymes ingeneral, or domain orphans. In particular, Yamada et al.(ref 27) struck me as a landmark demonstration of datamining combined with comparative genomics for findingcomplete sequence orphans. The method would workeven better for superkingdom orphans. Because thatwork followed predictions with validations, it representsa standard that should be discussed in any review articleon matching sequences to orphan EC numbers.Authors’ response: We introduce the main methods of

finding candidate genes for global or local orphans andsome of their limitations. But, we do not wish to developmore deeply these methods for three reasons: (1) acomplete review of these methods would require a dedi-cated article (2) a methodological review should be doneby a third party since authors of the paper are involved inmethodological developments on this topic (i.e. the CANOEmethod was published the same year as Yamada et al.paper) (3) a review has recently been published andpresents a practical description of these methods (ElYacoubi et al. 2014, a reference to this paper was addedin our article). For information, the two experimentallytested enzymes in Yamada et al. are not supported byenough evidence to validate that they are good can-didates for the two orphan activities: (1) the two testedactivities are amino acid transaminases, which areknown to have in vitro substrate promiscuity (2) the can-didate protein (UniProt AC Q8R5Q4) for the histidinetransaminase activity has a TIGRFAM result corre-sponding to HisC protein (TIGR01141), which catalyzesthe transamination of imidazole acetol-phosphate in thecontext of the histidine biosynthesis. Furthermore, thecorresponding gene (TTE2137) is in the hisGDCBHAFIoperon confirming that this protein should be involvedin the histidine biosynthesis and not in the degradationprocess via the histidine transaminase activity. (3) thecandidate protein (UniProt AC Q8DTM1) shares morethan 50% of amino acid identity with biochemicallycharacterized aspartate aminotransferases (UniProt ACsP23034, Q59228). This activity is more coherent withthe asparaginyl tRNA synthetase genomic context thanthe asparagine aminotransferase activity proposed byYamada et al., an activity described only in eukaryotesfor asparagine degradation. These two cases are reallygood examples to illustrate the difficulty in interpretingin vitro activities to elucidate bona fide in vivo functions.

http://www.expasy.org/enzyme/

http://wallace.uab.es/multitask/

http://wallace.uab.es/multitask/


The work introduces a workflow for using PRIAMto find sequences that might resolve numbers of localenzyme orphans. The lack of any testing of the work-flow’s results or consideration of whether PRIAM’sdesign makes it a good choice was a problem. The revi-sion, including author responses to the reviews, helpscement that this work serves as a review article only,and no tested new method is presented. Even in therevised form, the discussion of the PRIAM workflow is abit troubling. Does the article title, “Profiling the OrphanEnzymes”, refer to PRIAM profiles as used in theuntested workflow? If so, a revised title might be moreappropriate.Authors’ response: The title is not related to PRIAM

profiles. The aim of our review is to analyze and discussthe orphan enzyme problem in the light of the currentknowledge in public databanks.

Reviewer 3 (First Round): Dr.Daniel KahnThis reviewer provided no comments for publication.

Reviewer 1 (Second Round): Dr. Michael GalperinPrevious authors’ response: We added the lists of globaland local orphans and proteins in SupplementaryMaterials 2 and 3.These lists could be very useful for future studies. My

only concern is with the confusing terminology used toname the enzyme groups. The authors use the term“missing enzymes” for the enzymes that are absent (notencoded), rather than missing (not found), in the giventaxonomic group. Instead, they use the term “local or-phans” for the enzymes that everybody else in the worldrefers to as “missing enzymes”.

1. Enzymes (EC numbers) that are not associated withany sequences are referred to as “global orphans”even though many (probably most) of these enzymeshave been described in a single species, or a groupof closely related species, and therefore represent“lineage-specific orphans”, rather than “globalorphans”. It would be helpful to explain this in thetext to avoid confusion.
Authors’ response: For the definitions of global andlocal orphans, we use the same as the ones of Orthet al. 2010. These definitions are given in the maintext. For global orphans, it is very difficult to estimateif they are mostly associated to specific lineages asexperimental data is limited and is far from coveringthe metabolic diversity of living organisms.
2. Enzymes (EC numbers) that have not been reportedin bacteria are referred to in Table S2.3 as “Missingenzymes in Bacteria”. In all previously publishedliterature, “missing enzymes” referred to the enzymaticactivities that are expected - or known - to be present

in at least some bacteria but have not yet beenassigned to any sequence. Thus, “Missing enzymesin Bacteria” are the ones that have been reported incertain eukaryotes and are not even expected to beencoded in any bacteria. As a result, there are 1521enzymes “missing in Bacteria” and 3773 enzymes“missing in Archaea”. Again, if the authors chooseto keep this - unconventional and counterintuitive -group name, they should explain it in the text toavoid confusion.Authors’ response: We agree with the reviewer thatthe term “missing” is confusing. We have replaced“missing” by “not observed” in the additional filesand in the main text.Although the text has been significantly improved,I remain puzzled by the expression “Rescuing thelocal orphans”. What do the authors mean by“rescuing” here, probably not something that iscovered by the existing dictionaries?Authors’ response: The term “rescuing” has beenremoved.

Reviewer 2 (Second Round): Dr. Daniel HaftThe revised form of the article makes it clearer that it isa review, not original research, and that a method theyintroduce produces only a suggestive view, not scientific-ally validated results. But it is still a little troubling. Thetitle seems to speak of the new method, and there is nopeer-reviewed endorsement of that method her.Authors’ response: These points are discussed in the

first round of the review.

Additional files

Additional file 1: Figure S1.1. Orphan enzymatic activity distributionacross the EC classification Figure S1.2. Orphan and non-orphan ECnumber distribution across superkingdoms including data from BRENDA,FRENDA and AMENDA. Figure S1.3. Strategy for local orphan enzymerescuing using PRIAM.

Additional file 2: List of global and local orphan enzymes.

Additional file 3: List of retrieved sequences through the PRIAMsearch.

Competing interestsThe authors declare that they have no competing interests.

Authors’ contributionsOL and DV supervised the project. CM contributed to the design of thestudy and to finalize the manuscript. MSo performed the statistical analysesand the data gathering. MS made the PRIAM analysis. MSo, MS and DVwrote the manuscript. All authors read and approved the final manuscript.

AcknowledgmentsWe would like to thank Patrick Bowe and Andrew Tolonen for their helpfulsuggestions on the manuscript, Karine Bastard for her support, presence andconstructive comments during all this work and Marcel Salanoubat forreading this manuscript. We thank also François Le Fèvre for helping us withMetaCyc data extraction. This work was not supported by any funding.

http://www.biomedcentral.com/content/supplementary/1745-6150-9-10-S1.pdf

http://www.biomedcentral.com/content/supplementary/1745-6150-9-10-S2.xlsx

http://www.biomedcentral.com/content/supplementary/1745-6150-9-10-S3.xlsx


Author details1Direction des Sciences du Vivant, Commissariat à l’Energie Atomique (CEA),Institut de Génomique, Genoscope, Laboratoire d’Analyses Bioinformatiquespour la Génomique et le Métabolisme, 2 rue Gaston Crémieux, 91057 Evry,France. 2CNRS-UMR8030, 2 rue Gaston Crémieux, 91057 Evry, France. 3UEVE,Université d’Evry Val d’Essonne, boulevard François Mitterrand, 91057 Evry,France. 4Univ Paris-Sud, Institut de Génétique et Microbiologie, UMR8621,Orsay F-91405, France. 5Univ Paris-Sud, Laboratoire de Recherche enInformatique, UMR8623, Orsay F-91405, France. 6CNRS, Orsay F-91405, France.

Received: 27 March 2014 Accepted: 29 May 2014Published: 6 June 2014

References1. Schnoes AM, Brown SD, Dodevski I, Babbitt PC: Annotation error in public

databases: misannotation of molecular function in enzyme superfamilies.PLoS Comput Biol 2009, 5:e1000605.

2. Payen A, Perzoz J: Mémoire sur la diastase, les principaux produits de sesrèactions, et leurs applications aux arts industriels. Annales de la chimieet de la physique 1833, 53:73–92.

3. Tipton K, Boyce S: History of the enzyme nomenclature system.Bioinformatics 2000, 16:34–40.

4. Enzyme nomenclature. http://www.chem.qmul.ac.uk/iubmb/enzyme/.5. McDonald AG, Boyce S, Tipton KF: ExplorEnz: the primary source of the

IUBMB enzyme list. Nucleic Acids Res 2009, 37(Database issue):D593–7.6. Bairoch A, Universitaire CM, Servet M: The ENZYME database in 2000.

2000, 28:304–5.7. Roberts RJ: Identifying protein function–a call for community action. PLoS

Biol 2004, 2:E42.8. Karp PD: Call for an enzyme genomics initiative. Genome Biol 2004, 5:401.9. Lespinet O, Labedan B: Orphan enzymes? Sci 2005, 307:42.10. Lespinet O, Labedan B: ORENZA: a web resource for studying ORphan

ENZyme activities. BMC Bioinformatics 2006, 7:436.11. Lespinet O, Labedan B: Orphan enzymes could be an unexplored

reservoir of new drug targets. Drug Discov Today 2006, 11:300–5.12. Chen L, Vitkup D: Distribution of orphan metabolic activities. Trends

Biotechnol 2007, 25:343–8.13. Fleischmann A, Darsow M, Degtyarenko K, Fleischmann W, Boyce S, Axelsen KB,

Bairoch A, Schomburg D, Tipton KF, Apweiler R: IntEnz, the integrated relationalenzyme database. Nucleic Acids Res 2004, 32(Database issue):D434–7.

14. Apweiler R, Bairoch A, Wu CH, Barker WC, Boeckmann B, Ferro S, Gasteiger E,Huang H, Lopez R, Magrane M, Martin MJ, Natale DA, O’Donovan C, RedaschiN, Yeh L-SL: UniProt: the Universal protein knowledgebase. Nucleic Acids Res2004, 32(Database issue):D115–9.

15. Pouliot Y, Karp PD: A survey of orphan enzyme activities. BMC Bioinformatics2007, 8:244.

16. Shearer AG, Altman T, Rhee CD: Finding sequences for over 270 orphanenzymes. PLoS One 2014, 9:e97250.

17. Karp PD: What we do not know about sequence analysis and sequencedatabase. Bioinformatics 1998, 14:753–4.

18. Karp PD, Paley S, Zhu J: Database verification studies of SWISS-PROT andGenBank. Bioinformatics 2001, 17:526–32.

19. Lee D, Redfern O, Orengo C: Predicting protein function from sequenceand structure. Nat Rev Mol Cell Biol 2007, 8:995–1005.

20. Hanson AD, Pribat A, Waller JC, De Crécy-Lagard V: “Unknown” proteinsand “orphan” enzymes: the missing half of the engineering partslist–and how to find it. Biochem J 2010, 425:1–11.

21. Green ML, Karp PD: Genome annotation errors in pathway databases dueto semantic ambiguity in partial EC numbers. Nucleic Acids Res 2005,33:4035–9.

22. Alcántara R, Axelsen KB, Morgat A, Belda E, Coudert E, Bridge A, Cao H, DeMatos P, Ennis M, Turner S, Owen G, Bougueleret L, Xenarios I, Steinbeck C:Rhea–a manually curated resource of biochemical reactions. Nucleic AcidsRes 2012, 40(Database issue):D754–60.

23. Morgat A, Coissac E, Coudert E, Axelsen KB, Keller G, Bairoch A, Bridge A,Bougueleret L, Xenarios I, Viari A: UniPathway: a resource for theexploration and annotation of metabolic pathways. Nucleic Acids Res2012, 40(Database issue):D761–9.

24. Kanehisa M, Goto S: KEGG: kyoto encyclopedia of genes and genomes.Nucleic Acids Res 2000, 28:27–30.

25. Caspi R, Altman T, Dreher K, Fulcher CA, Subhraveti P, Keseler IM, Kothari A,Krummenacker M, Latendresse M, Mueller LA, Ong Q, Paley S, Pujar A,Shearer AG, Travers M, Weerasinghe D, Zhang P, Karp PD: The MetaCycdatabase of metabolic pathways and enzymes and the BioCyc collectionof pathway/genome databases. Nucleic Acids Res 2012, 40(Database issue):D742–53.

26. Altman T, Travers M, Kothari A, Caspi R, Karp PD: A systematic comparison ofthe MetaCyc and KEGG pathway databases. BMC Bioinformatics 2013, 14:112.

27. Lespinet O, Labedan B: Lespinet: Puzzling over orphan enzymes. Cell MolLife Sci 2006, 63:517–23.

28. Durot M, Bourguignon P-Y, Schachter V: Genome-scale models of bacterialmetabolism: reconstruction and applications. FEMS Microbiol Rev 2009,33:164–90.

29. Hyduke DR, Lewis NE, Palsson BØ: Analysis of omics data with genome-scale models of metabolism. Mol Biosyst 2013, 9:167–74.

30. Kharchenko P, Chen L, Freund Y, Vitkup D, Church GM: Identifying metabolicenzymes with multiple types of association evidence. BMC Bioinformatics2006, 7:177.

31. Yamada T, Waller AS, Raes J, Zelezniak A, Perchat N, Perret A, Salanoubat M,Patil KR, Weissenbach J, Bork P: Prediction and identification of sequencescoding for orphan enzymes using genomic and metagenomic neighbours.Mol Syst Biol 2012, 8:581.

32. Smith AAT, Belda E, Viari A, Medigue C, Vallenet D: The CanOE strategy:integrating genomic and metabolic contexts across multiple prokaryotegenomes to find candidate genes for orphan enzymes. PLoS Comput Biol2012, 8:e1002540.

33. El Yacoubi B, De Crécy-Lagard V: Integrative data-mining tools to linkgene and function. Methods Mol Biol 2014, 1101:43–66.

34. Vallenet D, Belda E, Calteau A, Cruveiller S, Engelen S, Lajus A, Le Fèvre F,Longin C, Mornico D, Roche D, Rouy Z, Salvignol G, Scarpelli C, Thil SmithAA, Weiman M, Médigue C: MicroScope–an integrated microbial resourcefor the curation and comparative analysis of genomic and metabolic data.Nucleic Acids Res 2013, 41(Database issue):D636–47.

35. Watschinger K, Werner ER: Orphan enzymes in ether lipid metabolism.Biochimie 2013, 95:59–65.

36. Orth JD, Palsson BØ: Systematizing the generation of missing metabolicknowledge. Biotechnol Bioeng 2010, 107:403–12.

37. Chen L, Vitkup D: Predicting genes for orphan metabolic activities usingphylogenetic profiles. Genome Biol 2006, 7:R17.

38. Rathod PK, Fellman JH: Identification of mammalian aspartate-4-decarboxylase. Arch Biochem Biophys 1985, 238:435–46.

39. Schomburg I, Chang A, Placzek S, Söhngen C, Rother M, Lang M, MunarettoC, Ulas S, Stelzer M, Grote A, Scheer M, Schomburg D: BRENDA in 2013:integrated reactions, kinetic data, enzyme function data, improveddisease classification: new options and contents in BRENDA. Nucleic AcidsRes 2013, 41(Database issue):D764–72.

40. Omelchenko MV, Galperin MY, Wolf YI, Koonin EV: Non-homologousisofunctional enzymes: a systematic analysis of alternative solutions inenzyme evolution. Biol Direct 2010, 5:31.

41. Claudel-Renard C: Enzyme-specific profiles for genome annotation:PRIAM. Nucleic Acids Res 2003, 31:6633–9.

42. Plata G, Fuhrer T, Hsiao T-L, Sauer U, Vitkup D: Global probabilisticannotation of metabolic networks enables enzyme discovery.Nat Chem Biol 2012, 8:848–54.

43. Khersonsky O, Tawfik DS: Enzyme promiscuity: a mechanistic andevolutionary perspective. Annu Rev Biochem 2010, 79:471–505.

44. Hawkins AR, Lamb HK: The molecular biology of multidomain proteins.selected examples. Eur J Biochem 1995, 232:7–18.

45. Jeffery CJ: Moonlighting proteins: old proteins learning new tricks. TrendsGenet 2003, 19:415–7.

46. Hernández S, Ferragut G, Amela I, Perez-Pons J, Piñol J, Mozo-Villarias A,Cedano J, Querol E: MultitaskProtDB: a database of multitasking proteins.Nucleic Acids Res 2014, 42(Database issue):D517–20.

47. Cheng X-Y, Huang W-J, Hu S-C, Zhang H-L, Wang H, Zhang J-X, Lin H-H,Chen Y-Z, Zou Q, Ji Z-L: A global characterization and identification ofmultifunctional enzymes. PLoS One 2012, 7:e38979.

48. Jia B, Cheong G-W, Zhang S: Multifunctional enzymes in archaea:promiscuity and moonlight. Extremophiles : life under extreme conditions2013, 17:1–11.

49. Carbonell P, Faulon J-L: Molecular signatures-based prediction of enzymepromiscuity. Bioinformatics 2010, 26:2012–9.

http://www.chem.qmul.ac.uk/iubmb/enzyme/


50. Carbonell P, Lecointre G, Faulon J-L: Origins of specificity and promiscuityin metabolic networks. J Biol Chem 2011, 286:43994–4004.

51. Punta M, Coggill PC, Eberhardt RY, Mistry J, Tate J, Boursnell C, Pang N,Forslund K, Ceric G, Clements J, Heger A, Holm L, Sonnhammer ELL, EddySR, Bateman A, Finn RD: The Pfam protein families database. Nucleic AcidsRes 2012, 40(Database issue):D290–301.

52. Bastard K, Smith AAT, Vergne-Vaxelaire C, Perret A, Zaparucha A, De Melo-Minardi R, Mariage A, Boutard M, Debard A, Lechaplais C, Pelle C, Pellouin V,Perchat N, Petit J-L, Kreimeyer A, Medigue C, Weissenbach J, Artiguenave F,De Berardinis V, Vallenet D, Salanoubat M: Revealing the hidden functionaldiversity of an enzyme family. Nature chemical biology 2013, 10:42–49.

53. Furnham N, Sillitoe I, Holliday GL, Cuff AL, Laskowski RA, Orengo CA,Thornton JM: Exploring the evolution of novel enzyme functions withinstructurally defined protein superfamilies. PLoS Comput Biol 2012,8:e1002403.

54. Sillitoe I, Cuff AL, Dessailly BH, Dawson NL, Furnham N, Lee D, Lees JG,Lewis TE, Studer RA, Rentzsch R, Yeats C, Thornton JM, Orengo CA: Newfunctional families (FunFams) in CATH to improve the mapping ofconserved functional sites to 3D structures. Nucleic Acids Res 2013,41(Database issue):D490–8.

55. Almonacid DE, Yera ER, Mitchell JBO, Babbitt PC: Quantitative comparisonof catalytic mechanisms and overall reactions in convergently evolvedenzymes: implications for classification of enzyme function. PLoS ComputBiol 2010, 6:e1000700.

56. Orphan enzyme project. http://www.orphanenzymes.org/.57. Berman HM: The protein data bank. Nucleic Acids Res 2000, 28:235–42.58. Nakamura Y, Cochrane G, Karsch-Mizrachi I: The International nucleotide

sequence database collaboration. Nucleic Acids Res 2013,41(Database issue):D21–4.

59. Gerlt JA, Allen KN, Almo SC, Armstrong RN, Babbitt PC, Cronan JE,Dunaway-Mariano D, Imker HJ, Jacobson MP, Minor W, Poulter CD, Raushel FM,Sali A, Shoichet BK, Sweedler JV: The enzyme function initiative.Biochemistry 2011, 50:9950–62.

60. Anton BP, Chang Y-C, Brown P, Choi H-P, Faller LL, Guleria J, Hu Z, KlitgordN, Levy-Moonshine A, Maksad A, Mazumdar V, McGettrick M, Osmani L,Pokrzywa R, Rachlin J, Swaminathan R, Allen B, Housman G, Monahan C,Rochussen K, Tao K, Bhagwat AS, Brenner SE, Columbus L, De Crécy-LagardV, Ferguson D, Fomenkov A, Gadda G, Morgan RD, Osterman AL, et al:The COMBREX project: design, methodology, and initial results. PLoS Biol2013, 11:e1001638.

61. Ramkissoon KR, Miller JK, Ojha S, Watson DS, Bomar MG, Galande AK,Shearer AG: Rapid identification of sequences for orphan enzymes topower accurate protein annotation. PLoS One 2013, 8:e84508.

62. Zhao S, Kumar R, Sakai A, Vetting MW, Wood BM, Brown S, Bonanno JB,Hillerich BS, Seidel RD, Babbitt PC, Almo SC, Sweedler JV, Gerlt JA, CronanJE, Jacobson MP: Discovery of new enzymes and metabolic pathways byusing structure and genome context. Nature 2013, 502:698–702.

63. Strobel SA, Cochrane JC: RNA catalysis: ribozymes, ribosomes, andriboswitches. Curr Opin Chem Biol 2007, 11:636–43.

64. Serganov A, Nudler E: A decade of riboswitches. Cell 2013, 152:17–24.65. Nishiyama K, Maeda M, Yanagisawa K, Nagase R, Komura H, Iwashita T,

Yamagaki T, Kusumoto S, Tokuda H, Shimamoto K: MPIase is a glycolipozymeessential for membrane protein integration. Nat Commun 2012, 3:1260.

doi:10.1186/1745-6150-9-10Cite this article as: Sorokina et al.: Profiling the orphan enzymes. BiologyDirect 2014 9:10.

Submit your next manuscript to BioMed Centraland take full advantage of:

• Convenient online submission

• Thorough peer review

• No space constraints or color figure charges

• Immediate publication on acceptance

• Inclusion in PubMed, CAS, Scopus and Google Scholar

• Research which is freely available for redistribution

Submit your manuscript at www.biomedcentral.com/submit

http://www.orphanenzymes.org/

114

Conclusion du Chapitre I

Les approches pour trouver des séquences candidates pour les enzymes orphelines présentent

des limites. En effet, ces méthodes utilisent généralement les contextes génomiques et

métaboliques, et souvent, dans les voies métaboliques, les activités enzymatiques voisines des

enzymes orphelines sont elles aussi orphelines, comme démontré dans l’article. Des approches,

pour tacler ce problème dans l’autre sens, devraient donc être envisagées. Ainsi, au lieu de

chercher des séquences candidates pour des activités enzymatiques déjà connues, de nouvelles

méthodes pourraient être développées pour trouver de nouvelles activités enzymatiques associées

à des protéines en explorant le métabolisme représenté sous la forme d’un réseau.

Dans le chapitre suivant, nous proposons une nouvelle représentation en réseau du métabolisme

qui permet à la fois de découvrir des modules conservés de transformations chimiques et de

proposer de nouvelles réactions en prenant en compte la promiscuité potentielle des familles

d’enzymes.

116

Chapitre II Construction d’un modèle réduit du métabolisme pour l’identification de modules conservés

Le métabolisme est très souvent représenté informatiquement sous la forme d’un réseau. Le

choix du type de réseau (réseau de composés, réseau de réactions, réseau biparti ou autre) dépend

forcément du but de l’analyse, et de ce que l’on veut découvrir ou mettre en évidence.

L’hypothèse principale qui a orienté les développements décrits dans ce chapitre est la

conservation d’enchainements de transformations chimiques au cours de l’évolution. Le but ici

est d’identifier des ensembles de transformations chimiques conservés et éventuellement inédits

qui peuvent servir de base pour la découverte de nouvelles voies métaboliques.

La première étape a été de construire un réseau de réactions rassemblant toutes les réactions

connues et présentes dans au moins une voie métabolique de la base de données généraliste

MetaCyc [91]. Seules les réactions décrites dans une voie métabolique ont une définition de

composés chimiques « primaires » et « secondaires ». Cette information est nécessaire pour ne pas

relier deux réactions entre elles via des métabolites secondaires, qui sont souvent des cofacteurs

ubiquitaires. Dans ce réseau, deux réactions sont reliées entre elles si il existe un métabolite

primaire produit par une et consommé par l’autre. Il s’agissait avant tout de construire un réseau

regroupant toutes les connaissances disponibles sur le métabolisme, indépendamment de la

notion d’organisme ou d’espèce.

Ce réseau orienté de réactions, construit à partir de données de MetaCyc, contient environ 6 000

nœuds et 11 000 arcs. Il a un diamètre (distance maximale parmi les distances entre toutes les

paires de nœuds dans le graphe) de 47 ce qui est relativement faible et montre la relativement

forte connectivité des nœuds dans ce réseau (Figure 24) On y retrouve cependant un grand

117

nombre de composantes connexes non-reliées entre elles, illustrant des lacunes dans nos

connaissances sur le métabolisme.

Figure 24. Réseau de réactions construit à partir de toutes les réactions présentes dans au moins une voie métabolique de MetaCyc.

De plus, en regardant l’origine taxonomique des réactions dans ce réseau, une limitation assez

classique en biologie moderne est observée : 57% des nœuds-réactions et 83% des arêtes

proviennent de 6 organismes modèles (Escherichia coli, Bacillus subtilis, Saccaromyces cerevisiae, Homo

sapiens, Arabidopsis thaliana et Drosophila melanogaster). Si l’on supprime du réseau métabolique

toutes les informations (nœuds et arêtes) qui proviennent de ces 6 organismes modèles, on

118

observe, comme attendu, une grande perte de connectivité dans le réseau (Figure 25). Ceci

démontre un manque flagrant de connaissances sur le métabolisme des organismes non-modèles.

Il faut donc imaginer une stratégie à adopter pour améliorer et faciliter l’exploration du

métabolisme dans ces conditions.

Figure 25. Réseau de réactions de la Figure 24 où les nœuds provenant des 6 organismes modèles (Escherichia coli, Bacillus subtilis, Saccaromyces cerevisiae, Homo sapiens, Arabidopsis thaliana et Drosophila melanogaster) ont été supprimés. Suppression de 57% des nœuds et 83% d’arêtes.

Les hypothèses principales sur l’évolution des voies métaboliques s’accordent sur l’importance de

la promiscuité enzymatique, c’est à dire la capacité des enzymes à catalyser une ou plusieurs

119

réactions sur des substrats plus ou moins différents. Ainsi, on peut supposer que, non seulement

les réactions et les voies métaboliques, mais aussi des enchainements de types de transformations

chimiques sont conservés au cours de l’évolution. Les types de transformations chimiques

permettent de classifier les réactions en groupes sur la base de leur similarité. Plusieurs façons

d’obtenir ou de calculer ces types de transformation existent (cf. parties II.2 et IV.I du chapitre

« Contexte biologique et méthodologique »). Nous avions envisagé d’utiliser trois d’entre elles

pour nos développements : les EC numbers, les RPairs/RClass et les signatures moléculaires de

réactions (RMS). La classification EC ne permet pas de couvrir toutes les réactions connues dans

les bases de données métaboliques (KEGG et MetaCyc) et n’offre pas une classification

suffisamment fine des réactions enzymatiques. La classification RPairs/RClass s’applique

uniquement aux réactions de la base de données KEGG et n’est pas facilement transposable

pour d’autres ressources. De plus, elle ne garantit pas que les réactions d’un même groupe

réalisent la même transformation chimique globale car elle ne prend en compte que des paires de

substrats et produits. Les RMS sont basées sur la décomposition de toutes les molécules qui sont

impliquées dans une réaction. Des sous-graphes centrés sur chacun des atomes sont calculés et

encodés avec le formalisme SMILES. Seuls les sous-graphes qui changent au cours de la réaction

sont gardés dans la description de la réaction pour capturer la transformation chimique. C’est

donc la méthode des RMS qui a été choisie pour rassembler les réactions selon leur type

transformation chimique d’une façon totalement automatique.

Le réseau de réactions a ensuite été transformé en réseau de RMS. Les nœuds des réactions

signées par la même RMS ont été regroupés ensemble, et la connexion entre les nœuds gardée (si

les réactions R1 et R2 étaient reliées dans le réseau de réactions, R1 est signée par RMS1 et R2

signée par RMS2, RMS1 et RMS2 sont liées dans le réseau crée). Différentes métriques de

conservation de RMS et de chemins de RMS ont ensuite été calculées. Ces métriques ont

différents sens biologiques, comme la conservation chimique (nombre de réactions par RMS), la

conservation enzymatique (nombre de protéines dans les génomes de référence qui ont pu être

associés à chaque RMS) et une conservation topologique, basée sur la structure du réseau de

RMS. Les trois métriques sont décrites d’une façon complète dans l’article. La métrique

topologique n’a toutefois pas été évidente à trouver, et plusieurs centralités ont été envisagées,

locales et globales, pour identifier celle qui avait le plus de sens biologiquement parlant.

Les centralités purement locales comme les différents degrés des nœuds (degré total, degré

entrant et degré sortant) ont été jugées trop simples, et dépendaient trop du nombre de réactions

120

encodées par chaque RMS. Parmi les centralités globales, celle qui a été envisagée en premier lieu

est la centralité « betweenness » car elle représente la quantité d’information qui passe par chaque

nœud du réseau, ce qui pourrait s’apparenter aux flux d’atomes de carbone lors des

transformations chimiques, par exemple. Elle n’a toutefois pas été retenue car, paradoxalement,

elle est trop globale. En effet du point de vue biologique, un flux d’atomes de carbone décrit dans

les voies métaboliques est en général inférieur à une dizaine de réactions. Nous avons aussi essayé

de calculer la centralité betweenness pour chaque nœud sur un sous-graphe de diamètre 10

autour de ce nœud. Cette technique ne donnait pas de résultats significativement différents de la

centralité betweenness globale et résultait aussi en la perte du sens même apporté par cette

centralité. Nous nous sommes alors tournés vers les centralités dites de « hubs et d’autorités »,

très utilisées dans les analyses de réseaux sociaux et dans les réseaux de pages web. Le principe de

ces centralités est assez simple : un nœud qui pointe vers un grand nombre d’autres nœuds (qui a

un degré sortant assez grand) est un hub. Par exemple, les pages web annuaires, populaires dans

les années 1990 et début 2000, et qui ont pour seul but de pointer vers d’autres pages web

(souvent contre rémunération et/ou pour des raisons commerciales ou frauduleuses), sont des

hubs. En contrepartie, un nœud qui est pointé par beaucoup d’autres nœuds (qui a un degré

entrant important) est une autorité. C’est le cas par exemple de pages Wikipédia populaires. Parmi

les différentes centralités suivant le principe des hubs et des autorités, la centralité Page Rank

[133] a été retenue ici. Cette centralité est à la base du célèbre moteur de recherche Google et

apporte une amélioration à la notion d’autorité : plus un nœud est influent (plus son autorité est

grande) plus ses voisins directs sortants sont influents (les amis des personnes influentes sont

influentes). On parle aussi de centralité « feedback ». Dans ce cas présent, cette particularité est

intéressante, car elle permet de propager l’importance d’un nœud, et peut faire ressortir plus

naturellement les chemins dans lesquels des nœuds importants du point de vue topologique se

succèdent. Les centralités basées sur la marche aléatoire, comme le « web surfer » ou la centralité

de Markov n’ont pas été essayées, mais, avec du recul, elles ne sont pas aberrantes et pourraient

avoir un sens intéressant dans le contexte du réseau métabolique de transformations chimiques.

Un certain nombre de chemins conservés de transformations chimiques ont été identifiés grâce

aux trois scores. Certains de ces chemins font partie de voies métaboliques connues, d’autres ne

correspondent à rien de connu pour le moment, et restent donc à analyser.

Sorokina et al. BMC Bioinformatics (2015) 16:385 DOI 10.1186/s12859-015-0809-4

RESEARCH ARTICLE Open Access

A new network representation of themetabolism to detect chemical transformationmodulesMaria Sorokina1,2,3*, Claudine Medigue1,2,3 and David Vallenet1,2,3

Abstract

Background: Metabolism is generally modeled by directed networks where nodes represent reactions and/ormetabolites. In order to explore metabolic pathway conservation and divergence among organisms, previous studieswere based on graph alignment to find similar pathways. Few years ago, the concept of chemical transformationmodules, also called reaction modules, was introduced and correspond to sequences of chemical transformationswhich are conserved in metabolism. We propose here a novel graph representation of the metabolic network wherereactions sharing a same chemical transformation type are grouped in Reaction Molecular Signatures (RMS).

Results: RMS were automatically computed for all reactions and encode changes in atoms and bonds. A reactionnetwork containing all available metabolic knowledge was then reduced by an aggregation of reaction nodes andedges to obtain a RMS network. Paths in this network were explored and a substantial number of conserved chemicaltransformation modules was detected. Furthermore, this graph-based formalism allows us to define several pathscores reflecting different biological conservation meanings. These scores are significantly higher for pathscorresponding to known metabolic pathways and were used conjointly to build association rules that should predictmetabolic pathway types like biosynthesis or degradation.

Conclusions: This representation of metabolism in a RMS network offers new insights to capture relevant metaboliccontexts. Furthermore, along with genomic context methods, it should improve the detection of gene clusterscorresponding to new metabolic pathways.

Keywords: Metabolic network, Reaction signatures, Graph reduction, Pathway conservation, Chemicaltransformation modules

BackgroundIn bioinformatics, metabolism is generally modeledby directed networks where nodes represent reactionsand/or metabolites and edges the product/substrateexchanges between reactions [1]. Metabolic networkreconstruction of a given organism generally starts withits genome annotation that predicts enzymatic activitiesfrom coding sequences and, therefore, the correspond-ing reactions and metabolites of the network. However,

*Correspondence: [email protected] des Sciences du Vivant, Commissariat à l’Energie Atomique et auxEnergies Alternatives (CEA), Institut de Génomique, Genoscope, Laboratoired’Analyses Bioinformatiques pour la Génomique et le Métabolisme, 2 rueGaston Crémieux, 91057 Evry, France2CNRS-UMR8030, 2 rue Gaston Crémieux, 91057 Evry, FranceFull list of author information is available at the end of the article

two main bottlenecks limit today this reconstruction byhomology: the difficulty in associating correct functionsto genes and the lack of experimental characterizationof enzyme activities for which proteins are sometimesunknown, i.e. orphan enzymes [2].Subgraphs of these networks are often used to repre-

sent metabolic pathways that group sets of connectedreactions involved in a same biological process. Sev-eral hypotheses on the origin and evolution of metabolicpathways have been proposed, including patchwork evo-lution by enzyme recruitment in new metabolic path-ways [3, 4], retrograde synthesis which postulates thatmetabolic pathways are constructed starting from thefinal metabolite [5], and the theory on metabolic path-way duplication [6]. Despite their differences, these

© 2015 Sorokina et al. Open Access This article is distributed under the terms of the Creative Commons Attribution 4.0International License (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted use, distribution, andreproduction in any medium, provided you give appropriate credit to the original author(s) and the source, provide a link to theCreative Commons license, and indicate if changes were made. The Creative Commons Public Domain Dedication waiver(http://creativecommons.org/publicdomain/zero/1.0/) applies to the data made available in this article, unless otherwise stated.

http://crossmark.crossref.org/dialog/?doi=10.1186/s12859-015-0809-4-x&domain=pdf

mailto: [email protected]

http://creativecommons.org/licenses/by/4.0/

http://creativecommons.org/publicdomain/zero/1.0/

Sorokina et al. BMC Bioinformatics (2015) 16:385 Page 2 of 9

hypotheses agree about the importance of enzymepromiscuity in the evolution of metabolic pathways, i.e.the capacity of enzymes to catalyze one or several typesof reactions on more or less different substrates. A recentstudy in Escherichia coli successfully brings out thisenzyme capacity to adapt themselves to new substrates [7].In order to explore metabolic pathway conservation

and divergence among organisms, previous studies werebased on pathway alignment to find similar pathwayswithin or between organisms using the Enzyme Commis-sion (EC) numbers to define reaction similarities [8–11].Due to limitations of the EC classification, the notion ofreaction similarity for pathway alignment was improvedusing metabolite similarity [12] or substructure changes[13]. Another approach, that does not require prede-fined pathways, was based on the detection of motifsin a reaction network [14]. Few years ago, the conceptof chemical transformation modules, also called reactionmodules, was introduced by Muto et al. [15]. They cor-respond to sequences of chemical transformations whichare conserved in metabolism. These modules capture thechemical logic of pathways that may correspond or not toconserved sets of enzymes. Muto et al.made a systematicanalysis of the conservation of reaction modules by align-ing metabolic pathways from KEGG [16] and used RClass(Reaction Class) [17] to group reactions having same pat-terns of chemical transformations. The same year, Barbaet al. [18] published a study on the modularity of thepurine and pyrimidine metabolism, which presents chem-ical reaction similarities, and also enriched the reactionmodule definition with the notion of enzyme homology.In the present work, we propose a different formalism

for the detection of reaction modules, although we use thesame definition of modules as Muto et al. [15]. Instead ofusing pathway alignment, we adopt an innovative graphrepresentation of the metabolism where the reaction net-work is reduced in a Reaction Molecular Signature (RMS)network. For that, RMS are automatically computed forall reactions and encode changes in atoms and bonds asdescribed in [19]. Thereby, reactions sharing a same sig-nature are grouped together. Paths in the RMS networkare then explored to detect conserved modules. Further-more, this graph-based formalism allows us to defineseveral path scores reflecting different biological conser-vation meanings. These scores are finally analyzed for allpossible paths in the network and for known metabolicones and used to build association rules that should pre-dict metabolic pathway types like metabolite biosynthesisor degradation.

MethodsReaction networkMetabolic data was extracted from MetaCyc publicdatabase version 19.0 [20]. MetaCyc contains a large

collection of curatedmetabolic pathways from all domainsof life. In addition, metabolites, reactions, enzymes andgenes are also listed. Metabolic pathways described inMetaCyc are generally short (4.3 reactions on average)and have been experimentally elucidated in at least oneorganism. A metabolic network was reconstructed usingMetaCyc reactions as nodes. We linked two reactions bya directed edge when the product of one reaction is thesubstrate of the other one. However, to avoid the high con-nectivity problems that are common when building suchmetabolic networks, we limited shared compounds to“main compounds”, i.e. metabolites deemed biologicallyrelevant to both reactions in at least one metabolic path-way. Only reactions that belong to a metabolic pathwaywere taken into account, as only these ones have dis-tinction between main metabolites and co-substrates sup-porting the reaction such as water, ATP or NAD. Trans-port reactions, for which translocated substrate remainsunchanged, were excluded from the network constructionand from further analysis, e.g. ABC transporter ATPasereactions corresponding to 3.6.3.- EC class.

Reaction molecular signaturesReaction Molecular Signatures (RMS) were computed forall MetaCyc reactions, belonging or not to a metabolicpathway, as described in [19]. These signatures encodechanges in atoms and bonds where the reaction is tak-ing place. First, structures of all molecules involved ina reaction were downloaded from MetaCyc website inMDLMolfile format. Using ChemAxon MolConvert soft-ware [21], all molecules were standardized by addingimplicit hydrogen atoms and applying aromatizationwhen needed. Stereo signature molecular descriptors [22]were then computed for heights 1 and 2 with the MolSigsoftware (http://molsig.sourceforge.net). These molecu-lar signatures are encoded using SMILES-like strings [23]and the height parameter corresponds to a distance forthe inclusion of neighbour atoms and bonds up froma given atom. Second, corresponding RMS were gener-ated for each molecular signature height by calculatingthe difference between the signatures of the productsand of the substrates. To obtain correct RMS, reactionequations have to be balanced with explicit compoundsfor which Molfile structures are available. It should benoticed that (i) for a given height, a reaction has onlyone RMS signature (ii) reactions sharing a same RMShave similar chemical transformations (iii) the higherthe height value is more the signature is precise. RMSof height 1 (RMS-H1) capture the reaction center withatom and bond changes. To compute RMS of height2 (RMS-H2), RMS-H1 were partitioned in sub-groupshaving similar signatures at height 2. Distances betweensignatures were computed using an approximate string

http://molsig.sourceforge.net


matching algorithm [24]. Then, a hierarchical clusteringwas build on these distances using the Ward algorithm[25] and the tree was cut at a cophenetic distance thresh-old of 90. To deal with reaction directionality, RMS hav-ing strictly opposite signatures were merged in a singleentry. Higher values of the height parameter were notused because they lead to too precise signatures withmany describing only one reaction. The RMS classifica-tion of reactions is available in Additional file 1 and thesource code for the RMS computation was deposited inGitHub (https://github.com/mSorok/createRMS.git). TheRMSmethod has been chosen in this work as it guaranteesthat all reactions described by the same signature per-form the same chemical transformation, making manualpost-process unnecessary.

RMS networksThe reaction network was reduced in a directed net-work of chemical transformations represented by RMS.As shown in Fig. 1, reactions signed by the same RMSare grouped in a single node. Two RMS are connectedby a directed edge in the RMS network if there is atleast one edge in the original reaction network linkingreactions signed by the corresponding source and tar-get RMS. For computational complexity reasons and thelack of explicit representation of repeated reactions inpathway databases, edges are not created if source andtarget RMS are identical (i.e. self-loops are avoided). Thistransformation was made for the two RMS heights andwe obtained two networks called RMS-H1 and RMS-H2 networks. Furthermore, this graph reduction, whichaggregates reaction nodes and edges, allowed us to define

Markov chains transition probabilities of order 1 betweenconnected RMS. Pr

(RMSj | RMSi

)is calculated as the

ratio of the number of outgoing reaction edges linkingRMSi to RMSj among the total number of outgoing edgesfrom reactions signed by RMSi.

RMS node weightingSeveral weights, reflecting different biological conserva-tion meanings, have been computed on nodes of theRMS networks. The first weight,wRea, corresponds to thenumber of MetaCyc reactions associated to a given RMS,whether they are present or not in the initial reaction net-work. It gives a quantitative measure of the diversity ofreactions represented by a RMS.A second weight, wPageRank, is computed using

PageRank algorithm [26] implemented in the Jung 2.0Java library [27]. This topological weight is based on anetwork architecture exploration in order to locate influ-ential nodes in the RMS network with the assump-tion that most important chemical transformationsare likely to have more incoming links from othertransformations.The last weight, wProt, is an estimation of the num-

ber of proteins associated to a given RMS. Known pro-tein/reaction associations were extracted directly fromMetaCyc and from Swiss-Prot using EC numbers [28].These associations were used to compute two ratios cor-responding to the number of known proteins with thesame Pfam domain composition [29] and associated toa given RMS Np(p ∈ RMSi

⋂p ∈ Domj) divided by

the total number of known proteins having the domainsNp(p ∈ Domj), for d2r ratio, or by the total number of

Fig. 1 Reaction network to Reaction Molecular Signature network. This figure presents a toy example of the reduction of a reaction network in aRMS network. Reactions sharing a same reaction signature (same node color in the figure) are grouped in a single RMS node. Directed edges of thereaction network are also merged in the RMS network. Red edges illustrate the computation of Markov transition probabilities Pr(RMS2 | RMS1),Pr(RMS3 | RMS1) and Pr(RMS5 | RMS1). They correspond to the proportion of reaction edges, among the five outgoing edges of RMS1 reactions(blue nodes), connecting RMS1 to RMS2, RMS3 and RMS5

https://github.com/mSorok/createRMS.git


known proteins associated to the RMSNp( p ∈ RMSi), forr2d ratio.

d2r(RMSi,Domj) = Np( p ∈ RMSi⋂

p ∈ Domj)

Np( p ∈ Domj)(1)

r2d(RMSi,Domj) = Np( p ∈ RMSi⋂

p ∈ Domj)

Np( p ∈ RMSi)(2)

Next, the association score, score(Dom,RMS), was com-puted as the harmonic mean of d2r and r2d values. Thisscore represents a trade-off between sensitivity and speci-ficity to associate protein domains to chemical transfor-mations and tends to be very low when domains or RMSare very frequent.

score(Domj,RMSi) = 2 × d2ri,j × r2di,jd2ri,j + r2di,j

(3)

Finally, wProt is, for each protein domain associated tothe given RMS, the geometric mean of the total num-ber of UniProt proteins associated to a domain multipliedby the score(Dom,RMS). Only proteins from UniProtreference proteomes [28] (version 2015_04 with 2,424reference proteomes) were considered to provide broadcoverage of the tree of life while reducing taxonomicover-representation.

wProt(RMS) = n

√√√√n∏

j=1Np( p ∈ Domj) × score(Domj,RMS)

(4)

This weight gives a quantitative measure of the diver-sity of enzymes associated to a RMS. High value of wProtmay indicate that the chemical transformation is widelyrepresented among organisms and/or that many enzymescatalyze this transformation because of many gene dupli-cations or many enzyme families.

RMS path enumeration and scoringAn enumeration of all paths of length 1 (one edge andtwo RMS nodes) to 4 (four edges and five nodes) wasmade in both RMS networks using the Grph Java library[30]. In this path enumeration, loops were not allowed (i.e.a node cannot be found more than once in a path). Tomake them comparable, metabolic pathways from Meta-Cyc were translated in overlapping RMS paths of the samelength. In addition, a Pathway Conservation Index (PCI)was computed for each RMS path and represents thenumber of distinct corresponding reaction paths that arepresent in at least one MetaCyc pathway.According to previously defined RMS weights, path

conservation scores, named scoreRea, scorePageRank andscoreProt, were calculated as the geometrical means ofpath node weights multiplied by their probability of tran-sition to the next node of the path. As an illustration, the

formula of scoreRea is given in which RMSi and RMSi+1are two consecutive nodes and n is the path length.

scoreRea(RMSs → RMSn) (5)

= n−1

√√√√n−1∏i=s

wRea(RMSi) × Pr (RMSi+1 | RMSi)

ScorePageRank and scoreProt are computed in the sameway using wPageRank and wProt, respectively.

Results and discussionFrom reaction to RMS networksAmong the 12,377 MetaCyc reactions, RMS of of height1 (RMS-H1) and 2 (RMS-H2) have been computed for9,001 reactions excluding transport reactions and reac-tions without proper compound structures as describedin the Methods section. As shown in Table 1, RMS-H1gathers on average about two times more reactions thanRMS-H2. Indeed, RMS-H2 signatures givemore precisionabout the chemical transformations than RMS-H1 as theyencode additional information about the neighborhood ofthe reaction center that may be important for the chemicalreactivity.This fully automated chemical classification of reac-

tions was compared with the Enzyme Commission (EC)classification which is a human expertise classification ofenzymatic activities [31]. Even if efforts were made toautomate the classification of new activities [17, 32, 33],the EC classification covers only half of all known enzy-matic reactions. Among the 4,574 reactions linked bothto an EC number and to a RMS, a simple similarity mea-sure (Rand index) was computed between the third levelsub-subclasses of EC numbers (179 classes) and the RMS-H1 (1,437 classes). We obtained a Rand index value of97.68 % meaning, even if the RMS classification has afiner granularity, both classifications are thus similar (seeAdditional file 2 for detailed counts). Reactions classifiedin a same RMS tends to have the same third level ECclass. Nevertheless, we found cases where the two clas-sifications differs such as the example depicted in Fig. 2.From a chemical point of view, the D-glutamate cyclaseand the L-lysine-lactamase reactions correspond to theformation or the hydrolysis of a lactam involving a pri-mary amine and the carbon of the keto function of a

Table 1 Reaction molecular signature statistics

Height 1 Height 2

Number of RMS 2477 4775

Number of reactions by RMS

Minimum 1 1

Average 3.63 1.89

Maximum 312 144


Fig. 2 Example of reactions having a same RMS signature but classified in different EC classes. a D-glutamate cyclase reaction annotated with theEC 4.2.1.48. b L-lysine lactamase reaction annotated with EC 3.5.2.11. This both reactions make the same the chemical transformation representedby RMS-H1.1372, which encodes, in SMILES-like strings, the difference between the products and the substrates of atomic signatures of height 1

carboxylic acid. These reactions are encoded by the sameRMS but their EC classes differ: the D-glutamate cyclase isclassified as a carbon-oxygen lyase (EC number 4.2.1.48),whereas the L-lysine-lactamase is a hydrolase acting ona carbon-nitrogen bond of a cyclic amide (EC number3.5.2.11). These differences show that EC numbers aremainly focused on enzymatic activities and take in consid-eration the biological context to classify the reactions (e.g.the in vivo reaction directionality). These ambiguities, thatare quite common between lyases and hydrolases or trans-ferases, were also previously reported in other chemicalclassifications of reactions like MOLMAP [34].Finally, an initial reaction network was established using

metabolic pathway information from MetaCyc. It is madeof 5,830 reaction nodes and 11,197 directed edges withan average node degree of 2.6. This graph was reducedin two RMS networks using RMS-H1 and H2 signatures.As summarized in Table 2, RMS networks are more com-pact than the reaction network: RMS-H1 and RMS-H2networks contain a third and a half of nodes, respectively.

Table 2 Statistics on reaction network and RMS networks

Reaction RMS-H1 RMS-H2network network network

Number of nodes 5830 1768 3365

Number of edges 11197 6107 8721

Average node degree 5.17 9.10 3.33

Average node out degree 2.60 4.36 2.99

Average node in degree 2.27 3.94 6.84

Node reduction rate 1 0.30 0.57

By aggregating reactions in RMS nodes while preserv-ing their initial connectivity, RMS graph structure shouldefficiently capture conserved paths of chemical reactionseven for reactions not already associated to a metabolicpathway. Indeed, 2,278 reactions not included in the initialreaction network are linked to a chemical transformationcontext in the RMS networks since they are classifiedin the RMS networks with other reactions from knownpathways.

Conserved RMS paths in metabolic pathwaysAn exploration of the RMS networks was conducted by anenumeration of all paths of length 1 (one edge, two RMS)to 4 (four edges, five RMS). To evaluate their conservationin the light of knownmetabolic pathways, a Pathway Con-servation Index (PCI) was computed for each RMS pathand corresponds to the number of distinct reaction pathspresent in MetaCyc pathways. The number of RMS pathswith a PCI ≥2 is reported in Table 3 for each path lengthand for both signature heights. We found, for RMS-H1,between 117 and 600 conserved RMS paths depending ofthe path length and fewer paths (between 128 and 380)for RMS-H2 as they encode more precise signatures (seeAdditional file 3 for the complete list). They correspond to

Table 3 Number of conserved modules (PCI ≥ 2)

Path length RMS-H1 network RMS-H2 network

1 600 380

2 365 214

3 212 141

4 117 128


conserved chemical transformation modules, also namedreaction modules in a previous study [15]. Indeed, Mutoet al. obtained similar results but with a higher num-ber of detected conserved paths (between 338 and 928for the same path lengths). Although our results are notdirectly comparable to those of Muto et al. by the usage ofdifferent primary data sources (i.e. MetaCyc and KEGG,respectively), the RMS paths detected by our method canbe directly considered as conserved modules whereas thepaths obtained by Muto et al. need a manual examina-tion to obtain conserved modules from them. In fact, theyadopted a looser definition of chemical conservation with-out taking into account side compounds and using finger-print similarities to group reactions without the constraintthat the reactions perform the same chemical transfor-mation. Only 34 reaction modules were finally confirmedby the authors [15]. Among the modules detected by ourmethod, we found, for instance, that the β-oxidation path-way, that is well-known for fatty acid degradation, is alsoconserved for other molecule types (Fig. 3). This module,also detected by Muto et al. for a subset of compounds(two among eight), has four reaction variants in its firststep. As another example, we detected a new three-stepmodule for the biosynthesis of aldoximes from aminoacids, which are notably precursors of several secondarymetabolites produced by plants (Fig. 4). More generally,nearly half (48 %) of metabolic pathways contains at leastone conserved module in the height 1 RMS network (seeTable 4). Interestingly, pathways involved in the genera-tion of precursor metabolites and energy (‘Energy’ type inTable 4) are the most conserved (78 % of them in RMS-H1network). Besides, the proportion of conserved pathwaysinvolved in biosynthesis and degradation is also importantand comparable for both types, 42 % and 47 % respectively.

RMS path scoring and learningTo go further, our method proposes an evaluation ofchemical module conservation in the metabolism usingthree scores corresponding to different biological pointsof view. Indeed, scoreRea reflects the diversity of reac-tions performing the same chemical transformations ondifferent substrates, scoreProt represents the conservationof enzymes performing these chemical transformationsacross the tree of life and scorePageRank shows the topo-logical importance of the module in the network by high-lighting chemical hubs. These scores were computed forall paths and analyzed more precisely for paths of length2 in the RMS-H2 network (Table 5). It should be noticedthat the scoreProt cannot be computed for about 20 %of paths as they contain at least one RMS without anyknown protein catalyzing the corresponding reactions, i.e.30 % of the RMS-H2 correspond to orphan enzyme activ-ities. As depicted in Fig. 5, paths from known metabolicpathways present statistically significant higher values forthe three scores than in all possible paths computed fromthe RMS network (p-value < 2e−16 using Tukey’s HSDtests). Similar results were obtained for RMS-H1 net-work (see Additional file 4). These results confirm thatthe defined scores are useful to capture biologically rel-evant paths in the RMS network and should allow us todiscover new metabolic modules. Furthermore, we foundonly a weak correlation between scoreRea and scorePageR-ank (Spearmans’ correlation coefficient of 0.66) andno correlation between other pairs of scores. There-fore, the proposed scores can be considered as ratherindependent and then used conjointly to explore theRMS network.Next, these scores were analyzed in the light of

MetaCyc pathway classification using five main types

Fig. 3 Conservation of β-oxidation module for non-fatty acid compounds. In addition to fatty acids, the β-oxidation module was found conservedfor the transformation of 8 compounds represented in the figure. For the first step, we found 4 reaction variants encoded in different RMS of height1: three RMS correspond to a dehydrogenation between the alpha and beta carbons but with different acceptors, another corresponds to acoenzyme A ligation. A color code indicates the corresponding substrates. Only molecules marked with an asterisk were also detected by Muto et al.(KEGG Reaction Module RM018)


Fig. 4 A conserved module for the biosynthesis of aldoximes from amino acids. a This module is made of three chemical transformations encodedby RMS-H2 signatures. It corresponds to the oxidative decarboxylation of an anmino acid to its aldoxime. b The module is conserved in differentMetaCyc pathways for five distinct proteinogenic amino acids. Produced aldoximes are precursors of nitrogen-containing secondary metabolites inplants, like cyanogenic glycosides for seed germination and defense, or auxin phytohormones

of biological processes: biosynthesis, degradation/utilization/assimilation, detoxification, generation ofprecursor metabolites and energy, and a last type, called“others”, that gathers other MetaCyc main pathwayclasses. By performing pairwise comparisons of pathwaytypes (i.e. Kruskal-Wallis rank sum tests completed bypost-hoc Tukey’s HSD tests, see Additional file 5), wefound significant differences (p-values < 0.05) among allpathway types for at least one of the three conservationscores. These results presume that pathway types could

Table 4 Number of pathways containing at least one conservedmodule (length 2, PCI ≥ 2) classified by their type

Pathway type RMS-H1 network RMS-H2 network

Biosynthesis 263 (42%) 154 (24%)

Degradation 172 (47%) 95 (25%)

Detox 3 (27%) 3 (23%)

Energy 61 (78%) 51 (65%)

Other 19 (33%) 10 (17%)

All 518 (46%) 313 (27%)

be predicted by machine learning using a combination ofthe three scores. Thus, pathway assignment rules weregenerated with the NNge algorithm [35, 36] implementedin Weka [37]. As the number of RMS paths per pathwaytype is very unbalanced (e.g. the “biosynthesis” classcontains almost twice the number of paths than other

Table 5 Statistics on conservation scores for paths of length 2 inthe RMS-H2 network

ScoreRea ScorePageRank ScoreProt

All enumeratedpaths (n = 72173)

Min score 0.04 3.32e−6 4.39e−4Average score 0.61 7.69e−5 25.17

Max score 17.58 1.20e−3 3913.24

Paths in knownpathways (n = 3001)

Min score 0.04 8.63e−6 7.81e−4Average score 1.07 1.55e−4 118.57

Max score 17.58 1.20e−3 3913.24


Fig. 5 Boxplots of conservation scores for enumerated and known metabolic paths. For paths of length 2 (two edges and three nodes) in theRMS-H2 network, distributions of the three conservation scores (i.e. scoreRea, scoreProt and scorePageRank) are presented in all possible paths fromthe RMS network (identified as “All paths” in the figure) versus paths solely included in known metabolic pathways (“Known metabolic pathways”).The latter present significant higher scores (p-value < 2e−16 using Tukey’s HSD tests)

types), classes were virtually balanced using resamplingfunction of Weka. We successfully obtained rules thatcorrectly classify RMS paths in pathway types with anaccuracy greater than 89 % (see Additional file 6).

ConclusionsWe present here a novel metabolic network repre-sentation where nodes are chemical transformationsdepicted by reaction molecular signatures. This datamodel is particularly useful for finding conserved chemi-cal transformation modules in metabolic pathways as theycorrespond to paths in the RMS network. An impor-tant number of modules was detected and could beintegrated in metabolic databases, like KEGG [16] orMetaCyc [20], to help biologists looking for similar path-ways. Furthermore, new metrics (i.e. scoreRea, scoreProtand scorePageRank) were introduced to evaluate moduleconservation according to different biological meanings.We show that knownmetabolic paths present higher scorevalues than random ones and that the scores, used con-jointly, may predict module pathway types. In terms ofimprovement of the graph reduction method, it may beof interest to dynamically adapt the precision of the reac-tion signatures when merging reaction nodes to take intoaccount the local graph topology. This could be achievedtaking inspiration from the method proposed by Xuet al. [38] in which the maximum entropy principle andtheMarkov chain model-reduction problem were applied.Finally, it should be highlighted that our method can beeasily adapted to other types of reaction classificationsbased on chemical transformations.Although its construction is based on an initial reac-

tion network, the RMS network offers new insightsinto metabolism as it could capture relevant metaboliccontexts even without precise definition of initial reaction

sets or metabolite structures. Indeed, more than twothousand reactions lacking a metabolic pathway wereintegrated in the RMS network and now share com-mon contexts with reactions from known pathways. Fur-thermore, considering that many orphan enzymes havenetwork neighbours that are orphans themselves [2],computational tools [39, 40] have difficulties to findcandidate genes for these missing enzymes by definingcorrect genomic contexts (e.g. chromosomal clusters, co-occurrence profiles) that include candidate proteins andknown enzymes. As a perspective, one of the possibleimprovements of thesemethods could be the use of a RMSnetwork instead of a reaction network as it may be easierto find proper genomic contexts using relaxed notions ofmetabolic context. This enhancement may also be appliedin the discovery of gene clusters corresponding to newmetabolic pathways.

Additional files

Additional file 1: Reaction molecular signature classification ofreactions. (XLSX 410 kb)

Additional file 2: Comparison of RMS and enzyme commissionreaction partitions. (PDF 414 kb)

Additional file 3: List of conserved chemical transformationmodules.They correspond to RMS paths present in known metabolic pathways witha PCI (Pathway Conservation Index) ≥2. (XLSX 76 kb)

Additional file 4: Boxplots of conservation scores for enumeratedand knownmetabolic paths of length 2 in the RMS-H1 network.(PDF 306 kb)

Additional file 5: Statistical analysis of path score distributionsaccording to their pathway type. Kruskal-Wallis and Tukey HSD statisticaltest results comparing scoreRea, scoreProt and scorePageRank distributionsfor paths in RMS-H1 and H2 networks belonging to at least one knownmetabolic pathway and depending on their pathway type. (PDF 317 kb)

Additional file 6: Metabolic pathway type prediction rules generatedby NNge algorithm. NNge model and cross-validation results for pathwaytype prediction rules. (PDF 374 kb)

http://dx.doi.org/10.1186/s12859-015-0809-4

http://dx.doi.org/10.1186/s12859-015-0809-4

http://dx.doi.org/10.1186/s12859-015-0809-4

http://dx.doi.org/10.1186/s12859-015-0809-4

http://dx.doi.org/10.1186/s12859-015-0809-4

http://dx.doi.org/10.1186/s12859-015-0809-4


Competing interestsThe authors declare that they have no competing interests.

Authors’ contributionsMS and DV conceived the method. MS designed the method and performedthe analysis. CM and DV supervised the work. MS and DV wrote themanuscript.CM reviewed the manuscript. All authors read and approved the manuscript.

AcknowledgementsWe would like to thank Anne Zaparucha and Carine Vergne-Vaxelaire for theirvaluable advice in chemistry, and, also, Karine Bastard and Mark Stam for theirhelpful suggestions on the manuscript.

Author details1Direction des Sciences du Vivant, Commissariat à l’Energie Atomique et auxEnergies Alternatives (CEA), Institut de Génomique, Genoscope, Laboratoired’Analyses Bioinformatiques pour la Génomique et le Métabolisme, 2 rueGaston Crémieux, 91057 Evry, France. 2CNRS-UMR8030, 2 rue GastonCrémieux, 91057 Evry, France. 3UEVE, Université d’Evry Val d’Essonne,Boulevard François Mitterrand, 91057 Evry, France.

Received: 1 July 2015 Accepted: 29 October 2015

References1. Lacroix V, Cottret L, Thébault P, Sagot MF. An introduction to metabolic

networks and their structural analysis. IEEE/ACM Trans ComputationalBiology and Bioinformatics. 2008;5(4):594–617.

2. Sorokina M, Stam M, Médigue C, Lespinet O, Vallenet D. Profiling theorphan enzymes. Biol Direct. 2014;9:10.

3. Jensen RA. Enzyme recruitment in evolution of new function. Ann RevMicrobiol. 1976;30:409–25.

4. Ycas M. On earlier states of the biochemical system. J Theor Biol.1974;44(1):145–60.

5. Horowitz NH. On the Evolution of Biochemical Syntheses. Proc Nat AcadSci USA. 1945;31(6):153–7.

6. Schmidt S, Sunyaev S, Bork P, Dandekar T. Metabolites: a helping handfor pathway evolution? Trends Biochem Sci. 2003;28(6):336–41.

7. Notebaart RA, Szappanos B, Kintses B, Pal F, Gyorkei A, Bogos B, et al.Network-level architecture and the evolutionary potential ofunderground metabolism. Proc Nat Acad Sci USA. 2014;111(32):11762–7.

8. Dandekar T, Schuster S, Snel B, Huynen M, Bork P. Pathway alignment:application to the comparative analysis of glycolytic enzymes. BiochemicJ. 1999;343:115–24.

9. Tohsato Y, Matsuda H, Hashimoto A. A multiple alignment algorithm formetabolic pathway analysis using enzyme hierarchy. In: ProceedingsInternational Conference on Intelligent Systems for Molecular Biology;2000. p. 376–83. http://europepmc.org/abstract/med/10977098.

10. Pinter RY, Rokhlenko O, Yeger-Lotem E, Ziv-Ukelson M. Alignment ofmetabolic pathways. Bioinformatics. 2005;21(16):3401–8.

11. Wernicke S, Rasche F. Simple and fast alignment of metabolic pathwaysby exploiting local diversity. Bioinformatics. 2007;23(15):1978–85.

12. Ay F, Kellis M, Kahveci T. Submap: aligning metabolic pathways withsubnetwork mappings. J Comput Biol. 2011;18(3):219–35.

13. Tohsato Y, Nishimura Y. Reaction similarities focusing substructurechanges of chemical compounds and metabolic pathway alignments.IPSJ Trans Bioinformatics. 2009;2:15–24.

14. Lacroix V, Fernandes CG, Sagot MF. Motif search in graphs: Applicationto metabolic networks. In: IEEE/ACM Transactions on ComputationalBiology and Bioinformatics; 2006. p. 360–8. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4015378.

15. Muto A, Kotera M, Tokimatsu T, Nakagawa Z, Goto S, Kanehisa M.Modular architecture of metabolic pathways revealed by conservedsequences of reactions. J Chem Inform Model. 2013;53(3):613–22.

16. Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M.Data, information, knowledge and principle: back to metabolism in kegg.Nucleic Acids Res. 2014;42(D1):199–205.

17. Kotera M, Okuno Y, Hattori M, Goto S, Kanehisa M. Computationalassignment of the ec numbers for genomic-scale analysis of enzymaticreactions. J Am Chem Soc. 2004;126(50):16487–98.

18. Barba M, Dutoit R, Legrain C, Labedan B. Identifying reaction modules inmetabolic pathways: bioinformatic deduction and experimentalvalidation of a new putative route in purine catabolism. BMC Syst Biol.2013;7:99.

19. Carbonell P, Planson AG, Fichera D, Faulon JL. A retrosynthetic biologyapproach to metabolic pathway design for therapeutic production. BMCSyst Biol. 2011;5(1):122.

20. Caspi R, Altman T, Billington R, Dreher K, Foerster H, Fulcher CA, et al.The MetaCyc database of metabolic pathways and enzymes and theBioCyc collection of Pathway/Genome Databases. Nucleic Acids Res.2014;42(D1) http://nar.oxfordjournals.org/content/42/D1/D459.short.

21. ChemAxon. JChem Base was used for structure searching and chemicaldatabase access and management. 2012. http://www.chemaxon.com.

22. Carbonell P, Carlsson L, Faulon JL. Stereo signature molecular descriptor.J Chem Inform Model. 2013;53(4):887–97.

23. Weininger D. SMILES, a chemical language and information system. 1.Introduction to methodology and encoding rules. J Chem Inform Model.1988;28(1):31–6.

24. Diaz-Gonzalez J. FuzzyWuzzy. https://github.com/seatgeek/fuzzywuzzy2015.

25. Jr Ward JH. Hierarchical grouping to optimize an objective function. J AmStat Assoc. 1963;58(301):236–44.

26. Page L, Brin S, Motwani R, Winograd T. The PageRank Citation Ranking:Bringing Order to the Web. Technical Report. Stanford InfoLab. 1999.http://ilpubs.stanford.edu:8090/422/.

27. Team TJFD. JUNG— the Java Universal Network/Graph Framework.http://jung.sourceforge.net/ 2013.

28. UniProt Consortium. UniProt: a hub for protein information. Nucleic AcidsRes. 2015;43:D204–D212. http://nar.oxfordjournals.org/content/43/D1/D204.

29. Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, et al.Pfam: the protein families database. Nucl Acids Res. 2014;42:D222–30.

30. Hogie L. Grph:The high performance graph library for Java. 2013. http://www.i3s.unice.fr/~hogie/grph/.

31. Bairoch A. The ENZYME data bank. Nucleic Acids Res. 1994;22(17):3626–7.32. Nath N, Mitchell JBO. Is EC class predictable from reaction mechanism?

BMC Bioinformatics. 2012;13(1):60.33. Rahman SA, Cuesta SM, Furnham N, Holliday GL, Thornton JM.

EC-BLAST: a tool to automatically search and compare enzyme reactions.Nat Methods. 2014;11(2):171–4.

34. Latino DARS, Zhang QY, Aires-de-Sousa JA. Genome-scale classificationof metabolic reactions and assignment of EC numbers withself-organizing maps. Bioinformatics. 2008;24(19):2236–44.

35. Roy S. Nearest Neighbor With Generalization. Christchurch, New Zealand.2002. http://weka.sourceforge.net/doc.packages/NNge/weka/classifiers/rules/NNge.html.

36. Martin B. Instance-based learning: Nearest neighbor with generalization.1995.

37. Hall M, Frank E, Holmes G, Pfahringer B, Reutemann P, Witten IH. TheWEKA Data Mining Software: An Update; SIGKDD Explorations. 2009.11(1). Accessed 2015-04-28.

38. Xu Y, Salapaka SM, Beck CL. On reduction of graphs and markov chainmodels. In: Decision and Control and European Control Conference(CDC-ECC), 2011 50th IEEE Conference On; 2011. p. 2317–322.http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6160882&tag=1.

39. Yamada T, Waller AS, Raes J, Zelezniak A, Perchat N, Perret A, et al.Prediction and identification of sequences coding for orphan enzymesusing genomic and metagenomic neighbours. Mol Syst Biol. 2012;8:581.

40. Smith AAT, Belda E, Viari A, Medigue C, Vallenet D. The CanOE strategy:Integrating genomic and metabolic contexts across multiple prokaryotegenomes to find candidate genes for orphan enzymes. PLoS ComputBiol. 2012;8(5) http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1002540.

http://europepmc.org/abstract/med/10977098

http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4015378

http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4015378

http://nar.oxfordjournals.org/content/42/D1/D459.short

http://www.chemaxon.com

https://github.com/seatgeek/fuzzywuzzy

http://jung.sourceforge.net/

http://nar.oxfordjournals.org/content/43/D1/D204

http://nar.oxfordjournals.org/content/43/D1/D204

http://www.i3s.unice.fr/~hogie/grph/

http://www.i3s.unice.fr/~hogie/grph/

http://weka.sourceforge.net/doc.packages/NNge/weka/classifiers/rules/NNge.html

http://weka.sourceforge.net/doc.packages/NNge/weka/classifiers/rules/NNge.html

http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6160882&tag=1

http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1002540

http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1002540

122

Conclusion du Chapitre II Une nouvelle représentation du métabolisme a été présentée dans cet article. Ce modèle de

données basé sur un réseau métabolique, où les nœuds sont des types de transformations

chimiques, est particulièrement utile pour retrouver des modules conservés. Ces modules de

transformations chimiques peuvent aider les biologistes dans la recherche de nouvelles voies

métaboliques similaires ou non à des voies métaboliques connues.

En considérant que beaucoup d’activités orphelines de séquences ont leurs voisins métaboliques

qui sont aussi orphelins [8], des outils comme CanOE [225] ont des difficultés pour trouver des

gènes candidats pour ces activités en définissant des contextes génomiques corrects qui incluent

des enzymes connues et des protéine candidates. La suite du travail de cette thèse était donc

l’utilisation du réseau de RMS, au lieu d’un réseau de réactions, pour faciliter la recherche de

contextes génomiques appropriés. Ce type d’approche peut aussi être appliqué pour la découverte

de groupes de gènes correspondants à de nouvelles voies métaboliques. C’est ce type d’approches

qui est présenté dans le chapitre suivant.

124

Chapitre III Association de contextes génomiques avec des modules conservés de transformations chimiques

Dans un grand nombre de cas, et particulièrement dans les organismes procaryotes, les gènes co-

localisés sur les chromosomes (dans des structures opéroniques notamment) sont souvent

impliqués dans une même fonction cellulaire. Dans un premier temps, une méthode simple de

prédiction de blocs de gènes proches sur les chromosomes (directons) a été développée et utilisée

sur l’ensemble de génomes disponibles au sein de la plateforme MicroScope [169].

Les directons, ainsi prédits, ont ensuite été placés dans un contexte métabolique représenté sous

la forme d’un réseau de signatures moléculaires de réactions (RMS). Pour cela, a été utilisée

l’association Pfam-RMS présentée dans le chapitre II de cette thèse, ce qui a permis d’associer les

gènes des directons contenant au moins un Pfam à des RMS du réseau. Ces associations

représentent des transformations chimiques potentielles que peuvent catalyser les protéines

codées par les gènes de l’opéron. Des sous-graphes formés des RMS ainsi sélectionnées sont

ensuite extraits, et leur nœuds colorés en fonction des gènes associés. Les chemins ayant un

maximum de couleurs (dans lesquels le plus grand nombre des gènes du directon sont impliqués)

et les meilleurs scores de conservation sont sélectionnés comme candidats pour l’annotation du

directon.

La troisième partie de ce chapitre est consacrée à une étude de cas. Il s’agit de replacer dans un

contexte génomique et métabolique une famille d’enzymes, les Baeyer-Villiger monooxygénases.

Ce sont des enzymes capables d’insérer un atome d’oxygène dans une liaison carbone-carbone,

transformation chimique très utile en chimie organique et ayant des applications industrielles

125

pour la production de molécules d’arômes. En effet, cette réaction peut aussi être réalisée par

synthèse chimique, mais nécessite l’utilisation de réactifs potentiellement toxiques. Ces enzymes

présentent de nombreux avantages techniques par rapport à la synthèse chimique (chimio-, régio-

, stéréospécificité), et leur utilisation en biocatalyse répond ainsi aux exigences de la chimie verte

et durable. L’approche utilisée ici, combinant un contexte génomique avec un contexte

métabolique, a permis de mettre en évidence un certain nombre de modules de transformations

chimiques conservés contenant une réaction d’oxydation de type Baeyer-Villiger.

126

I. Prédiction des directons dans les génomes bactériens

Un opéron est une unité d’ADN fonctionnelle regroupant des gènes qui opèrent sous le signal

d’un même promoteur. Ces gènes sont co-transcrits et traduits à partir d’un ARN messager

polycistronique et concourent souvent à la réalisation d’une même fonction cellulaire. Les

opérons sont principalement connus chez les bactéries et les archées.

Le terme de directon réfère à un ensemble maximal de gènes adjacents localisés sur le même brin

d’ADN. Les directons sont relativement faciles à calculer et sont souvent de bons candidats pour

la prédiction d’opérons. Nous avons écrit une méthode de prédiction de directons adaptée à

l’analyse de génomes présents dans la plateforme MicroScope. Cette méthode sélectionne des

groupes de CDS (CoDing Sequences) sur le même brin suivant plusieurs critères (Figure 26):

- les CDS sont prédites par deux méthodes différentes (AMIGene [260] et Prodigal [261]) ;

- il y a maximum 100 nucléotides entre deux CDS

- il n’y a aucune CDS prédite simultanément par les deux méthodes sur le brin opposé

Figure 26. Critères de définition d’un directon : le nombre maximal de nucléotides entre deux CDS est de 100 ; les CDS chevauchants sont pris en compte ; il ne doit pas y avoir de CDS sur le brin opposé de l’ADN.

Les CDS chevauchantes (distance négative entre deux CDS) sont considérées comme faisant

partie d’un seul directon. En effet, dans les organismes ayant une structure chromosomique

127

compacte (comme les procaryotes et les virus), le chevauchement des gènes est très commun et

n’empêche pas leur transcription en ARNm polycistronique et leur traduction.

Les directons ont été prédits pour tous les génomes microbiens contenus dans la plateforme

MicroScope [169]. Des directons ont été prédits dans 5709 séquences génomiques, avec en

moyennes 644 directons par génome et 3,2 gènes par directon.

Le plus grand directon en nombre de gènes est de 52. Ce directon est retrouvé chez Kineococcus

radiotolerans, une bactérie polyextrémophile. Il pourrait ici s’agir d’un cas d’une surprédiction liée à

la nature de cette bactérie, car celle-ci présente un génome exceptionnellement compact avec des

puissants mécanismes de réparation de l’ADN qui participent à sa résistance à la radioactivité, la

dessiccation et à de nombreuses substances toxiques.

L’organisme qui a les directons les plus longs (8.75 gènes en moyenne) est Borrelia burgdorferi, une

bactérie ayant comme vecteur les tiques et responsable de la maladie de Lyme chez l’homme

[262]. Cette bactérie possède, en effet, beaucoup de grands opérons (allant jusqu’à 25 gènes) qui

sont impliqués, principalement, dans la motilité, la chémotaxie (mouvements en réponse à un

stimulus chimique) et l’infection.

Cette méthode, très simple, a été validée en comparant les directons prédits avec les opérons de la

base de données de RegulonDB qui sert de référence pour Escherichia coli K-12 MG1655 [178].

Dans RegulonDB les gènes sont partitionnés en 811 opérons, alors que notre méthode a détecté

973 directons. Globalement, nos prédictions sont assez cohérentes, notre méthode ayant

tendance à prédire des directons plus longs que les opérons dans RegulonDB. Cette comparaison

a été réalisée en étudiant l’appartenance simultanée ou non à un directon puis à un opéron des

gènes de toutes les paires de gènes possibles du génome. Ceci a permis de calculer trois

métriques :

- l’indice de Rand, qui est le rapport entre toutes les paires en accord (qui sont ensemble

dans un même directon d’une part et dans un même opéron d’autre part ou, qui sont

dans les deux cas dans des groupes différents) et toutes les paires possibles. Il s’agit d’une

mesure de comparaison de partitions, considérant qu’ici les gènes sont partitionnés en

opérons ou en directons. L’indice de Rand est un nombre entre 0 et 1, 0 étant pour deux

partitions complètement différentes, et 1 pour deux partitions identiques.

128

- la sensibilité : le rapport entre le nombre de paires où les deux gènes sont dans le même

opéron et le même directon et le nombre de toutes les paires dans un même opéron

- la spécificité : le rapport entre le nombre de paires où les deux gènes sont dans le même

opéron et le même directon et le nombre de toutes les paires dans un même directon

Dans la comparaison des partitions des gènes en directons par notre méthode et en opérons dans

la base de données RegulonDB, l’indice de Rand est de 0.9988, ce qui signifie que les deux

partitions sont très proches. Il faut cependant nuancer ce chiffre très haut, car le nombre total de

gènes à partitionner est assez élevé, et le nombre de paires en accord négatif (dans des groupes

différents dans les deux partitions) est d’autant plus grand, ce qui biaise ce calcul. Les mesures de

sensibilité et de spécificité permettent de nuancer cet index, car ne tiennent pas compte de toutes

les paires en accord négatif. La sensibilité de similitude entre les directons et les opérons est de

0.86 et la spécificité de 0.73. Ces chiffres, bien qu’assez élevés, ce qui démontre bien la similarité

des prédictions, reflètent aussi la légère différence du nombre et de taille des directons et des

opérons.

Des comparaisons similaires ont été réalisées en comparant les directons prédits chez E. coli K-12

et Acinetobacter baylyi ADP1 avec les prédictions des méthodes DOOR [263] et ProOpDB [264].

Notre méthode permet de détecter des blocs génomiques comparables en taille et en nombre à

ceux des deux autres ressources. De plus, nous pouvons calculer les directons rapidement sur

tous les génomes à notre disposition dans MicroScope. Il a donc été décidé d’utiliser les directons

prédits de cette façon pour les analyses combinant le contexte génomique au contexte

métabolique représenté, pour sa part, par les réseaux de signatures moléculaires de réactions.

129

II. Projection des directons sur le réseau de signatures moléculaires de réactions

Des métriques d’association entre les familles de protéines Pfam, correspondant à des domaines

de protéines, et les RMS ont été établies selon la méthode décrite dans le chapitre II de cette

thèse. Il s’agit notamment d’un score de sélectivité (équivalent à un F-score) basé sur un calcul de

la sensibilité et de la spécificité d’association, qui représentent la fraction de protéines associées, à

la fois, à un domaine Pfam donné et à une RMS donnée. Le nombre total de protéines associées

constitue également une métrique intéressante pour donner une indication quantitative à ce score.

Ces métriques permettent ainsi d’évaluer la probabilité qu’une protéine soit impliquée dans la

catalyse de tel ou tel type de transformation chimique.

Pour chacun des gènes des directons prédits selon la méthode décrite dans la section précédente,

les domaines Pfam des protéines correspondantes ont été déterminés à l’aide du logiciel

InterproScan [145]. Des RMS ont ensuite été associées à ces gènes via les domaines Pfam

calculés. Une limite de cette méthode est de ne pas pouvoir associer de RMS à des gènes n’ayant

pas de résultat Pfam. De plus, certaines RMS (environ 35%) ne peuvent pas être associées à des

gènes car elles n’ont pas de protéines connues pour catalyser la transformation ou les protéines

connues n’ont pas de domaines Pfam.

Pour chaque directon, les associations gènes-RMS sont ensuite projetées sur le réseau de RMS.

Les nœuds, correspondant aux RMS présentes dans le directon, sont ainsi sélectionnés et

« coloriés » avec une couleur par gène. A partir de ces nœuds et de toutes les arêtes du réseau

initial, un sous-réseau est extrait. Les nœuds isolés sont supprimés et s’il existe plusieurs sous-

graphes connexes, ils sont considérés comme des entités distinctes.

Pour chaque sous-graphe, tous les chemins possibles sont énumérés, et ne sont sélectionnés que

les chemins passant par toutes les couleurs ou un maximum de couleurs – c’est à dire par des

RMS qui sont catalysées par le produits de tous (ou un maximum) de gènes du directon. Ce

processus de projection de directons sur le réseau de RMS est décrit en Figure 27.

130

Figure 27. Processus de projection des directons sur le réseau de RMS.

Les nœuds des RMS associées aux gènes du directon sont sélectionnés dans le réseau. Ces nœuds, ainsi que toutes les arêtes qui les relient, sont ensuite extraits. Les nœuds isolés sont supprimés et les composantes connexes séparées (une seule composante connexe dans l’exemple présenté ici, entourée en rouge). Dans le sous-graphe correspondant à chaque composante connexe les nœuds sont colorés en fonction du (ou des) gène(s) qui leur est (sont) associé(s). Tous les chemins possibles dans ce sous-graphe sont ensuite calculés, et sont sélectionnés ceux qui passent par toutes (ou un maximum) de couleurs et ont les meilleurs scores (scoreRea, scoreProt et scoreTopo).

131

Vu que la taille de ces sous-réseaux est relativement faible (une dizaine de nœuds en général), il

était plus simple, d’un point de vue computationnel, d’énumérer tous les chemins possibles et

ensuite calculer le nombre de couleurs représentées dans les chemins que d’utiliser des

algorithmes complexes de recherche de chemins colorés optimaux (ce qui peut aussi être assimilé

à la recherche de motifs, comme le fait le programme MOTUS [246], par exemple).

Un certain nombre de chemins de transformations chimiques candidats pour les directons est

ainsi obtenu. La sélection des meilleurs chemins repose ensuite sur la comparaison de leurs scores

(scoreRea, scoreProt et scoreTopo (aussi appellé scorePageRank dans l’article [30]), cf. chapitre II). Il n’est

pas forcément nécessaire que tous les scores d’un chemin donné soient plus élevés que ceux des

autres chemins, ainsi, par exemple, un chemin avec un scoreTopo ou un scoreRea particulièrement

élevé sera préféré à un chemin où les trois scores sont plutôt moyens. En effet, on préfèrera un

chemin très conservé selon un seul critère (conservation chimique, enzymatique ou topologique)

à un chemin moyennement conservé pour l’ensemble des score. Il faut aussi remarquer que,

parmi les chemins candidats, le scoreProt sera toujours non nul alors qu’il l’est pour environ 30%

des chemins dans le réseau global de RMS. Ceci vient du fait que les gaps (i.e. RMS non associées

à un gène du directon) ne sont pas autorisés dans l’extraction des sous-graphes lors de la

projection du directon sur le réseau. Ainsi, toutes les RMS des chemins sélectionnés sont

associées à au moins une famille Pfam et à au moins un gène du directon.

Pour la prise en compte des RMS sans famille Pfam associée, ce qui est incontestablement

intéressant pour l’annotation de protéines à fonction inconnue ou non-associées à une famille

Pfam, un paramètre de gap à 1 permettrait d’intégrer les voisins directs des nœuds RMS

sélectionnées lors de la recherche de sous-graphes. Néanmoins, les réseaux de RMS,

indépendamment de la hauteur des signatures de réaction, sont des graphes assez compacts où le

nombre moyen de voisins d’un nœud (i.e. le degré) est de 6,4. L’inclusion de gaps rend donc la

taille des sous-graphes extraits assez importante. La sélection des chemins candidats est alors

beaucoup plus compliquée et requiert, cette fois-ci, des stratégies d’exploration plus performantes

qui n’ont pas été développées au cours de cette thèse mais qu’il serait intéressant d’élaborer par la

suite.

De cette façon, pour chaque directon est obtenu un certain nombre de chemins candidats

associés à des scores. La sélection du chemin le plus plausible, dans le cas où plusieurs chemins

différents ont des scores élevés, nécessite pour l’instant l’intervention d’un expert ayant la

132

capacité d’évaluer les correspondances entre les protéines et les types de transformation

chimique, ainsi que la cohérence biochimique de l’enchainement des transformations. Ceci

permet d’annoter les gènes d’un directon avec une (ou des) fonctions biochimiques, placer le

directon dans un contexte métabolique, ainsi que de découvrir de nouvelles voies métaboliques.

Dans la section suivante est présentée une étude de cas concret de projection d’un ensemble de

directons sur le réseau de RMS.

133

III. Etude de cas : identification de contextes génomiques et métaboliques pour les enzymes Baeyer-Villiger Monooxygénases

L’oxydation de type Baeyer-Villiger (BV) est une transformation chimique transformant des

cétones linéaires ou cycliques en esters ou lactones correspondants en introduisant un atome

d’oxygène dans un lien carbone-carbone [265]. Cette réaction peut être réalisée par des enzymes

appelées Bayer-Villiger Monooxygénases (BVMOs). Ce sont des flavoenzymes, c’est à dire des

oxydoréductases qui nécessitent un dinucléotide flavine-adénine (FAD) comme groupement

prosthétique pour fonctionner. Elles sont capables de catalyser des réactions d’oxydation sur des

cétones linéaires, cycliques et aromatiques. Pendant la réaction d’oxydation, un atome d’oxygène

est incorporé entre deux carbones connectés, alors que l’autre atome d’oxygène est capturé dans

une molécule d’eau avec les atomes d’hydrogène provenant du cofacteur NAD(P)H. Les BVMOs

sont des protéines solubles dans un milieu aqueux et ne nécessitent pas d’autres protéines pour

fonctionner. Il existe au moins deux classes de BVMOs : les BVMOs de type I qui sont

constituées d’une seule chaine polypeptidique et sont dépendantes de FAD et de NADPH pour

catalyser leur activité, et les BVMOs de type II, très peu étudiées, composées de deux sous-unités

différentes et utilisant le FMN comme cofacteur flavinique et le NADH comme donneur

d’électron. Dans cette étude de cas, seules les BVMOs de type I sont analysées. Dans la figure

Figure 28 est représentée la structure générale d’une BVMO de type I (code Protein Data Bank

3GWD) avec les deux cofacteurs montrés avec la représentation en bâtons.

134

III.1 Comment encoder une réaction de monooxygénation de type BV ?

Dans la base de données MetaCyc, 26 réactions ont pu être identifiées comme des réactions de

type BV. Ces 26 réactions sont signées par trois RMS de hauteur 1 : RMS-S.H1.724 (regroupant

trois réactions), RMS-S.H1.969 (regroupant onze réactions) et RMS-S.H1.1330 (regroupant 12

réactions) Ces trois RMS sont représentées en Figure 29 et rassemblent des réactions dont les

substrats peuvent être cycliques ou linéaires. On remarque ainsi que la fonction cétone,

indispensable à la réaction BV, est bien conservée dans les trois signatures. Celles-ci se

différentient par le degré de substitution de l’atome de carbone opposé (secondaire, tertiaire ou

quaternaire).

Figure 28. Structure d’une Baeyer-Villiger monooxygénase (code PDB 3GWD) avec les deux cofacteurs montrés avec la représentation en bâtons.

135

Figure 29. Signatures moléculaires de réactions et leur représentation graphiques des réactions de monooxygénation de type Baeyer-Villiger.

136

La sous-sous-classe des EC numbers correspondant à ces réactions est EC 1.14.13. Cependant,

deux des réactions n’ont aucun EC number associé et six sont annotées avec un EC number

partiel. Les autres réactions sont associées à sept EC numbers différents, dont dix sont associées

à EC 1.14.13.105. Cependant, pour les réactions annotées avec un EC number complet, cette

annotation diverge à certains moments avec la classification par RMS, basée sur la transformation

chimique opérée par chaque réaction. Ces divergences de classification sont présentées dans la

Table 2. Très peu de protéines sont disponibles dans MetaCyc pour ces réactions.

Table 2. Comparaison de la classification EC et RMS pour les réactions de type Baeyer-Villiger issues de MetaCyc. Les identifiants UniProt sont indiqués lorsqu’il y a une protéine connue associée à la réaction. Un décalage est observé entre les deux classifications.

Identifiant de réaction MetaCyc EC Number RMS Identifiants UniProt

CYCLOHEXANONE-MONOOXYGENASE-RXN

1.14.13.22 RMS-S.H1.1330 Q9R2F5

CYCLOPENTANONE-MONOOXYGENASE-RXN

1.14.13.16 RMS-S.H1.1330

RXN-11537 1.14.13 RMS-S.H1.1330 Q940V4 RXN-11538 1.14.13 RMS-S.H1.1330 Q940V4 RXN-12654 1.14.13.170 RMS-S.H1.1330 E3VWK3 RXN-720 1.14.13 RMS-S.H1.1330 Q50LE0,Q940V4 RXN-9395 1.14.13.105 RMS-S.H1.1330 RXN-9396 1.14.13.105 RMS-S.H1.1330 RXN-9431 1.14.13.105 RMS-S.H1.1330 RXN-9435 1.14.13.105 RMS-S.H1.1330 RXN-9487 NULL RMS-S.H1.1330 Q6UEF3 RXN-9492 NULL RMS-S.H1.1330 Q6UEF3 R543-RXN 1.14.13.162 RMS-S.H1.724 RXN-12713 1.14.13.54 RMS-S.H1.724 RXN-13043 1.14.13 RMS-S.H1.724 1.14.13.54-RXN 1.14.13.54 RMS-S.H1.969 R422-RXN 1.14.13 RMS-S.H1.969 R423-RXN 1.14.13 RMS-S.H1.969 RXN-12661 1.14.13.171 RMS-S.H1.969 Q82IY8 RXN-7817 1.14.13.54 RMS-S.H1.969 RXN-9390 1.14.13.105 RMS-S.H1.969 RXN-9391 1.14.13.105 RMS-S.H1.969 RXN-9420 1.14.13.105 RMS-S.H1.969 RXN-9440 1.14.13.105 RMS-S.H1.969 RXN-9441 1.14.13.105 RMS-S.H1.969 RXN-9442 1.14.13.105 RMS-S.H1.969

III.2 Identification des contextes génomiques des BVMOs

Afin d’identifier le contexte génomique des BVMOs dans les génomes à notre disposition dans la

plateforme MicroScope [169], il faut tout d’abord y repérer les gènes codant ces enzymes. Deux

motifs complémentaires d’acides aminés ont été utilisés pour détecter les BVMOs : le motif

137

« FxGxxxHxxxW » – spécifique des monooxygénases en général et le motif « GxWxxNxYPG »

– spécifique des BVMOs [265]. Un motif indique la nature et la position relative des acides

aminés importants dans la séquence d’une protéine pour le maintien d’une fonction. Par exemple,

dans le motif spécifique des BVMOs, à un endroit de la séquence, il doit nécessairement y avoir

une glycine, suivie par n’importe quel acide aminé, puis un tryptophane, puis deux acides aminés

quelconques, une asparagine, encore n’importe quel acide aminé, puis une tyrosine suivie d’une

proline et d’une glycine. La présence de ces deux motifs dans une séquence protéique est donc

nécessaire pour considérer la protéine comme étant une BVMO.

Nous avons donc recherché, parmi tous les génomes microbiens disponibles au sein de la

plateforme MicroScope, des CDS qui codent des protéines ayant ces deux motifs à l’aide du

programme ps_scan (PROSITE scanning program). 1234 protéines ont ainsi pu être récupérées,

dans 506 génomes différents. Il y a donc entre deux et trois BVMOs en moyenne dans les

organismes possédant ce type d’activité enzymatique.

Puisque c’est le contexte génomique des BVMOs qui nous intéresse dans cette étude, seules les

BVMOs présentes dans un directon sont gardées. Parmi les 1234 BVMOs prédites, 969 sont dans

un des 814 directons appartenant à 468 génomes. Ces directons permettent ainsi de définir

plusieurs contextes génomiques pour les BVMOs qui serviront à ancrer, par la suite, des

contextes métaboliques.

Figure 30. Dendrogramme présentant le résultat du clustering hiérarchique des directons en fonction de leur contenu en RMS. Rouge - cluster 1, violet - cluster 2, jaune - cluster 3, vert – cluster 4 et bleu – cluster 5.

En suivant la méthode présentée dans le deuxième chapitre de ce manuscrit et rappelée en début

de ce chapitre, les protéines des directons contenant au moins une BVMO ont été associées à des

RMS en utilisant leur contenu en domaines Pfam [144]. Afin d’identifier les différences et les

138

ressemblances en termes de capacités métaboliques de ces directons, un clustering a été effectué.

Ainsi, un vecteur de présence/absence de RMS, parmi toutes les RMS qui ont pu être associées

aux directons, a été calculé pour chaque directon. Ces vecteurs ont ensuite été utilisés pour

effectuer une classification hiérarchique avec la méthode Ward en utilisant une distance

euclidienne entre les vecteurs (fonction hclust disponible dans la librairie « stats » du logiciel R).

Le dendrogramme résultant de cette classification est visible dans la Figure 30. Cinq groupes

(clusters) de directons ont pu être identifiés, colorés différemment sur cette figure. Les

statistiques de ces groupes de directons sont décrites dans la Table 3.

Table 3. Statistiques sur les clusters de directons contenant au moins une BVMO.

Cluster Nombre de directons

Nombre total de RMS

Nombre moyen de protéines par

directon

Nombre de RMS communes à tous les

directons 1 251 382 3,4 0 2 308 330 4,1 32 3 125 148 4,2 10 4 69 271 4,7 86 5 59 36 2,8 5

Le cluster 1 est un des clusters les plus grands, mais aussi le plus diversifié en nombre de RMS

(en rouge sur la Figure 30). Il n’est donc pas surprenant qu’on ne retrouve pas de RMS

communes à tous les directons dans ce cluster. Le cluster 1 sera donc exclu des analyses

suivantes.

Les RMS partagées par tous les directons d’un cluster serviront de base pour étudier le contexte

métabolique des BVMOs.

III.3 Identification des contextes métaboliques des BVMOs

Dans MetaCyc, il y a onze voies métaboliques contenant au moins une réaction de type BVMO

(six voies de dégradation, quatre de biosynthèse et une sans type). A partir des réactions de ces

voies métaboliques, les 38 RMS correspondantes de hauteur 1 (dont les trois RMS des BVMOs),

ainsi que toutes les arêtes qui les relient, ont été extraites du réseau global de RMS. Le sous-

graphe obtenu est présenté en Figure 31. Les nœuds correspondant aux BVMOs sont colorés en

139

violet. Les arêtes, provenant de la connectivité originale entre les réactions des voies

métaboliques à partir desquelles le sous-graphe a été obtenu, sont coloriées en vert.

Figure 31. Sous-graphe issu du réseau de RMS de hauteur 1 correspondant aux voies métaboliques connues contenant au moins une réaction de type BV. Les trois nœuds en violet correspondent aux réactions de type BV. Les arêtes vertes représentent les connexions entre les nœuds telles que dans ces voies métaboliques.

L’analyse des clusters de directons s’effectue en deux étapes distinctes. Tout d’abord, les RMS,

partagées par tous les directons du cluster, sont projetées sur le sous-graphe des onze voies

métaboliques connues afin d’identifier si ces directons peuvent être ancrés dans un contexte

métabolique connu. Dans un second temps, ces RMS sont projetées sur le réseau global de RMS.

140

Un deuxième sous-graphe est ainsi extrait et comparé avec la projection sur les voies

métaboliques connues. Cette étape permet éventuellement d’identifier un contexte métabolique

nouveau pour les BVMOs, mais aussi de prolonger les voies métaboliques connues.

Cluster 2

La projection des 32 RMS communes à tous les directons du cluster 2 sur le sous-graphe des

voies métaboliques connues a permis de sélectionner 5 RMS, en plus des trois RMS

correspondant aux BVMOs. Le résultat de cette projection est visible sur la Figure 32a. Tous les

chemins possibles comprenant une BVMO dans ce nouveau sous-graphe passent par la RMS-

S.H1.2014 et se terminent forcément par une BVMO. Parmi tous les chemins correspondant à

ces critères, quatre ont été sélectionnés grâce aux scores scoreRea, scoreProt et scoreTopo. Ces

chemins sont décrits sur la Figure 32c.

Dans un deuxième temps, les 32 RMS partagées par les directons du cluster 2 ont été projetées

sur le réseau global de RMS de hauteur 1. Les trois RMS correspondant aux BVMOs ont aussi

été incluses. Tous ces nœuds et les arêtes qui les relient entre eux ont été extraits dans un

nouveau sous-graphe. Les nœuds isolés ont été supprimés. Un graphe de onze nœuds a ainsi été

obtenu, présenté sur la Figure 32b. On y retrouve les mêmes nœuds que dans la projection des

RMS sur le sous-graphe des voies métaboliques (Figure 32a), mais surtout trois nœuds

supplémentaires, dont deux peuvent prolonger d’une façon intéressante les chemins déjà

sélectionnés (Figure 32d).

La Figure 33 illustre un des chemins de RMS candidats avec les meilleurs scores. Dans cette

figure, au travers d’un exemple où l’enchainement de transformations chimiques est appliqué à

une molécule donnée, est soulevée une des difficultés liées à l’utilisation des RMS. En effet,

lorsqu’il y a plusieurs groupements chimiques sur la molécule susceptibles de subir la

transformation chimique décrite par la RMS, il est difficile pour un non-expert biochimiste et/ou

sans passer par l’expérimentation, de déterminer sur quelle partie de la molécule la transformation

va s’appliquer.

141

Figure 32. Analyse du cluster 2 de directons. (a) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 2 sur le sous-graphe des voies métaboliques (tel que représenté en Figure 33) ; (b) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 2 sur le réseau de RMS de hauteur 1 ; (c) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (a) ; (d) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (b).

142

Figure 33. Représentation graphique d’un des meilleurs chemins de RMS du cluster 2. Les RMS en rose correspondent à la transformation chimique de type BV. Cette figure montre la difficulté de déterminer l’endroit de la molécule où la transformation chimique doit s’appliquer, lorsqu’il y a plusieurs possibilités. Ici, trois molécules terminales peuvent être obtenues à partir d’une seule molécule de départ et via le même chemin de RMS.

143

Cluster 3

Dans le cluster 3, les directons ont 10 RMS en commun. Les deux étapes de projection ont été

appliquées à ces 10 RMS, et les résultats sont décrits en Figure 34. Il faut notamment remarquer

qu’un seul nœud a été sélectionné lors de la projection de ces RMS sur le réseau de voies

métaboliques connues (RMS-S.H1.590). Cette RMS est pointée par deux des trois RMS décrivant

une BVMO. La projection des 10 RMS communes à tous les directons de ce cluster sur le réseau

global de RMS de hauteur 1 confirme cette tendance. En effet, un sous-réseau de six nœuds a été

obtenu (Figure 34b), contenant des chemins qui prolongent le début de chemin trouvé

précédemment. Les scores de ces chemins sont relativement élevés (Figure 34d) et pourraient

donc être de très bons candidats pour la découverte d’un nouveau contexte métabolique pour les

BVMOs.

Le chemin de RMS avec les scores les plus élevés est illustré en Figure 35. Il s’agit d’un chemin

générique pouvant être appliqué à n’importe quelle molécule présentant les caractéristiques

nécessaires.

144

Figure 34. Analyse du cluster 3 de directons. (a) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 3 sur le sous-graphe des voies métaboliques (tel que représenté en Figure 33) ; (b) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 3 sur le réseau de RMS de hauteur 1 ; (c) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (a) ; (d) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (b).

Figure 35. Représentation graphique d’un des meilleurs chemins de RMS du cluster 3.

145

Cluster 4

Dans le cluster 4, plus petit en nombre de directons que les deux précédents clusters, les

directons partagent un total de 86 RMS communes. Les résultats des deux projections de ces

RMS sont décrits en Figure 36. Lors de la projection de ces RMS communes sur le réseau de

voies métaboliques connues, un sous-graphe connexe de 13 nœuds (dont deux RMS décrivant

une BVMO) a été extrait (Figure 36a). Les meilleurs chemins, contenant au moins une RMS

décrivant une BVMO, ont été sélectionnés et sont décrits dans la Figure 36b.

Le résultat de la projection des RMS communes à tous les directons du cluster 4 sur le réseau

global de RMS de hauteur 1 est montré en Figure 36c. Même s’il s’agit ici d’un graphe qui est

relativement grand par rapport aux autres projections, il apporte finalement assez peu pour le

contexte métabolique des réactions de type BV. Un certain nombre de chemins supplémentaires,

qui allongent les chemins précédemment sélectionnés a toutefois été identifié. Ces chemins sont

décrits dans la Figure 36d.

Figure 36 (début). Analyse du cluster 4 de directons. (a) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 4 sur le sous-graphe des voies métaboliques (tel que représenté en Figure 33) ; (b) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (a) ;

146

Figure 36 (fin). (c) Sous-graphe résultant de la projection des RMS communes à tous les directons du cluster 4 sur le réseau de RMS de hauteur 1 ; (d) Chemins candidats avec les scores les plus élevés et contenant une BV obtenus grâce à la projection (c).

147

Cluster 5

Dans le cluster 5, le plus petit des clusters avec seulement 59 directons, cinq RMS sont retrouvées

dans chaque directon. Il n’y a cependant aucune intersection entre ces cinq RMS et les RMS

présentes dans les voies métaboliques connues. La projection de ces RMS sur le réseau global de

RMS de hauteur 1 n’a pas non plus permis d’établir de liens avec les éléments conservés de ces

directons et les BVMOs. Les BVMOs putatives des directons de ce cluster n’ont donc pas pu être

mises dans un contexte métabolique.

L’approche présentée ici permet de remettre les BVMOs à la fois dans un contexte génomique et

dans un contexte métabolique. L’association des projections sur le réseau de voies métaboliques

connues puis sur le réseau de RMS global permet dans un premier temps d’ancrer les BVMOs

dans un contexte métabolique connu pour ensuite l’étendre dans un deuxième temps.

On a ainsi pu placer dans un contexte métabolique plus de 60% des BVMOs dont le contexte

génomique avait été précédemment identifié. La poursuite de cette étude nécessite une expertise

humaine et des expérimentations pour valider les chemins métaboliques prédits. Un criblage

enzymatique à haut débit des BVMOs permettrait d’identifier des métabolites candidats et d’aider

à choisir les chemins optimaux de transformations chimiques que les enzymes des directons, dans

lesquelles se trouvent les BVMOs, sont capables de catalyser.

Une des améliorations possibles, pouvant être apportées à cette étude de cas, est d’affiner le

clustering des directons, notamment en découpant le cluster 1 en 2 clusters, afin d’identifier des

RMS communes à tous les directons et identifier un contexte métabolique pour eux aussi.

L’association des protéines aux RMS, qui, pour l’instant, est effectuée au travers de la

composition des protéines en domaines Pfam [144] devra aussi être améliorée. En effet,

l’association Pfam-RMS est dans certains cas peu fiable, car, tout d’abord, certains domaines

Pfam ne sont pas directement liés à la fonction enzymatique, de plus, un type de réactions peut

être lié à beaucoup d’entrées Pfam, ou, inversement, un domaine Pfam peut être associé à

beaucoup de réactions dont les transformations (RMS) sont différentes. Ce double problème

provient principalement de la généricité de certaines familles Pfam. Une méthode alternative de

prédiction de RMS pour les protéines sera proposée dans les perspectives de ce travail.

149

Conclusions et perspectives

Conclusions

Le travail effectué au cours de cette thèse peut être séparé en deux axes principaux : une revue

étendue sur les activités enzymatiques orphelines de séquences et la définition d’une nouvelle

représentation du métabolisme pour la détection de modules de transformations chimiques.

Malgré une diminution importante du nombre d’activités enzymatiques orphelines ces dix

dernières années, le challenge qui leur est lié reste de taille : plus de 20% des activités

enzymatiques annotées avec un EC number complet n’ont aucune séquence qui leur est associée.

De plus, plus de 35% de réactions biochimiques catalysées par des enzymes sont aussi orphelines

de séquences. Bien que les nouvelles technologies de séquençage, combinées avec l’amélioration

constante des méthodes d’analyse de séquences, produisent une quantité exponentielle de

données génomiques, il n’y a pas eu d’augmentation du nombre de nouvelles activités

enzymatiques découvertes, contrairement à ce qui s’est passé dans les années 80 du siècle dernier

lors de la démocratisation des techniques de biologie moléculaire. Ce trou dans les connaissances

est évidemment problématique dans la compréhension globale du métabolisme.

La revue sur les activités enzymatiques orphelines présentée dans ce manuscrit a permis de mettre

à jour les différentes statistiques liées à ce phénomène, ainsi que de réintroduire le concept

d’enzymes orphelines locales. Les difficultés d’annotation fonctionnelle des enzymes, notamment

dans le cas des protéines multifonctionnelles et « moonlightning », ont été discutées car elles

peuvent cacher des activités enzymatiques orphelines. Finalement, les méthodes existantes

« d’adoption » des enzymes orphelines ont été présentées, et une méthode simple basée sur la

détection d’homologies lointaines entre les séquences a été proposée pour trouver des séquences

candidates pour les activités enzymatiques orphelines locales. En effet, l’utilisation plus

systématique d’outils de génomique comparative au travers des domaines du vivant (bactéries,

archées et eucaryotes) peut aider dans la résolution d’une partie du problème posé par les

150

enzymes orphelines locales. Pour les enzymes orphelines globales, le délai de connaissances entre

dans les bases de données est toujours d’actualité et pourrait être résolu par des recherches

bibliographiques étendues et par la mise en place d’un système permettant aux biochimistes de

soumettre de nouvelles enzymes et activités au moment de leur publication.

Dans la deuxième partie de cette thèse, une nouvelle représentation du métabolisme pour la

détection de modules conservés de transformations chimiques a été développée. Dans cette

représentation, les signatures moléculaires de réactions (RMS), au lieu des réactions, sont utilisées

dans un réseau créé à partir de toutes les connaissances disponibles sur le métabolisme, quel que

soit l’organisme. Les réactions qui effectuent le même type de transformation chimique partagent

la même signature ce qui permet de regrouper d’une façon automatisée des réactions similaires, et

de proposer une nouvelle classification. Cette approche est à l’origine d’un modèle plus condensé

du métabolisme qui en facilite l’exploration car moins sensible aux trous éventuels dans le réseau

de réactions (réactions inconnues). Ce modèle de données est particulièrement utile pour la

détection de modules conservés de transformations chimiques car ils correspondent à des

chemins dans le réseau de RMS. Un nombre important de modules a ainsi été découvert. De

plus, de nouvelles métriques (scoreRea, scoreProt et scorePageRank) ont été introduites pour évaluer la

conservation des modules en fonction de différents aspects biologiques. Il a été démontré que les

chemins de RMS présents dans les voies métaboliques connues présentent des scores de

conservation plus élevés que les chemins aléatoires, ces scores peuvent ainsi être conjointement

utilisés pour prédire si un module peut être dans une voie métabolique et si oui, son type

biologique (biosynthèse, dégradation, détoxification, production d’énergie, etc.).

Malgré le fait que le réseau de RMS construit est basé sur un réseau initial de réactions, il offre

une nouvelle vision sur le métabolisme car on peut y capturer des contextes métaboliques

pertinents sans définition initiale précise d’ensembles de réactions ou de structures de molécules

chimiques. En effet, plus de deux mille réactions, dont les voies métaboliques sont inconnues

(donc de contexte métabolique indéfini), ont pu être intégrées dans le réseau de RMS. Elles ont

pu être ainsi placées dans un contexte métabolique par l’intermédiaire de réactions similaires (i.e.

ayant une même signature de RMS) qui appartiennent à une voie métabolique connue.

Ainsi, cette nouvelle représentation du métabolisme s’avère être un outil intéressant pour son

exploration. Des améliorations envisagées pour la méthode, ainsi que d’autres applications

possibles, sont présentées dans la partie « Perspectives » de ce chapitre.

151

Dans la troisième partie de ce manuscrit, a été présenté un exemple d’utilisation du réseau de

RMS pour la définition d’un contexte métabolique pour une famille d’enzymes.

Dans un premier temps, une méthode simple de prédiction de directons (opérons potentiels) a

été développée et utilisée sur l’ensemble des génomes disponibles au sein de la plateforme

MicroScopee [169] qui est développée au sein du laboratoire où la thèse présentée ici s’est

déroulée. Ensuite, un processus de projection de ces directons sur le réseau de RMS a été établi

afin de placer les gènes qui les constituent dans un contexte métabolique cohérent, et de

déterminer si un module conservé de transformations chimiques peut être réalisé par un directon

donné.

Ces deux méthodes ont ensuite été utilisées pour une étude de cas. Les enzymes de la famille des

Baeyer-Villiger monooxygénases (BVMOs) ont été placées dans un contexte génomique en

repérant tous les directon contenant un gène codant une BVMOs, repéré par la présence de deux

motifs de séquence spécifiques. Ces directons contenant une BVMOs ont été classifiés en cinq

groupes distincts en fonction de leur contenu en RMS. Deux de ces cinq groupes n’ont pas pu

être placés dans le réseau de RMS d’une façon cohérente, mais les trois autres ont été assignées à

un contexte métabolique. Dans les trois cas, le contexte métabolique était différent et un ou

plusieurs chemins de RMS (modules) avec des scores élevés de conservation ont été proposés.

Ces modules candidats devront par la suite être analysés par des experts en biochimie et,

éventuellement, testés en laboratoire.

La combinaison des méthodes de contexte génomique au réseau de RMS développé au cours de

cette thèse peut avoir des applications intéressantes pour l’annotation fonctionnelle des enzymes

ainsi que pour la découverte de nouvelles voies métaboliques. Les perspectives envisagées pour la

suite de ce travail de thèse sont décrites dans la section suivante.

152

Perspectives La représentation du métabolisme sous la forme d’un réseau de transformations chimiques

encodées en signatures moléculaires de réactions (RMS) ouvre un grand nombre de perspectives

dans l’étude de celui-ci. Un certain nombre d’entre elles sont présentées dans cette partie.

Cette représentation peut être utile pour l’assignation de séquences pour les enzymes orphelines.

En effet, beaucoup d’outils développés pour résoudre ce problème se basent sur le contexte

métabolique et génomique de ces activités [226, 266], or, beaucoup d’entre elles ont leurs voisines

qui sont aussi orphelines de séquences [8]. Le réseau de RMS permet ainsi de définir un contexte

métabolique plus relâché facilitant son ancrage sur des contextes génomiques pouvant contenir

des gènes candidats pour plusieurs réactions orphelines.

Les RMS regroupent souvent plusieurs réactions, dont certaines sont orphelines. En explorant

une famille d’enzymes connues pour catalyser des réactions décrites par une RMS, des protéines

de cette famille peuvent être proposées comme candidates pour les réactions orphelines de la

RMS. Cela suppose que la famille possède une certaine promiscuité de substrats qui peut, par

exemple, être évaluée par une analyse de la structure de ces protéines : comparaison des sites

actifs et des expériences d'amarrage (docking) moléculaire.

Nous avons soulevé le problème de RMS orphelines dans le deuxième chapitre de cette thèse. En

effet, plus de 35% des RMS n’ont aucune séquence protéique qui a pu leur être associée, ce qui

signifie qu’aucune des réactions qu’elles rassemblent n’est catalysée par une enzyme connue. Il est

donc important de prioriser la recherche de candidats pour les transformations chimiques

orphelines, notamment avec des méthodes existant déjà pour les enzymes orphelines [226, 266]

ou en en développant des nouvelles, adaptées à la représentation du métabolisme avec des RMS.

Comme il a été souligné dans l’article de revue sur les enzymes orphelines, une partie d’entre elles

sont considérées comme orphelines à cause du retard entre les bases de données et la littérature.

Afin de limiter ce retard de connaissances, il est nécessaire de mettre en place un standard

international permettant de déposer des enzymes et des activités caractérisées expérimentalement

en même temps que les publications qui y sont liées, comme c’est le cas pour la soumission des

séquences nucléiques dans les bases de données comme GenBank [267] et l’European Nucleotide

Archive [268]) en même temps que leur publication dans les journaux.

153

Il est aussi envisageable d’étendre le concept des activités orphelines aux métabolites orphelins,

qui sont des métabolites identifiés dans un organisme, mais dont on ne connaît pas les enzymes

qui permettent leur synthèse ni leur dégradation. En effet, les avancées en métabolomique, par

spectrométrie de masse ou résonance magnétique nucléaire, permettent de découvrir un grand

nombre de nouveaux métabolites. Dans ce cas, il s’agirait de trouver des chemins de RMS

permettant de relier ces métabolites orphelins d'enzymes à des voies métaboliques nouvelles. Des

méthodes de reconstruction de novo de voies métaboliques et d’identification de nouvelles activités

enzymatiques à partir de données de métabolomique, comme celle de Kotera et al. [269] ou celle

de Prosser et al. [270] pourraient être adaptées à la représentation du métabolisme sous la forme

de chemins et de réseaux de RMS.

Les RMS sont un moyen efficace et automatique de classification des réactions en fonction du

type de transformation chimique qu’elles réalisent. Comme nous l’avons démontré dans le

chapitre II de cette thèse, cette classification est une bonne alternative à la classification EC. Il

serait donc intéressant pour la communauté scientifique de créer une base de données publique

de RMS et des réactions qu’elles décrivent, avec un accès via un serveur web.

La nouvelle façon de représenter et explorer le métabolisme, développée lors de cette thèse, est

une première brique dans l’exploitation de ce type de réseaux métaboliques. Un certain nombre

d’améliorations, notamment méthodologiques, et de perspectives sont envisagées pour la suite.

Tout d’abord, il est envisagé d’adapter dynamiquement la précision de la signature de réaction

lors de la fusion des nœuds de réactions afin de prendre en compte la topologie locale du graphe

et la taille du groupe de réactions. Ceci peut se faire notamment en s’inspirant de la méthode

proposée par Xu et al. [271] dans laquelle ont été appliqués le principe d’entropie maximale et le

problème de réduction de modèles de chaines de Markov.

Les modules conservés de transformations chimiques décrits dans cette thèse sont linéaires, c’est

à dire que chaque RMS du module est précédée et est suivie au maximum par une autre RMS, et

le module a une RMS initiale (qui n’est pas précédée par une autre RMS) et une RMS terminale

(qui n’est pas suivie par une autre RMS). Or, un certain nombre de voies métaboliques décrites

dans les bases de données présentent des structures topologiques plus complexes qu’un chemin.

154

En effet, on peut retrouver des voies métaboliques branchées (où, par exemple, une réaction peut

produire deux métabolites différents transformés ensuite par deux réactions distinctes) ou

cycliques (où il n’y a pas de réaction initiale ni terminale). Les méthodes de recherche de modules

pour ce type de voies métaboliques sont plus complexes d’un point de vue méthodologique que

la recherche de chemins, mais seront envisagées dans l’avenir pour pouvoir détecter des modules

plus proches de la réalité métabolique.

La reconstruction du réseau initial de réactions nécessaire à la construction des réseaux de RMS a

été limitée aux réactions présentes dans au moins une voie métabolique. Les composés chimiques

impliqués dans ces réactions sont annotés comme « primaires » ou « secondaires », en fonction de

leur implication dans le « backbone » de la voie. Utiliser uniquement les composés primaires évite

de relier des réactions via des métabolites ubiquitaires comme l’eau ou le dioxygène, par exemple,

ce qui n’aurait pas de sens biologique, poserait un certain nombre de problèmes au niveau de la

topologie du réseau reconstruit et fausserait la détection des modules conservés. Cependant, en se

restreignant aux réactions présentes uniquement dans les voies métaboliques, la reconstruction du

réseau de réactions est incomplète, car près d’un tiers des réactions n’appartiennent pas à cette

catégorie. Une stratégie est donc à envisager pour pouvoir détecter les composés ubiquitaires

et/ou secondaires d’une réaction. Cette stratégie pourrait se baser sur une liste de composés

ubiquitaires, la comparaison de la taille des métabolites impliqués dans la réaction ainsi que sur les

flux d’atomes de carbone dans la réaction.

Les RMS sont des définitions textuelles de transformations chimiques, peu pratiques à exploiter

manuellement. Les RMS représentées dans ce manuscrit sous la forme de transformations sur des

molécules génériques ont été dessinées manuellement avec le logiciel ChemDraw. Cependant,

une stratégie est possible pour générer automatiquement des représentations graphiques des

RMS, en extrayant des réactions que les sous-structures de composés ayant des atomes et des

liaisons qui changent au cours de la transformation chimique. Cette représentation graphique

systématique permettra une exploration simplifiée des RMS et des chemins de RMS, notamment

par les biologistes dans les cas appliqués. Elle sera aussi particulièrement utile pour la base de

données de RMS.

L’association des RMS aux protéines qui sont susceptibles de les catalyser via les domaines Pfam

s’est avérée assez peu efficace. En effet, certains domaines Pfam sont plus spécifiques que

d’autres, et tous ne sont pas forcément porteurs de la fonction enzymatique. Nous avons donc

155

prévu d’implémenter une stratégie permettant de définir des domaines pour les RMS en

s’inspirant de celle utilisée par PRIAM [143] pour les EC numbers qui est basée sur l’algorithme

de MKDOM [142]. Ce type d’approche permet d’identifier des segments communs à toutes les

séquences de protéines dans un groupe, dans le cas présent, toutes les séquences associées à une

même RMS. L’identification d’un (ou des) domaine(s) spécifique(s) à une RMS permettra une

meilleure prédiction de RMS pour les protéines, ce qui améliorera le potentiel de la méthode en

termes d’annotation fonctionnelle des gènes et des groupes de gènes comme les opérons.

La méthode de projection de gènes partageant un contexte génomique sous la forme d’un opéron

ou d’un directon présentée dans le chapitre III de cette thèse prévoit que les produits de ces

gènes catalysent des transformations chimiques directement voisines dans le réseau. Or, certains

gènes sans fonction prédite ou des gènes ne faisant pas parti du contexte génomique analysé

peuvent aussi intervenir dans la voie métabolique et posent donc problème car ils ne sont pas pris

en compte dans la méthode actuelle de projection. Un paramètre de « gap » devrait donc être

introduit dans la projection des groupes de gènes sur le réseau de RMS pour tenir compte de ces

éventualités. Pour faire cela, il faudrait prendre en compte les nœuds voisins des nœuds

sélectionnés par la projection. La taille des sous-graphes ainsi sélectionnés sera plus grande. Il

faudra donc envisager une amélioration méthodologique de recherche de chemins optimaux.

Une autre perspective, qui sera explorée dans le cadre de mon projet postdoctoral, est l’étude de

variations métaboliques interindividuelles grâce aux réseaux de RMS. En effet, les individus d’une

même espèce présentent, généralement, de légères variations au niveau de leur génotype. Ces

différences peuvent concerner des gènes impliqués dans des processus métaboliques. Ainsi,

l’étude de l’impact de variations interindividuelles sur un réseau métaboliques permettra une

meilleure compréhension de phénomènes biologiques comme la prédisposition de certains

individus aux maladies ainsi que leur vieillissement. Même si ces variations sont assez difficiles à

détecter, elles ne sont pas moins importantes à étudier, car elles mènent à la compréhension des

spécificités et des réponses à l’environnement de chaque individu. Dans ce cadre, l’utilisation de

réseaux de RMS peut s’avérer particulièrement utile à plusieurs niveaux. En effet, moins sensibles

aux « trous » dus à une absence d’annotation fonctionnelle de gènes que les réseaux de réactions

ou de métabolites, ils permettent en plus d’établir une tendance générale de présence/absence de

types de transformations chimiques dans l’individu, ainsi que d’étudier les différences de chemins

156

métaboliques dans un contexte plus relâché. Ces analyses pourront donner des résultats d’autant

meilleurs si des données ‘omiques’, comme les transcriptomes, les protéomes et les metabolomes

pour chaque individus sont disponibles pour quantifier ces variations métaboliques

interindividuelles.

158

Références

1. Karp PD: Call for an enzyme genomics initiative. Genome biology 2004:401.

2. Lespinet O, Labedan B: Puzzling over orphan enzymes. Cellular and Molecular Life Sciences 2006:517–523.

3. Lespinet O, Labedan B: Orphan enzymes could be an unexplored reservoir of new drug targets. Drug Discovery Today 2006:300–305.

4. Lespinet O, Labedan B: ORENZA: a web resource for studying ORphan ENZyme activities. BMC Bioinformatics 2006, 7:436.

5. Pouliot Y, Karp PD: A survey of orphan enzyme activities. BMC Bioinformatics 2007, 8:244.

6. Chen L, Vitkup D: Predicting genes for orphan metabolic activities using phylogenetic profiles. Genome Biol 2006, 7:R17.

7. Hanson AD, Pribat A, Waller JC, de Crécy-Lagard V: “Unknown” proteins and “orphan” enzymes: the missing half of the engineering parts list--and how to find it. Biochem J 2010, 425:1–11.

8. Sorokina M, Stam M, Médigue C, Lespinet O, Vallenet D: Profiling the orphan enzymes. Biol Direct 2014, 9:10.

9. Hu P, Janga SC, Babu M, Díaz-Mejía JJ, Butland G, Yang W, Pogoutse O, Guo X, Phanse S, Wong P, Chandran S, Christopoulos C, Nazarians-Armavil A, Nasseri NK, Musso G, Ali M, Nazemof N, Eroukova V, Golshani A, Paccanaro A, Greenblatt JF, Moreno-Hagelsieb G, Emili A: Global functional atlas of Escherichia coli encompassing previously uncharacterized proteins. PLoS Biol 2009, 7:0929–0947.

10. Díaz-Mejía JJ, Babu M, Emili A: Computational and experimental approaches to chart the Escherichia coli cell-envelope-associated proteome and interactome. FEMS Microbiology Reviews 2009:66–97.

11. Schnoes AM, Brown SD, Dodevski I, Babbitt PC: Annotation error in public databases: misannotation of molecular function in enzyme superfamilies. PLoS Comput Biol 2009, 5:e1000605.

12. Bork P: Powers and pitfalls in sequence analysis: the 70% hurdle. Genome Res 2000, 10:398–400.

13. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ: Basic local alignment search tool. J Mol Biol 1990, 215:403–10.

14. Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ: Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 1997, 25:3389–402.

15. Pearson WR, Lipman DJ: Improved tools for biological sequence comparison.

159

Proc Natl Acad Sci 1988, 85:2444–2448.

16. Eddy SR: A new generation of homology search tools based on probabilistic inference. Genome Inform 2009, 23:205–211.

17. Finn RD, Clements J, Eddy SR: HMMER web server: Interactive sequence similarity searching. Nucleic Acids Res 2011, 39(SUPPL. 2).

18. The UniProt Consortium: UniProt: a hub for protein information. Nucleic Acids Res 2014:gku989–.

19. Forslund K, Sonnhammer ELL: Predicting protein function from domain content. Bioinformatics 2008, 24:1681–1687.

20. Furnham N, de Beer TAP, Thornton JM: Current challenges in genome annotation through structural biology and bioinformatics. Current Opinion in Structural Biology 2012:594–601.

21. Pedruzzi I, Rivoire C, Auchincloss AH, Coudert E, Keller G, de Castro E, Baratin D, Cuche BA, Bougueleret L, Poux S, Redaschi N, Xenarios I, Bridge A: HAMAP in 2015: updates to the protein family classification and annotation system. Nucleic Acids Res 2014, 43:D1064–D1070.

22. Thornton J: Annotations for all by all - the BioSapiens network. Genome biology 2009:401.

23. Bairoch A: Swiss-Prot: Juggling between evolution and stability. Brief Bioinform 2004, 5:39–55.

24. Tautz D, Domazet-Lošo T: The evolutionary origin of orphan genes. Nat Rev Genet 2011, 12:692–702.

25. Lacroix V, Fernandes CG, Sagot MF: Reaction motifs in metabolic networks. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). Volume 3692 LNBI; 2005:178–191.

26. Barba M, Dutoit R, Legrain C, Labedan B: Identifying reaction modules in metabolic pathways: bioinformatic deduction and experimental validation of a new putative route in purine catabolism. BMC Syst Biol 2013, 7:99.

27. Muto A, Kotera M, Tokimatsu T, Nakagawa Z, Goto S, Kanehisa M: Modular architecture of metabolic pathways revealed by conserved sequences of reactions. J Chem Inf Model 2013, 53:613–622.

28. Ogata H, Goto S, Sato K, Fujibuchi W, Bono H, Kanehisa M: KEGG: Kyoto encyclopedia of genes and genomes. Nucleic Acids Res 1999, 27:29–34.

29. Carbonell P, Planson A-G, Fichera D, Faulon J-L: A retrosynthetic biology approach to metabolic pathway design for therapeutic production. BMC Syst Biol 2011, 5:122.

30. Sorokina M, Medigue C, Vallenet D, Medigue C: A new network representation of the metabolism to detect chemical transformation modules. BMC Bioinformatics 2015, 16:385.

31. Orgel LE: The origin of life-a review of facts and speculations. Trends in

160

Biochemical Sciences 1998:491–495.

32. Horowitz NH: To Utopia and Back: The Search for Life in the Solar System. W.H. Freem. San Francisco:; 1986.

33. Ott MA, Vriend G: Correcting ligands, metabolites, and pathways. BMC Bioinformatics 2006, 7:517.

34. Nobeli I, Thornton JM: A bioinformatician’s view of the metabolome. BioEssays 2006:534–545.

35. Weisgerber DW: Chemical abstracts service chemical registry system: History, scope, and impacts. J Am Soc Inf Sci 1997, 48:349–360.

36. Chemistry IU of P and A: Nomenclature of Inorganic Chemistry: IUPAC Recomendations 2005. RSC Publishing; 2005.

37. Anderson E, Veith GD, Weininger D: SMILES: A line notation and computerized interpreter for chemical structures. Duluth, MN US EPA, Environ Res Lab Rep No EPA/600/M-87/021 1987.

38. Weininger D: SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules. J Chem Inf Model 1988, 28:31–36.

39. Heller S, McNaught A, Stein S, Tchekhovskoi D, Pletnev I: InChI - The worldwide chemical structure identifier standard. Journal of Cheminformatics 2013.

40. Todeschini R, Consonni V: Handbook of Molecular Descriptors. John Wiley & Sons; 2008.

41. Carbonell P, Carlsson L, Faulon J-L: Stereo signature molecular descriptor. J Chem Inf Model 2013, 53:887–97.

42. Kotera M, Tabei Y, Yamanishi Y, Moriya Y, Tokimatsu T, Kanehisa M, Goto S: KCF-S: KEGG Chemical Function and Substructure for improved interpretability and prediction in chemical bioinformatics. BMC Syst Biol 2013, 7 Suppl 6(Suppl 6):S2.

43. Annales de Chimie et de Physique. Masson.; 1833.

44. Huberts DHEW, van der Klei IJ: Moonlighting proteins: An intriguing mode of multitasking. Biochimica et Biophysica Acta - Molecular Cell Research 2010:520–525.

45. Jeffery CJ: Moonlighting proteins--an update. Mol Biosyst 2009, 5:345–350.

46. Jeffery CJ: Moonlighting proteins. Trends in Biochemical Sciences 1999:8–11.

47. Hardy JA, Wells JA: Searching for new allosteric sites in enzymes. Current Opinion in Structural Biology 2004:706–715.

48. Changeux J-P, Edelstein SJ: Allosteric mechanisms of signal transduction. Science 2005, 308:1424–1428.

49. Deckert K, Budiardjo SJ, Brunner LC, Lovell S, Karanicolas J: Designing allosteric control into enzymes by chemical rescue of structure. J Am Chem Soc 2012, 134:10055–10060.

50. Denessiouk KA, Rantanen V V, Johnson MS: Adenine recognition: a motif

161

present in ATP-, CoA-, NAD-, NADP-, and FAD-dependent proteins. Proteins 2001, 44:282–91.

51. Morowitz H: A theory of biochemical organization, metabolic pathways, and evolution. Complexity 1999.

52. Braakman R, Smith E: The compositional and evolutionary logic of metabolism. Phys Biol 2013, 10:011001.

53. Barve A, Wagner A: A latent capacity for evolutionary innovation through exaptation in metabolic systems. Nature 2013, 500:203–6.

54. Hall B, Hallgr?msson B: Strickberger’s Evolution. Volume 9. Jones & Bartlett Learning; 2008.

55. Dyson HJ, Wright PE: Intrinsically unstructured proteins and their functions. Nat Rev Mol Cell Biol 2005, 6:197–208.

56. Khersonsky O, Tawfik DS: Enzyme promiscuity: a mechanistic and evolutionary perspective. Annu Rev Biochem 2010, 79:471–505.

57. Neuberg C, Hirsch J: Über ein kohlenstoffketten knÜpfendes ferment (carboligase). Biochem Z 1921.

58. Furnham N, Sillitoe I, Holliday GL, Cuff AL, Laskowski RA, Orengo CA, Thornton JM: Exploring the evolution of novel enzyme functions within structurally defined protein superfamilies. PLoS Comput Biol 2012, 8:e1002403.

59. Glasner ME, Gerlt JA, Babbitt PC: Evolution of enzyme superfamilies. Curr Opin Chem Biol 2006, 10:492–7.

60. Brown SD, Babbitt PC: New Insights about Enzyme Evolution from Large-Scale Studies of Sequence and Structure Relationships. J Biol Chem 2014, 289:30221–8.

61. Martínez-Núñez MA, Rodríguez-Vázquez K, Pérez-Rueda E: The lifestyle of prokaryotic organisms influences the repertoire of promiscuous enzymes. Proteins Struct Funct Bioinforma 2015, 83:n/a–n/a.

62. Carbonell P, Faulon JL: Molecular signatures-based prediction of enzyme promiscuity. Bioinformatics 2010, 26:2012–2019.

63. Aharoni A, Gaidukov L, Khersonsky O, McQ Gould S, Roodveldt C, Tawfik DS: The “evolvability” of promiscuous protein functions. Nat Genet 2005, 37:73–6.

64. Pandya C, Farelli JD, Dunaway-Mariano D, Allen KN: Enzyme Promiscuity: Engine of Evolutionary Innovation *. 2014.

65. Ponce E, Flores N, Martinez A, Valle F, Bolívar F: Cloning of the two pyruvate kinase isoenzyme structural genes from Escherichia coli: the relative roles of these enzymes in pyruvate biosynthesis. J Bacteriol 1995, 177:5719–22.

66. Omelchenko M V, Galperin MY, Wolf YI, Koonin E V: Non-homologous isofunctional enzymes: a systematic analysis of alternative solutions in enzyme evolution. Biol Direct 2010, 5:31.

67. Bastard K, Perret A, de Berardinis V: Digging up the structural keys that drive two non-homologous enzyme families toward successive functional convergences.

162

(In submission). 2016.

68. Brand LA, Strauss E: Characterization of a new pantothenate kinase isoform from Helicobacter pylori. J Biol Chem 2005, 280:20185–8.

69. Schmidt S, Sunyaev S, Bork P, Dandekar T: Metabolites: a helping hand for pathway evolution? Trends Biochem Sci 2003, 28:336–41.

70. Min B, Pelaschier JT, Graham DE, Tumbula-Hansen D, Söll D: Transfer RNA-dependent amino acid biosynthesis: an essential route to asparagine formation. Proc Natl Acad Sci U S A 2002, 99:2678–83.

71. Horowitz NH: On the Evolution of Biochemical Syntheses. Proc Natl Acad Sci U S A 1945, 31:153–157.

72. Fothergill-Gilmore LA, Michels PAM: Evolution of glycolysis. Prog Biophys Mol Biol 1993, 59:105–235.

73. Petsko GA, Kenyon GL, Gerlt JA, Ringe D, Kozarich JW: On the origin of enzymatic species. Trends Biochem Sci 1993, 18:372–376.

74. Granick S: SPECULATIONS ON THE ORIGINS AND EVOLUTION OF PHOTOSYNTHESIS. Ann N Y Acad Sci 1957, 69:292–308.

75. Roy S: Multifunctional enzymes and evolution of biosynthetic pathways: Retro- evolution by jumps. Proteins Struct Funct Genet 1999, 37:303–309.

76. Hrmova M: Structural Basis for Broad Substrate Specificity in Higher Plant beta-D-Glucan Glucohydrolases. PLANT CELL ONLINE 2002, 14:1033–1052.

77. Jensen RA: Enzyme recruitment in evolution of new function. Annu Rev Microbiol 1976, 30:409–425.

78. Huynen M, Snel B, Lathe W, Bork P: Exploitation of gene context. Current Opinion in Structural Biology 2000:366–370.

79. Rison SCG, Thornton JM: Pathway evolution, structurally speaking. Curr Opin Struct Biol 2002, 12:374–82.

80. Kanehisa M: Chemical and genomic evolution of enzyme-catalyzed reaction networks. FEBS Lett 2013, 587:2731–7.

81. Gerlt JA, Babbitt PC: Divergent evolution of enzymatic function: mechanistically diverse superfamilies and functionally distinct suprafamilies. Annu Rev Biochem 2001, 70:209–46.

82. Ycas M: On earlier states of the biochemical system. J Theor Biol 1974, 44:145–160.

83. Copley RR, Bork P: Homology among (betaalpha)(8) barrels: implications for the evolution of metabolic pathways. J Mol Biol 2000, 303:627–41.

84. Nahum LA, Riley M: Divergence of function in sequence-related groups of Escherichia coli proteins. Genome Res 2001, 11:1375–81.

85. Schulenburg C, Miller BG: Enzyme recruitment and its role in metabolic expansion. Biochemistry 2014, 53:836–45.

163

86. Teichmann SA, Rison SC, Thornton JM, Riley M, Gough J, Chothia C: The evolution and structural anatomy of the small molecule metabolic pathways in Escherichia coli. J Mol Biol 2001, 311:693–708.

87. Teichmann S: Small-molecule metabolism: an enzyme mosaic. Trends Biotechnol 2001, 19:482–486.

88. Lazcano A, Miller SL: On the origin of metabolic pathways. J Mol Evol 1999, 49:424–31.

89. Iwasaki W, Takagi T: Rapid pathway evolution facilitated by horizontal gene transfers across prokaryotic lineages. PLoS Genet 2009, 5:e1000402.

90. Thiele I, Swainston N, Fleming RMT, Hoppe A, Sahoo S, Aurich MK, Haraldsdottir H, Mo ML, Rolfsson O, Stobbe MD, Thorleifsson SG, Agren R, Bölling C, Bordel S, Chavali AK, Dobson P, Dunn WB, Endler L, Hala D, Hucka M, Hull D, Jameson D, Jamshidi N, Jonsson JJ, Juty N, Keating S, Nookaew I, Le Novère N, Malys N, Mazein A, et al.: A community-driven global reconstruction of human metabolism. Nat Biotechnol 2013, 31:419–25.

91. Caspi R, Altman T, Billington R, Dreher K, Foerster H, Fulcher CA, Holland TA, Keseler IM, Kothari A, Kubo A, Krummenacker M, Latendresse M, Mueller LA, Ong Q, Paley S, Subhraveti P, Weaver DS, Weerasinghe D, Zhang P, Karp PD: The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of Pathway/Genome Databases. Nucleic Acids Res 2014, 42.

92. Karp PD, Riley M, Paley SM, Pellegrini-Toole A: The MetaCyc Database. Nucleic Acids Res 2002, 30:59–61.

93. Caspi R, Foerster H, Fulcher CA, Hopkinson R, Ingraham J, Kaipa P, Krummenacker M, Paley S, Pick J, Rhee SY, Tissier C, Zhang P, Karp PD: MetaCyc: a multiorganism database of metabolic pathways and enzymes. Nucleic Acids Res 2006, 34(Database issue):D511–D516.

94. Karp PD, Paley SM, Krummenacker M, Latendresse M, Dale JM, Lee TJ, Kaipa P, Gilham F, Spaulding A, Popescu L, Altman T, Paulsen I, Keseler IM, Caspi R: Pathway Tools version 13.0: integrated software for pathway/genome informatics and systems biology. Brief Bioinform 2010, 11:40–79.

95. Karp PD, Latendresse M, Caspi R: The pathway tools pathway prediction algorithm. Stand Genomic Sci 2011, 5:424–9.

96. Krummenacker M, Paley S, Mueller L, Yan T, Karp PD: Querying and computing with BioCyc databases. Bioinformatics 2005, 21:3454–5.

97. Latendresse M, Malerich JP, Travers M, Karp PD: Accurate atom-mapping computation for biochemical reactions. J Chem Inf Model 2012, 52:2970–82.

98. Kanehisa M: The KEGG database. Novartis Found Symp 2002, 247:91–101; discussion 101–103, 119–128, 244–252.

99. Kanehisa M, Goto S, Hattori M, Aoki-Kinoshita KF, Itoh M, Kawashima S, Katayama T, Araki M, Hirakawa M: From genomics to chemical genomics: new developments in KEGG. Nucleic Acids Res 2006, 34(Database issue):D354–D357.

164

100. Kanehisa M, Araki M, Goto S, Hattori M, Hirakawa M, Itoh M, Katayama T, Kawashima S, Okuda S, Tokimatsu T, Yamanishi Y: KEGG for linking genomes to life and the environment. Nucleic Acids Res 2008, 36(SUPPL. 1).

101. Kanehisa M, Goto S, Sato Y, Furumichi M, Tanabe M: KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res 2012, 40.

102. Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M: Data, information, knowledge and principle: Back to metabolism in KEGG. Nucleic Acids Res 2014, 42.

103. Altman T, Travers M, Kothari A, Caspi R, Karp PD: A systematic comparison of the MetaCyc and KEGG pathway databases. BMC Bioinformatics 2013, 14:112.

104. Altman T, Travers M, Kothari A, Caspi R, Karp PD: A systematic comparison of the MetaCyc and KEGG pathway databases. BMC Bioinformatics 2013, 14:112.

105. Schomburg I, Chang A, Placzek S, Söhngen C, Rother M, Lang M, Munaretto C, Ulas S, Stelzer M, Grote A, Scheer M, Schomburg D: BRENDA in 2013: Integrated reactions, kinetic data, enzyme function data, improved disease classification: New options and contents in BRENDA. Nucleic Acids Res 2013, 41.

106. Chang A, Schomburg I, Placzek S, Jeske L, Ulbrich M, Xiao M, Sensen CW, Schomburg D: BRENDA in 2015: exciting developments in its 25th year of existence. Nucleic Acids Res 2015, 43(Database issue):D439–46.

107. Alcántara R, Axelsen KB, Morgat A, Belda E, Coudert E, Bridge A, Cao H, De Matos P, Ennis M, Turner S, Owen G, Bougueleret L, Xenarios I, Steinbeck C: Rhea - A manually curated resource of biochemical reactions. Nucleic Acids Res 2012, 40.

108. Morgat A, Axelsen KB, Lombardot T, Alcántara R, Aimo L, Zerara M, Niknejad A, Belda E, Hyka-Nouspikel N, Coudert E, Redaschi N, Bougueleret L, Steinbeck C, Xenarios I, Bridge A: Updates in Rhea-a manually curated resource of biochemical reactions. Nucleic Acids Res 2014:gku961–.

109. Croft D, O’Kelly G, Wu G, Haw R, Gillespie M, Matthews L, Caudy M, Garapati P, Gopinath G, Jassal B, Jupe S, Kalatskaya I, Mahajan S, May B, Ndegwa N, Schmidt E, Shamovsky V, Yung C, Birney E, Hermjakob H, D’Eustachio P, Stein L: Reactome: a database of reactions, pathways and biological processes. Nucleic Acids Res 2011, 39(Database issue):D691–7.

110. Morgat A, Coissac E, Coudert E, Axelsen KB, Keller G, Bairoch A, Bridge A, Bougueleret L, Xenarios I, Viari A: UniPathway: a resource for the exploration and annotation of metabolic pathways. Nucleic Acids Res 2012, 40(Database issue):D761–9.

111. Karp PD: The MetaCyc metabolic pathway database. Metab Eng Post Genomic Era 2002:139–154.

112. Hastings J, de Matos P, Dekker A, Ennis M, Harsha B, Kale N, Muthukrishnan V, Owen G, Turner S, Williams M, Steinbeck C: The ChEBI reference database and ontology for biologically relevant chemistry: enhancements for 2013. Nucleic Acids Res 2013, 41(Database issue):D456–63.

113. Wang Y, Xiao J, Suzek TO, Zhang J, Wang J, Bryant SH: PubChem: a public

165

information system for analyzing bioactivities of small molecules. Nucleic Acids Res 2009, 37(Web Server issue):W623–33.

114. Tipton K, Boyce S: History of the enzyme nomenclature system. Bioinformatics 2000, 16:34–40.

115. Bairoch A: The ENZYME data bank. Nucleic Acids Res 1994, 22:3626–3627.

116. Bastard K, Smith AAT, Vergne-Vaxelaire C, Perret A, Zaparucha A, De Melo-Minardi R, Mariage A, Boutard M, Debard A, Lechaplais C, Pelle C, Pellouin V, Perchat N, Petit J-L, Kreimeyer A, Medigue C, Weissenbach J, Artiguenave F, De Berardinis V, Vallenet D, Salanoubat M: Revealing the hidden functional diversity of an enzyme family. Nat Chem Biol 2014, 10:42–9.

117. Deville Y: An overview of data models for the analysis of biochemical pathways. Brief Bioinform 2003, 4:246–259.

118. Orth JD, Thiele I, Palsson BØ: What is flux balance analysis? Nat Biotechnol 2010, 28:245–8.

119. Stelling J: Mathematical models in microbial systems biology. Curr Opin Microbiol 2004, 7:513–8.

120. Przytycka TM, Andrews J: Systems-biology dissection of eukaryotic cell growth. BMC Biol 2010, 8:62.

121. Larhlimi A, Blachon S, Selbig J, Nikoloski Z: Robustness of metabolic networks: a review of existing definitions. Biosystems 2011, 106:1–8.

122. Wagner A, Fell DA: The small world inside large metabolic networks. Proc Biol Sci 2001, 268:1803–10.

123. Arita M: The metabolic world of Escherichia coli is not small. Proc Natl Acad Sci U S A 2004, 101:1543–7.

124. Caspi R, Altman T, Dreher K, Fulcher CA, Subhraveti P, Keseler IM, Kothari A, Krummenacker M, Latendresse M, Mueller LA, Ong Q, Paley S, Pujar A, Shearer AG, Travers M, Weerasinghe D, Zhang P, Karp PD: The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of pathway/genome databases. Nucleic Acids Res 2012, 40(Database issue):D742–53.

125. Karp P, Paley S: Representations of metabolic knowledge: pathways. Ismb 1994.

126. Karp P, Paley S: Automated drawing of metabolic pathways. Proc 3rd Int Conf … 1994.

127. Katz L: On the Matric Analysis of Sociometric Data. Sociometry 1947, 10:233–241.

128. Seeley JR: The net of reciprocal influence. Study II: The balance of power. .

129. Brandes U, Erlebach T (Eds): Network Analysis. Volume 3418. Berlin, Heidelberg: Springer Berlin Heidelberg; 2005. [Lecture Notes in Computer Science]

130. Katz L: A new status index derived from sociometric analysis. Psychometrika 1953, 18:39–43.

166

131. Bonacich P: Factoring and weighting approaches to status scores and clique identification. J Math Sociol 1972, 2:113–120.

132. Hubbell CH: An Input-Output Approach to Clique Identification. Sociometry 1965, 28:377–399.

133. The Anatomy of a Search Engine [http://infolab.stanford.edu/~backrub/google.html]

134. Lempel R, Moran S: The stochastic approach for link-structure analysis (SALSA) and the TKC effect. Comput Networks 2000, 33:387–401.

135. Wolf DM, Arkin AP: Motifs, modules and games in bacteria. Curr Opin Microbiol 2003, 6:125–134.

136. Hartwell LH, Hopfield JJ, Leibler S, Murray AW: From molecular to modular cell biology. Nature 1999, 402(6761 Suppl):C47–52.

137. Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabási AL: Hierarchical organization of modularity in metabolic networks. Science 2002, 297:1551–5.

138. Thiele I, Palsson BØ: A protocol for generating a high-quality genome-scale metabolic reconstruction. Nat Protoc 2010, 5:93–121.

139. Bar D: Evidence of massive horizontal gene transfer between humans and Plasmodium vivax. core.ac.uk .

140. Altschul SF, Koonin E V.: Iterated profile searches with PSI-BLAST—a tool for discovery in protein databases. Trends Biochem Sci 1998, 23:444–447.

141. Moreno-Hagelsieb G, Hudy-Yuffa B: Estimating overannotation across prokaryotic genomes using BLAST+, UBLAST, LAST and BLAT. BMC Res Notes 2014, 7:651.

142. Gouzy J, Corpet F, Kahn D: Whole genome protein domain analysis using a new method for domain clustering. Comput Chem 1999, 23:333–340.

143. Claudel-Renard C, Chevalet C, Faraut T, Kahn D: Enzyme-specific profiles for genome annotation: PRIAM. Nucleic Acids Res 2003, 31:6633–6639.

144. Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, Heger A, Hetherington K, Holm L, Mistry J, Sonnhammer ELL, Tate J, Punta M: Pfam: The protein families database. Nucleic Acids Research 2014.

145. Mulder N, Apweiler R: InterPro and InterProScan: tools for protein sequence classification and comparison. Methods Mol Biol 2007, 396:59–70.

146. Mitchell A, Chang H-Y, Daugherty L, Fraser M, Hunter S, Lopez R, McAnulla C, McMenamin C, Nuka G, Pesseat S, Sangrador-Vegas A, Scheremetjew M, Rato C, Yong S-Y, Bateman A, Punta M, Attwood TK, Sigrist CJA, Redaschi N, Rivoire C, Xenarios I, Kahn D, Guyot D, Bork P, Letunic I, Gough J, Oates M, Haft D, Huang H, Natale DA, et al.: The InterPro protein families database: the classification resource after 15 years. Nucleic Acids Res 2014, 43(Database issue):D213–21.

147. Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, Heger A, Hetherington K, Holm L, Mistry J, Sonnhammer ELL, Tate J, Punta M: Pfam: the

167

protein families database. Nucleic Acids Res 2014, 42(Database issue):D222–30.

148. Mistry J, Finn RD, Eddy SR, Bateman A, Punta M: Challenges in homology search: HMMER3 and convergent evolution of coiled-coil regions. Nucleic Acids Res 2013, 41:e121.

149. Meyer F, Overbeek R, Rodriguez A: FIGfams: yet another set of protein families. Nucleic Acids Res 2009, 37:6643–54.

150. Haft DH, Selengut JD, White O: The TIGRFAMs database of protein families. Nucleic Acids Res 2003, 31:371–3.

151. Sillitoe I, Cuff AL, Dessailly BH, Dawson NL, Furnham N, Lee D, Lees JG, Lewis TE, Studer RA, Rentzsch R, Yeats C, Thornton JM, Orengo CA: New functional families (FunFams) in CATH to improve the mapping of conserved functional sites to 3D structures. Nucleic Acids Res 2013, 41(Database issue):D490–8.

152. Vallenet D, Labarre L, Rouy Z, Barbe V, Bocs S, Cruveiller S, Lajus A, Pascal G, Scarpelli C, Médigue C: MaGe: a microbial genome annotation system supported by synteny results. Nucleic Acids Res 2006, 34:53–65.

153. Rogozin I, Makarova K: Connected gene neighborhoods in prokaryotic genomes. Nucleic Acids … 2002.

154. Enright A, Ouzounis C: Functional associations of proteins in entire genomes by means of exhaustive detection of gene fusions. Genome Biol 2001.

155. Yanai I, Derti A, DeLisi C: Genes linked by fusion events are generally of the same functional category: A systematic analysis of 30 microbial genomes. Proc Natl Acad Sci 2001, 98:7940–7945.

156. Pellegrini M, Marcotte EM, Thompson MJ, Eisenberg D, Yeates TO: Assigning protein functions by comparative genome analysis: Protein phylogenetic profiles. Proc Natl Acad Sci 1999, 96:4285–4288.

157. Watson JD, Laskowski RA, Thornton JM: Predicting protein function from sequence and structural data. Curr Opin Struct Biol 2005, 15:275–84.

158. Russell RB: Detection of protein three-dimensional side-chain patterns: new examples of convergent evolution. J Mol Biol 1998, 279:1211–27.

159. Wang Z, Yin P, Lee JS, Parasuram R, Somarowthu S, Ondrechen MJ: Protein function annotation with Structurally Aligned Local Sites of Activity (SALSAs). BMC Bioinformatics 2013, 14 Suppl 3:S13.

160. de Melo-Minardi RC, Bastard K, Artiguenave F: Identification of subfamily-specific sites based on active sites modeling and clustering. Bioinformatics 2010, 26:3075–82.

161. Fan H, Hitchcock DS, Seidel RD, Hillerich B, Lin H, Almo SC, Sali A, Shoichet BK, Raushel FM: Assignment of pterin deaminase activity to an enzyme of unknown function guided by homology modeling and docking. J Am Chem Soc 2013, 135:795–803.

162. Jacobson MP, Kalyanaraman C, Zhao S, Tian B: Leveraging structure for enzyme function prediction: methods, opportunities, and challenges. Trends

168

Biochem Sci 2014, 39:363–71.

163. Bastard K, Smith AAT, Vergne-Vaxelaire C, Perret A, Zaparucha A, De Melo-Minardi R, Mariage A, Boutard M, Debard A, Lechaplais C, Pelle C, Pellouin V, Perchat N, Petit J-L, Kreimeyer A, Medigue C, Weissenbach J, Artiguenave F, De Berardinis V, Vallenet D, Salanoubat M: Revealing the hidden functional diversity of an enzyme family. Nat Chem Biol 2014, 10:42–9.

164. Aze J, Gentils L, Toffano-Nioche C, Loux V, Gibrat J-F, Bessieres P, Rouveirol C, Poupon A, Froidevaux C: Towards a semi-automatic functional annotation tool based on decision-tree techniques. BMC Proc 2008, 2(Suppl 4):S3.

165. Xavier D, Crespo B, Fuentes-Fernández R: A rule-based expert system for inferring functional annotation. Appl Soft Comput 2015, 35:373–385.

166. Friedberg I: Critical Assessment of Function Annotation Meeting, 2011. Argonne, IL (United States); 2015.

167. Salzberg SL: Genome re-annotation: a wiki solution? Genome Biol 2007, 8:102.

168. Huss JW, Orozco C, Goodale J, Wu C, Batalov S, Vickers TJ, Valafar F, Su AI: A gene wiki for community annotation of gene function. PLoS Biol 2008, 6:e175.

169. Vallenet D, Belda E, Calteau A, Cruveiller S, Engelen S, Lajus A, Le Fèvre F, Longin C, Mornico D, Roche D, Rouy Z, Salvignol G, Scarpelli C, Thil Smith AA, Weiman M, Médigue C: MicroScope--an integrated microbial resource for the curation and comparative analysis of genomic and metabolic data. Nucleic Acids Res 2013, 41(Database issue):D636–47.

170. Overbeek R, Olson R, Pusch GD, Olsen GJ, Davis JJ, Disz T, Edwards RA, Gerdes S, Parrello B, Shukla M, Vonstein V, Wattam AR, Xia F, Stevens R: The SEED and the Rapid Annotation of microbial genomes using Subsystems Technology (RAST). Nucleic Acids Res 2014, 42(Database issue):D206–14.

171. Renata H, Wang ZJ, Arnold FH: Expanding the enzyme universe: accessing non-natural reactions by mechanism-guided directed evolution. Angew Chem Int Ed Engl 2015, 54:3351–67.

172. Alastair R. H, Heather K. L: The molecular biology of multidomain proteins. selected examples. In EJB Reviews. Volume 199.; 1995:245–256.

173. Hernández S, Ferragut G, Amela I, Perez-Pons J, Piñol J, Mozo-Villarias A, Cedano J, Querol E: MultitaskProtDB: a database of multitasking proteins. Nucleic Acids Res 2014, 42(Database issue):D517–20.

174. Moreno-Hagelsieb G: The power of operon rearrangements for predicting functional associations. Comput Struct Biotechnol J 2015, 13:402–6.

175. Blumenthal T: Operons in eukaryotes. Briefings Funct Genomics Proteomics 2004, 3:199–211.

176. Blumenthal T, Gleason KS: Caenorhabditis elegans operons: form and function. Nat Rev Genet 2003, 4:112–20.

177. Ream DC, Bankapur AR, Friedberg I: An event-driven approach for studying gene block evolution in bacteria. Bioinformatics 2015, 31:2075–83.

169

178. Salgado H, Peralta-Gil M, Gama-Castro S, Santos-Zavaleta A, Muñiz-Rascado L, García-Sotelo JS, Weiss V, Solano-Lira H, Martínez-Flores I, Medina-Rivera A, Salgado-Osorio G, Alquicira-Hernández S, Alquicira-Hernández K, López-Fuentes A, Porrón-Sotelo L, Huerta AM, Bonavides-Martínez C, Balderas-Martínez YI, Pannier L, Olvera M, Labastida A, Jiménez-Jacinto V, Vega-Alvarado L, Del Moral-Chávez V, Hernández-Alvarez A, Morett E, Collado-Vides J: RegulonDB v8.0: omics data sets, evolutionary conservation, regulatory phrases, cross-validated gold standards and more. Nucleic Acids Res 2013, 41(Database issue):D203–13.

179. Salgado H, Moreno-Hagelsieb G, Smith TF, Collado-Vides J: Operons in Escherichia coli: Genomic analyses and predictions. Proc Natl Acad Sci 2000, 97:6652–6657.

180. Ferrer L, Dale JM, Karp PD: A systematic study of genome context methods: calibration, normalization and combination. BMC Bioinformatics 2010, 11:493.

181. Price MN, Huang KH, Alm EJ, Arkin AP: A novel method for accurate operon predictions in all sequenced prokaryotes. Nucleic Acids Res 2005, 33:880–92.

182. Stormo G: Mining genome databases to identify and understand new gene regulatory systems. Curr Opin Microbiol 2002, 5:149–153.

183. Ermolaeva MD: Prediction of operons in microbial genomes. Nucleic Acids Res 2001, 29:1216–1221.

184. Dandekar T: Conservation of gene order: a fingerprint of proteins that physically interact. Trends Biochem Sci 1998, 23:324–328.

185. Sabatti C: Co-expression pattern from DNA microarray experiments as a tool for operon prediction. Nucleic Acids Res 2002, 30:2886–2893.

186. McClure R, Balasubramanian D, Sun Y, Bobrovskyy M, Sumby P, Genco CA, Vanderpool CK, Tjaden B: Computational analysis of bacterial RNA-Seq data. Nucleic Acids Res 2013, 41:e140.

187. Bockhorst J, Craven M, Page D, Shavlik J, Glasner J: A Bayesian network approach to operon prediction. Bioinformatics 2003, 19:1227–1235.

188. Jacob E, Sasikumar R, Nair KNR: A fuzzy guided genetic algorithm for operon prediction. Bioinformatics 2005, 21:1403–7.

189. McClean PE, Mamidi S, McConnell M, Chikara S, Lee R: Synteny mapping between common bean and soybean reveals extensive blocks of shared loci. BMC Genomics 2010, 11:184.

190. Overbeek R, Fonstein M, D’Souza M, Pusch GD, Maltsev N: Use of contiguity on the chromosome to predict functional coupling. In Silico Biol 1999, 1:93–108.

191. Sinha AU, Meller J: Cinteny: flexible analysis and visualization of synteny and genome rearrangements in multiple organisms. BMC Bioinformatics 2007, 8:82.

192. Deniélou Y-P, Sagot M-F, Boyer F, Viari A: Bacterial syntenies: an exact approach with gene quorum. BMC Bioinformatics 2011, 12:193.

193. Boyer F, Morgat A, Labarre L, Pothier J, Viari A: Syntons, metabolons and interactons: an exact graph-theoretical approach for exploring neighbourhood

170

between genomic and functional data. Bioinformatics 2005, 21:4209–15.

194. Gehrmann T, Reinders MJT: Proteny: discovering and visualizing statistically significant syntenic clusters at the proteome level. Bioinformatics 2015:btv389–.

195. Carver TJ, Rutherford KM, Berriman M, Rajandream M-A, Barrell BG, Parkhill J: ACT: the Artemis Comparison Tool. Bioinformatics 2005, 21:3422–3.

196. Castellana M, Wilson MZ, Xu Y, Joshi P, Cristea IM, Rabinowitz JD, Gitai Z, Wingreen NS: Enzyme clustering accelerates processing of intermediates through metabolic channeling. Nat Biotechnol 2014, 32:1011–8.

197. Snel B, Bork P, Huynen M: Genome evolution. Gene fusion versus gene fission. Trends Genet 2000, 16:9–11.

198. Marcotte EM, Pellegrini M, Thompson MJ, Yeates TO, Eisenberg D: A combined algorithm for genome-wide prediction of protein function. Nature 1999, 402:83–6.

199. Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D: Detecting protein function and protein-protein interactions from genome sequences. Science 1999, 285:751–3.

200. Enright AJ, Iliopoulos I, Kyrpides NC, Ouzounis CA: Protein interaction maps for complete genomes based on gene fusion events. Nature 1999, 402:86–90.

201. Pasek S, Risler J-L, Brézellec P: Gene fusion/fission is a major contributor to evolution of multi-domain bacterial proteins. Bioinformatics 2006, 22:1418–23.

202. Feist AM, Herrgård MJ, Thiele I, Reed JL, Palsson BØ: Reconstruction of biochemical networks in microorganisms. Nat Rev Microbiol 2009, 7:129–43.

203. Zhou J, Rudd KE: EcoGene 3.0. Nucleic Acids Res 2013, 41(Database issue):D613–24.

204. Winsor GL, Lam DKW, Fleming L, Lo R, Whiteside MD, Yu NY, Hancock REW, Brinkman FSL: Pseudomonas Genome Database: improved comparative analysis and population genomics capability for Pseudomonas genomes. Nucleic Acids Res 2011, 39(Database issue):D596–600.

205. Karp PD, Riley M, Saier M, Paulsen IT, Paley SM, Pellegrini-Toole A: The EcoCyc and MetaCyc databases. Nucleic Acids Res 2000, 28:56–59.

206. Schellenberger J, Que R, Fleming RMT, Thiele I, Orth JD, Feist AM, Zielinski DC, Bordbar A, Lewis NE, Rahmanian S, Kang J, Hyduke DR, Palsson BØ: Quantitative prediction of cellular metabolism with constraint-based models: the COBRA Toolbox v2.0. Nat Protoc 2011, 6:1290–307.

207. Saito N, Robert M, Kitamura S, Baran R, Soga T, Mori H, Nishioka T, Tomita M: Metabolomics Approach for Enzyme Discovery. J Proteome Res 2006, 5:1979–1987.

208. Roberts RJ: Identifying protein function--a call for community action. PLoS Biol 2004, 2:E42.

209. Wu CH, Yeh LS, Huang H, Arminski L, Castro-Alvear J, Chen Y, Hu Z, Kourtesis P, Ledley RS, Suzek BE, Vinayaka CR, Zhang J, Barker WC: The protein information resource. Nucleic Acids Res 2003, 31:345–347.

171

210. Peterson JD: The Comprehensive Microbial Resource. Nucleic Acids Res 2001, 29:123–125.

211. Lespinet O, Labedan B: Orphan Enzymes? Science 2005.

212. Ramkissoon KR, Miller JK, Ojha S, Watson DS, Bomar MG, Galande AK, Shearer AG: Rapid identification of sequences for orphan enzymes to power accurate protein annotation. PLoS One 2013, 8:e84508.

213. Shearer AG, Altman T, Rhee CD: Finding sequences for over 270 orphan enzymes. PLoS One 2014, 9.

214. Chen L, Vitkup D: Distribution of orphan metabolic activities. Trends Biotechnol 2007, 25:343–8.

215. Osterman A: Missing genes in metabolic pathways: a comparative genomics approach. Curr Opin Chem Biol 2003, 7:238–251.

216. Kotera M, Okuno Y, Hattori M, Goto S, Kanehisa M: Computational assignment of the EC numbers for genomic-scale analysis of enzymatic reactions. J Am Chem Soc 2004, 126:16487–16498.

217. Kotera M, Tokimatsu T, Kanehisa M, Goto S: MUCHA: multiple chemical alignment algorithm to identify building block substructures of orphan secondary metabolites. BMC Bioinformatics 2011, 12(Suppl 14):S1.

218. Yamanishi Y, Hattori M, Kotera M, Goto S, Kanehisa M: E-zyme: predicting potential EC numbers from the chemical transformation pattern of substrate-product pairs. Bioinformatics 2009, 25:i179–i186.

219. Rahman SA, Cuesta SM, Furnham N, Holliday GL, Thornton JM: EC-BLAST: a tool to automatically search and compare enzyme reactions. Nat Methods 2014, 11:171–4.

220. Giri V, Sivakumar TV, Cho KM, Kim TY, Bhaduri A: RxnSim: a tool to compare biochemical reactions. Bioinformatics 2015:btv416.

221. O’Boyle NM, Holliday GL, Almonacid DE, Mitchell JBO: Using reaction mechanism to measure enzyme similarity. J Mol Biol 2007, 368:1484–99.

222. Holliday GL, Andreini C, Fischer JD, Rahman SA, Almonacid DE, Williams ST, Pearson WR: MACiE: exploring the diversity of biochemical reactions. Nucleic Acids Res 2012, 40(Database issue):D783–9.

223. Zhang Q-Y, Aires-de-Sousa J: Structure-based classification of chemical reactions without assignment of reaction centers. J Chem Inf Model 2005, 45:1775–83.

224. Latino DARS, Aires-de-Sousa J: Assignment of EC numbers to enzymatic reactions with MOLMAP reaction descriptors and random forests. J Chem Inf Model 2009, 49:1839–46.

225. Smith AAT, Belda E, Viari A, Medigue C, Vallenet D: The CanOE strategy: Integrating genomic and metabolic contexts across multiple prokaryote genomes to find candidate genes for orphan enzymes. PLoS Comput Biol 2012, 8:1–12.

226. Yamada T, Waller AS, Raes J, Zelezniak A, Perchat N, Perret A, Salanoubat M,

172

Patil KR, Weissenbach J, Bork P: Prediction and identification of sequences coding for orphan enzymes using genomic and metagenomic neighbours. Molecular Systems Biology 2012.

227. Faust K, Croes D, van Helden J: Prediction of metabolic pathways from genome-scale metabolic networks. Biosystems 2011, 105:109–121.

228. Faust K, Dupont P, Callut J, van Helden J: Pathway discovery in metabolic networks by subgraph extraction. Bioinformatics 2010, 26:1211–8.

229. Croes D, Couche F, Wodak SJ, van Helden J: Metabolic PathFinding: inferring relevant pathways in biochemical networks. Nucleic Acids Res 2005, 33(Web Server issue):W326–30.

230. Schuster S: Detection of elementary flux modes in biochemical networks: a promising tool for pathway analysis and metabolic engineering. Trends Biotechnol 1999, 17:53–60.

231. Heath A, Bennett G, Kavraki L: Finding metabolic pathways using atom tracking. Bioinformatics 2010.

232. Boyer F, Viari A: Ab initio reconstruction of metabolic pathways. Bioinformatics 2003, 19 Suppl 2:ii26–34.

233. Soh K, Hatzimanikatis V: DREAMS of metabolism. Trends Biotechnol 2010.

234. Araki M, Cox RS, Makiguchi H, Ogawa T, Taniguchi T, Miyaoku K, Nakatsui M, Hara KY, Kondo A: M-path: a compass for navigating potential metabolic pathways. Bioinformatics 2015, 31:905–11.

235. Carbonell P, Parutto P, Baudier C, Junot C, Faulon J-L: Retropath: automated pipeline for embedded metabolic circuits. ACS Synth Biol 2014, 3:565–77.

236. Carbonell P, Carlsson L, Faulon J-L: Stereo signature molecular descriptor. J Chem Inf Model 2013, 53:887–97.

237. DANDEKAR T, SCHUSTER S: Pathway alignment: application to the comparative analysis of glycolytic enzymes. Biochem … 1999.

238. Pinter RY, Rokhlenko O, Yeger-Lotem E, Ziv-Ukelson M: Alignment of metabolic pathways. Bioinformatics 2005, 21:3401–8.

239. Tohsato Y, Nishimura Y: Metabolic Pathway Alignment Based on Similarity between Chemical Structures. IPSJ Digit Cour 2007, 3:736–745.

240. Ay F, Kellis M, Kahveci T: SubMAP: aligning metabolic pathways with subnetwork mappings. J Comput Biol 2011, 18:219–35.

241. Tohsato Y, Nishimura Y: Reaction Similarities Focusing Substructure Changes of Chemical Compounds and Metabolic Pathway Alignments. IPSJ Trans Bioinforma 2009, 2:15–24.

242. Abaka G, Bıyıkoğlu T, Erten C: CAMPways: constrained alignment framework for the comparative analysis of a pair of metabolic pathways. Bioinformatics 2013, 29:i145–53.

243. Alves R, Chaleil RA., Sternberg MJ.: Evolution of Enzymes in Metabolism: A

173

Network Perspective. J Mol Biol 2002, 320:751–770.

244. Milo R, Shen-Orr S, Itzkovitz S, Kashtan N, Chklovskii D, Alon U: Network motifs: simple building blocks of complex networks. Science 2002, 298:824–7.

245. Alon U: Network motifs: theory and experimental approaches. Nat Rev Genet 2007, 8:450–61.

246. Lacroix V, Fernandes CG, Sagot MF: Motif search in graphs: Application to metabolic networks. In IEEE/ACM Transactions on Computational Biology and Bioinformatics. Volume 3; 2006:360–368.

247. Smoot ME, Ono K, Ruscheinski J, Wang P-L, Ideker T: Cytoscape 2.8: new features for data integration and network visualization. Bioinformatics 2011, 27:431–2.

248. Auber D: Tulip—A huge graph visualization framework. Graph Draw Softw 2004.

249. Bastian M, Heymann S, Jacomy M: Gephi: an open source software for exploring and manipulating networks. ICWSM 2009.

250. Nishiyama K, Maeda M, Yanagisawa K, Nagase R, Komura H, Iwashita T, Yamagaki T, Kusumoto S, Tokuda H, Shimamoto K: MPIase is a glycolipozyme essential for membrane protein integration. Nat Commun 2012, 3:1260.

251. Nishiyama K, Shimamoto K: Glycolipozyme membrane protein integrase (MPIase): recent data. Biomol Concepts 2014, 5:429–38.

252. Achenbach J, Chiuman W, Cruz R, Li Y: DNAzymes: From Creation In Vitro to Application In Vivo. Curr Pharm Biotechnol 2004, 5:321–336.

253. Fedor MJ, Williamson JR: The catalytic diversity of RNAs. Nat Rev Mol Cell Biol 2005, 6:399–412.

254. Wochner A, Attwater J, Coulson A, Holliger P: Ribozyme-catalyzed transcription of an active ribozyme. Science 2011, 332:209–12.

255. Zaher HS, Unrau PJ: Selection of an improved RNA polymerase ribozyme with superior extension and fidelity. RNA 2007, 13:1017–26.

256. Li Y, Sen D: Toward an efficient DNAzyme. Biochemistry 1997, 36:5589–99.

257. Johnson R: Xeno-nucleic acids: Unnatural biocatalysts. Nat Chem 2015, 7:94–94.

258. Taylor AI, Pinheiro VB, Smola MJ, Morgunov AS, Peak-Chew S, Cozens C, Weeks KM, Herdewijn P, Holliger P: Catalysts from synthetic genetic polymers. Nature 2014, 518:427–430.

259. Pinheiro VB, Taylor AI, Cozens C, Abramov M, Renders M, Zhang S, Chaput JC, Wengel J, Peak-Chew S-Y, McLaughlin SH, Herdewijn P, Holliger P: Synthetic genetic polymers capable of heredity and evolution. Science 2012, 336:341–4.

260. Bocs S: AMIGene: Annotation of MIcrobial Genes. Nucleic Acids Res 2003, 31:3723–3726.

261. Hyatt D, Chen G-L, Locascio PF, Land ML, Larimer FW, Hauser LJ: Prodigal:

174

prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 2010, 11:119.

262. Fraser CM, Casjens S, Huang WM, Sutton GG, Clayton R, Lathigra R, White O, Ketchum KA, Dodson R, Hickey EK, Gwinn M, Dougherty B, Tomb JF, Fleischmann RD, Richardson D, Peterson J, Kerlavage AR, Quackenbush J, Salzberg S, Hanson M, van Vugt R, Palmer N, Adams MD, Gocayne J, Weidman J, Utterback T, Watthey L, McDonald L, Artiach P, Bowman C, et al.: Genomic sequence of a Lyme disease spirochaete, Borrelia burgdorferi. Nature 1997, 390:580–6.

263. Mao F, Dam P, Chou J, Olman V, Xu Y: DOOR: a database for prokaryotic operons. Nucleic Acids Res 2009, 37(Database issue):D459–63.

264. Taboada B, Ciria R, Martinez-Guerrero CE, Merino E: ProOpDB: Prokaryotic Operon DataBase. Nucleic Acids Res 2011, 40:D627–D631.

265. Rebehmed J, Alphand V: Evolution study of the Baeyer–Villiger monooxygenases enzyme family: Functional importance of the highly conserved residues. Biochimie 2013.

266. Smith AAT, Belda E, Viari A, Medigue C, Vallenet D: The CanOE strategy: Integrating genomic and metabolic contexts across multiple prokaryote genomes to find candidate genes for orphan enzymes. PLoS Comput Biol 2012, 8.

267. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL: GenBank. Nucleic Acids Res 2005, 33(Database issue):D34–8.

268. Leinonen R, Akhtar R, Birney E, Bower L, Cerdeno-Tárraga A, Cheng Y, Cleland I, Faruque N, Goodgame N, Gibson R, Hoad G, Jang M, Pakseresht N, Plaister S, Radhakrishnan R, Reddy K, Sobhany S, Ten Hoopen P, Vaughan R, Zalunin V, Cochrane G: The European Nucleotide Archive. Nucleic Acids Res 2011, 39(Database issue):D28–31.

269. Kotera M, Tabei Y, Yamanishi Y, Tokimatsu T, Goto S: Supervised de novo reconstruction of metabolic pathways from metabolome-scale compound sets. Bioinformatics 2013, 29:i135–44.

270. Prosser GA, Larrouy-Maumus G, de Carvalho LPS: Metabolomic strategies for the identification of new enzyme functions and metabolic pathways. EMBO Rep 2014, 15:657–69.

271. Xu Y, Salapaka SM, Beck CL: On reduction of graphs and Markov chain models. In IEEE Conference on Decision and Control and European Control Conference. IEEE; 2011:2317–2322.

175

Annexe Documentation complémentaire à l’article « A new network representation

of the metabolism to detect chemical transformation modules », Sorokina et

al. BMC Bioinformatics 2015.

Additional file 2 – Comparison of Reaction Molecular Signature and Enzyme Commission reaction

partition

o a is the number of reaction pairs that are in the same set in EC and in the same set in RMS = 73408

o b is the number of reaction pairs that are in different sets in EC and in different sets in RMS = 10142098

o c is the number of reaction pairs that are in the same set in EC and in different sets in RMS = 9946

o d is the number of reaction pairs that are in different sets in EC and in the same set in RMS = 232984

𝑅𝑎𝑛𝑑 𝐼𝑛𝑑𝑒𝑥 = 𝑎 + 𝑏

𝑎 + 𝑏 + 𝑐 + 𝑑=

73408 + 10142098

73408 + 10142098 + 9946 + 232984= 0.976

Additional file 4 – Boxplots of conservation scores for enumerated and known metabolic paths

For paths of length 2 (two edges and three nodes) in the RMS-H1 network, distributions of the three

conservation scores (i.e. scoreRea, scoreProt and scorePageRank) are presented in all enumerated paths

versus paths in known metabolic pathways.

The latter present significant higher scores (p-value <2e^-16 using Tukey's HSD tests)

Additional file 5 – Statistical analysis of conservation scores distributions according to the pathway

type their paths are stemming from

Post-hoc analysis on metabolic pathway scores in order to determine if scores distributions are

significantly different regarding the pathway type (biosynthesis, degradation, detoxification, energy or

other). Are presented in following tables p-values from the Tukey HSD test for the three conservation

scores (scoreRea, scorePageRank and scoreProt) for RMS paths from known metabolic pathways in

height 2 RMS network.

Kruskal-Wallis rank sum tests for height 2 RMS network paths scores

H0: The distributions of path scores are identical regardless pathway type they are involved in

scoreRea : Kruskal-Wallis chi-squared = 148.1694, df = 4, p-value < 2.2e-16

scoreProt : Kruskal-Wallis chi-squared = 36.6593, df = 4, p-value = 2.117e-07

scorePageRank : Kruskal-Wallis chi-squared = 66.2534, df = 4, p-value = 1.401e-13

Tukey HSD p-values for distribution comparison for height 2 RMS network paths of length 2.

Compared pathway types scoreRea scoreProt (for all paths where scoreProt>0)

scorePageRank

Degradation - Biosynthesis 0.05 0.03 0.000007

Detox – Biosynthesis 0.99 0.97 0.013

Energy – Biosynthesis 0 0.0001 0.55

Other – Biosynthesis 0.41 0.1 0.0005

Detox – Degradation 0.99 0.68 0.00005

Energy – Degradation 0.0000002 0.09 0.83

Other - Degradation 0.99 0.95 0.71

Energy – Detox 0.0067 0.14 0.0032

Other – Detox 0.98 0.53 0.000015

Other – Energy 0.0001 0.64 0.37

Additional file 6 – Metabolic pathway type prediction rules generated by NNge algorithm

Scheme:weka.classifiers.rules.NNge -G 20 -I 20

Attributes: 4

scoreRea

scoreProtTaxo

scorePageRankTopoDiv

t

Test mode:10-fold cross-validation

=== Stratified cross-validation ===

=== Summary ===

Correctly Classified Instances 7822 94.7432 %

Incorrectly Classified Instances 434 5.2568 %

Kappa statistic 0.9076

Mean absolute error 0.021

Root mean squared error 0.145

Relative absolute error 9.2047 %

Root relative squared error 42.9119 %

Total Number of Instances 8256

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class

0.922 0.028 0.927 0.922 0.925 0.947 DEGRADATION

0.965 0.06 0.958 0.965 0.961 0.952 BIOSYNTHESIS

0.929 0.003 0.947 0.929 0.938 0.963 OTHER

0.869 0.001 0.926 0.869 0.897 0.934 DETOX

0.935 0.004 0.939 0.935 0.937 0.966 ENERGY

Weighted Avg. 0.947 0.043 0.947 0.947 0.947 0.952

=== Confusion Matrix ===

a b c d e <-- classified as

2121 151 10 3 15 | a = DEGRADATION

136 4672 16 6 13 | b = BIOSYNTHESIS

13 22 469 0 1 | c = OTHER

6 11 0 113 0 | d = DETOX

11 20 0 0 447 | e = ENERGY

=== Classifier model (full training set) ===

NNGE classifier

Rules generated :

class ENERGY IF : 0.0944911182523068<=scoreRea<=0.11952286093343936 ^ 0.2380660236333224<=scoreProtTaxo<=2.467150522820092 ^ 3.9467331593969805E-

5<=scorePageRankTopoDiv<=8.222097127067186E-5 (19)

class OTHER IF : 0.14824986333222023<=scoreRea<=0.23570226039551584 ^ 34.230955629673105<=scoreProtTaxo<=43.96658510801488 ^ 2.5624430194452117E-


class BIOSYNTHESIS IF : 1.3764944032233706<=scoreRea<=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ 1.715924490479643E-4<=scorePageRankTopoDiv<=1.7442011676202887E-4

(9)

class BIOSYNTHESIS IF : 0.5773502691896257<=scoreRea<=1.0 ^ scoreProtTaxo=0.0 ^ 2.635996114083793E-4<=scorePageRankTopoDiv<=2.6835762452210286E-4 (16)


(8)

class BIOSYNTHESIS IF : 0.6282808624375432<=scoreRea<=0.7071067811865476 ^ 137.05241439564665<=scoreProtTaxo<=187.6103739034471 ^ 8.941788011599709E-




class DEGRADATION IF : 0.5<=scoreRea<=1.0 ^ scoreProtTaxo=0.0 ^ 4.011826234288762E-5<=scorePageRankTopoDiv<=4.203593126592642E-5 (16)

class DEGRADATION IF : scoreRea=0.46770717334674267 ^ scoreProtTaxo=0.9007059016979746 ^ scorePageRankTopoDiv=3.617856201725098E-5 (2)



class OTHER IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=1.9885864310046825E-4 (6)



class ENERGY IF : scoreRea=0.24743582965269673 ^ scoreProtTaxo=45.5775940290842 ^ scorePageRankTopoDiv=6.303181454151838E-5 (3)

class BIOSYNTHESIS IF : scoreRea=1.4142135623730951 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=3.4486469678956296E-4 (3)





class DEGRADATION IF : 0.7071067811865476<=scoreRea<=0.8320502943378437 ^ 20.577608238503228<=scoreProtTaxo<=70.40532050487963 ^ 1.4711128835871555E-









(7)




class BIOSYNTHESIS IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 2.4385616569174256E-4<=scorePageRankTopoDiv<=2.4446999316006323E-4 (12)






class DEGRADATION IF : 0.3535533905932738<=scoreRea<=0.408248290463863 ^ scoreProtTaxo=0.0 ^ 1.2760655041187276E-4<=scorePageRankTopoDiv<=1.8234241192197802E-4

(20)













































class DEGRADATION IF : scoreRea=1.0 ^ scoreProtTaxo=0.0 ^ 1.915262928751791E-4<=scorePageRankTopoDiv<=1.9197527419422426E-4 (6)



















(5)


























(5)
















class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ 52.65882180233855<=scoreProtTaxo<=797.4352638302629 ^ 1.8282788138177227E-










(29)



























class DEGRADATION IF : scoreRea=1.0 ^ 53.30721343159817<=scoreProtTaxo<=65.92162734927443 ^ 2.0561721671014314E-4<=scorePageRankTopoDiv<=2.1409527794787715E-4

(10)


(8)
















(5)































class DETOX IF : scoreRea=1.0 ^ 377.5158590055317<=scoreProtTaxo<=491.60960120855555 ^ 4.210951572447113E-4<=scorePageRankTopoDiv<=4.456494538717275E-4 (8)



















class BIOSYNTHESIS IF : scoreRea=1.0 ^ 138.75068644666334<=scoreProtTaxo<=144.39855030102657 ^ 8.670863232003228E-5<=scorePageRankTopoDiv<=9.025333891358375E-5

(5)



class DETOX IF : 1.1547005383792515<=scoreRea<=1.2374368670764582 ^ 79.79045207230868<=scoreProtTaxo<=103.88592820586676 ^ 2.9939658600643723E-







(22)




(17)

























(12)

class DEGRADATION IF : scoreRea=1.0954451150103324 ^ 102.16537911750638<=scoreProtTaxo<=119.36925641394684 ^ 1.1655246691256629E-



class BIOSYNTHESIS IF : scoreRea=1.0 ^ 203.22660501475306<=scoreProtTaxo<=497.4811236160592 ^ scorePageRankTopoDiv=9.184702952142395E-5 (15)





(10)





































(17)






class DEGRADATION IF : scoreRea=1.0 ^ 459.13672922216<=scoreProtTaxo<=481.6843064871512 ^ 1.7909922888682906E-4<=scorePageRankTopoDiv<=3.40464408328133E-4 (6)












































(9)




























(22)

class OTHER IF : scoreRea=1.0 ^ 294.5535714285243<=scoreProtTaxo<=325.270349094411 ^ 2.0341900322563264E-4<=scorePageRankTopoDiv<=2.0507683798991577E-4 (10)





class BIOSYNTHESIS IF : 1.0954451150103321<=scoreRea<=1.0954451150103324 ^ scoreProtTaxo=47.31651754796645 ^ scorePageRankTopoDiv=1.1230007606831941E-4 (5)





































(19)




































class DETOX IF : scoreRea=0.7071067811865476 ^ scoreProtTaxo=0.0 ^ scorePageRankTopoDiv=6.49456574064399E-5 (1)










class DETOX IF : 0.28867513459481287<=scoreRea<=0.3086066999241838 ^ scoreProtTaxo=0.0 ^ 1.1754985763092038E-4<=scorePageRankTopoDiv<=2.2198230760370834E-4 (13)












(19)




























(7)














class DEGRADATION IF : 0.75<=scoreRea<=1.0 ^ 20.96265560719317<=scoreProtTaxo<=42.330049501311514 ^ 6.446530518817172E-5<=scorePageRankTopoDiv<=6.94933160911338E-

5 (12)




(8)














(15)








(2)







class OTHER IF : 0.7071067811865476<=scoreRea<=0.816496580927726 ^ scoreProtTaxo=0.0 ^ 1.2496190361871147E-4<=scorePageRankTopoDiv<=1.2604521257776215E-4 (5)














class OTHER IF : scoreRea=1.1359236684941296 ^ 0.036214922507728946<=scoreProtTaxo<=0.911596007038787 ^ 1.09640490508312E-
























































(5)



class ENERGY IF : 0.19069251784911848<=scoreRea<=0.3464101615137755 ^ scoreProtTaxo=0.0 ^ 8.86812523631926E-5<=scorePageRankTopoDiv<=9.967564087338181E-5 (9)













(3)































class BIOSYNTHESIS IF : 1.1952286093343936<=scoreRea<=1.4638501094227998 ^ 28.77526436321188<=scoreProtTaxo<=40.66403414395631 ^

scorePageRankTopoDiv=7.669823584620337E-4 (6)






class BIOSYNTHESIS IF : scoreRea=1.0 ^ 0.0<=scoreProtTaxo<=5.949875623489494 ^ 4.588402872559206E-4<=scorePageRankTopoDiv<=5.701127800920489E-4 (29)






(20)









(11)



class ENERGY IF : 2.0<=scoreRea<=2.280350850198276 ^ scoreProtTaxo=0.0 ^ 3.642818610374926E-4<=scorePageRankTopoDiv<=3.957519348612055E-4 (11)













4<=scorePageRankTopoDiv<=0.0011982853264696502 (17)



(16)


(16)





class ENERGY IF : 1.0<=scoreRea<=1.247219128924647 ^ 0.0<=scoreProtTaxo<=64.47592897360235 ^ 3.945430212065747E-4<=scorePageRankTopoDiv<=3.961479461719977E-4 (3)











































(17)













(5)










(9)
























































(15)










class DEGRADATION IF : scoreRea=0.408248290463863 ^ 693.9891871031006<=scoreProtTaxo<=693.9891871031007 ^ scorePageRankTopoDiv=3.965053058062261E-5 (5)



(7)














class ENERGY IF : scoreRea=1.0 ^ 1.9240469741764585<=scoreProtTaxo<=3.0367993898542833 ^ 2.795286934123438E-4<=scorePageRankTopoDiv<=2.802591027677582E-4 (11)





(12)


class BIOSYNTHESIS IF : 0.14907119849998599<=scoreRea<=0.19069251784911848 ^ scoreProtTaxo=0.0 ^ 1.1983187389885847E-4<=scorePageRankTopoDiv<=1.2350455368527547E-

4 (17)









(27)






































































(8)
















(8)


































(12)

class OTHER IF : 1.0<=scoreRea<=1.7320508075688772 ^ scoreProtTaxo=0.0 ^ 5.844004545899021E-4<=scorePageRankTopoDiv<=5.926013986908866E-4 (7)


(17)











































(12)












class DETOX IF : 0.7071067811865476<=scoreRea<=0.816496580927726 ^ scoreProtTaxo=0.0 ^ 2.990628864272763E-4<=scorePageRankTopoDiv<=3.081020677346779E-4 (5)





















(4)



class ENERGY IF : scoreRea=2.0 ^ 23.043090779329386<=scoreProtTaxo<=171.03718661796125 ^ 8.057833970960894E-4<=scorePageRankTopoDiv<=8.212633348548685E-4 (7)
































(10)

































(8)




















(5)













































class DETOX IF : scoreRea=1.0 ^ scoreProtTaxo=290.5100020231181 ^ 2.626806104123039E-4<=scorePageRankTopoDiv<=3.0321704900335665E-4 (5)



























(7)



































(5)





























class BIOSYNTHESIS IF : scoreRea=0.7071067811865476 ^ 0.0<=scoreProtTaxo<=2.0863620823036073 ^ scorePageRankTopoDiv=4.985531431087294E-4 (4)










































Stat :

class DEGRADATION : 315 exemplar(s) including 288 Hyperrectangle(s) and 27 Single(s).

class BIOSYNTHESIS : 455 exemplar(s) including 385 Hyperrectangle(s) and 70 Single(s).

class OTHER : 92 exemplar(s) including 80 Hyperrectangle(s) and 12 Single(s).

class DETOX : 35 exemplar(s) including 31 Hyperrectangle(s) and 4 Single(s).

class ENERGY : 71 exemplar(s) including 64 Hyperrectangle(s) and 7 Single(s).

Total : 968 exemplars(s) including 848 Hyperrectangle(s) and 120 Single(s).

Feature weights : [0.026621704589354037 0.013098001491379322 0.03430947381803635]

Time taken to build model: 1.72 seconds

=== Stratified cross-validation ===

=== Summary ===

Correctly Classified Instances 7822 94.7432 %

Incorrectly Classified Instances 434 5.2568 %

Kappa statistic 0.9076

Mean absolute error 0.021

Root mean squared error 0.145

Relative absolute error 9.2047 %

Root relative squared error 42.9119 %

Total Number of Instances 8256

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class

0.922 0.028 0.927 0.922 0.925 0.947 DEGRADATION

0.965 0.06 0.958 0.965 0.961 0.952 BIOSYNTHESIS

0.929 0.003 0.947 0.929 0.938 0.963 OTHER

0.869 0.001 0.926 0.869 0.897 0.934 DETOX

0.935 0.004 0.939 0.935 0.937 0.966 ENERGY

Weighted Avg. 0.947 0.043 0.947 0.947 0.947 0.952

=== Confusion Matrix ===

Université Paris-Saclay Espace Technologique / Immeuble Discovery Route de l’Orme aux Merisiers RD 128 / 91190 Saint-Aubin, France

Titre : Découverte et exploration de modules conservés de transformations chimiques dans le métabolisme

Mots clés : Métabolisme, Enzymes, Réseaux, Modules conservés

Résumé : La proportion de séquences protéiques dont la fonction est inconnue dans les bases de données publiques est encore très importante (42% de séquences dans UniProt sont étiquetées comme "hypothetical", "uncharacterized", "unknown" ou encore "putative"). D’autre part, de nombreuses d’activités enzymatiques (environ 30%) demeurent orphelines de séquences. L’identification de modules fonctionnels conservés dans le métabolisme est une piste pour améliorer l’annotation fonctionnelle des protéines par la découverte de nouvelles réactions enzymatiques et voies métaboliques. C’est dans ce contexte que s’inscrit mon travail de thèse qui propose une nouvelle représentation d’un réseau métabolique global où les réactions partageant le même type de transformation chimique sont regroupées en signatures moléculaires de réactions (RMS). La signature d’une réaction est la différence des descripteurs moléculaires de signatures stéréochimiques (Carbonell et al. 2013, http://molsig.sourceforge.net) des produits et des substrats qui interviennent dans celle-ci. Ces RMS sont calculées pour toutes les réactions présentes dans au moins une voie métabolique, bien équilibrées et dont substrats et les produits sont identifiés et possèdent une structure moléculaire. Les RMS permettent de classifier les réactions d’une façon automatique et expert-indépendante et ont une couverture plus importante de l’ensemble des réactions enzymatiques que la classification de la Commission Enzymatique (EC numbers). En partant d’un réseau orienté de réactions, les nœuds-réactions partageant la même RMS sont regroupés dans un seul nœud et les arêtes conservent la connectivité initiale entre les réactions. Plusieurs scores sont ensuite calculés pour chaque chemin dans le réseau de RMS dans le but d’évaluer la conservation des voies métaboliques connues et afin d’en découvrir des nouvelles. Le premier de ces scores, le scoreRea, est calculé en utilisant le nombre moyen de réactions par RMS, et représente la conservation chimique des chemins dans tout le métabolisme. Le deuxième, scoreProt, est basé sur le nombre de protéines associées à chaque RMS et reflète la conservation enzymatique du chemin au travers de l’arbre du vivant. Le score suivant, scoreTopo, est basé sur la centralité PageRank et illustre l’importance topologique d’un enchainement de RMS dans le réseau métabolique. La dernière métrique, le Pathway Concervation Index (PCI) est le nombre de chemins de réactions différents parmi les voies métaboliques connues regroupés dans un chemin de RMS et représente la conservation des transformations chimiques dans la partie connue du métabolisme. Les chemins de RMS les plus conservés sont ensuite identifiés pour comprendre le lien entre les différents types de conservation (chimique, enzymatique et topologique) et le type de processus des voies métaboliques (comme la biosynthèse ou la dégradation). Cette représentation du métabolisme possède un potentiel prédictif intéressant et peut être utilisée pour identifier les parties les plus conservées du métabolisme, ainsi que pour découvrir de nouveaux modules métaboliques. De plus, la combinaison des différents scores peut être utilisée pour prédire le rôle métabolique des nouvelles voies en utilisant des approches d’apprentissage artificiel. Associés aux données de contexte génomique comme les opérons, les chemins conservés de transformations chimiques seront un outil utile pour l’annotation fonctionnelle des gènes et de groupes de gènes de fonction inconnue.

Université Paris-Saclay Espace Technologique / Immeuble Discovery Route de l’Orme aux Merisiers RD 128 / 91190 Saint-Aubin, France

Title: Chemical transformation modules discovery and exploration in the metabolism

Keywords: Metabolism, Enzymes, Networks, Conserved modules

Abstract: The proportion of protein sequences of unknown function in public databases stills very important (42% of UniProt sequences are labelled as "hypothetical", "uncharacterized", "unknown" or "putative"). On the other hand, a number of enzyme activities (about 30%) remain orphan (i.e. there is any known sequence that is linked to this activity). Conserved functional modules identification in the metabolism is one of the possible ways to improve protein functional annotation, by discovering new enzyme reactions and new metabolic pathways. It is in this context that has been developed my PhD thesis, proposing a new representation of the global metabolic network, where reactions sharing the same chemical transformation type are grouped in reaction molecular signatures (RMS). A reaction signature is the difference of its products and substrates stereo signatures molecular descriptors involved in this reaction (Carbonell et al. 2013, http://molsig.sourceforge.net). These RMS are computed for all well balanced reactions involved in at least one metabolic pathway, for which all substrates and products are identified and have an available structure. RMS allow reaction classification in an automatic and expert-independent way and a greater coverage of all enzymatic reactions that the classification of the Enzyme Commission (EC numbers). Starting from a directed reaction network, reaction nodes sharing the same RMS are grouped in a single node, and edges conserve the initial connectivity between reactions. Several scores are then computed for each path in the RMS network in order to assess known metabolic pathways conservation and to discover new ones. The first score, scoreRea, is computed using the average reaction number by RMS and represents the chemical conservation of the path in the whole metabolism. The second one, scoreProt, is based on the protein number associated to each RMS and reflects the enzyme conservation of the path through the tree of life. The next score, scoreTopo, is based on the PageRank centrality and depicts the topological importance of an RMS sequence in the metabolic network. The last metric, the Pathway Conservation Index (PCI) is the number of different reaction paths among known metabolic pathways grouped in a same RMS path. It represents the conservation of chemical transformation sequences in the known part of the metabolism. Most conserved RMS paths are next identified in order to understand the linkage between different conservation types (chemical, enzymatic and topologic) and the biological processes type of metabolic pathways (like biosynthesis or degradation). This metabolism representation has an interesting predictive potential and can be used to identify most conserved parts of the metabolism and to discover new metabolic modules. Moreover, combination of different scores can be used to predict the metabolic role of new pathways using machine learning approaches. Conserved paths of chemical transformations associated to genomic context data will be a useful tool for functional annotation of genes and groups of genes of unknown function.

these_maria_sorokina

Documents