etude structure-propriété de la solubilité des molécules...
TRANSCRIPT
- 1 -
ASSET Guillaume Maîtrise de Chimie-Physique
2003-2004
Etude structure-propriété de
la solubilité des molécules
organiques dans l'eau
Laboratoire d'Infochimie UMR 7551 ULP Strasbourg, France
http://infochimie.u-strasbg.fr/
Professeur A. VARNEK
- 2 -
I. INTRODUCTION
La solubilité aqueuse des composés organiques est une propriété particulièrement utile, ayant de très
nombreuses applications dans les domaines pharmaceutique et environnemental parmi toutes les
disciplines chimiques concernées. La solubilité d’un médicament est une propriété importante qui
détermine entre autres sa bioactivité. Dans le processus de synthèse de médicaments, il est essentiel
d’estimer la solubilité d’un grand nombre de candidats avant de commencer l’étape expérimentale.
Une connaissance de la solubilité aqueuse est également indispensable à la prédiction de la répartition
globale des polluants organiques, tels que les composés hautement toxiques et cancérigènes.
Du point de vue thermodynamique, le processus de solvatation est l’établissement d’un équilibre entre
la phase du soluté et sa solution aqueuse saturée. La solubilité aqueuse dépend presque intégralement
des forces intermoléculaires qui existent entre les molécules du soluté et celle de l’eau. Les
interactions adhésives soluté-soluté, soluté-eau et eau-eau déterminent la quantité de composant qui se
dissoudra dans l’eau.
La solubilité d’un composé est dès lors sous l’influence de plusieurs facteurs : l’état du soluté, le degré
relatif d’aromaticité et d’aliphaticité de ces molécules, leur taille et leur forme, leur polarité, leurs
effets stériques et la capacité de certains groupements à produire ou non des liaisons hydrogènes. Dans
le but de prédire la solubilité avec précision, tous ces facteurs sont mis en corrélation avec la
solubilité.
De nombreuses études ont été faites précédemment selon différentes approches. Entre autres : Yaffe et
al. [1], Jurs et al. [2], Ran et al. [3], Klopman et al. [4], Nirmalakhandan et al. [5], Wakita et al. [6],
Suzuki [7], Kuhne et al. [8], Lee et al. [9], Jorgensen & Duffy [10].
L’étude « Yaffe » [1] s’est basée sur l’utilisation de calculateurs de type « réseau de neurones ». Le
grand avantage de ces réseaux est leur capacité à modéliser des relations non linéaires entre les
descripteurs chimiques et les propriétés physicochimiques, sans devoir spécifier a priori la forme
analytique du modèle. Les travaux d’Espinosa et al. [11] suggèrent que l’utilisation d’un classificateur
cognitif Fuzzy ARTMAP améliore sensiblement les statistiques QSPR effectuées par les réseaux de
neurones. L’application de cette technique à un jeu hétérogène de molécules organiques est la méthode
employée dans l’étude [1].
L’étude « Jurs » [2] utilise pour le même objectif une autre utilisation des réseaux neuronaux CNN
(Computational Neural Network), leur associant des modules de régressions linéaires multiples (MLR
– Multiple Linear Regression).
L’étude « Ran » [3] se sert de l’Equation Générale de Solubilité (GSE - General Solubility Equation).
Log S = O.5 – log P – 0.01 * (MP – 25)
avec S la constante de solubilité, P le coefficient de partage octanol/eau, MP le point de fusion (en
degrés Celsius). C’est une méthode simple qui ne nécessite que deux paramètres, alors que d’autres
méthodes en utilisent des centaines parfois. Malgré ce faible nombre de critères entrant en jeu, les
résultats se sont avérés très proches des calculs effectués par réseaux de neurones.
L’objectif de la présente étude est double :
• En utilisant les méthodes « structure-propriété » et les logiciels développés et/ou utilisés au
laboratoire d’Infochimie de l’ULP, il s’agira de développer les modèles QSPR liant la
structure et la solubilité des molécules organiques
• Comparer la performance du logiciel TRAIL avec les méthodes utilisées dans les études Yaffe
et al. [1], Jurs et al. [2], ainsi que Ran et al. [3], qui serviront de base de travail.
- 3 -
II. METHODE
2.1 L’ETUDE Q.S.P.R / Q.S.A.R.
L’objectif d’une étude structure/activité est de définir des corrélations entre des descripteurs adéquats
aux molécules étudiées et une propriété donnée, et ceci fait de créer un outil d’estimation de la dite
propriété chimique via l’outil informatique.
La structure de la molécule est alors le seul paramètre que doit fournir l’utilisateur afin d’obtenir
l’estimation de la propriété désirée. De fait, afin d’être utile et performant, l’outil doit être simple
d’utilisation, rapide, et surtout précis ; et tout cela pour la plus vaste gamme de composés possible.
L’avantage évident est le gain de temps pour l’expérimentateur qui peut ainsi définir les molécules
utilisera dans ses manipulations en ayant connaissance d’une approximation des résultats qu’il
obtiendra. Il n’est dès lors pas surprenant que l’application des procédés QSPR/QSAR (Quantitative
Structure-Property/Activity Relationships) marqua un tournant dans la recherche pharmaceutique par
exemple, en permettant de prédire in silico l’efficacité d’une molécule sans avoir besoin de la
synthétiser (voir figure 1).
Les études QSPR/QSAR étant avant tout des analyses statistiques, l’une des étapes absolument
capitales est celle de la sélection des données initiales. En effet, étant donné que les logiciels calculent
des corrélations entre la structure et la propriété expérimentale, il ne faut en aucun cas que les résultats
reposent sur des données expérimentales erronées, auquel cas c’est l’intégralité du prédicteur qui est à
remettre en cause. De ce fait, il est indispensable de sélectionner, pour construire les jeux de molécules
« souches », un panel de structures représentatif du phénomène à modéliser. De même, la taille de ces
jeux est idéalement la plus grande possible, et ce afin d’obtenir de meilleurs résultats statistiques.
Le second point capital est le choix des descripteurs moléculaires utilisés. Deux approches ont été
formulées, à savoir celle de Hanch et celle de Free-Wilson. Dans la première, élaborée en 1969, le
professeur Hanch fournit pour la première fois une équation reliant une activité biologique avec des
descripteurs moléculaires physico-chimiques (à l’époque, les paramètres de lipophilie [logP] et les
caractéristiques électroniques et stériques). Les équations dérivées de cette méthode sont de type :
Propriété = a0 + ΣΣΣΣ ai*Di où Di correspond à la valeur du descripteur i, et a0, ai correspondant aux coefficients associés à
l’équation. Cette équation est une fonction continue, et Di appartient à l’ensemble des réels.
MODELISATIONMODELISATIONMODELISATIONMODELISATION
QSARQSARQSARQSAR ---- QSPRQSPRQSPRQSPR
Données expérimentales
Tests
Base de données
Système Expert
Module
Combinatoire
APPRENTISSAGE : Test du Modèle
Etape de criblage
Composés « chefs de file »
{1}{1}{1}{1}
{2}{2}{2}{2} {3}{3}{3}{3}
{4}{4}{4}{4} {5}{5}{5}{5}
{6}{6}{6}{6}
{7}{7}{7}{7}
EXPERIENCE
Figure 1 : étapes du processus de conception « in silico » de composés aux propriétés définies {1} Un ensemble de données expérimentales est assemblé pour constituer une base de données. Un « système expert » sélectionne une partie de ces
données {2} et établit des corrélations entre structure et propriété {3}. On peut à ce niveau utiliser un module de chimie combinatoire pour utiliser les
résultats de cette modélisation afin de générer une chimiothèque virtuelle : cette dernière pourra être par la suite soumise à une étape de criblage {4}
afin d’en extraire les composés « chefs de file » {5}, c’est-à-dire ceux ayant les propriétés les plus intéressantes, et dont les structures peuvent être alors
être testées et utilisées à leur tour comme point de départ de nouvelles expérimentations {6}. L’ensemble {7} formé par le Système Expert et le module
combinatoire est développé au laboratoire d’Infochimie de l’ULP dans le cadre du projet ISIDA [12]
- 4 -
Directement opposable à cette dernière, l’approche Free-Wilson s’attache à calculer la contribution de
chaque fragment constitutif de la molécule à la propriété étudiée, plutôt que de considérer les
descripteurs comme se référant à l’intégralité de la structure. Une molécule est ainsi découpée en une
collection de petits fragments (successions d’atomes et/ou des liaisons entre eux), et la propriété vaut
donc la somme des contribution de chacun des fragments.
Propriété = a0 + ΣΣΣΣ ai*Ni où Ni correspond au nombre de fragments de type i (donc N prendra des valeurs positives entières ou
nulles), et a0, ai correspondant aux coefficients associés à l’équation.
2.2 LA METHODE S.M.F. & LE LOGICIEL « TRAIL »
Le logiciel TRAIL, utilisé au cours de cette étude, est développé depuis 1998 par le docteur V.
Solov’ev (Russian Academy of Sciences) et le professeur A. Varnek (Université Louis Pasteur,
Strasbourg, France). Se basant sur la méthode SMF (Substructural Molecular Fragments) dérivée de
l’approche Free-Wilson, elle s’attache à découper les molécules du jeu étudié en fragments, puis
calcule la contribution de chacun de ces fragments à la propriété étudiée. Dès lors, le logiciel peut
prédire cette dernière pour des composés-tests simplement en découpant de la même manière ces
molécules en fragments et en utilisant les contributions calculées selon leur nature et nombre.
Deux types de fragmentations existent dans cette méthode : les séquences de 2 à 6 éléments (les
atomes A, les liaisons B, ou les atomes et liaisons AB) qui représentent la catégorie I ; et les atomes
unis, ou « augmented atoms » (catégorie II) , représentant l’environnement de l’atome au niveau des
atomes voisins (A), liaisons (B), des deux (AB) ou de l’hybridation des atomes du type A (Hy). (voir
annexe 1)
Une fois le jeu de molécules découpé en une série de fragments constitutifs, la valeur de la propriété
étudiée pour une molécule est calculée via les fragments utilisés pour constituée cette dernière, et ce
en utilisant des équations d’ajustement linéaires (0 et 1) ou non linéaires (2 et 3).
(0) Propriété = ΣΣΣΣ ai*Ni + ΓΓΓΓ
(1) Propriété = a0 + ΣΣΣΣ ai*Ni + ΓΓΓΓ
(2) Propriété = a0 + ΣΣΣΣ ai*Ni + ΣΣΣΣ bi * (2 * Ni² - 1) + ΓΓΓΓ
(3) Propriété = a0 + ΣΣΣΣ ai*Ni + ΣΣΣΣ bik * Ni * Nk + ΓΓΓΓ
où ai , bi (bik) sont les contributions des fragments, Ni le nombre de fragments du type i dans la
molécule étudiée. Le terme a0 est un fragment indépendant ; ai , bi (bik) sont les mêmes pour toutes les
molécules comportant le fragment dont il est question (et c’est la base même de cette méthode). Un
terme additionnel Γ Γ Γ Γ peut être utilisé pour décrire une particularité du composé (topologique,
électronique, …). Par défaut, ΓΓΓΓ = 0.
Au total on arrive donc à 49 fragmentations possibles, couplées à 4 équations d’ajustement , pour
former un total de 196 modèles possibles. L’exploitation de TRAIL se fait en deux étapes :
• La phase d’apprentissage génère donc 196 modèles et les utilise pour calculer les
contributions de chaque fragment, et en déduit les paramètres statistiques de chaque modèle
appliqué au jeu d’apprentissage
• La phase de prédiction utilise les modèles sélectionnés pour estimer la valeur de la propriété
pour les molécules du jeu de test
2.3 CRITERES DE SELECTION D’UN MODELE Q.S.P.R.
Un modèle est une équation multilinéaire de corrélation reliant des coefficients (a0 … ai) aux critères
(descripteurs Di ou nombre de molécules Ni) qui leur sont associés. Connaissant les dits critères pour
un composé, l’équation nous permet aisément de calculer une approximation de la propriété
concernée. Pour réaliser un tel modèle, il faut partir d’un jeu de composés initial comprenant
- 5 -
structures et valeurs expérimentales associées, que l’on fournira au logiciel : dès lors, naturellement,
ce jeu de données est appelé « jeu d’apprentissage » (learning set).
Plusieurs modes de calculs de corrélations existent, mais nous utiliserons pour notre part une méthode
MLR (Multi-Linear Regression). Les meilleurs modèles QSPR sont sélectionnés en se basant selon
certains des critères statistiques de leur analyse (voir annexe 2) : le coefficient de corrélation R (et son
carré essentiellement), l’écart type s, le coefficient de Fischer F et le coefficient de corrélation croisée
Q². Les trois premiers paramètres ont trait à l’ajustement des valeurs calculées et expérimentales : ils
transcrivent la capacité prédictive dans les limites du modèle, et permettent d’estimer la précision des
valeurs calculées sur le jeu d’apprentissage. Le dernier critère, Q², concerne lui la capacité prédictive à
l’extérieur du modèle, et donc permet de juger de la capacité prédictive du modèle.
Chaque modélisation repose sur le nombre de descripteurs pertinents k utilisés par ce dernier. Une
règle empirique apparaît dans la littérature, selon laquelle le nombre maximal de descripteurs utilisés
devrait idéalement être de l’ordre du cinquième (ou moins) du nombre de composés dans le jeu
d’apprentissage.
On considèrera que pour un jeu d’apprentissage, un modèle est jugé performant si les deux critères
d’acceptation R²>0.8 et Q²>0.6 sont remplis. Pour la phase de tests, on augmentera encore les
critères : R²>0.8 et Q²>0.7, en apportant un soin tout particulier à l’écart type qui doit être le plus petit
possible. Nous nous imposons ainsi des critères de sélection plus sévères que les règles empiriques
formulées par Golbraikh et Tropsha [13] qui servent de référence et dans lesquelles on pose R²>0.6 et
Q²>0.5.
On procédera également aux deux dernières conditions de ces règles empiriques :
1. Les coefficients de corrélation R0² et R’0² doivent être proches de R², soit [ (R²- R0²) / R² ] <
0.1 ou [ (R²- R’0²) / R² ] < 0.1
2. Les pentes k et k’ doivent se situer entre 0.85 et 1.15
Ici, R0 et R’0 sont respectivement les coefficients de corrélation des régressions linéaires des droites
suivantes passant par l’origine, et k et k’ leurs pentes respectives:
• Ycalc = k * Yexp (R0²)
• Yexp = k’ * Ycalc (R’0²)
III. RESULTATS
3.1 PREPARATION & ANALYSE DU JEU DE DONNEES INITIAL
La première étape de la conception d’un tel modèle consiste en la création d’une base de données
recensant la solubilité aqueuse de plus d’un millier de composés organiques. Pour cela on a entré dans
cette base les résultats expérimentaux de logS tirées des trois études [1], [2] et [3] constituant ainsi 4
collections de molécules. Il est nécessaire d’effectuer un pré-traitement des données avant de démarrer
la partie calculatoire :
• Sélection des duplicats,
• Elimination des données aberrantes,
• Traitement des isomères optiques.
Il sera également nécessaire de normaliser la nature des liaisons (problème de l’aromaticité).
Chacune des trois bases de données (issues des publications précédentes) réalisées avec le logiciel
ChemFinder a été exportée vers le tableur Excel. Chaque valeur de logS a été vérifiée une fois encore
à partir de la publication originale, et ce afin de corriger les erreurs commises lors de la saisie initiale
des données. La compatibilité des gammes MS Office et ChemOffice permet de plus d’éditer depuis le
tableur les structures moléculaires conçues via ChemDraw et associées à chaque entrée.
- 6 -
On exporte les données de chaque fichier Excel sous le format .SDF. Sous le logiciel ChemFinder il
est possible d’importer les fichiers de ce format afin de créer directement une nouvelle base de
données avec ces résultats. On importe alors successivement les trois bases précédentes et l’on obtient
au final une collection de 1324 entrées. Néanmoins, parmi ces valeurs se trouvent des duplicats, à
savoir des structures qui furent utilisées dans plusieurs publications. Il faut repérer ces duplicats et
ensuite pour chaque cas définir ce que nous allons en faire : dans le cas où les résultats expérimentaux
sont comparables, il faut choisir (souvent arbitrairement) quel résultat sera conservé dans le jeu global
des molécules. Dans les cas où au contraire les résultats sont différents de plusieurs dixièmes d’unité
de logarithme, et n’ayant aucun moyen de savoir laquelle de ces deux (ou trois) valeurs est la plus
proche de la vérité, on exclura la totalité des mesures pour cette structure. De même, le logiciel TRAIL
que nous allons utiliser pour analyser ces structures ne tient pas compte de la stéréochimie des
composés, alors les isomères optiques sont à considérer comme étant des molécules identiques. En
procédant ainsi on constitue aisément une collection de 1092 molécules organiques avec la valeur
expérimentale de leur solubilité aqueuse.
Un soin tout particulier est accordé aux structures aromatiques ; en effet la succession et la nature des
liaisons étant un paramètre décisif (TRAIL se base en partie sur leur nature et leur séquence
d’enchaînement), il est nécessaire de préciser la nature particulière des liaisons d’un cycle benzénique
par exemple. Afin de ne pas devoir éditer chaque molécule une par une, le logiciel TRAIL possède une
fonction de normalisation des liaisons à partir d’un fichier template (en français, « modèle ») que nous
allons réalisons.
Ce fichier au format .SDF est une collection des différentes structures aromatiques que l’on trouve
dans la base de données constituée plus haut, à ceci près qu’il fait reproduire chaque structure autant
de fois qu’il existe de moyens d’organiser les liaisons simples et doubles dans une représentation de
Kekulé. Cela devient beaucoup plus long et capital dans le cas de structures aromatiques polycycliques
très grandes. Il est difficile d’être exhaustif, tant le nombre des possibilités est important, mais
néanmoins 125 structures différentes ont pu être saisies dans notre cas. Autre précaution d’usage, il
convient d’éditer ce fichier via Excel afin de s’assurer que les groupements aromatiques soient classés
par ordre décroissant de grandeur, afin qu’ils soient les premiers avec lesquels sont comparées les
structures, de telle façon que les molécules très vastes ne soient pas normalisées par parties
uniquement.
Via TRAIL, on normalise le fichier .SDF de la base de données
en utilisant le .SDF du template avec le paramètre
« aromatique ». Dès lors, on peut constater que tous les
fragments reconnus par TRAIL dans le fichier de la base de
données comme étant répertoriés dans le template sont
remplacés par des structures aromatiques (cf fig 2)
Les molécules concernées mais qui n’auront pas été, ou pas
complètement été, normalisées (absence de la structure dans le
template ou autre raison) peuvent encore l’être manuellement
via la fonction SDFeditor accessible depuis le logiciel.
3.2 CALCULS
A présent il faut utiliser la procédure Batch du programme TRAIL afin de sélectionner la catégorie de
fragment considéré qui sera le plus approprié, ainsi que le type d’équation d’ajustement. Pour chacun
de ces quatre jeux de données (les trois « partiels » et le « global »), la collection de structures sera
découpée en fragments et analysée.
TRAIL permet optionnellement d’éliminer les molécules ayant des « fragments rares », c’est-à-dire
ceux qui apparaissent dans moins de m molécules (m étant un paramètre ajustable). Les résultats des
tests effectués dans le laboratoire montrent que l’augmentation de m mène aux modèles QSPR plus
Figure 2 : exemple de normalisation
ou
AVANT NORMALISATION
APRES NORMALISATION
- 7 -
robustes. D’autre part le nombre de molécules éliminées du jeu d’apprentissage augmente également
sensiblement avec m. ici nous présenterons deux séries de calcul, correspondant à m=1 (toutes les
molécules étant considérées) et m=2 (on retirera donc les molécules contenant des fragments qui ne
sont présents qu’à un seul exemplaire, dans l’ensemble du jeu d’apprentissage).
On peut alors lancer les « Batch » avec TRAIL. Ce mode donne une liste de tous les modèles sauf ceux
pour lesquels le nombre de fragments (donc de variables) le nombre de données dans le jeu
d’apprentissage, ainsi que leurs paramètres statistiques. Une fois terminées, nous sommes en
possession d’une analyse de chaque modèle possible présentant également entre autres le nombre de
molécules considérées par ce modèle ainsi que certains de ses paramètres statistiques (critère de
Fischer, etc…) et surtout le coefficient de corrélation R (dans le fichier de sortie, les modèles sont
classés par R décroissant).
Pour le jeu global, les calculs ont été effectués en deux étapes :
1. Les modèles ont été développés pour le jeu initial
2. Le jeu initial a été partagé en deux sub-sets : le jeu d’apprentissage (training set) et le jeu de
test (test set).
Le jeu de test a té préparé selon les recommandations de l’OPRA : il comporte 10% du nombre total
des molécules du jeu d’apprentissage, réparties proportionnellement aux valeurs expérimentales.
Le logiciel Diva (édité chez Accelrys) permet d’analyser très vite un tableau de données et de les
classer en catégories en fonction d’un critère ; ici, ce sera logS. On obtient alors aisément pour chaque
jeu de données un histogramme de répartition des molécules en fonction de la valeur de logS, et ce
selon 10 tranches de valeur. On fait alors pour chaque base une sélection de molécules représentant
environ 10% du nombre total, réparties dans chaque catégorie proportionnellement à l’importance de
celle-ci ; on repère numéro correspondant à chacune d’elle afin de pouvoir les identifier par la suite.
3.2.1 CALCULS SUR LES TROIS JEUX DES PUBLICATIONS
3.2.1.1 JEU RAN
Les molécules de ce jeu couvrent une gamme de logS comprise entre –10.41 et +1.47 unités de
logarithme. On y trouve majoritairement des composés polycycliques, et des édifices organiques
complexes (stéroïdes) mais le panel de structures est vaste. Parmi les hétéroatomes représentés on y
trouve beaucoup d’azote, d’oxygène, d’halogènes et de soufre.
Frag type Eq n k R² Q² F FIT s Spress
RAN II(Hy) 1 244 124 0.942 0.695 15.510 0.123 0.773 1.982
N=338 I(AB,2-4) 1 281 138 0.939 0.596 15.953 0.115 0.760 2.144
m=2 II(AB) 1 302 95 0.907 0.803 21.489 0.221 0.789 1.220
I(A,2-5) 1 301 120 0.895 0.683 12.792 0.104 0.898 1.674
I(AB,2-5) 1 196 156 0.989 0.728 23.655 0.150 0.553 -
I(A,2-6) 1 272 153 0.944 0.790 13.015 0.084 0.789 1.943
Frag type Eq n k R² Q² F FIT S Spress
RAN II(Hy) 1 338 250 0.951 0.404 6.711 0.027 0.904 -
N=338 I(AB,2-4) 1 338 243 0.943 0.463 6.371 0.026 0.937 5.961
m=1 II(AB) 1 338 139 0.910 0.795 14.439 0.102 0.809 1.331
I(A,2-5) 1 338 181 0.899 0.624 7.701 0.042 0.965 2.309
I(AB,2-5) 1 (*)
I(A,2-6) 1 338 275 0.949 0.748 4.193891 0.015183 1.089 -
Tableau 1 : modèles testés pour le jeu Ran N : nombre de structures du jeu – m : critère de sélection des « fragments rares » - Frag type : type de fragmentation – Eq : équation d’ajustement – n :
nombre de structures retenues par le logiciel – k : nombre de variables (fragments) utilisés pour ce modèle – R² : coefficient de corrélation carré – Q² :
coefficient de validation croisée – F : coefficient de Fischer – FIT : critère de Kubinyi – s : écart-type –Spress : déviation standard des erreurs de
prédiction
(*) – Trop de variables pour réaliser une équation appropriée
- 8 -
Le balayage des différents modèles, ou Batch, nous
fournit les critères statistiques de chaque modèle testé
(voir annexe 3). En raison de leurs valeurs et en
appliquant les critères cités en amont, nous
effectuons une première sélection de modèles.
On lance ensuite les modélisations individuelles pour
chaque association d’un type de fragmentation et
d’une équation d’ajustement qui a été
présélectionnée. On effectue pour chaque modèles en
vérité deux calculs, pour m=1 et m=2.
Au vu de ces résultats, on peut déjà éliminer quelques
modèles supplémentaires en se basant sur le besoin
de stabilité. En effet, un modèle idéal doit avoir des
performances comparables quel que soit le
composition du jeu de données ainsi que sa taille.
Le modèle I(AB,2-5) associé à l’équation
d’ajustement 1 (linéaire) est impossible à réaliser si
l’on prend en compte la totalité du jeu, en raison d’un
trop grand nombre de fragments par rapport au
nombre de molécules : nous le rejetons donc de notre
sélection. Les modèles II(Hy) [eq 1] et I(AB,2-4) [eq
1] voient leur coefficient de validation croisée (Q²)
diminuer considérablement lorsque l’on prend en
compte la totalité des molécules (baisse d’environ
40% pour II(Hy) associé à l’équation 1). Instables,
nous devons également les retirer à présent. De ces
six modèles nous n’en garderons donc que trois pour
la suite de l’élaboration du prédicteur, même si les
trois autres restent valables pour le jeu de la
publication. Nous comparerons plus loin les résultats
obtenus par nos différentes méthodes.
Le deux modèles réalisé à partir de la moyenne des
modèles retenus (selon la valeur de m) sont ensuite
passés au test de Golbraikh et Tropsha (cf tableau 2).
Les paramètres calculés sont en accord avec les
règles empiriques, ces modèles sont donc considérés
comme étant robustes et performants (cf fig 3).
3.2.1.2 JEU JURS
Ce jeu de molécules représente une gamme de
composés allant des structures simples (i.e alcools et
amines) jusqu’aux stéroïdes et aux molécules
médicamenteuses ne comportant que de l’oxygène et
de l’azote en guise d’hétéroatomes. La gamme de
logS couverte par ces molécules va de –8.77 à +1.57
unités de logarithme.
y = 1.0274x + 0.0788
R2 = 0.968
N = 338
s = 0.372
-11
-9
-7
-5
-3
-1
1
-11 -9 -7 -5 -3 -1 1
logS exp
logS calc
y = 0,9165x - 0,2461
R2 = 0,935
N = 319
s = 0,511
-10.5
-8.5
-6.5
-4.5
-2.5
-0.5
1.5
-11 -9 -7 -5 -3 -1 1
logS exp
logS calc
y = 0,9248x - 0,259
R2 = 0,8904
N = 338
s = 0,685
-10.5
-8.5
-6.5
-4.5
-2.5
-0.5
1.5
-11 -9 -7 -5 -3 -1 1
logS exp
logS calc
Figure 3 : modélisation et comparaison du jeu Ran
{3.1} Moyenne des modèles retenus pour m=1 et réalisés sans t-test
- {3.2} Moyenne des modèles retenus pour m=2 et réalisés sans t-
test- {3.3} Modélisation réalisée à partir des résultats publiés de
l’étude considérée.
RAN m = 1 m = 2
R² 0.968 0.935
R0 0.982 0.964
R’0 0.983 0.935
k 0.980 0.972
k’ 1.009 1.005
[ ( R²- R0²) / R² ] 0.003 0.006
[ ( R²- R’0²) / R² ] 0.002 0.065
Tableau 2 : résultats du test de Golbraikh & Tropsha
pour les modèles moyens du jeu Ran
{3.1}
{3.2}
{3.3}
- 9 -
Le balayage des modèles se révèle peu concluant
pour cette collection de molécules, aucun modèle
ne révélant de critères statistiques véritablement
performant (voir annexe 3). Seul un modèle,
I(A,2-5) associé à l’équation d’ajustement 2 (non-
linéaire), nous donne des paramètres convenables.
On ne peut guère se prononcer sur les capacités
prédictives de ce seul et unique modèle pour
d’autres molécules, car le coefficient de validation
croisée Q² n’a pu être calculé par le logiciel
TRAIL. Néanmoins il est possible de se prononcer
sur la performance de la prédiction « interne » car
les paramètres prédictifs intrinsèques sont bel et
bien calculés. A première vue cette modélisation
confirme les résultats peu idéaux obtenus lors de la
procédure de Batch, en cela que R² a une valeur
tout à fait performante dans chacun de ces deux
calculs, et que les écarts-type (s) sont dans chaque
cas élevés alors qu’ils rendent compte de la
différence entre valeurs expérimentales et valeurs
prédites. Néanmoins cela reste acceptable.
De plus ce modèle passe tout de même les critères
de Golbraikh et Tropsha si m=1, ce qui est un
critère de performance et de justesse. Dans le cas
où m=2, le retrait des fragments rares entraîne en
toute logique une modification des paramètres
statistiques qui dans ce cas précis agit contre la
performance du modèle : le test n’est plus passé.
(cf tab 4) Néanmoins les valeurs 0.115 et 0.11 des
écarts entre les coefficients de corrélation avant et
après ajustement sont proches de la valeur limite
Frag type Eq n k R² Q² F FIT s Spress
JURS I(A,2-5) 2 322 158 0.914 - 11.027 0.069 0.7488 25.541
N=346
m=2
Frag type Eq n k R² Q² F FIT S Spress
JURS I(A,2-5) 2 346 238 0.921 - 5.252 0.022 0.924 37.727
N=346
m=1
Tableau 3 : modèles testés pour le jeu Jurs N : nombre de structures du jeu – m : critère de sélection des
« fragments rares » - Frag type : type de fragmentation – Eq :
équation d’ajustement – n : nombre de structures retenues par le
logiciel – k : nombre de variables (fragments) utilisés pour ce
modèle – R² : coefficient de corrélation carré – Q² : coefficient de
validation croisée – F : coefficient de Fischer – FIT : critère de
Kubinyi – s : écart-type – Spress : déviation standard des erreurs
de prédiction
y = 0.903x - 0.2086
R2 = 0.902
N = 346
s = 0.545
-9
-7
-5
-3
-1
1
-9 -7 -5 -3 -1 1
logS exp
logS calc
y = 0,8982x - 0,2202
R2 = 0,899
s = 0,551
N = 322
-8.5
-6.5
-4.5
-2.5
-0.5
1.5
-9.5 -7.5 -5.5 -3.5 -1.5 0.5
logS exp
logS calc
y = 0,9007x - 0,2386
R2 = 0,859
s = 0,659
N = 346
-9
-7
-5
-3
-1
1
-9.5 -7.5 -5.5 -3.5 -1.5 0.5
logS exp
logS calc1
y = 0,9073x - 0,1911
R2 = 0,868
s = 0,647
N = 346
-9
-7
-5
-3
-1
1
-9.5 -7.5 -5.5 -3.5 -1.5 0.5
logS exp
logS calc2
Figure 4 : modélisation et comparaison du jeu Jurs
{4.1} Modèle I(A,2-5)-eq2, m=1 et réalisé sans t-test - {4.2} Modèle
I(A,2-5)-eq2, m=2 et réalisé sans t-test - {4.3} et {4.4} Modélisations
réalisées à partir des résultats publiés de l’étude considérée.
JURS m = 1 m = 2
R² 0.902 0.899
R0 0.947 0.892
R’0 0.950 0.899
k 0.959 0.958
k’ 1.001 1.000
[ ( R²- R0²) / R² ] 0.006 0.115
[ ( R²- R’0²) / R² ] -0.001 0.101
Tableau 4 : résultats du test de Golbraikh &
Tropsha pour le modèle I(A,2-5)-eq2 appliqué au jeu
Jurs
{4.1}
{4.2}
{4.3}
{4.4}
- 10 -
0.100 ; cela nous conforte dans l’idée qu’à défaut
d’être un modèle QSPR robuste, I(A,2-5)-eq2
reste le plus approprié pour cette étude et donne
tout de même une meilleure précision que celle
de la méthode utilisée par les auteurs (cf fig 4).
3.2.1.3 JEU YAFFE
On trouve dans ce jeu une grande proportion de
molécules aromatiques polycycliques dont
beaucoup sont halogénées. Il y a également
beaucoup d’ethers, d’hydrocarbures halogénés et
de variations autour d’un squelette benzénique,
donnant au final une gamme de logS couvrant de
-11.62 à 1.54 unités de logarithme.
L’homogénéité du type de molécules
(répartissables en quelques grandes classes) du
jeu issue de cette publication nous conduit sans
surprise à des résultats préliminaires plus que
corrects (voir annexe 3). Près d’une vingtaine de
modèles nous produisent en effet des résultats
particulièrement probants (R²>0.9 , Q²>0.9 ,
s<0.7).
Beaucoup de modèles auraient pu être choisis
tant leurs performances sont comparables, mais
quatre ont été sélectionnés parmi les plus
compétitifs afin de pousser en avant les tests :
Frag type Eq n k R² Q² F FIT s Spress
YAFFE I(AB,2-6) 1 384 130 0.975 0.938 76.863 0.578 0.483 0.798
N=475 I(AB,2-5) 1 417 118 0.974 0.936 94.171 0.775 0.481 0.761
M=2 I(AB,2-4) 1 431 82 0.963 0.939 110.065 1.261 0.537 0.699
II(Hy) 1 419 86 0.960 0.943 92.228 1.015 0.573 0.715
Frag type Eq n k R² Q² F FIT s Spress
YAFFE I(AB,2-6) 1 475 226 0.980 0.936 53.065 0.233 0.491 1.012
N=475 I(AB,2-5) 1 475 118 0.973 0.936 94.171 0.775 0.481 0.761
m=1 I(AB,2-4) 1 475 175 0.977 0.966 70.539 0.397 0.483 0.861
II(Hy) 1 475 151 0.963 0.939 55.775 0.362 0.581 0.791
Tableau 6 : modèles testés pour le jeu Yaffe N : nombre de structures du jeu – m : critère de sélection des « fragments rares » - Frag type : type de fragmentation – Eq : équation d’ajustement –
n : nombre de structures retenues par le logiciel – k : nombre de variables (fragments) utilisés pour ce modèle – R² : coefficient de corrélation carré
– Q² : coefficient de validation croisée – F : coefficient de Fischer – FIT : critère de Kubinyi – s : écart-type – Spress : déviation standard des
erreurs de prédiction
{X.4}
y = 0.8483x - 0.437
R2 = 0.853
N = 475
s = 0.878
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
6
y = 0,9617x - 0,1027
R2 = 0,967
N = 455
s = 0,447
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
l ogS exp
y = 0,9899x - 0,0276
R2 = 0,9771
N = 455
s = 0,3789
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
Figure 5 : modélisation et comparaison du jeu Yaffe
{5.1} Moyenne des modèles retenus pour m=1 et réalisés sans t-test -
{5.2} Moyenne des modèles retenus pour m=2 et réalisés sans t-test-
{5.3} Modélisation réalisée à partir des résultats publiés de l’étude
considérée.
YAFFE m = 1 m = 2
R² 0.853 0.967
R0 0.913 0.985
R’0 0.924 0.985
k 0.935 0.984
k’ 1.002 1.003
[ ( R²- R0²) / R² ] 0.023 -0.003
[ ( R²- R’0²) / R² ] -0.001 -0.003
Tableau 5 : résultats du test de Golbraikh &
Tropsha pour les modèles moyens du jeu Yaffe
{5.1}
{5.2}
{5.3}
- 11 -
I(AB,2-4) eq1, I(AB,2-5) eq1, I(AB,2-6) eq1 et II(Hy) eq1 (cf tab 6). On notera au passage la forte
préférence pour les modèles retranscrivant des séquences longues, traduisant bien la complexité des
édifices moléculaires contenus dans ce jeu de données. En comparant ces données, les résultats se
confirment : non seulement ces quelques modèles sont très performants (R²>0.96 , Q²>0.93 , s<0.6),
mais ils sont également très stables (paramètres quasi-identiques avec que sans fragments rares). Les
résultats très probants obtenus après le test de Golbraikh et Tropsha (cf tab 5) confirment cette
exactitude et cette très haute performance de prédictibilité des modèles moyens réalisés à partir des
modèles présélectionnés (cf fig 5).
3.2.2 CALCULS SUR LE JEU COMPLET
1092 structures composent le jeu global, rassemblant les données des trois publications, balayant une
gamme de logS allant de –11.62 à 1.57 unités de logarithme. La grande diversité de molécules
organiques contenues dans ce jeu entraîne un grand nombre de fragments possibles, donc un nombre k
de variables conséquent qui peut entraîner des écarts importants en ce qui concerne la validité hors-
gamme : afin de limiter cet effet nous utiliserons donc en plus la procédure t-test (cf annexe 2) qui
limitera cet inconvénient.
A l’issue des quatre procédures BATCH lancées (pour m=1 et m=2, à chaque fois en appliquant ou pas
le t-test), trois modèles sont présélectionnés en raison de leurs résultats : II(Hy) eq0, I(AB,2-4) eq0 et
I(AB,2-5) eq0 (cf annexe 4). Douze modélisations ont ainsi été réalisées (cf tab 7 & annexe 5). Dans
chaque cas, le test de Golbraikh et Tropsha a été passé avec succès, les paramètres calculés montrant
même une bonne corrélation, les pentes k et k’ étant très proches de l’unité (cf tab 9).
Frag Type Eq n k R² Q² F FIT s Spress
TOTAL II(Hy) (a) 1092 346 0.877 0.756 15.363 0.044 0.945 1.406
N=1092 I(AB,2-4) (a) 1092 322 0.882 0.744 17.864 0.055 0.911 1.394
m=1 I(AB,2-5) (a) 1092 589 0.934 0.663 12.054 0.020 0.844 2.334
Frag Type Eq n k R² Q² F FIT s Spress
TOTAL II(Hy) (a) 972 206 0.868 0.782 24.481 0.117 0.933 1.229
N=1092 I(AB,2-4) (a) 1012 201 0.876 0.764 28.609 0.140 0.888 1.249
m=2 I(AB,2-5) (a) 939 304 0.930 0.681 27.846 0.091 0.738 1.654
Frag Type Eq n k R² Q² F FIT s Spress
TOTAL II(Hy) (a) 1092 74 0.849 0.807 78.593 0.893 0.894 1.036
N=1092 I(AB,2-4) (a) 1092 80 0.862 0.822 79.756 0.859 0.860 0.661
m=1, t-test I(AB,2-5) (a) 1092 179 0.917 0.860 56.452 0.307 0.702 0.944
Frag Type Eq n k R² Q² F FIT s Spress
TOTAL II(Hy) (a) 972 66 0.855 0.820 82.182 1.028 0.898 1.017
N=1092 I(AB,2-4) (a) 1012 70 0.866 0.913 86.990 1.030 0.856 0.966
m=2, t-test I(AB,2-5) (a) 939 70 0.918 0.852 75.056 0.579 0.705 0.969
Tableau 7 : modèles testés pour le jeu global N : nombre de structures du jeu – m : critère de sélection des « fragments rares » - Frag type : type de fragmentation – Eq : équation d’ajustement –
n : nombre de structures retenues par le logiciel – k : nombre de variables (fragments) utilisés pour ce modèle – R² : coefficient de corrélation carré
– Q² : coefficient de validation croisée – F : coefficient de Fischer – FIT : critère de Kubinyi – s : écart-type – Spress : déviation standard des
erreurs de prédiction - (a) = 0
Frag Type Eq n k R² Q² F FIT s Spress
TOTAL II(Hy) (a) 875 191 0.871 0.796 24.302 0.125 0.924 1.204
N=982 I(AB,2-4) (a) 916 192 0.880 0.806 27.719 0.142 0.879 1.146
m=2 I(AB,2-5) (a) 851 290 0.929 0.709 25.219 0.086 0.756 1.601
Frag Type Eq n k R² Q² F FIT s Spress
TOTAL II(Hy) (a) 875 61 0.858 0.824 81.967 1.099 0.889 1.013
N=982 I(AB,2-4) (a) 916 64 0.864 0.829 86.241 1.112 0.860 0.983
m=2, t-test I(AB,2-5) (a) 851 104 0.917 0.863 79.643 0.716 0.708 0.924
Tableau 8 : modèles testés pour le jeu global (phase de test) N : nombre de structures du jeu – m : critère de sélection des « fragments rares » - Frag type : type de fragmentation – Eq : équation d’ajustement –
n : nombre de structures retenues par le logiciel – k : nombre de variables (fragments) utilisés pour ce modèle – R² : coefficient de corrélation carré
– Q² : coefficient de validation croisée – F : coefficient de Fischer – FIT : critère de Kubinyi – s : écart-type – Spress : déviation standard des
erreurs de prédiction
- 12 -
SANS T-TEST I(AB,2-4)-0
M = 1
I(AB,2-5)-0
M = 1
II(Hy)-0
M=1
R² 0.882 0.934 0.877
R0 0.936 0.956 0.931
R’0 0.939 0.966 0.936
k 0.953 0.974 0.951
k’ 1.000 1.000 1.000
[ ( R²- R0²) / R² ] 0.007 0.021 0.012
[ ( R²- R’0²) / R² ] 0.006 0.001 0.001
SANS T-TEST I(AB,2-4)-0
M = 2
I(AB,2-5)-0
M = 2
II(Hy)-0
M=2
R² 0.876 0.930 0.867
R0 0.933 0.963 0.925
R’0 0.936 0.964 0.931
k 0.950 0.971 0.947
k’ 1.000 0.999 1.010
[ ( R²- R0²) / R² ] 0.006 0.003 0.013
[ ( R²- R’0²) / R² ] 0.002 0.001 0.000
AVEC T-TEST I(AB,2-4)-0
M = 1
I(AB,2-5)-0
M = 1
II(Hy)-0
M=1
R² 0.862 0.917 0.849
R0 0.923 0.956 0.913
R’0 0.928 0.957 0.922
k 0.945 0.967 0.940
k’ 1.000 1.000 0.999
[ ( R²- R0²) / R² ] 0.011 0.003 0.018
[ ( R²- R’0²) / R² ] 0.001 0.001 -0.001
AVEC T-TEST I(AB,2-4)-0
M = 2
I(AB,2-5)-0
M = 2
II(Hy)-0
M=2
R² 0.882 0.917 0.877
R0 0.936 0.956 0.931
R’0 0.939 0.958 0.936
k 0.953 0.9668 0.951
k’ 0.997 1.000 0.979
[ ( R²- R0²) / R² ] 0.208 0.003 0.011
[ ( R²- R’0²) / R² ] 0.000 0.002 0.009
Tableau 9 : résultats du test de Golbraikh & Tropsha pour les modèles retenus pour le
jeu complet
Afin de mettre à l’épreuve la
stabilité du modèle, on a soumis
les modèles réalisés avec m=2 (soit
6 modèles, cf tab 8) à une phase de
test. Ayant séparé le jeu initial de
1092 molécules en un jeu
d’apprentissage de 982 structures
et un jeu de test en contenant 110,
nous allons obtenir les valeurs
calculées pour ces derniers à partir
du modèle réalisé avec les 982
molécules conservées. Si le modèle
est stable, les paramètres
statistiques obtenus pour ce modèle
doivent être comparables avec
ceux obtenus pour le jeu complet
cette fois, tout en conservant une
corrélation bonne entre les valeurs
expérimentales et calculées du jeu
de test. (cf tab 10 et annexe 6). Le
paramètre m=2 a été choisi car cela
implique une restriction du nombre
de données en amont via un tri des
« fragment rares », et que le retrait
de 110 molécules entraîne une
augmentation du nombre de
molécules écartées (par la création
d’autres fragments rares) : le test
de stabilité est donc effectué dans
les conditions les plus défavorables
à la robustesse des modèles.
AVEC T-TEST
m = 2
I(AB,2-5)-0
JA
I(AB,2-5)-0
JT
I(AB,2-4)-0
JA
I(AB,2-4)-0
JT
II(Hy)-0
JA
II(Hy)-0
JT
MOYENNE
JA
MOYENNE
JT
R² 0.917 0.578 0.865 0.808 0.858 0.794 0.893 0.744
R0 0.956 0.760 0.925 0.896 0.920 0.890 0.941 0.862
R’0 0.957 0.671 0.930 0.894 0.926 0.865 0.945 0.844
k 0.966 0.856 0.945 0.948 0.943 0.941 0.950 0.921
k’ 1.000 0.907 1.000 0.971 1.000 0.957 1.007 0.962
[ ( R²- R0²) / R² ] 0.003 0.001 0.011 0.006 0.014 0.002 0.008 0.001
[ ( R²- R’0²) / R² ] 0.001 0.221 0.000 0.011 0.001 0.058 0.000 0.043
SANS T-TEST
m = 2
I(AB,2-5)-0
JA
I(AB,2-5)-0
JT
I(AB,2-4)-0
JA
I(AB,2-4)-0
JT
II(Hy)-0
JA
II(Hy)-0
JT
MOYENNE
JA
MOYENNE
JT
R² 0.929 0.585 0.880 0.745 0.871 0.794 0.901 0.706
R0 0.963 0.759 0.935 0.858 0.927 0.890 0.946 0.836
R’0 0.964 0.719 0.938 0.854 0.933 0.861 0.949 0.824
k 0.971 0.868 0.951 0.952 0.949 0.939 0.954 0.934
k’ 1.000 0.926 1.000 0.938 1.000 0.956 1.001 0.933
[ ( R²- R0²) / R² ] 0.002 0.015 0.007 0.011 0.013 0.002 0.007 0.010
[ ( R²- R’0²) / R² ] 0.000 0.116 0.000 0.021 0.001 0.066 0.000 0.038
Tableau 10 : résultats du test de Golbraikh & Tropsha pour les modèles retenus (JA : jeu d’apprentissage N=982 ; JT : jeu de test N=110)
- 13 -
IV. DISCUSSION
4.1 TRAIL & SES CONCURRENTS
Pour chaque jeu de données issu d’une publication, on a calculé la moyenne des prédictions à partir
des modèles retenus à l’issue du balayage initial. Ce « modèle de synthèse » réalisé à partir des
meilleurs modèles de chaque cas est ensuite comparé aux résultats obtenus dans ces différentes études.
On trace la droite de corrélation : logS calc = f (logS exp) puis on compare les paramètres statistiques
et l’équation de la droite de corrélation (cf fig 3, 4, 5 et tab 10). Dans le cas de l’étude « Jurs », seul un
unique modèle ayant été retenu, il sera comparé aux deux séries de résultats parus dans cette
publication. N’ont été retenues par les deux partis pour cette étude comparative que les molécules pour
lesquelles une moyenne a pu être calculée (donc dont au moins un modèle de TRAIL retenu a pu
prédire une valeur de logS), les autres ayant été retirées des valeurs des deux jeux de molécules.
Dans les cas Ran et Jurs on note de meilleurs résultats via la méthode TRAIL : R² est sensiblement plus
élevé, et l’écart-type S et lui au contraire plus faible. Pour le jeu Ran, les résultats obtenus sont
particulièrement probants : d’une part, le coefficient de corrélation carré est plus élevé : R²(m=1)=0.968
et R²(m=2)=0.935 contre R²(Ran)=0.890. Mais c’est en comparant les écarts types que l’on observe une
amélioration encore plus nette : alors que S(Ran)=0.685 dans la publication de départ, on arrive à une
valeur de S(m=2)=0.511 et même jusqu’à S(m=1)=0.372 (soit une baisse de 46% de l’écart-type par
rapport à la publication).
Dans le cas du jeu Jurs, modélisations réalisées avec m=1 ou m=2 présentent des résultats
comparables (S(m=1)=0.545 et S(m=2)=0.551, contre S(Jurs 1)=0.659 et S(Jurs 2)=0.647 pour l’étude
originale), pour une valeur de R² constante aux alentours de 0.900, soit encore un peu plus performant
que la publication de départ. R étant un critère de validité interne il n’est pas étonnant de le voir
supérieur au R publié dans la mesure où l’écart type, donc la précision du modèle, est plus performant
avec TRAIL une fois de plus.
En revanche dans le cas du jeu Yaffe le bilan est différent. On peut voir tout de suite que les tests
effectués pour m=1 (R²(m=1)=0.853, S(m=1)=0.878)sont bien en-dessous des performances recherchées.
En ce qui concerne les modélisations avec m=2, le coefficient de corrélation carrée R² est moins élevé
en utilisant TRAIL, mais reste une très bonne valeur (S(m=2)=0.966 pour TRAIL contre S(Yaffe)=0.977
publié) ; et il en est de même pour l’écart type, qui malgré une valeur particulièrement valable
(S(m=2)=0.447) reste moins bonne que celle de l’étude initiale (S(Yaffe)=0.379). Néanmoins l’écart est
minime entre ces deux techniques, et les résultats sont de nature comparable.
JEU « RAN » (N=338) Moyenne TRAIL (m=1) Moyenne TRAIL (m=2)
319 molécules prises en compte Publiés
Y = 1.0274 X + 0.0788 Y = 0.9165 X – 0.2461 Y = 0.9248 X – 0.2590 R² = 0.968 R² = 0.935 R² = 0.890 S = 0.372 S = 0.511 S = 0.685
JEU « JURS » (N=346) Moyenne TRAIL (m=1) Moyenne TRAIL (m=2)
322 molécules prises en
compte
Publiés (1ère série) Publiés (2ème série)
Y = 0.9030 X – 0.2086 Y = 0.8982 X – 0.2202 Y = 0.9007 X – 0.2386 Y = 0.9073 X – 0.1911 R² = 0.902 R² = 0.899 R² = 0.859 R² = 0.868 S = 0.545 S = 0.551 S = 0.659 S = 0.647
JEU « YAFFE » (N=475) Moyenne TRAIL (m=1) Moyenne TRAIL (m=2)
455 molécules prises en compte Publiés
Y = 0.8483 X - 0.4370 Y = 0.9617 X – 0.1027 Y = 0.9899 X – 0.0276 R² = 0.853 R² = 0.966 R² = 0.977 S = 0.878 S = 0.447 S = 0.379
Tableau 11 : comparaison entre les performances de TRAIL et les résultats des publications précédentes
- 14 -
On peut voir ainsi que l’utilisation de TRAIL pour ces études conduit à des résultats au moins aussi
bons que ceux de ses concurrents directs, voire même meilleurs pour deux des trois cas étudiés ici.
TRAIL est un programme de prise en main simple qui dispose d’un atout majeur néanmoins : les
ressources qu’il demande sont beaucoup moins importantes, un simple ordinateur individuel suffit,
contrairement aux réseaux neuronaux qui requièrent l’usage de machines plus puissantes afin
d’effectuer des calculs très demandeurs de ressources. De plus TRAIL calcule et analyse rapidement
les données qui sont à sa disposition (dans les limites des capacités de l’ordinateur).
4.2 PERFORMANCES DE NOTRE PREDICTEUR
On constate que quel que soit le modèle, cinq molécules présentent toujours un écart important (>3s)
entre la valeur expérimentale et la valeur calculée – on les appelle « outlayers » (voir annexe 7).
L’utilisation du t-test diminue considérablement le nombre de variables (fragments) retenus, n’en
gardant qu’un nombre restreint mais plus adéquat ; les critères statistiques propres à chaque modèle
n’en sont que modifiés de façon positive : très légères fluctuations de R², amélioration de Q² et de s (cf
fig 2)
Les douze modèles retenus présentent des critères de prédiction interne et externe de très bon niveau
(0.849<R²<0.930, 0.681<Q²<0.913). Ces résultats comportent néanmoins un point faible, la valeur
élevée de l’écart type associé à ces prédictions (0.702<S<0.945) (cf tab 7). Néanmoins ce paramètre
diminue considérablement lors de la réalisation de la droite de corrélation logS calc = f (logS exp)
(voir annexe 5). L’exactitude des estimations s’en voit confortée et les performances du prédicteur se
voient assurées.
Les résultats obtenus sur le jeu de test démontrent la stabilité des modèles I(AB,2-4) eq0 et II(Hy)
eq0, que ce soit en appliquant ou pas la procédure du t-test : les paramètres statistiques du jeu
d’apprentissage ne fluctuent que peu par rapport au jeu complet, et la corrélation entre les valeurs
prédites et les valeurs expérimentales satisfont toujours les critères que nous nous sommes imposés
dès le départ. Le test de Golbraikh et Tropsha est encore une fois passé pour chaque modèle avec
succès (cf tab 10), preuve supplémentaire de la robustesse de ces modèles sélectionnés.
En revanche, I(AB,2-5) eq0 s’avère ne pas être aussi performant : à l’issue de la phase de test, le jeu
d’apprentissage garde des paramètres très bons : S(m=2)=0.756 et S(m=2, t-test)=0.708.(cette fragmentation
était déjà la plus performante à l’étape précédente), mais la corrélation entre prédiction et expérience
est peu satisfaisante : R²<0.6 et s>1.5. Néanmoins (sans cette phase de test) il reste le modèle
présentant les critères statistiques les meilleurs ; cette baisse de justesse des prédictions est imputable
au retrait des 110 molécules (sélectionnées arbitrairement) du jeu de test qui ont entraîné une
modification du nombre de fragments propices à cette fragmentation et aux données à analyser. Les 4
modèles de fragmentation I(AB,2-5) eq1 seront conservés et incorporés tout de même dans
l’élaboration du prédicteur.
V. CONCLUSION
Le logiciel TRAIL a été mis à l’épreuve en comparant ses performances avec celles de trois autres
méthodes de prédiction, impliquant chacune une technique différente. Les résultats prouvent que
TRAIL est un outil informatique puissant qui dépassé l’efficacité de deux de ces trois approches
auxquelles il était opposé.
Une modélisation de la solubilité aqueuse (logS) d’une collection de 1092 molécules organiques a été
réalisée par approche QSPR se basant sur des descripteurs fragmentaires (utilisés par le logiciel
TRAIL). Trois associations « fragmentation-ajustement » ont été sélectionnées au vu de leurs
- 15 -
performance, et réalisées en faisant varier le nombre de molécules impliquées dans la modélisation et
la procédure de calcul.
Ces douze modèles ont été utilisés pour constituer un module de prédiction de la solubilité aqueuse de
la base de connaissances développée par N. Sieffert et V. P. Solov’ev dans le cadre du projet ISIDA
[12]. Dès lors il est possible d’obtenir une prédiction de la valeur de logS d’une molécule en entrant sa
structure et en sélectionnant un modèle (voir annexe 8).
- 16 -
ANNEXES
Annexe 1 TYPES DE FRAGMENTATIONS UTILISES
Annexe 2 CRITERES STATISTIQUES
Annexe 3 BATCHS – PHASE COMPARATIVE AVEC LES PUBLICATIONS
Annexe 4 BATCHS – JEU GLOBAL
Annexe 5 JEU COMPLET – CORRELATIONS
Annexe 6 JEU D’APPRENTISSAGE & JEU DE TEST – CORRELATIONS
Annexe 7 JEU COMPLET – OUTLAYERS
Annexe 8 UTILISATION DU PREDICTEUR REALISE
REFERENCES BIBLIOGRAPHIQUES
LOGICIELS UTILISES
- 17 -
ANNEXE 1 : TYPES DE FRAGMENTATIONS UTILISES
Deux classes de fragmentation moléculaire substructurale : les séquences d’atomes
et/ou de liaisons (I),
et les atomes augmentés (atomes et/ou liaisons). De haut en bas, les séquences correspondent aux types
I(AB, 2-4), I(A, 2-4) et I(B, 2-4). Le type II(Hy) correspond au type II(AB) en prenant en compte
l’hybridation des atomes considérés.
P
O
P
O
O O O
P P
O O
SEQUENCES ATOMES AUGMENTES
I II
ATOMES et LIAISONS (AB)
C-C-P=O; C-C-P; C-C; C-P=O; C-P; P=O P (-C) (-C) (-C) (=O)
ATOMES (A)
P (C) (C) (C) (O) or C C P O; C C P; C C; C P O; C P; P O
(Hy)
Psp2(Csp3)(Csp2)(Csp2)(Osp2)
LIAISONS (B)
- - =; - -; -; - =; -; = P (-) (-) (-) (=)
- 18 -
ANNEXE 2 : CRITERES STATISTIQUES
A) LE COEFFICIENT DE CORRELATION CARRE (R²)
La plus courante façon d’apprécier la qualité d’une procédure de régression linéaire consiste à calculer
son coefficient de corrélation carré R². Comprise entre 0 et 1, cette valeur indique la proportion de
variation de la variable dépendante dont l’équation de régression rend compte.
Afin de calculer R² il faut procéder en plusieurs étapes (supposons que les Ycalc,i sont les valeurs
obtenues via l’équation de régression et que les Yi sont les valeurs expérimentales correspondantes) :
Somme totale des carrés (Total Sum of Squares) :
TSS = ΣΣΣΣ (Yi - <Y>)²
Somme étendue des carrés (Explained Sum of Squares) :
ESS = ΣΣΣΣ (Ycalc,i -<Y>)²
Somme résiduelle des carrés (Residual Sum of Squares) :
RSS = ΣΣΣΣ (Yi – Ycalc,i)² (D’où TSS = ESS + RSS)
Ainsi on a enfin :
R² = ESS / TSS ≡≡≡≡ (TSS - RSS) / TSS ≡≡≡≡ 1 – RSS/TSS
B) LE COEFFICIENT DE VALIDATION CROISEE (Q²) & LA DEVIATION STANDARD
DES ERREURS DE PREDICTION (SPRESS)
Les méthodes de validation croisée sont une façon de dépasser certains problèmes inhérents à
l’utilisation de R² comme seul critère. La validation croisée implique le retrait de quelques valeurs du
jeu de données, la synthèse d’un modèle QSAR utilisant les données restantes, puis l’application de ce
modèle pour prédire les valeurs des structures écartées.
La forme la plus simple de validation croisée est l’approche Leave-One-Out (LOO), où seule une
valeur est écartée. Répéter cette marche à suivre pour l’ensemble des valeurs du jeu de données
successivement conduit à un R² validé par croisement, noté Q². Si R² est une mesure de la justesse de
la corrélation, Q² est une mesure de la justesse de la prédiction.
La somme résiduelle prédictive des carrés (PRESS, Predictive Residual Sum of Squares) est comme
Q² une mesure des capacités prédictives d’un modèle. Elle est analogue à RSS, mais plutôt que
d’utiliser Ycalc,i calculé depuis le modèle, PRESS utilise les valeurs prédites Ypred,i pour les données
non utilisées pour l’élaboration du modèle :
PRESS = ΣΣΣΣ (Yi – Ypred,i)²
Q² = 1 – ( PRESS / TSS )
On peut également utiliser le paramètre SPRESS qui rend compte des variations d’erreur des prédictions.
SPRESS = [ PRESS / ( N – k – 1 ) ]1/2
Où k est le nombre de variables (descripteurs) et N le nombre de molécules total du jeu.
C) L’ECART-TYPE (s)
L’écart-type, ou erreur standard de prédiction, est un paramètre statistique très couramment utilisé. Il
indique avec quelle précision la fonction de régression prédit les valeurs.
- 19 -
s = [ RSS / ( N – k – 1 ) ]1/2
où k est le nombre de variables indépendantes dans l’équation.
D) LE COEFFICIENT DE FISCHER (F)
Le critère de Fischer reflète le nombre de degrès de liberté associé à chaque paramètre :
F = [ ESS / ( s² * k ) ] = ( ESS / k ) * [ ( N – k – 1 ) / RSS]
La somme étendue des carrés ESS est associée à k degrés de liberté, et la somme résiduelle des carrés
RSS avec (N – k – 1) degrés de liberté.
La valeur calculée de F est comparée avec les valeurs des tables statistiques, donnant F pour différents
degrés de confiance. Si a valeur calculée est supérieure à la valeur tabulée, alors l’équation est dite
significative pour ce niveau de confiance. De hautes valeurs de F correspondent à des niveaux de
haute confiance – et pour un niveau de confiance donné, la valeur de F chute lorsque le nombre de
variables indépendantes diminue et/ou lorsque le nombre de points (données initiales) augmente, ce
qui corrèle avec le fait que l’on désire idéalement décrire un grand nombre de données avec le moins
de variables indépendantes possibles. Les tables donnent les valeurs de F en fonction de k et (N – k –
1).
E) LE CRITERE DE KUBINYI (FIT)
FIT = [ R² * ( N – k – 1 ) ] / [ ( n + k² ) * ( 1 – R² ) ]
F) LA PROCEDURE T-TEST
Si certaines des variables des équations d’ajustement sont linéairement dépendantes ou si un fragment
n’apparaît que dans un nombre relativement faible de molécules, la déviation standard ∆∆∆∆ai (∆∆∆∆bi) pour
les contributions ai (bi) peut être très grande, conduisant ainsi à une valeur de t = (ai / ∆∆∆∆ai) plus petite
que la valeur tabulée t0. La procédure t-test est appliquée alors pour augmenter la robustesse des
modèles.
Tout d’abord, TRAIL sélectionne la valeur la plus petite de t < t0, puis recalcule un nouvel ajustement
en excluant cette variable. La procédure est ensuite répétée jusqu’à ce que t ≥ t0 pour toutes les
variables.
En pratique, appliquer le t-test conduit à des fluctuations mineures de R² pour le modèle considéré,
mais améliore les valeurs de Q² et de s de manière non négligeable.
- 20 -
ANNEXE 3 : BATCHS – PHASE COMPARATIVE AVEC LES PUBLICATIONS
JEU RAN (m=2, sans t-test)
no fragment fitting n k R F FIno fragment fitting n k R F FIno fragment fitting n k R F FIno fragment fitting n k R F FIT s HRFT s HRFT s HRFT s HRF type equationtype equationtype equationtype equation 1 I(AB,2-5) 0 256 172 0,991787 29,54 0,171 5,26E-01 8,184 2 I(AB,2-5) 1 256 173 0,991801 29,07 0,168 5,29E-01 8,177 3 I(AB,3-5) 1 256 163 0,988370 24,25 0,148 5,94E-01 9,730 4 I(AB,3-5) 0 256 162 0,986417 21,06 0,129 6,38E-01 10,511 5 I(AB,2-4) 2 340 299 0,982147 3,75 0,013 1,20E+00 11,752 6 II(Hy) 2 314 285 0,983912 3,10 0,011 1,31E+00 11,184 7 I(A,2-6) 2 337 327 0,983630 0,91 0,003 2,30E+00 11,286 8 I(AB,4-5) 1 268 153 0,978371 16,92 0,110 7,38E-01 13,286 9 I(AB,4-5) 0 268 152 0,972522 13,41 0,088 8,27E-01 14,953 10 I(A,2-5) 2 364 253 0,971968 7,53 0,030 9,21E-01 14,535 11 I(AB,3-4) 2 340 277 0,971826 3,88 0,014 1,21E+00 14,725 12 I(A,3-6) 2 337 311 0,976789 1,74 0,006 1,70E+00 13,415 13 I(AB,2-4) 0 340 149 0,969616 20,27 0,135 7,20E-01 15,283 14 I(AB,2-4) 1 340 150 0,969664 20,07 0,133 7,22E-01 15,271 15 II(Hy) 0 314 142 0,969073 18,81 0,131 7,46E-01 15,449 16 II(Hy) 1 314 143 0,969130 18,61 0,129 7,47E-01 15,434 17 I(A,2-6) 1 337 164 0,969095 16,38 0,099 7,58E-01 15,450 18 I(A,2-6) 0 337 163 0,968516 16,26 0,099 7,63E-01 15,592 19 II(AB) 2 373 197 0,964478 11,97 0,060 8,26E-01 16,264 20 I(A,3-5) 2 364 233 0,962269 7,06 0,030 9,81E-01 16,822
JEU JURS (m=2, sans t-test)
no fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRF type equationtype equationtype equationtype equation 1 I(AB,2-6) 1 258 198 0,987827 12,28 0,062 5,90E-01 10,748 2 I(AB,2-6) 0 258 197 0,986980 11,72 0,059 6,05E-01 11,113 3 I(A,2-6) 2 355 261 0,978723 8,23 0,031 7,23E-01 13,721 4 I(AB,3-6) 1 258 190 0,970662 5,86 0,031 8,57E-01 16,613 5 I(AB,4-6) 1 258 175 0,962627 6,03 0,034 8,74E-01 18,712 6 I(AB,2-4) 2 359 247 0,969741 7,18 0,029 7,81E-01 16,130 7 I(AB,3-6) 0 258 189 0,966673 5,23 0,028 9,06E-01 17,689 8 I(A,3-6) 2 355 247 0,967184 6,36 0,026 8,36E-01 16,991 9 I(AB,5-5) 2 323 227 0,960505 5,06 0,022 9,18E-01 18,860 10 I(AB,5-6) 1 268 146 0,952751 8,28 0,056 8,31E-01 21,350 11 I(A,2-5) 2 379 191 0,954917 10,24 0,053 7,55E-01 19,372 12 I(AB,2-5) 0 310 180 0,953765 7,31 0,040 8,32E-01 20,160 13 I(AB,2-5) 1 310 181 0,954067 7,27 0,040 8,33E-01 20,095 14 I(A,4-6) 2 355 219 0,958615 7,07 0,032 8,34E-01 19,039 15 I(AB,4-6) 0 258 174 0,957651 5,37 0,031 9,23E-01 19,894 16 I(AB,3-4) 2 359 225 0,954794 6,17 0,027 8,69E-01 19,640 17 II(Hy) 2 336 237 0,959098 4,82 0,020 9,26E-01 18,266 18 I(A,2-6) 1 355 131 0,941813 13,53 0,102 7,68E-01 22,478 19 I(AB,5-6) 0 268 145 0,947045 7,43 0,051 8,75E-01 22,569 20 I(AB,6-6) 2 285 195 0,944983 3,87 0,020 1,05E+00 22,905
JEU YAFFE (m=2, sans t-test)
no fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRF type equatype equatype equatype equationtiontiontion 1 I(AB,2-5) 1 455 120 0,980426 69,81 0,568 5,82E-01 12,765 2 I(AB,2-6) 1 429 141 0,983126 59,42 0,415 5,62E-01 11,854 3 I(AB,2-6) 0 429 140 0,980642 52,15 0,367 6,00E-01 12,689 4 I(AB,2-4) 2 473 171 0,982451 49,29 0,285 5,87E-01 12,045 5 I(AB,2-5) 2 455 239 0,985338 30,27 0,126 6,28E-01 11,061 6 I(AB,2-6) 2 429 281 0,988814 23,23 0,083 6,39E-01 9,665 7 I(AB,3-6) 2 430 259 0,981208 17,14 0,066 7,70E-01 12,517 8 II(B) 3 512 435 0,986799 6,59 0,015 1,05E+00 10,667 9 I(AB,2-4) 1 473 86 0,974622 86,30 0,953 6,23E-01 14,456 10 I(AB,2-4) 0 473 85 0,973119 82,47 0,920 6,40E-01 14,872 11 II(Hy) 0 456 87 0,974268 80,17 0,878 6,42E-01 14,619 12 II(Hy) 1 456 88 0,974367 79,35 0,860 6,41E-01 14,591 13 I(AB,2-3) 2 506 97 0,970102 68,07 0,672 6,79E-01 15,979 14 I(AB,2-5) 0 455 119 0,977754 61,87 0,508 6,19E-01 13,599 15 II(AB) 2 481 131 0,971009 44,42 0,332 7,10E-01 15,565 16 I(AB,3-6) 1 430 130 0,971868 39,60 0,299 7,09E-01 15,279 17 I(AB,3-4) 2 474 149 0,971971 37,53 0,248 7,15E-01 15,198 18 II(Hy) 2 456 175 0,979381 37,95 0,215 6,59E-01 13,103 19 I(AB,3-5) 2 456 217 0,978613 25,04 0,115 7,20E-01 13,351 20 I(AB,2-3) 0 506 48 0,961419 119,03 2,061 7,27E-01 18,111
- 21 -
ANNEXE 4 : BATCHS – JEU GLOBAL
JEU GLOBAL (m=1, sans t-test)
nononono fragmentfragmentfragmentfragment eqeqeqeq nnnn NNNN R2R2R2R2 FFFF FITFITFITFIT ssss HRFHRFHRFHRF typetypetypetype 1 I(AB,2-5) 2 939 229 0.961 75.99 0.327 0.524 12.742 2 I(AB,3-5) 2 928 232 0.952 59.14 0.252 0.583 14.057 3 I(AB,2-5) 1 939 117 0.918 79.71 0.642 0.701 18.350 4 I(AB,2-5) 0 939 123 0.918 75.06 0.579 0.705 18.371 5 I(AB,4-5) 2 870 165 0.914 45.47 0.269 0.747 18.247 6 I(AB,2-4) 2 1012 117 0.908 76.21 0.611 0.728 19.337 7 I(A,2-6) 2 1013 136 0.904 60.88 0.427 0.758 19.865 8 II(Hy) 2 972 114 0.896 65.10 0.535 0.783 20.450 9 I(AB,3-4) 2 1001 112 0.888 63.79 0.532 0.799 21.180 10 I(A,3-6) 2 1002 125 0.878 50.75 0.384 0.848 22.250 11 I(AB,2-4) 1 1012 71 0.866 86.99 1.030 0.856 23.333 12 I(A,2-5) 2 1049 75 0.866 85.04 0.964 0.854 23.298 13 I(AB,3-5) 1 928 110 0.864 47.77 0.406 0.900 23.525 14 I(AB,2-4) 0 1012 64 0.863 94.78 1.199 0.863 23.606 15 I(A,2-6) 1 1013 76 0.861 77.53 0.876 0.879 23.832 16 I(A,2-6) 0 1013 74 0.860 78.94 0.909 0.882 23.946 17 II(Hy) 0 972 66 0.855 82.18 1.028 0.898 24.095 18 II(Hy) 1 972 64 0.854 84.10 1.072 0.901 24.202 19 II(AB) 2 1037 63 0.844 85.20 1.082 0.917 24.965 20 I(A,2-4) 2 1073 50 0.838 107.83 1.521 0.923 25.506
JEU GLOBAL (m=2, avec t-test)
nononono fragmentfragmentfragmentfragment eqeqeqeq nnnn NNNN R2R2R2R2 FFFF FITFITFITFIT ssss HRFHRFHRFHRF typetypetypetype 1 I(AB,2-5) 2 939 229 0.961 75.99 0.327 0.524 12.742 2 I(AB,2-5) 1 939 117 0.918 79.71 0.642 0.701 18.350 3 I(AB,2-5) 0 939 123 0.918 75.06 0.579 0.705 18.371 4 I(AB,2-4) 2 1012 117 0.908 76.21 0.611 0.728 19.337 5 I(A,2-6) 2 1013 136 0.904 60.88 0.427 0.758 19.865 6 I(AB,3-4) 2 1012 101 0.883 68.62 0.623 0.814 21.834 7 I(A,3-6) 2 1013 105 0.867 56.89 0.500 0.875 23.335 8 I(AB,2-4) 1 1012 71 0.866 86.99 1.030 0.856 23.333 9 I(A,2-5) 2 1049 75 0.866 85.04 0.964 0.854 23.298 10 I(AB,2-4) 0 1012 64 0.863 94.78 1.199 0.863 23.606 11 I(AB,3-5) 1 939 112 0.862 46.65 0.391 0.908 23.833 12 I(A,2-6) 1 1013 76 0.861 77.53 0.876 0.879 23.832 13 I(A,2-6) 0 1013 74 0.860 78.94 0.909 0.882 23.946 14 II(Hy) 0 972 66 0.855 82.18 1.028 0.898 24.095 15 II(Hy) 1 972 64 0.854 84.10 1.072 0.901 24.202 16 I(A,2-4) 2 1073 50 0.838 107.83 1.521 0.923 25.506 17 I(AB,2-3) 2 1073 65 0.838 81.22 1.006 0.929 25.558 18 I(AB,3-5) 0 939 94 0.831 44.54 0.432 0.996 26.435 19 I(A,3-5) 2 1049 77 0.830 62.39 0.695 0.963 26.248 20 I(A,2-5) 1 1049 40 0.825 122.18 1.854 0.958 26.602
- 22 -
ANNEXE 5 : JEU COMPLET (N=1092) – CORRELATIONS
M = 1
I(AB,2-4) eq 0 sans t-test
I(AB,2-4) eq 0 avec t-test
y = 0,8959x - 0,259
R2 = 0,882
N = 1092
s = 0,765
-12
-10
-8
-6
-4
-2
0
2
-12 -7 -2
logS exp
y = 0.8713x - 0.3344
R2 = 0.862
N = 1092
s = 0.777
-12
-10
-8
-6
-4
-2
0
2
-12 -7 -2
logS exp
I(AB,2-5) eq 0 sans t-test
I(AB,2-5) eq 0 avec t-test
y = 0.9422x - 0.1429
R2 = 0.934
N = 1092
s = 0.558
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
y = 0.9235x - 0.1971
R2 = 0.917
N = 1092
s = 0.619
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
II(Hy) eq 0 sans t-test
II(Hy) eq 0 avec t-test
y = 0,8792x - 0,3256
R2 = 0,877
N = 1092
s = 0,734
-12
-10
-8
-6
-4
-2
0
2
-12 -7 -2
logS exp
y = 0.8497x - 0.4102
R2 = 0.849
N = 1092
s = 0.797
-12
-10
-8
-6
-4
-2
0
2
-12 -7 -2
logS exp
- 23 -
M = 2
I(AB,2-4) eq 0 sans t-test
I(AB,2-4) eq 0 avec t-test
y = 0,8908x - 0,2698
R2 = 0,876
N = 1012
s = 0,756
-12
-10
-8
-6
-4
-2
0
2
-12 -7 -2
logS exp
y = 0.8676x - 0.3522
R2 = 0.863
N = 1012
s = 0.781
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
I(AB,2-5) eq 0 sans t-test
I(AB,2-5) eq 0 avec t-test
y = 0,9303x - 0,191
R2 = 0,930
N = 939
s = 0,585
-12
-10
-8
-6
-4
-2
0
2
-12 -7 -2
logS exp
y = 0.9255x - 0.19
R2 = 0.918
N = 939
s = 806
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
II(Hy) eq 0 sans t-test
II(Hy) eq 0 avec t-test
y = 0,8704x - 0,3555
R2 = 0,868
N = 972
s = 0,775
-12
-10
-8
-6
-4
-2
0
2
-12 -7 -2
logS exp
y = 0.8589x - 0.3859
R2 = 0.855
N = 972
s = 0.806
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
- 24 -
ANNEXE 6 : JEU D’APPRENTISSAGE (JA : N = 982) & JEU DE TEST (JT : N = 110) (m=2)
CORRELATIONS
I(AB,2-5) eq0
AVEC T-TEST
y = 0,9262x - 0,1839
R2 = 0,9167
N = 851
s = 0,6417
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
y = 0,8427x - 0,0635
R2 = 0,5777
N = 70
s = 1,7268
-11
-9
-7
-5
-3
-1
1
3
5
-11 -6 -1
logS exp
SANS T-TEST
y = 0,9382x - 0,1509
R2 = 0,9287
N = 851
s = 0,5975
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
y = 0,7895x - 0,3786
R2 = 0,5852
N = 70
s = 1,5932
-11
-9
-7
-5
-3
-1
1
-11 -9 -7 -5 -3 -1 1
logS exp
logS calc
I(AB,2-4) eq0
AVEC T-TEST
y = 0,8731x - 0,3302
R2 = 0,8646
N = 916
s = 0,7795
-12
-10
-8
-6
-4
-2
0
2
-12 -7 -2
logS exp
y = 0,8951x - 0,2461
R2 = 0,8076
N = 84
s = 1,0000
-11
-9
-7
-5
-3
-1
1
3
-11 -9 -7 -5 -3 -1 1
logS exp
logS calc
SANS T-TEST
y = 0,8952x - 0,2574
R2 = 0,8801
N = 916
s = 0,7453
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
y = 0,8797x - 0,3346
R2 = 0,7446
N = 84
s = 1,1793
-10.5
-8.5
-6.5
-4.5
-2.5
-0.5
1.5
-11 -9 -7 -5 -3 -1 1
logS exp
logS calc
(JA)
(JA)
(JA)
(JA)
(JT)
(JT)
(JT)
(JT)
- 25 -
II(Hy0) eq0
AVEC T-TEST
y = 0,8678x - 0,3515
R2 = 0,8582
N = 875
s = 0,7795
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
6
y = 0,9706x + 0,1409
R2 = 0,7935
N = 75
s = 1,1818
-10
-8
-6
-4
-2
0
2
4
6
-11 -9 -7 -5 -3 -1 1
logS exp
logS calc
SANS T-TEST
y = 0,8737x - 0,3477
R2 = 0,871
N = 875
s = 0,7658
-12
-10
-8
-6
-4
-2
0
2
-12 -7 -2
logS exp
y = 0,9842x + 0,218
R2 = 0,7943
N = 75
s = 1,1955
-10.5
-8.5
-6.5
-4.5
-2.5
-0.5
1.5
3.5
5.5
-11 -9 -7 -5 -3 -1 1
logS exp
logS calc
MOYENNE
AVEC T-TEST
y = 0.8856x - 0.298
R2 = 0.8926
N = 929
s = 0.695
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
y = 0.8921x - 0.1328
R2 = 0.7443
N = 87
s = 1.205
-10.5
-8.5
-6.5
-4.5
-2.5
-0.5
1.5
3.5
-11 -9 -7 -5 -3 -1 1
logS exp
logS calc
SANS T-TEST
y = 0.9001x - 0.2496
R2 = 0.901
N = 927
s = 0.676
-12
-10
-8
-6
-4
-2
0
2
-12 -10 -8 -6 -4 -2 0 2
logS exp
logS calc
y = 0.8685x - 0.3064
R2 = 0.7063
N = 87
s = 1.291
-10.5
-8.5
-6.5
-4.5
-2.5
-0.5
1.5
3.5
-11 -9 -7 -5 -3 -1 1
logS exp
logS calc
(JA)
(JA)
(JT)
(JT)
(JA) (JT)
(JA) (JT)
- 26 -
ANNEXE 7 : OUTLAYERS
(1) Pentabromophenyl ether [2]
O
Br Br
Br
BrBrBrBr
Br
Br Br
(2) Octachlorodibenzo-p-dioxin [2]
Cl
OCl
OCl
Cl
Cl
Cl
Cl
Cl
(3) Didodecyl phthalate [2]
O O
O
O
(5) n-propylcyclopentane [1]
(4) Phthalic acid didecyl ester [2]
O O
O
O
Pour les molécules (3) (logSexp = -6,56) et (4) (logSexp = -6,13) on peut raisonnablement penser que
la différence entre la valeur expérimentale et la valeur calculée est originaire de la formation probables
de micelles inverses lorsque ces molécules sont en solution dans l’eau. Toutes deux sont en effet des
molécules à tête polaire à très longues chaînes aliphatiques. Ce facteur entraîne une importante
perturbation de la solubilité qui ne dépend donc évidemment plus que de la structure du composé.
- 27 -
ANNEXE 8 : UTILISATION DU PREDICTEUR REALISE ISIDA - QSPR KNOWLEDGE BASE
L’interface de la base de
connaissance ISIDA (cf
fig A) est intuitive et
complète, présentant
toutes les fonctions
possibles. En
sélectionnant la propriété
dont nous désirons obtenir
une estimation (dans notre
cas logS) l’ensemble des
modèles à disposition,
ainsi que leurs paramètres
associés, peut être
visualisé avant la phase de
prédiction, afin de
sélectionner celui de son
choix.
Le module de prédiction
permet à l’utilisateur
d’obtenir une estimation
de la valeur de logS pour
une structure isolée (fichier à entrer au format .MOL) ou pour une collection de molécules (fichier
.SDF). Les résultats, c’est-à-dire les associations structures-propriétés, peuvent être sauvés eux aussi
sous la forme d’un fichier .SDF, afin d’être réutilisés dans d’autres programmes.
Nous avons ici testé le prédicteur en lui soumettant une molécule non présente dans son jeu constitutif,
un calixérène (cf fig B) : le modèle sélectionné est I(AB,2-4) eq0 [m=2, t-test]. Instantanément la
valeur estimée par TRAIL est fournie : -10.37685985.
Très simple d’utilisation, il suffit donc à l’utilisateur de rentrer la structure de la (ou des) molécule(s)
désirée(s) afin d’obtenir le résultat souhaité.
Fig A : Interface de ISIDA - QSPR KNOWLEDGE BASE
Fig B : module de prédiction et résultat
- 28 -
REFERENCES BIBLIOGRAPHIQUES
1. A Fuzzy ARTMAP Based on Quantitative Structure-Property Relationships (QSPRs) for Predicting Aqueous Solubility on Organic Compounds,
Denise Yaffe, Yoren Cohen, Gabriela Espinosa, Alex Arenas, and Francesca Giralt,
J.Chem.Inf. Comput.Sci. 2001, 41, 1177-1207
2. Prediction of Aqueous Solubility of Heteroatom-Containing Organic Compounds from Molecular Structure,
Nathan R. McElroy and Peter C. Jurs,
J. Chem. Inf. Comput. Sci. 2001, 41, 1237-1247
3. Prediction of Aqueous Solubility of Organic Compounds by the General Solubility Equation (GSE),
Yingqing Ran, Neera Jain, and Samuel H. Yalkowsky,
J. Chem. Inf. Comput. Sci. 2001, 41, 1208-1217
4. Estimation of Aqueous Solubility of Organic Molecules by the Group Contribution
Approach – Application to the Study of Biodegradatrion,
G. Klopman, S. Wang, D. M. Balthasar,
J. Chem. Inf. Comput. Sci. 1992, 32, 474-482
5. Prediction of Aqueous Solubility of Organic Chemicals Based on Molecular Structure II.
– Application to PNAs, PCBs, PCDDs, etc. N. N. Nirmalakhandan, R. E. Speece,
Environ. Sci. Technol. 1989, 23, 708-713
6. A Method for Calculation of the Aqueous Solubility of Organic Compounds by using
New Fragment Solubility Constant, K. Wakita, M. Yoshimoto, H. Watanabe, S. Miyamoto,
Chem. Pharm. Bull. (Tokyo) 1986, 34, 4663-4681
7. Development of an Autmatic Estimation System for both the Partition Coefficient and
Aqueous Solubility, T. Suzuki,
J. Comput.-Aided Mol. Design, 1991, 5, 149-166
8. Group Contribution Method to Estimate Water Solubility in Organic Chemicals, R. Kühne, R.-U. Ebert, F. Kleint, G. Schmidt,
Chemosphere, 1995, 30, 2061-2077
9. Aqueous Functional Group Activity Coefficients (AQUAFAC) IV. – Applications to
Complex Organic Compounds, Y. Lee, P. B. Myrdal, S. H. Yalkowsky,
Chemosphere, 1996, 33, 2129-2144
10. Prediction of Drug Solubility from Monte Carlo Simulations, W. L. Jorgensen, E. M. Duffy,
J. Chem. Inf. Comput. Sci. 2000, 10, 1155-1158
11. Neural Network Based Quantitative Structural Property Relationships (QSPRs) for
Predicting Boiling Points of Aliphatic Hydrocarbons, G. Espinosa, D. Yaffe, Y. Cohen, A. Arenas, F. Giralt,
J. Chem. Inf. Comput. Sci. 2000, 40, 859-879
- 29 -
12. ISIDA : In Silico Design and data Analysis
Projet en collaboration entre le Laboratoire d’Infochimie du Prof. A. Varnek (Université Louis
Pasteur, Strasbourg, France) et l’équipe du Dr V. P. Solov’ev (Russian Academy of Sciences)
http://infochim.u-strasbg.fr/recherche/isida/index.php
13. Beware of Q²! A. Golbraikh, A. Tropsha
J. Molecular Graphics and Modelling 2002, 20, 269–276.
LOGICIELS UTILISES
• CHEMOFFICE 6.0 for Windows (ChemFinder, ChemFinder for Excel, ChemDraw) CambridgeSoft
www.camsoft.com
• TRAIL – Substructural Molecular Fragments Method (v 4.69)
V.P. Solov’ev & A. Varnek
Laboratoire d’Infochimie, UMR 7551 (Université Louis Pasteur, Strasbourg, France)
• EdiSDF – Editor of Structure-Data Files (v 3.92) V.P. Solov’ev & A. Varnek
Laboratoire d’Infochimie, UMR 7551 (Université Louis Pasteur, Strasbourg, France)
• MICROSOFT OFFICE 2000 (Word 2000, Excel 2000) MicroSoft
www.microsoft.com
• DIVA v 2.1 Accelrys
www.accelrys.com
• ISIDA – QSPR Knowledge Base v1.0.0.0
N. Sieffert, V. P. Solov’ev
Laboratoire d’Infochimie, UMR 7551 (Université Louis Pasteur, Strasbourg, France)