etude structure-propriété de la solubilité des molécules...

- 1 -

ASSET Guillaume Maîtrise de Chimie-Physique

2003-2004

Etude structure-propriété de

la solubilité des molécules

organiques dans l'eau

Laboratoire d'Infochimie UMR 7551 ULP Strasbourg, France

http://infochimie.u-strasbg.fr/

Professeur A. VARNEK

- 2 -

I. INTRODUCTION

La solubilité aqueuse des composés organiques est une propriété particulièrement utile, ayant de très

nombreuses applications dans les domaines pharmaceutique et environnemental parmi toutes les

disciplines chimiques concernées. La solubilité d’un médicament est une propriété importante qui

détermine entre autres sa bioactivité. Dans le processus de synthèse de médicaments, il est essentiel

d’estimer la solubilité d’un grand nombre de candidats avant de commencer l’étape expérimentale.

Une connaissance de la solubilité aqueuse est également indispensable à la prédiction de la répartition

globale des polluants organiques, tels que les composés hautement toxiques et cancérigènes.

Du point de vue thermodynamique, le processus de solvatation est l’établissement d’un équilibre entre

la phase du soluté et sa solution aqueuse saturée. La solubilité aqueuse dépend presque intégralement

des forces intermoléculaires qui existent entre les molécules du soluté et celle de l’eau. Les

interactions adhésives soluté-soluté, soluté-eau et eau-eau déterminent la quantité de composant qui se

dissoudra dans l’eau.

La solubilité d’un composé est dès lors sous l’influence de plusieurs facteurs : l’état du soluté, le degré

relatif d’aromaticité et d’aliphaticité de ces molécules, leur taille et leur forme, leur polarité, leurs

effets stériques et la capacité de certains groupements à produire ou non des liaisons hydrogènes. Dans

le but de prédire la solubilité avec précision, tous ces facteurs sont mis en corrélation avec la

solubilité.

De nombreuses études ont été faites précédemment selon différentes approches. Entre autres : Yaffe et

al. [1], Jurs et al. [2], Ran et al. [3], Klopman et al. [4], Nirmalakhandan et al. [5], Wakita et al. [6],

Suzuki [7], Kuhne et al. [8], Lee et al. [9], Jorgensen & Duffy [10].

L’étude « Yaffe » [1] s’est basée sur l’utilisation de calculateurs de type « réseau de neurones ». Le

grand avantage de ces réseaux est leur capacité à modéliser des relations non linéaires entre les

descripteurs chimiques et les propriétés physicochimiques, sans devoir spécifier a priori la forme

analytique du modèle. Les travaux d’Espinosa et al. [11] suggèrent que l’utilisation d’un classificateur

cognitif Fuzzy ARTMAP améliore sensiblement les statistiques QSPR effectuées par les réseaux de

neurones. L’application de cette technique à un jeu hétérogène de molécules organiques est la méthode

employée dans l’étude [1].

L’étude « Jurs » [2] utilise pour le même objectif une autre utilisation des réseaux neuronaux CNN

(Computational Neural Network), leur associant des modules de régressions linéaires multiples (MLR

– Multiple Linear Regression).

L’étude « Ran » [3] se sert de l’Equation Générale de Solubilité (GSE - General Solubility Equation).

Log S = O.5 – log P – 0.01 * (MP – 25)

avec S la constante de solubilité, P le coefficient de partage octanol/eau, MP le point de fusion (en

degrés Celsius). C’est une méthode simple qui ne nécessite que deux paramètres, alors que d’autres

méthodes en utilisent des centaines parfois. Malgré ce faible nombre de critères entrant en jeu, les

résultats se sont avérés très proches des calculs effectués par réseaux de neurones.

L’objectif de la présente étude est double :

• En utilisant les méthodes « structure-propriété » et les logiciels développés et/ou utilisés au

laboratoire d’Infochimie de l’ULP, il s’agira de développer les modèles QSPR liant la

structure et la solubilité des molécules organiques

• Comparer la performance du logiciel TRAIL avec les méthodes utilisées dans les études Yaffe

et al. [1], Jurs et al. [2], ainsi que Ran et al. [3], qui serviront de base de travail.

- 3 -

II. METHODE

2.1 L’ETUDE Q.S.P.R / Q.S.A.R.

L’objectif d’une étude structure/activité est de définir des corrélations entre des descripteurs adéquats

aux molécules étudiées et une propriété donnée, et ceci fait de créer un outil d’estimation de la dite

propriété chimique via l’outil informatique.

La structure de la molécule est alors le seul paramètre que doit fournir l’utilisateur afin d’obtenir

l’estimation de la propriété désirée. De fait, afin d’être utile et performant, l’outil doit être simple

d’utilisation, rapide, et surtout précis ; et tout cela pour la plus vaste gamme de composés possible.

L’avantage évident est le gain de temps pour l’expérimentateur qui peut ainsi définir les molécules

utilisera dans ses manipulations en ayant connaissance d’une approximation des résultats qu’il

obtiendra. Il n’est dès lors pas surprenant que l’application des procédés QSPR/QSAR (Quantitative

Structure-Property/Activity Relationships) marqua un tournant dans la recherche pharmaceutique par

exemple, en permettant de prédire in silico l’efficacité d’une molécule sans avoir besoin de la

synthétiser (voir figure 1).

Les études QSPR/QSAR étant avant tout des analyses statistiques, l’une des étapes absolument

capitales est celle de la sélection des données initiales. En effet, étant donné que les logiciels calculent

des corrélations entre la structure et la propriété expérimentale, il ne faut en aucun cas que les résultats

reposent sur des données expérimentales erronées, auquel cas c’est l’intégralité du prédicteur qui est à

remettre en cause. De ce fait, il est indispensable de sélectionner, pour construire les jeux de molécules

« souches », un panel de structures représentatif du phénomène à modéliser. De même, la taille de ces

jeux est idéalement la plus grande possible, et ce afin d’obtenir de meilleurs résultats statistiques.

Le second point capital est le choix des descripteurs moléculaires utilisés. Deux approches ont été

formulées, à savoir celle de Hanch et celle de Free-Wilson. Dans la première, élaborée en 1969, le

professeur Hanch fournit pour la première fois une équation reliant une activité biologique avec des

descripteurs moléculaires physico-chimiques (à l’époque, les paramètres de lipophilie [logP] et les

caractéristiques électroniques et stériques). Les équations dérivées de cette méthode sont de type :

Propriété = a0 + ΣΣΣΣ ai*Di où Di correspond à la valeur du descripteur i, et a0, ai correspondant aux coefficients associés à

l’équation. Cette équation est une fonction continue, et Di appartient à l’ensemble des réels.

MODELISATIONMODELISATIONMODELISATIONMODELISATION

QSARQSARQSARQSAR ---- QSPRQSPRQSPRQSPR

Données expérimentales

Tests

Base de données

Système Expert

Module

Combinatoire

APPRENTISSAGE : Test du Modèle

Etape de criblage

Composés « chefs de file »

{1}{1}{1}{1}

{2}{2}{2}{2} {3}{3}{3}{3}

{4}{4}{4}{4} {5}{5}{5}{5}

{6}{6}{6}{6}

{7}{7}{7}{7}

EXPERIENCE

Figure 1 : étapes du processus de conception « in silico » de composés aux propriétés définies {1} Un ensemble de données expérimentales est assemblé pour constituer une base de données. Un « système expert » sélectionne une partie de ces

données {2} et établit des corrélations entre structure et propriété {3}. On peut à ce niveau utiliser un module de chimie combinatoire pour utiliser les

résultats de cette modélisation afin de générer une chimiothèque virtuelle : cette dernière pourra être par la suite soumise à une étape de criblage {4}

afin d’en extraire les composés « chefs de file » {5}, c’est-à-dire ceux ayant les propriétés les plus intéressantes, et dont les structures peuvent être alors

être testées et utilisées à leur tour comme point de départ de nouvelles expérimentations {6}. L’ensemble {7} formé par le Système Expert et le module

combinatoire est développé au laboratoire d’Infochimie de l’ULP dans le cadre du projet ISIDA [12]

- 4 -

Directement opposable à cette dernière, l’approche Free-Wilson s’attache à calculer la contribution de

chaque fragment constitutif de la molécule à la propriété étudiée, plutôt que de considérer les

descripteurs comme se référant à l’intégralité de la structure. Une molécule est ainsi découpée en une

collection de petits fragments (successions d’atomes et/ou des liaisons entre eux), et la propriété vaut

donc la somme des contribution de chacun des fragments.

Propriété = a0 + ΣΣΣΣ ai*Ni où Ni correspond au nombre de fragments de type i (donc N prendra des valeurs positives entières ou

nulles), et a0, ai correspondant aux coefficients associés à l’équation.

2.2 LA METHODE S.M.F. & LE LOGICIEL « TRAIL »

Le logiciel TRAIL, utilisé au cours de cette étude, est développé depuis 1998 par le docteur V.

Solov’ev (Russian Academy of Sciences) et le professeur A. Varnek (Université Louis Pasteur,

Strasbourg, France). Se basant sur la méthode SMF (Substructural Molecular Fragments) dérivée de

l’approche Free-Wilson, elle s’attache à découper les molécules du jeu étudié en fragments, puis

calcule la contribution de chacun de ces fragments à la propriété étudiée. Dès lors, le logiciel peut

prédire cette dernière pour des composés-tests simplement en découpant de la même manière ces

molécules en fragments et en utilisant les contributions calculées selon leur nature et nombre.

Deux types de fragmentations existent dans cette méthode : les séquences de 2 à 6 éléments (les

atomes A, les liaisons B, ou les atomes et liaisons AB) qui représentent la catégorie I ; et les atomes

unis, ou « augmented atoms » (catégorie II) , représentant l’environnement de l’atome au niveau des

atomes voisins (A), liaisons (B), des deux (AB) ou de l’hybridation des atomes du type A (Hy). (voir

annexe 1)

Une fois le jeu de molécules découpé en une série de fragments constitutifs, la valeur de la propriété

étudiée pour une molécule est calculée via les fragments utilisés pour constituée cette dernière, et ce

en utilisant des équations d’ajustement linéaires (0 et 1) ou non linéaires (2 et 3).

(0) Propriété = ΣΣΣΣ ai*Ni + ΓΓΓΓ

(1) Propriété = a0 + ΣΣΣΣ ai*Ni + ΓΓΓΓ

(2) Propriété = a0 + ΣΣΣΣ ai*Ni + ΣΣΣΣ bi * (2 * Ni² - 1) + ΓΓΓΓ

(3) Propriété = a0 + ΣΣΣΣ ai*Ni + ΣΣΣΣ bik * Ni * Nk + ΓΓΓΓ

où ai , bi (bik) sont les contributions des fragments, Ni le nombre de fragments du type i dans la

molécule étudiée. Le terme a0 est un fragment indépendant ; ai , bi (bik) sont les mêmes pour toutes les

molécules comportant le fragment dont il est question (et c’est la base même de cette méthode). Un

terme additionnel Γ Γ Γ Γ peut être utilisé pour décrire une particularité du composé (topologique,

électronique, …). Par défaut, ΓΓΓΓ = 0.

Au total on arrive donc à 49 fragmentations possibles, couplées à 4 équations d’ajustement , pour

former un total de 196 modèles possibles. L’exploitation de TRAIL se fait en deux étapes :

• La phase d’apprentissage génère donc 196 modèles et les utilise pour calculer les

contributions de chaque fragment, et en déduit les paramètres statistiques de chaque modèle

appliqué au jeu d’apprentissage

• La phase de prédiction utilise les modèles sélectionnés pour estimer la valeur de la propriété

pour les molécules du jeu de test

2.3 CRITERES DE SELECTION D’UN MODELE Q.S.P.R.

Un modèle est une équation multilinéaire de corrélation reliant des coefficients (a0 … ai) aux critères

(descripteurs Di ou nombre de molécules Ni) qui leur sont associés. Connaissant les dits critères pour

un composé, l’équation nous permet aisément de calculer une approximation de la propriété

concernée. Pour réaliser un tel modèle, il faut partir d’un jeu de composés initial comprenant

- 5 -

structures et valeurs expérimentales associées, que l’on fournira au logiciel : dès lors, naturellement,

ce jeu de données est appelé « jeu d’apprentissage » (learning set).

Plusieurs modes de calculs de corrélations existent, mais nous utiliserons pour notre part une méthode

MLR (Multi-Linear Regression). Les meilleurs modèles QSPR sont sélectionnés en se basant selon

certains des critères statistiques de leur analyse (voir annexe 2) : le coefficient de corrélation R (et son

carré essentiellement), l’écart type s, le coefficient de Fischer F et le coefficient de corrélation croisée

Q². Les trois premiers paramètres ont trait à l’ajustement des valeurs calculées et expérimentales : ils

transcrivent la capacité prédictive dans les limites du modèle, et permettent d’estimer la précision des

valeurs calculées sur le jeu d’apprentissage. Le dernier critère, Q², concerne lui la capacité prédictive à

l’extérieur du modèle, et donc permet de juger de la capacité prédictive du modèle.

Chaque modélisation repose sur le nombre de descripteurs pertinents k utilisés par ce dernier. Une

règle empirique apparaît dans la littérature, selon laquelle le nombre maximal de descripteurs utilisés

devrait idéalement être de l’ordre du cinquième (ou moins) du nombre de composés dans le jeu

d’apprentissage.

On considèrera que pour un jeu d’apprentissage, un modèle est jugé performant si les deux critères

d’acceptation R²>0.8 et Q²>0.6 sont remplis. Pour la phase de tests, on augmentera encore les

critères : R²>0.8 et Q²>0.7, en apportant un soin tout particulier à l’écart type qui doit être le plus petit

possible. Nous nous imposons ainsi des critères de sélection plus sévères que les règles empiriques

formulées par Golbraikh et Tropsha [13] qui servent de référence et dans lesquelles on pose R²>0.6 et

Q²>0.5.

On procédera également aux deux dernières conditions de ces règles empiriques :

1. Les coefficients de corrélation R0² et R’0² doivent être proches de R², soit [ (R²- R0²) / R² ] <

0.1 ou [ (R²- R’0²) / R² ] < 0.1

2. Les pentes k et k’ doivent se situer entre 0.85 et 1.15

Ici, R0 et R’0 sont respectivement les coefficients de corrélation des régressions linéaires des droites

suivantes passant par l’origine, et k et k’ leurs pentes respectives:

• Ycalc = k * Yexp (R0²)

• Yexp = k’ * Ycalc (R’0²)

III. RESULTATS

3.1 PREPARATION & ANALYSE DU JEU DE DONNEES INITIAL

La première étape de la conception d’un tel modèle consiste en la création d’une base de données

recensant la solubilité aqueuse de plus d’un millier de composés organiques. Pour cela on a entré dans

cette base les résultats expérimentaux de logS tirées des trois études [1], [2] et [3] constituant ainsi 4

collections de molécules. Il est nécessaire d’effectuer un pré-traitement des données avant de démarrer

la partie calculatoire :

• Sélection des duplicats,

• Elimination des données aberrantes,

• Traitement des isomères optiques.

Il sera également nécessaire de normaliser la nature des liaisons (problème de l’aromaticité).

Chacune des trois bases de données (issues des publications précédentes) réalisées avec le logiciel

ChemFinder a été exportée vers le tableur Excel. Chaque valeur de logS a été vérifiée une fois encore

à partir de la publication originale, et ce afin de corriger les erreurs commises lors de la saisie initiale

des données. La compatibilité des gammes MS Office et ChemOffice permet de plus d’éditer depuis le

tableur les structures moléculaires conçues via ChemDraw et associées à chaque entrée.

- 6 -

On exporte les données de chaque fichier Excel sous le format .SDF. Sous le logiciel ChemFinder il

est possible d’importer les fichiers de ce format afin de créer directement une nouvelle base de

données avec ces résultats. On importe alors successivement les trois bases précédentes et l’on obtient

au final une collection de 1324 entrées. Néanmoins, parmi ces valeurs se trouvent des duplicats, à

savoir des structures qui furent utilisées dans plusieurs publications. Il faut repérer ces duplicats et

ensuite pour chaque cas définir ce que nous allons en faire : dans le cas où les résultats expérimentaux

sont comparables, il faut choisir (souvent arbitrairement) quel résultat sera conservé dans le jeu global

des molécules. Dans les cas où au contraire les résultats sont différents de plusieurs dixièmes d’unité

de logarithme, et n’ayant aucun moyen de savoir laquelle de ces deux (ou trois) valeurs est la plus

proche de la vérité, on exclura la totalité des mesures pour cette structure. De même, le logiciel TRAIL

que nous allons utiliser pour analyser ces structures ne tient pas compte de la stéréochimie des

composés, alors les isomères optiques sont à considérer comme étant des molécules identiques. En

procédant ainsi on constitue aisément une collection de 1092 molécules organiques avec la valeur

expérimentale de leur solubilité aqueuse.

Un soin tout particulier est accordé aux structures aromatiques ; en effet la succession et la nature des

liaisons étant un paramètre décisif (TRAIL se base en partie sur leur nature et leur séquence

d’enchaînement), il est nécessaire de préciser la nature particulière des liaisons d’un cycle benzénique

par exemple. Afin de ne pas devoir éditer chaque molécule une par une, le logiciel TRAIL possède une

fonction de normalisation des liaisons à partir d’un fichier template (en français, « modèle ») que nous

allons réalisons.

Ce fichier au format .SDF est une collection des différentes structures aromatiques que l’on trouve

dans la base de données constituée plus haut, à ceci près qu’il fait reproduire chaque structure autant

de fois qu’il existe de moyens d’organiser les liaisons simples et doubles dans une représentation de

Kekulé. Cela devient beaucoup plus long et capital dans le cas de structures aromatiques polycycliques

très grandes. Il est difficile d’être exhaustif, tant le nombre des possibilités est important, mais

néanmoins 125 structures différentes ont pu être saisies dans notre cas. Autre précaution d’usage, il

convient d’éditer ce fichier via Excel afin de s’assurer que les groupements aromatiques soient classés

par ordre décroissant de grandeur, afin qu’ils soient les premiers avec lesquels sont comparées les

structures, de telle façon que les molécules très vastes ne soient pas normalisées par parties

uniquement.

Via TRAIL, on normalise le fichier .SDF de la base de données

en utilisant le .SDF du template avec le paramètre

« aromatique ». Dès lors, on peut constater que tous les

fragments reconnus par TRAIL dans le fichier de la base de

données comme étant répertoriés dans le template sont

remplacés par des structures aromatiques (cf fig 2)

Les molécules concernées mais qui n’auront pas été, ou pas

complètement été, normalisées (absence de la structure dans le

template ou autre raison) peuvent encore l’être manuellement

via la fonction SDFeditor accessible depuis le logiciel.

3.2 CALCULS

A présent il faut utiliser la procédure Batch du programme TRAIL afin de sélectionner la catégorie de

fragment considéré qui sera le plus approprié, ainsi que le type d’équation d’ajustement. Pour chacun

de ces quatre jeux de données (les trois « partiels » et le « global »), la collection de structures sera

découpée en fragments et analysée.

TRAIL permet optionnellement d’éliminer les molécules ayant des « fragments rares », c’est-à-dire

ceux qui apparaissent dans moins de m molécules (m étant un paramètre ajustable). Les résultats des

tests effectués dans le laboratoire montrent que l’augmentation de m mène aux modèles QSPR plus

Figure 2 : exemple de normalisation

ou

AVANT NORMALISATION

APRES NORMALISATION

- 7 -

robustes. D’autre part le nombre de molécules éliminées du jeu d’apprentissage augmente également

sensiblement avec m. ici nous présenterons deux séries de calcul, correspondant à m=1 (toutes les

molécules étant considérées) et m=2 (on retirera donc les molécules contenant des fragments qui ne

sont présents qu’à un seul exemplaire, dans l’ensemble du jeu d’apprentissage).

On peut alors lancer les « Batch » avec TRAIL. Ce mode donne une liste de tous les modèles sauf ceux

pour lesquels le nombre de fragments (donc de variables) le nombre de données dans le jeu

d’apprentissage, ainsi que leurs paramètres statistiques. Une fois terminées, nous sommes en

possession d’une analyse de chaque modèle possible présentant également entre autres le nombre de

molécules considérées par ce modèle ainsi que certains de ses paramètres statistiques (critère de

Fischer, etc…) et surtout le coefficient de corrélation R (dans le fichier de sortie, les modèles sont

classés par R décroissant).

Pour le jeu global, les calculs ont été effectués en deux étapes :

1. Les modèles ont été développés pour le jeu initial

2. Le jeu initial a été partagé en deux sub-sets : le jeu d’apprentissage (training set) et le jeu de

test (test set).

Le jeu de test a té préparé selon les recommandations de l’OPRA : il comporte 10% du nombre total

des molécules du jeu d’apprentissage, réparties proportionnellement aux valeurs expérimentales.

Le logiciel Diva (édité chez Accelrys) permet d’analyser très vite un tableau de données et de les

classer en catégories en fonction d’un critère ; ici, ce sera logS. On obtient alors aisément pour chaque

jeu de données un histogramme de répartition des molécules en fonction de la valeur de logS, et ce

selon 10 tranches de valeur. On fait alors pour chaque base une sélection de molécules représentant

environ 10% du nombre total, réparties dans chaque catégorie proportionnellement à l’importance de

celle-ci ; on repère numéro correspondant à chacune d’elle afin de pouvoir les identifier par la suite.

3.2.1 CALCULS SUR LES TROIS JEUX DES PUBLICATIONS

3.2.1.1 JEU RAN

Les molécules de ce jeu couvrent une gamme de logS comprise entre –10.41 et +1.47 unités de

logarithme. On y trouve majoritairement des composés polycycliques, et des édifices organiques

complexes (stéroïdes) mais le panel de structures est vaste. Parmi les hétéroatomes représentés on y

trouve beaucoup d’azote, d’oxygène, d’halogènes et de soufre.

Frag type Eq n k R² Q² F FIT s Spress

RAN II(Hy) 1 244 124 0.942 0.695 15.510 0.123 0.773 1.982

N=338 I(AB,2-4) 1 281 138 0.939 0.596 15.953 0.115 0.760 2.144

m=2 II(AB) 1 302 95 0.907 0.803 21.489 0.221 0.789 1.220

I(A,2-5) 1 301 120 0.895 0.683 12.792 0.104 0.898 1.674

I(AB,2-5) 1 196 156 0.989 0.728 23.655 0.150 0.553 -

I(A,2-6) 1 272 153 0.944 0.790 13.015 0.084 0.789 1.943

Frag type Eq n k R² Q² F FIT S Spress

RAN II(Hy) 1 338 250 0.951 0.404 6.711 0.027 0.904 -

N=338 I(AB,2-4) 1 338 243 0.943 0.463 6.371 0.026 0.937 5.961

m=1 II(AB) 1 338 139 0.910 0.795 14.439 0.102 0.809 1.331

I(A,2-5) 1 338 181 0.899 0.624 7.701 0.042 0.965 2.309

I(AB,2-5) 1 (*)

I(A,2-6) 1 338 275 0.949 0.748 4.193891 0.015183 1.089 -

Tableau 1 : modèles testés pour le jeu Ran N : nombre de structures du jeu – m : critère de sélection des « fragments rares » - Frag type : type de fragmentation – Eq : équation d’ajustement – n :

nombre de structures retenues par le logiciel – k : nombre de variables (fragments) utilisés pour ce modèle – R² : coefficient de corrélation carré – Q² :

coefficient de validation croisée – F : coefficient de Fischer – FIT : critère de Kubinyi – s : écart-type –Spress : déviation standard des erreurs de

prédiction

(*) – Trop de variables pour réaliser une équation appropriée

- 8 -

Le balayage des différents modèles, ou Batch, nous

fournit les critères statistiques de chaque modèle testé

(voir annexe 3). En raison de leurs valeurs et en

appliquant les critères cités en amont, nous

effectuons une première sélection de modèles.

On lance ensuite les modélisations individuelles pour

chaque association d’un type de fragmentation et

d’une équation d’ajustement qui a été

présélectionnée. On effectue pour chaque modèles en

vérité deux calculs, pour m=1 et m=2.

Au vu de ces résultats, on peut déjà éliminer quelques

modèles supplémentaires en se basant sur le besoin

de stabilité. En effet, un modèle idéal doit avoir des

performances comparables quel que soit le

composition du jeu de données ainsi que sa taille.

Le modèle I(AB,2-5) associé à l’équation

d’ajustement 1 (linéaire) est impossible à réaliser si

l’on prend en compte la totalité du jeu, en raison d’un

trop grand nombre de fragments par rapport au

nombre de molécules : nous le rejetons donc de notre

sélection. Les modèles II(Hy) [eq 1] et I(AB,2-4) [eq

1] voient leur coefficient de validation croisée (Q²)

diminuer considérablement lorsque l’on prend en

compte la totalité des molécules (baisse d’environ

40% pour II(Hy) associé à l’équation 1). Instables,

nous devons également les retirer à présent. De ces

six modèles nous n’en garderons donc que trois pour

la suite de l’élaboration du prédicteur, même si les

trois autres restent valables pour le jeu de la

publication. Nous comparerons plus loin les résultats

obtenus par nos différentes méthodes.

Le deux modèles réalisé à partir de la moyenne des

modèles retenus (selon la valeur de m) sont ensuite

passés au test de Golbraikh et Tropsha (cf tableau 2).

Les paramètres calculés sont en accord avec les

règles empiriques, ces modèles sont donc considérés

comme étant robustes et performants (cf fig 3).

3.2.1.2 JEU JURS

Ce jeu de molécules représente une gamme de

composés allant des structures simples (i.e alcools et

amines) jusqu’aux stéroïdes et aux molécules

médicamenteuses ne comportant que de l’oxygène et

de l’azote en guise d’hétéroatomes. La gamme de

logS couverte par ces molécules va de –8.77 à +1.57

unités de logarithme.

y = 1.0274x + 0.0788

R2 = 0.968

N = 338

s = 0.372

-11

-9

-7

-5

-3

-1

1

-11 -9 -7 -5 -3 -1 1

logS exp

logS calc

y = 0,9165x - 0,2461

R2 = 0,935

N = 319

s = 0,511

-10.5

-8.5

-6.5

-4.5

-2.5

-0.5

1.5

-11 -9 -7 -5 -3 -1 1

logS exp

logS calc

y = 0,9248x - 0,259

R2 = 0,8904

N = 338

s = 0,685

-10.5

-8.5

-6.5

-4.5

-2.5

-0.5

1.5

-11 -9 -7 -5 -3 -1 1

logS exp

logS calc

Figure 3 : modélisation et comparaison du jeu Ran

{3.1} Moyenne des modèles retenus pour m=1 et réalisés sans t-test

- {3.2} Moyenne des modèles retenus pour m=2 et réalisés sans t-

test- {3.3} Modélisation réalisée à partir des résultats publiés de

l’étude considérée.

RAN m = 1 m = 2

R² 0.968 0.935

R0 0.982 0.964

R’0 0.983 0.935

k 0.980 0.972

k’ 1.009 1.005

[ ( R²- R0²) / R² ] 0.003 0.006

[ ( R²- R’0²) / R² ] 0.002 0.065

Tableau 2 : résultats du test de Golbraikh & Tropsha

pour les modèles moyens du jeu Ran

{3.1}

{3.2}

{3.3}

- 9 -

Le balayage des modèles se révèle peu concluant

pour cette collection de molécules, aucun modèle

ne révélant de critères statistiques véritablement

performant (voir annexe 3). Seul un modèle,

I(A,2-5) associé à l’équation d’ajustement 2 (non-

linéaire), nous donne des paramètres convenables.

On ne peut guère se prononcer sur les capacités

prédictives de ce seul et unique modèle pour

d’autres molécules, car le coefficient de validation

croisée Q² n’a pu être calculé par le logiciel

TRAIL. Néanmoins il est possible de se prononcer

sur la performance de la prédiction « interne » car

les paramètres prédictifs intrinsèques sont bel et

bien calculés. A première vue cette modélisation

confirme les résultats peu idéaux obtenus lors de la

procédure de Batch, en cela que R² a une valeur

tout à fait performante dans chacun de ces deux

calculs, et que les écarts-type (s) sont dans chaque

cas élevés alors qu’ils rendent compte de la

différence entre valeurs expérimentales et valeurs

prédites. Néanmoins cela reste acceptable.

De plus ce modèle passe tout de même les critères

de Golbraikh et Tropsha si m=1, ce qui est un

critère de performance et de justesse. Dans le cas

où m=2, le retrait des fragments rares entraîne en

toute logique une modification des paramètres

statistiques qui dans ce cas précis agit contre la

performance du modèle : le test n’est plus passé.

(cf tab 4) Néanmoins les valeurs 0.115 et 0.11 des

écarts entre les coefficients de corrélation avant et

après ajustement sont proches de la valeur limite


JURS I(A,2-5) 2 322 158 0.914 - 11.027 0.069 0.7488 25.541

N=346

m=2

Frag type Eq n k R² Q² F FIT S Spress

JURS I(A,2-5) 2 346 238 0.921 - 5.252 0.022 0.924 37.727

N=346

m=1

Tableau 3 : modèles testés pour le jeu Jurs N : nombre de structures du jeu – m : critère de sélection des

« fragments rares » - Frag type : type de fragmentation – Eq :

équation d’ajustement – n : nombre de structures retenues par le

logiciel – k : nombre de variables (fragments) utilisés pour ce

modèle – R² : coefficient de corrélation carré – Q² : coefficient de

validation croisée – F : coefficient de Fischer – FIT : critère de

Kubinyi – s : écart-type – Spress : déviation standard des erreurs

de prédiction

y = 0.903x - 0.2086

R2 = 0.902

N = 346

s = 0.545

-9

-7

-5

-3

-1

1

-9 -7 -5 -3 -1 1

logS exp

logS calc

y = 0,8982x - 0,2202

R2 = 0,899

s = 0,551

N = 322

-8.5

-6.5

-4.5

-2.5

-0.5

1.5

-9.5 -7.5 -5.5 -3.5 -1.5 0.5

logS exp

logS calc

y = 0,9007x - 0,2386

R2 = 0,859

s = 0,659

N = 346

-9

-7

-5

-3

-1

1

-9.5 -7.5 -5.5 -3.5 -1.5 0.5

logS exp

logS calc1

y = 0,9073x - 0,1911

R2 = 0,868

s = 0,647

N = 346

-9

-7

-5

-3

-1

1

-9.5 -7.5 -5.5 -3.5 -1.5 0.5

logS exp

logS calc2

Figure 4 : modélisation et comparaison du jeu Jurs

{4.1} Modèle I(A,2-5)-eq2, m=1 et réalisé sans t-test - {4.2} Modèle

I(A,2-5)-eq2, m=2 et réalisé sans t-test - {4.3} et {4.4} Modélisations

réalisées à partir des résultats publiés de l’étude considérée.

JURS m = 1 m = 2

R² 0.902 0.899

R0 0.947 0.892

R’0 0.950 0.899

k 0.959 0.958

k’ 1.001 1.000

[ ( R²- R0²) / R² ] 0.006 0.115

[ ( R²- R’0²) / R² ] -0.001 0.101

Tableau 4 : résultats du test de Golbraikh &

Tropsha pour le modèle I(A,2-5)-eq2 appliqué au jeu

Jurs

{4.1}

{4.2}

{4.3}

{4.4}

- 10 -

0.100 ; cela nous conforte dans l’idée qu’à défaut

d’être un modèle QSPR robuste, I(A,2-5)-eq2

reste le plus approprié pour cette étude et donne

tout de même une meilleure précision que celle

de la méthode utilisée par les auteurs (cf fig 4).

3.2.1.3 JEU YAFFE

On trouve dans ce jeu une grande proportion de

molécules aromatiques polycycliques dont

beaucoup sont halogénées. Il y a également

beaucoup d’ethers, d’hydrocarbures halogénés et

de variations autour d’un squelette benzénique,

donnant au final une gamme de logS couvrant de

-11.62 à 1.54 unités de logarithme.

L’homogénéité du type de molécules

(répartissables en quelques grandes classes) du

jeu issue de cette publication nous conduit sans

surprise à des résultats préliminaires plus que

corrects (voir annexe 3). Près d’une vingtaine de

modèles nous produisent en effet des résultats

particulièrement probants (R²>0.9 , Q²>0.9 ,

s<0.7).

Beaucoup de modèles auraient pu être choisis

tant leurs performances sont comparables, mais

quatre ont été sélectionnés parmi les plus

compétitifs afin de pousser en avant les tests :


YAFFE I(AB,2-6) 1 384 130 0.975 0.938 76.863 0.578 0.483 0.798

N=475 I(AB,2-5) 1 417 118 0.974 0.936 94.171 0.775 0.481 0.761

M=2 I(AB,2-4) 1 431 82 0.963 0.939 110.065 1.261 0.537 0.699

II(Hy) 1 419 86 0.960 0.943 92.228 1.015 0.573 0.715


YAFFE I(AB,2-6) 1 475 226 0.980 0.936 53.065 0.233 0.491 1.012

N=475 I(AB,2-5) 1 475 118 0.973 0.936 94.171 0.775 0.481 0.761

m=1 I(AB,2-4) 1 475 175 0.977 0.966 70.539 0.397 0.483 0.861

II(Hy) 1 475 151 0.963 0.939 55.775 0.362 0.581 0.791

Tableau 6 : modèles testés pour le jeu Yaffe N : nombre de structures du jeu – m : critère de sélection des « fragments rares » - Frag type : type de fragmentation – Eq : équation d’ajustement –

n : nombre de structures retenues par le logiciel – k : nombre de variables (fragments) utilisés pour ce modèle – R² : coefficient de corrélation carré

– Q² : coefficient de validation croisée – F : coefficient de Fischer – FIT : critère de Kubinyi – s : écart-type – Spress : déviation standard des

erreurs de prédiction

{X.4}

y = 0.8483x - 0.437

R2 = 0.853

N = 475

s = 0.878

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

6

y = 0,9617x - 0,1027

R2 = 0,967

N = 455

s = 0,447

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

l ogS exp

y = 0,9899x - 0,0276

R2 = 0,9771

N = 455

s = 0,3789

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

Figure 5 : modélisation et comparaison du jeu Yaffe

{5.1} Moyenne des modèles retenus pour m=1 et réalisés sans t-test -

{5.2} Moyenne des modèles retenus pour m=2 et réalisés sans t-test-

{5.3} Modélisation réalisée à partir des résultats publiés de l’étude

considérée.

YAFFE m = 1 m = 2

R² 0.853 0.967

R0 0.913 0.985

R’0 0.924 0.985

k 0.935 0.984

k’ 1.002 1.003

[ ( R²- R0²) / R² ] 0.023 -0.003

[ ( R²- R’0²) / R² ] -0.001 -0.003

Tableau 5 : résultats du test de Golbraikh &

Tropsha pour les modèles moyens du jeu Yaffe

{5.1}

{5.2}

{5.3}

- 11 -

I(AB,2-4) eq1, I(AB,2-5) eq1, I(AB,2-6) eq1 et II(Hy) eq1 (cf tab 6). On notera au passage la forte

préférence pour les modèles retranscrivant des séquences longues, traduisant bien la complexité des

édifices moléculaires contenus dans ce jeu de données. En comparant ces données, les résultats se

confirment : non seulement ces quelques modèles sont très performants (R²>0.96 , Q²>0.93 , s<0.6),

mais ils sont également très stables (paramètres quasi-identiques avec que sans fragments rares). Les

résultats très probants obtenus après le test de Golbraikh et Tropsha (cf tab 5) confirment cette

exactitude et cette très haute performance de prédictibilité des modèles moyens réalisés à partir des

modèles présélectionnés (cf fig 5).

3.2.2 CALCULS SUR LE JEU COMPLET

1092 structures composent le jeu global, rassemblant les données des trois publications, balayant une

gamme de logS allant de –11.62 à 1.57 unités de logarithme. La grande diversité de molécules

organiques contenues dans ce jeu entraîne un grand nombre de fragments possibles, donc un nombre k

de variables conséquent qui peut entraîner des écarts importants en ce qui concerne la validité hors-

gamme : afin de limiter cet effet nous utiliserons donc en plus la procédure t-test (cf annexe 2) qui

limitera cet inconvénient.

A l’issue des quatre procédures BATCH lancées (pour m=1 et m=2, à chaque fois en appliquant ou pas

le t-test), trois modèles sont présélectionnés en raison de leurs résultats : II(Hy) eq0, I(AB,2-4) eq0 et

I(AB,2-5) eq0 (cf annexe 4). Douze modélisations ont ainsi été réalisées (cf tab 7 & annexe 5). Dans

chaque cas, le test de Golbraikh et Tropsha a été passé avec succès, les paramètres calculés montrant

même une bonne corrélation, les pentes k et k’ étant très proches de l’unité (cf tab 9).

Frag Type Eq n k R² Q² F FIT s Spress

TOTAL II(Hy) (a) 1092 346 0.877 0.756 15.363 0.044 0.945 1.406

N=1092 I(AB,2-4) (a) 1092 322 0.882 0.744 17.864 0.055 0.911 1.394

m=1 I(AB,2-5) (a) 1092 589 0.934 0.663 12.054 0.020 0.844 2.334


TOTAL II(Hy) (a) 972 206 0.868 0.782 24.481 0.117 0.933 1.229

N=1092 I(AB,2-4) (a) 1012 201 0.876 0.764 28.609 0.140 0.888 1.249

m=2 I(AB,2-5) (a) 939 304 0.930 0.681 27.846 0.091 0.738 1.654


TOTAL II(Hy) (a) 1092 74 0.849 0.807 78.593 0.893 0.894 1.036

N=1092 I(AB,2-4) (a) 1092 80 0.862 0.822 79.756 0.859 0.860 0.661

m=1, t-test I(AB,2-5) (a) 1092 179 0.917 0.860 56.452 0.307 0.702 0.944


TOTAL II(Hy) (a) 972 66 0.855 0.820 82.182 1.028 0.898 1.017

N=1092 I(AB,2-4) (a) 1012 70 0.866 0.913 86.990 1.030 0.856 0.966

m=2, t-test I(AB,2-5) (a) 939 70 0.918 0.852 75.056 0.579 0.705 0.969

Tableau 7 : modèles testés pour le jeu global N : nombre de structures du jeu – m : critère de sélection des « fragments rares » - Frag type : type de fragmentation – Eq : équation d’ajustement –



erreurs de prédiction - (a) = 0


TOTAL II(Hy) (a) 875 191 0.871 0.796 24.302 0.125 0.924 1.204

N=982 I(AB,2-4) (a) 916 192 0.880 0.806 27.719 0.142 0.879 1.146

m=2 I(AB,2-5) (a) 851 290 0.929 0.709 25.219 0.086 0.756 1.601


TOTAL II(Hy) (a) 875 61 0.858 0.824 81.967 1.099 0.889 1.013

N=982 I(AB,2-4) (a) 916 64 0.864 0.829 86.241 1.112 0.860 0.983

m=2, t-test I(AB,2-5) (a) 851 104 0.917 0.863 79.643 0.716 0.708 0.924

Tableau 8 : modèles testés pour le jeu global (phase de test) N : nombre de structures du jeu – m : critère de sélection des « fragments rares » - Frag type : type de fragmentation – Eq : équation d’ajustement –



erreurs de prédiction

- 12 -

SANS T-TEST I(AB,2-4)-0

M = 1

I(AB,2-5)-0

M = 1

II(Hy)-0

M=1

R² 0.882 0.934 0.877

R0 0.936 0.956 0.931

R’0 0.939 0.966 0.936

k 0.953 0.974 0.951

k’ 1.000 1.000 1.000

[ ( R²- R0²) / R² ] 0.007 0.021 0.012

[ ( R²- R’0²) / R² ] 0.006 0.001 0.001

SANS T-TEST I(AB,2-4)-0

M = 2

I(AB,2-5)-0

M = 2

II(Hy)-0

M=2

R² 0.876 0.930 0.867

R0 0.933 0.963 0.925

R’0 0.936 0.964 0.931

k 0.950 0.971 0.947

k’ 1.000 0.999 1.010

[ ( R²- R0²) / R² ] 0.006 0.003 0.013

[ ( R²- R’0²) / R² ] 0.002 0.001 0.000

AVEC T-TEST I(AB,2-4)-0

M = 1

I(AB,2-5)-0

M = 1

II(Hy)-0

M=1

R² 0.862 0.917 0.849

R0 0.923 0.956 0.913

R’0 0.928 0.957 0.922

k 0.945 0.967 0.940

k’ 1.000 1.000 0.999

[ ( R²- R0²) / R² ] 0.011 0.003 0.018

[ ( R²- R’0²) / R² ] 0.001 0.001 -0.001

AVEC T-TEST I(AB,2-4)-0

M = 2

I(AB,2-5)-0

M = 2

II(Hy)-0

M=2

R² 0.882 0.917 0.877

R0 0.936 0.956 0.931

R’0 0.939 0.958 0.936

k 0.953 0.9668 0.951

k’ 0.997 1.000 0.979

[ ( R²- R0²) / R² ] 0.208 0.003 0.011

[ ( R²- R’0²) / R² ] 0.000 0.002 0.009

Tableau 9 : résultats du test de Golbraikh & Tropsha pour les modèles retenus pour le

jeu complet

Afin de mettre à l’épreuve la

stabilité du modèle, on a soumis

les modèles réalisés avec m=2 (soit

6 modèles, cf tab 8) à une phase de

test. Ayant séparé le jeu initial de

1092 molécules en un jeu

d’apprentissage de 982 structures

et un jeu de test en contenant 110,

nous allons obtenir les valeurs

calculées pour ces derniers à partir

du modèle réalisé avec les 982

molécules conservées. Si le modèle

est stable, les paramètres

statistiques obtenus pour ce modèle

doivent être comparables avec

ceux obtenus pour le jeu complet

cette fois, tout en conservant une

corrélation bonne entre les valeurs

expérimentales et calculées du jeu

de test. (cf tab 10 et annexe 6). Le

paramètre m=2 a été choisi car cela

implique une restriction du nombre

de données en amont via un tri des

« fragment rares », et que le retrait

de 110 molécules entraîne une

augmentation du nombre de

molécules écartées (par la création

d’autres fragments rares) : le test

de stabilité est donc effectué dans

les conditions les plus défavorables

à la robustesse des modèles.

AVEC T-TEST

m = 2

I(AB,2-5)-0

JA

I(AB,2-5)-0

JT

I(AB,2-4)-0

JA

I(AB,2-4)-0

JT

II(Hy)-0

JA

II(Hy)-0

JT

MOYENNE

JA

MOYENNE

JT

R² 0.917 0.578 0.865 0.808 0.858 0.794 0.893 0.744

R0 0.956 0.760 0.925 0.896 0.920 0.890 0.941 0.862

R’0 0.957 0.671 0.930 0.894 0.926 0.865 0.945 0.844

k 0.966 0.856 0.945 0.948 0.943 0.941 0.950 0.921

k’ 1.000 0.907 1.000 0.971 1.000 0.957 1.007 0.962

[ ( R²- R0²) / R² ] 0.003 0.001 0.011 0.006 0.014 0.002 0.008 0.001

[ ( R²- R’0²) / R² ] 0.001 0.221 0.000 0.011 0.001 0.058 0.000 0.043

SANS T-TEST

m = 2

I(AB,2-5)-0

JA

I(AB,2-5)-0

JT

I(AB,2-4)-0

JA

I(AB,2-4)-0

JT

II(Hy)-0

JA

II(Hy)-0

JT

MOYENNE

JA

MOYENNE

JT

R² 0.929 0.585 0.880 0.745 0.871 0.794 0.901 0.706

R0 0.963 0.759 0.935 0.858 0.927 0.890 0.946 0.836

R’0 0.964 0.719 0.938 0.854 0.933 0.861 0.949 0.824

k 0.971 0.868 0.951 0.952 0.949 0.939 0.954 0.934

k’ 1.000 0.926 1.000 0.938 1.000 0.956 1.001 0.933

[ ( R²- R0²) / R² ] 0.002 0.015 0.007 0.011 0.013 0.002 0.007 0.010

[ ( R²- R’0²) / R² ] 0.000 0.116 0.000 0.021 0.001 0.066 0.000 0.038

Tableau 10 : résultats du test de Golbraikh & Tropsha pour les modèles retenus (JA : jeu d’apprentissage N=982 ; JT : jeu de test N=110)

- 13 -

IV. DISCUSSION

4.1 TRAIL & SES CONCURRENTS

Pour chaque jeu de données issu d’une publication, on a calculé la moyenne des prédictions à partir

des modèles retenus à l’issue du balayage initial. Ce « modèle de synthèse » réalisé à partir des

meilleurs modèles de chaque cas est ensuite comparé aux résultats obtenus dans ces différentes études.

On trace la droite de corrélation : logS calc = f (logS exp) puis on compare les paramètres statistiques

et l’équation de la droite de corrélation (cf fig 3, 4, 5 et tab 10). Dans le cas de l’étude « Jurs », seul un

unique modèle ayant été retenu, il sera comparé aux deux séries de résultats parus dans cette

publication. N’ont été retenues par les deux partis pour cette étude comparative que les molécules pour

lesquelles une moyenne a pu être calculée (donc dont au moins un modèle de TRAIL retenu a pu

prédire une valeur de logS), les autres ayant été retirées des valeurs des deux jeux de molécules.

Dans les cas Ran et Jurs on note de meilleurs résultats via la méthode TRAIL : R² est sensiblement plus

élevé, et l’écart-type S et lui au contraire plus faible. Pour le jeu Ran, les résultats obtenus sont

particulièrement probants : d’une part, le coefficient de corrélation carré est plus élevé : R²(m=1)=0.968

et R²(m=2)=0.935 contre R²(Ran)=0.890. Mais c’est en comparant les écarts types que l’on observe une

amélioration encore plus nette : alors que S(Ran)=0.685 dans la publication de départ, on arrive à une

valeur de S(m=2)=0.511 et même jusqu’à S(m=1)=0.372 (soit une baisse de 46% de l’écart-type par

rapport à la publication).

Dans le cas du jeu Jurs, modélisations réalisées avec m=1 ou m=2 présentent des résultats

comparables (S(m=1)=0.545 et S(m=2)=0.551, contre S(Jurs 1)=0.659 et S(Jurs 2)=0.647 pour l’étude

originale), pour une valeur de R² constante aux alentours de 0.900, soit encore un peu plus performant

que la publication de départ. R étant un critère de validité interne il n’est pas étonnant de le voir

supérieur au R publié dans la mesure où l’écart type, donc la précision du modèle, est plus performant

avec TRAIL une fois de plus.

En revanche dans le cas du jeu Yaffe le bilan est différent. On peut voir tout de suite que les tests

effectués pour m=1 (R²(m=1)=0.853, S(m=1)=0.878)sont bien en-dessous des performances recherchées.

En ce qui concerne les modélisations avec m=2, le coefficient de corrélation carrée R² est moins élevé

en utilisant TRAIL, mais reste une très bonne valeur (S(m=2)=0.966 pour TRAIL contre S(Yaffe)=0.977

publié) ; et il en est de même pour l’écart type, qui malgré une valeur particulièrement valable

(S(m=2)=0.447) reste moins bonne que celle de l’étude initiale (S(Yaffe)=0.379). Néanmoins l’écart est

minime entre ces deux techniques, et les résultats sont de nature comparable.

JEU « RAN » (N=338) Moyenne TRAIL (m=1) Moyenne TRAIL (m=2)

319 molécules prises en compte Publiés

Y = 1.0274 X + 0.0788 Y = 0.9165 X – 0.2461 Y = 0.9248 X – 0.2590 R² = 0.968 R² = 0.935 R² = 0.890 S = 0.372 S = 0.511 S = 0.685

JEU « JURS » (N=346) Moyenne TRAIL (m=1) Moyenne TRAIL (m=2)

322 molécules prises en

compte

Publiés (1ère série) Publiés (2ème série)

Y = 0.9030 X – 0.2086 Y = 0.8982 X – 0.2202 Y = 0.9007 X – 0.2386 Y = 0.9073 X – 0.1911 R² = 0.902 R² = 0.899 R² = 0.859 R² = 0.868 S = 0.545 S = 0.551 S = 0.659 S = 0.647

JEU « YAFFE » (N=475) Moyenne TRAIL (m=1) Moyenne TRAIL (m=2)

455 molécules prises en compte Publiés

Y = 0.8483 X - 0.4370 Y = 0.9617 X – 0.1027 Y = 0.9899 X – 0.0276 R² = 0.853 R² = 0.966 R² = 0.977 S = 0.878 S = 0.447 S = 0.379

Tableau 11 : comparaison entre les performances de TRAIL et les résultats des publications précédentes

- 14 -

On peut voir ainsi que l’utilisation de TRAIL pour ces études conduit à des résultats au moins aussi

bons que ceux de ses concurrents directs, voire même meilleurs pour deux des trois cas étudiés ici.

TRAIL est un programme de prise en main simple qui dispose d’un atout majeur néanmoins : les

ressources qu’il demande sont beaucoup moins importantes, un simple ordinateur individuel suffit,

contrairement aux réseaux neuronaux qui requièrent l’usage de machines plus puissantes afin

d’effectuer des calculs très demandeurs de ressources. De plus TRAIL calcule et analyse rapidement

les données qui sont à sa disposition (dans les limites des capacités de l’ordinateur).

4.2 PERFORMANCES DE NOTRE PREDICTEUR

On constate que quel que soit le modèle, cinq molécules présentent toujours un écart important (>3s)

entre la valeur expérimentale et la valeur calculée – on les appelle « outlayers » (voir annexe 7).

L’utilisation du t-test diminue considérablement le nombre de variables (fragments) retenus, n’en

gardant qu’un nombre restreint mais plus adéquat ; les critères statistiques propres à chaque modèle

n’en sont que modifiés de façon positive : très légères fluctuations de R², amélioration de Q² et de s (cf

fig 2)

Les douze modèles retenus présentent des critères de prédiction interne et externe de très bon niveau

(0.849<R²<0.930, 0.681<Q²<0.913). Ces résultats comportent néanmoins un point faible, la valeur

élevée de l’écart type associé à ces prédictions (0.702<S<0.945) (cf tab 7). Néanmoins ce paramètre

diminue considérablement lors de la réalisation de la droite de corrélation logS calc = f (logS exp)

(voir annexe 5). L’exactitude des estimations s’en voit confortée et les performances du prédicteur se

voient assurées.

Les résultats obtenus sur le jeu de test démontrent la stabilité des modèles I(AB,2-4) eq0 et II(Hy)

eq0, que ce soit en appliquant ou pas la procédure du t-test : les paramètres statistiques du jeu

d’apprentissage ne fluctuent que peu par rapport au jeu complet, et la corrélation entre les valeurs

prédites et les valeurs expérimentales satisfont toujours les critères que nous nous sommes imposés

dès le départ. Le test de Golbraikh et Tropsha est encore une fois passé pour chaque modèle avec

succès (cf tab 10), preuve supplémentaire de la robustesse de ces modèles sélectionnés.

En revanche, I(AB,2-5) eq0 s’avère ne pas être aussi performant : à l’issue de la phase de test, le jeu

d’apprentissage garde des paramètres très bons : S(m=2)=0.756 et S(m=2, t-test)=0.708.(cette fragmentation

était déjà la plus performante à l’étape précédente), mais la corrélation entre prédiction et expérience

est peu satisfaisante : R²<0.6 et s>1.5. Néanmoins (sans cette phase de test) il reste le modèle

présentant les critères statistiques les meilleurs ; cette baisse de justesse des prédictions est imputable

au retrait des 110 molécules (sélectionnées arbitrairement) du jeu de test qui ont entraîné une

modification du nombre de fragments propices à cette fragmentation et aux données à analyser. Les 4

modèles de fragmentation I(AB,2-5) eq1 seront conservés et incorporés tout de même dans

l’élaboration du prédicteur.

V. CONCLUSION

Le logiciel TRAIL a été mis à l’épreuve en comparant ses performances avec celles de trois autres

méthodes de prédiction, impliquant chacune une technique différente. Les résultats prouvent que

TRAIL est un outil informatique puissant qui dépassé l’efficacité de deux de ces trois approches

auxquelles il était opposé.

Une modélisation de la solubilité aqueuse (logS) d’une collection de 1092 molécules organiques a été

réalisée par approche QSPR se basant sur des descripteurs fragmentaires (utilisés par le logiciel

TRAIL). Trois associations « fragmentation-ajustement » ont été sélectionnées au vu de leurs

- 15 -

performance, et réalisées en faisant varier le nombre de molécules impliquées dans la modélisation et

la procédure de calcul.

Ces douze modèles ont été utilisés pour constituer un module de prédiction de la solubilité aqueuse de

la base de connaissances développée par N. Sieffert et V. P. Solov’ev dans le cadre du projet ISIDA

[12]. Dès lors il est possible d’obtenir une prédiction de la valeur de logS d’une molécule en entrant sa

structure et en sélectionnant un modèle (voir annexe 8).

- 16 -

ANNEXES

Annexe 1 TYPES DE FRAGMENTATIONS UTILISES

Annexe 2 CRITERES STATISTIQUES

Annexe 3 BATCHS – PHASE COMPARATIVE AVEC LES PUBLICATIONS

Annexe 4 BATCHS – JEU GLOBAL

Annexe 5 JEU COMPLET – CORRELATIONS

Annexe 6 JEU D’APPRENTISSAGE & JEU DE TEST – CORRELATIONS

Annexe 7 JEU COMPLET – OUTLAYERS

Annexe 8 UTILISATION DU PREDICTEUR REALISE

REFERENCES BIBLIOGRAPHIQUES

LOGICIELS UTILISES

- 17 -

ANNEXE 1 : TYPES DE FRAGMENTATIONS UTILISES

Deux classes de fragmentation moléculaire substructurale : les séquences d’atomes

et/ou de liaisons (I),

et les atomes augmentés (atomes et/ou liaisons). De haut en bas, les séquences correspondent aux types

I(AB, 2-4), I(A, 2-4) et I(B, 2-4). Le type II(Hy) correspond au type II(AB) en prenant en compte

l’hybridation des atomes considérés.

P

O

P

O

O O O

P P

O O

SEQUENCES ATOMES AUGMENTES

I II

ATOMES et LIAISONS (AB)

C-C-P=O; C-C-P; C-C; C-P=O; C-P; P=O P (-C) (-C) (-C) (=O)

ATOMES (A)

P (C) (C) (C) (O) or C C P O; C C P; C C; C P O; C P; P O

(Hy)

Psp2(Csp3)(Csp2)(Csp2)(Osp2)

LIAISONS (B)

- - =; - -; -; - =; -; = P (-) (-) (-) (=)

- 18 -

ANNEXE 2 : CRITERES STATISTIQUES

A) LE COEFFICIENT DE CORRELATION CARRE (R²)

La plus courante façon d’apprécier la qualité d’une procédure de régression linéaire consiste à calculer

son coefficient de corrélation carré R². Comprise entre 0 et 1, cette valeur indique la proportion de

variation de la variable dépendante dont l’équation de régression rend compte.

Afin de calculer R² il faut procéder en plusieurs étapes (supposons que les Ycalc,i sont les valeurs

obtenues via l’équation de régression et que les Yi sont les valeurs expérimentales correspondantes) :

Somme totale des carrés (Total Sum of Squares) :

TSS = ΣΣΣΣ (Yi - <Y>)²

Somme étendue des carrés (Explained Sum of Squares) :

ESS = ΣΣΣΣ (Ycalc,i -<Y>)²

Somme résiduelle des carrés (Residual Sum of Squares) :

RSS = ΣΣΣΣ (Yi – Ycalc,i)² (D’où TSS = ESS + RSS)

Ainsi on a enfin :

R² = ESS / TSS ≡≡≡≡ (TSS - RSS) / TSS ≡≡≡≡ 1 – RSS/TSS

B) LE COEFFICIENT DE VALIDATION CROISEE (Q²) & LA DEVIATION STANDARD

DES ERREURS DE PREDICTION (SPRESS)

Les méthodes de validation croisée sont une façon de dépasser certains problèmes inhérents à

l’utilisation de R² comme seul critère. La validation croisée implique le retrait de quelques valeurs du

jeu de données, la synthèse d’un modèle QSAR utilisant les données restantes, puis l’application de ce

modèle pour prédire les valeurs des structures écartées.

La forme la plus simple de validation croisée est l’approche Leave-One-Out (LOO), où seule une

valeur est écartée. Répéter cette marche à suivre pour l’ensemble des valeurs du jeu de données

successivement conduit à un R² validé par croisement, noté Q². Si R² est une mesure de la justesse de

la corrélation, Q² est une mesure de la justesse de la prédiction.

La somme résiduelle prédictive des carrés (PRESS, Predictive Residual Sum of Squares) est comme

Q² une mesure des capacités prédictives d’un modèle. Elle est analogue à RSS, mais plutôt que

d’utiliser Ycalc,i calculé depuis le modèle, PRESS utilise les valeurs prédites Ypred,i pour les données

non utilisées pour l’élaboration du modèle :

PRESS = ΣΣΣΣ (Yi – Ypred,i)²

Q² = 1 – ( PRESS / TSS )

On peut également utiliser le paramètre SPRESS qui rend compte des variations d’erreur des prédictions.

SPRESS = [ PRESS / ( N – k – 1 ) ]1/2

Où k est le nombre de variables (descripteurs) et N le nombre de molécules total du jeu.

C) L’ECART-TYPE (s)

L’écart-type, ou erreur standard de prédiction, est un paramètre statistique très couramment utilisé. Il

indique avec quelle précision la fonction de régression prédit les valeurs.

- 19 -

s = [ RSS / ( N – k – 1 ) ]1/2

où k est le nombre de variables indépendantes dans l’équation.

D) LE COEFFICIENT DE FISCHER (F)

Le critère de Fischer reflète le nombre de degrès de liberté associé à chaque paramètre :

F = [ ESS / ( s² * k ) ] = ( ESS / k ) * [ ( N – k – 1 ) / RSS]

La somme étendue des carrés ESS est associée à k degrés de liberté, et la somme résiduelle des carrés

RSS avec (N – k – 1) degrés de liberté.

La valeur calculée de F est comparée avec les valeurs des tables statistiques, donnant F pour différents

degrés de confiance. Si a valeur calculée est supérieure à la valeur tabulée, alors l’équation est dite

significative pour ce niveau de confiance. De hautes valeurs de F correspondent à des niveaux de

haute confiance – et pour un niveau de confiance donné, la valeur de F chute lorsque le nombre de

variables indépendantes diminue et/ou lorsque le nombre de points (données initiales) augmente, ce

qui corrèle avec le fait que l’on désire idéalement décrire un grand nombre de données avec le moins

de variables indépendantes possibles. Les tables donnent les valeurs de F en fonction de k et (N – k –

1).

E) LE CRITERE DE KUBINYI (FIT)

FIT = [ R² * ( N – k – 1 ) ] / [ ( n + k² ) * ( 1 – R² ) ]

F) LA PROCEDURE T-TEST

Si certaines des variables des équations d’ajustement sont linéairement dépendantes ou si un fragment

n’apparaît que dans un nombre relativement faible de molécules, la déviation standard ∆∆∆∆ai (∆∆∆∆bi) pour

les contributions ai (bi) peut être très grande, conduisant ainsi à une valeur de t = (ai / ∆∆∆∆ai) plus petite

que la valeur tabulée t0. La procédure t-test est appliquée alors pour augmenter la robustesse des

modèles.

Tout d’abord, TRAIL sélectionne la valeur la plus petite de t < t0, puis recalcule un nouvel ajustement

en excluant cette variable. La procédure est ensuite répétée jusqu’à ce que t ≥ t0 pour toutes les

variables.

En pratique, appliquer le t-test conduit à des fluctuations mineures de R² pour le modèle considéré,

mais améliore les valeurs de Q² et de s de manière non négligeable.

- 20 -

ANNEXE 3 : BATCHS – PHASE COMPARATIVE AVEC LES PUBLICATIONS

JEU RAN (m=2, sans t-test)

no fragment fitting n k R F FIno fragment fitting n k R F FIno fragment fitting n k R F FIno fragment fitting n k R F FIT s HRFT s HRFT s HRFT s HRF type equationtype equationtype equationtype equation 1 I(AB,2-5) 0 256 172 0,991787 29,54 0,171 5,26E-01 8,184 2 I(AB,2-5) 1 256 173 0,991801 29,07 0,168 5,29E-01 8,177 3 I(AB,3-5) 1 256 163 0,988370 24,25 0,148 5,94E-01 9,730 4 I(AB,3-5) 0 256 162 0,986417 21,06 0,129 6,38E-01 10,511 5 I(AB,2-4) 2 340 299 0,982147 3,75 0,013 1,20E+00 11,752 6 II(Hy) 2 314 285 0,983912 3,10 0,011 1,31E+00 11,184 7 I(A,2-6) 2 337 327 0,983630 0,91 0,003 2,30E+00 11,286 8 I(AB,4-5) 1 268 153 0,978371 16,92 0,110 7,38E-01 13,286 9 I(AB,4-5) 0 268 152 0,972522 13,41 0,088 8,27E-01 14,953 10 I(A,2-5) 2 364 253 0,971968 7,53 0,030 9,21E-01 14,535 11 I(AB,3-4) 2 340 277 0,971826 3,88 0,014 1,21E+00 14,725 12 I(A,3-6) 2 337 311 0,976789 1,74 0,006 1,70E+00 13,415 13 I(AB,2-4) 0 340 149 0,969616 20,27 0,135 7,20E-01 15,283 14 I(AB,2-4) 1 340 150 0,969664 20,07 0,133 7,22E-01 15,271 15 II(Hy) 0 314 142 0,969073 18,81 0,131 7,46E-01 15,449 16 II(Hy) 1 314 143 0,969130 18,61 0,129 7,47E-01 15,434 17 I(A,2-6) 1 337 164 0,969095 16,38 0,099 7,58E-01 15,450 18 I(A,2-6) 0 337 163 0,968516 16,26 0,099 7,63E-01 15,592 19 II(AB) 2 373 197 0,964478 11,97 0,060 8,26E-01 16,264 20 I(A,3-5) 2 364 233 0,962269 7,06 0,030 9,81E-01 16,822

JEU JURS (m=2, sans t-test)

no fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRF type equationtype equationtype equationtype equation 1 I(AB,2-6) 1 258 198 0,987827 12,28 0,062 5,90E-01 10,748 2 I(AB,2-6) 0 258 197 0,986980 11,72 0,059 6,05E-01 11,113 3 I(A,2-6) 2 355 261 0,978723 8,23 0,031 7,23E-01 13,721 4 I(AB,3-6) 1 258 190 0,970662 5,86 0,031 8,57E-01 16,613 5 I(AB,4-6) 1 258 175 0,962627 6,03 0,034 8,74E-01 18,712 6 I(AB,2-4) 2 359 247 0,969741 7,18 0,029 7,81E-01 16,130 7 I(AB,3-6) 0 258 189 0,966673 5,23 0,028 9,06E-01 17,689 8 I(A,3-6) 2 355 247 0,967184 6,36 0,026 8,36E-01 16,991 9 I(AB,5-5) 2 323 227 0,960505 5,06 0,022 9,18E-01 18,860 10 I(AB,5-6) 1 268 146 0,952751 8,28 0,056 8,31E-01 21,350 11 I(A,2-5) 2 379 191 0,954917 10,24 0,053 7,55E-01 19,372 12 I(AB,2-5) 0 310 180 0,953765 7,31 0,040 8,32E-01 20,160 13 I(AB,2-5) 1 310 181 0,954067 7,27 0,040 8,33E-01 20,095 14 I(A,4-6) 2 355 219 0,958615 7,07 0,032 8,34E-01 19,039 15 I(AB,4-6) 0 258 174 0,957651 5,37 0,031 9,23E-01 19,894 16 I(AB,3-4) 2 359 225 0,954794 6,17 0,027 8,69E-01 19,640 17 II(Hy) 2 336 237 0,959098 4,82 0,020 9,26E-01 18,266 18 I(A,2-6) 1 355 131 0,941813 13,53 0,102 7,68E-01 22,478 19 I(AB,5-6) 0 268 145 0,947045 7,43 0,051 8,75E-01 22,569 20 I(AB,6-6) 2 285 195 0,944983 3,87 0,020 1,05E+00 22,905

JEU YAFFE (m=2, sans t-test)

no fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRFno fragment fitting n k R F FIT s HRF type equatype equatype equatype equationtiontiontion 1 I(AB,2-5) 1 455 120 0,980426 69,81 0,568 5,82E-01 12,765 2 I(AB,2-6) 1 429 141 0,983126 59,42 0,415 5,62E-01 11,854 3 I(AB,2-6) 0 429 140 0,980642 52,15 0,367 6,00E-01 12,689 4 I(AB,2-4) 2 473 171 0,982451 49,29 0,285 5,87E-01 12,045 5 I(AB,2-5) 2 455 239 0,985338 30,27 0,126 6,28E-01 11,061 6 I(AB,2-6) 2 429 281 0,988814 23,23 0,083 6,39E-01 9,665 7 I(AB,3-6) 2 430 259 0,981208 17,14 0,066 7,70E-01 12,517 8 II(B) 3 512 435 0,986799 6,59 0,015 1,05E+00 10,667 9 I(AB,2-4) 1 473 86 0,974622 86,30 0,953 6,23E-01 14,456 10 I(AB,2-4) 0 473 85 0,973119 82,47 0,920 6,40E-01 14,872 11 II(Hy) 0 456 87 0,974268 80,17 0,878 6,42E-01 14,619 12 II(Hy) 1 456 88 0,974367 79,35 0,860 6,41E-01 14,591 13 I(AB,2-3) 2 506 97 0,970102 68,07 0,672 6,79E-01 15,979 14 I(AB,2-5) 0 455 119 0,977754 61,87 0,508 6,19E-01 13,599 15 II(AB) 2 481 131 0,971009 44,42 0,332 7,10E-01 15,565 16 I(AB,3-6) 1 430 130 0,971868 39,60 0,299 7,09E-01 15,279 17 I(AB,3-4) 2 474 149 0,971971 37,53 0,248 7,15E-01 15,198 18 II(Hy) 2 456 175 0,979381 37,95 0,215 6,59E-01 13,103 19 I(AB,3-5) 2 456 217 0,978613 25,04 0,115 7,20E-01 13,351 20 I(AB,2-3) 0 506 48 0,961419 119,03 2,061 7,27E-01 18,111

- 21 -

ANNEXE 4 : BATCHS – JEU GLOBAL

JEU GLOBAL (m=1, sans t-test)

nononono fragmentfragmentfragmentfragment eqeqeqeq nnnn NNNN R2R2R2R2 FFFF FITFITFITFIT ssss HRFHRFHRFHRF typetypetypetype 1 I(AB,2-5) 2 939 229 0.961 75.99 0.327 0.524 12.742 2 I(AB,3-5) 2 928 232 0.952 59.14 0.252 0.583 14.057 3 I(AB,2-5) 1 939 117 0.918 79.71 0.642 0.701 18.350 4 I(AB,2-5) 0 939 123 0.918 75.06 0.579 0.705 18.371 5 I(AB,4-5) 2 870 165 0.914 45.47 0.269 0.747 18.247 6 I(AB,2-4) 2 1012 117 0.908 76.21 0.611 0.728 19.337 7 I(A,2-6) 2 1013 136 0.904 60.88 0.427 0.758 19.865 8 II(Hy) 2 972 114 0.896 65.10 0.535 0.783 20.450 9 I(AB,3-4) 2 1001 112 0.888 63.79 0.532 0.799 21.180 10 I(A,3-6) 2 1002 125 0.878 50.75 0.384 0.848 22.250 11 I(AB,2-4) 1 1012 71 0.866 86.99 1.030 0.856 23.333 12 I(A,2-5) 2 1049 75 0.866 85.04 0.964 0.854 23.298 13 I(AB,3-5) 1 928 110 0.864 47.77 0.406 0.900 23.525 14 I(AB,2-4) 0 1012 64 0.863 94.78 1.199 0.863 23.606 15 I(A,2-6) 1 1013 76 0.861 77.53 0.876 0.879 23.832 16 I(A,2-6) 0 1013 74 0.860 78.94 0.909 0.882 23.946 17 II(Hy) 0 972 66 0.855 82.18 1.028 0.898 24.095 18 II(Hy) 1 972 64 0.854 84.10 1.072 0.901 24.202 19 II(AB) 2 1037 63 0.844 85.20 1.082 0.917 24.965 20 I(A,2-4) 2 1073 50 0.838 107.83 1.521 0.923 25.506

JEU GLOBAL (m=2, avec t-test)

nononono fragmentfragmentfragmentfragment eqeqeqeq nnnn NNNN R2R2R2R2 FFFF FITFITFITFIT ssss HRFHRFHRFHRF typetypetypetype 1 I(AB,2-5) 2 939 229 0.961 75.99 0.327 0.524 12.742 2 I(AB,2-5) 1 939 117 0.918 79.71 0.642 0.701 18.350 3 I(AB,2-5) 0 939 123 0.918 75.06 0.579 0.705 18.371 4 I(AB,2-4) 2 1012 117 0.908 76.21 0.611 0.728 19.337 5 I(A,2-6) 2 1013 136 0.904 60.88 0.427 0.758 19.865 6 I(AB,3-4) 2 1012 101 0.883 68.62 0.623 0.814 21.834 7 I(A,3-6) 2 1013 105 0.867 56.89 0.500 0.875 23.335 8 I(AB,2-4) 1 1012 71 0.866 86.99 1.030 0.856 23.333 9 I(A,2-5) 2 1049 75 0.866 85.04 0.964 0.854 23.298 10 I(AB,2-4) 0 1012 64 0.863 94.78 1.199 0.863 23.606 11 I(AB,3-5) 1 939 112 0.862 46.65 0.391 0.908 23.833 12 I(A,2-6) 1 1013 76 0.861 77.53 0.876 0.879 23.832 13 I(A,2-6) 0 1013 74 0.860 78.94 0.909 0.882 23.946 14 II(Hy) 0 972 66 0.855 82.18 1.028 0.898 24.095 15 II(Hy) 1 972 64 0.854 84.10 1.072 0.901 24.202 16 I(A,2-4) 2 1073 50 0.838 107.83 1.521 0.923 25.506 17 I(AB,2-3) 2 1073 65 0.838 81.22 1.006 0.929 25.558 18 I(AB,3-5) 0 939 94 0.831 44.54 0.432 0.996 26.435 19 I(A,3-5) 2 1049 77 0.830 62.39 0.695 0.963 26.248 20 I(A,2-5) 1 1049 40 0.825 122.18 1.854 0.958 26.602

- 22 -

ANNEXE 5 : JEU COMPLET (N=1092) – CORRELATIONS

M = 1

I(AB,2-4) eq 0 sans t-test

I(AB,2-4) eq 0 avec t-test

y = 0,8959x - 0,259

R2 = 0,882

N = 1092

s = 0,765

-12

-10

-8

-6

-4

-2

0

2

-12 -7 -2

logS exp

y = 0.8713x - 0.3344

R2 = 0.862

N = 1092

s = 0.777

-12

-10

-8

-6

-4

-2

0

2

-12 -7 -2

logS exp



y = 0.9422x - 0.1429

R2 = 0.934

N = 1092

s = 0.558

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

y = 0.9235x - 0.1971

R2 = 0.917

N = 1092

s = 0.619

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

II(Hy) eq 0 sans t-test

II(Hy) eq 0 avec t-test

y = 0,8792x - 0,3256

R2 = 0,877

N = 1092

s = 0,734

-12

-10

-8

-6

-4

-2

0

2

-12 -7 -2

logS exp

y = 0.8497x - 0.4102

R2 = 0.849

N = 1092

s = 0.797

-12

-10

-8

-6

-4

-2

0

2

-12 -7 -2

logS exp

- 23 -

M = 2



y = 0,8908x - 0,2698

R2 = 0,876

N = 1012

s = 0,756

-12

-10

-8

-6

-4

-2

0

2

-12 -7 -2

logS exp

y = 0.8676x - 0.3522

R2 = 0.863

N = 1012

s = 0.781

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc



y = 0,9303x - 0,191

R2 = 0,930

N = 939

s = 0,585

-12

-10

-8

-6

-4

-2

0

2

-12 -7 -2

logS exp

y = 0.9255x - 0.19

R2 = 0.918

N = 939

s = 806

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

II(Hy) eq 0 sans t-test

II(Hy) eq 0 avec t-test

y = 0,8704x - 0,3555

R2 = 0,868

N = 972

s = 0,775

-12

-10

-8

-6

-4

-2

0

2

-12 -7 -2

logS exp

y = 0.8589x - 0.3859

R2 = 0.855

N = 972

s = 0.806

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

- 24 -

ANNEXE 6 : JEU D’APPRENTISSAGE (JA : N = 982) & JEU DE TEST (JT : N = 110) (m=2)

CORRELATIONS

I(AB,2-5) eq0

AVEC T-TEST

y = 0,9262x - 0,1839

R2 = 0,9167

N = 851

s = 0,6417

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

y = 0,8427x - 0,0635

R2 = 0,5777

N = 70

s = 1,7268

-11

-9

-7

-5

-3

-1

1

3

5

-11 -6 -1

logS exp

SANS T-TEST

y = 0,9382x - 0,1509

R2 = 0,9287

N = 851

s = 0,5975

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

y = 0,7895x - 0,3786

R2 = 0,5852

N = 70

s = 1,5932

-11

-9

-7

-5

-3

-1

1

-11 -9 -7 -5 -3 -1 1

logS exp

logS calc

I(AB,2-4) eq0

AVEC T-TEST

y = 0,8731x - 0,3302

R2 = 0,8646

N = 916

s = 0,7795

-12

-10

-8

-6

-4

-2

0

2

-12 -7 -2

logS exp

y = 0,8951x - 0,2461

R2 = 0,8076

N = 84

s = 1,0000

-11

-9

-7

-5

-3

-1

1

3

-11 -9 -7 -5 -3 -1 1

logS exp

logS calc

SANS T-TEST

y = 0,8952x - 0,2574

R2 = 0,8801

N = 916

s = 0,7453

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

y = 0,8797x - 0,3346

R2 = 0,7446

N = 84

s = 1,1793

-10.5

-8.5

-6.5

-4.5

-2.5

-0.5

1.5

-11 -9 -7 -5 -3 -1 1

logS exp

logS calc

(JA)

(JA)

(JA)

(JA)

(JT)

(JT)

(JT)

(JT)

- 25 -

II(Hy0) eq0

AVEC T-TEST

y = 0,8678x - 0,3515

R2 = 0,8582

N = 875

s = 0,7795

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

6

y = 0,9706x + 0,1409

R2 = 0,7935

N = 75

s = 1,1818

-10

-8

-6

-4

-2

0

2

4

6

-11 -9 -7 -5 -3 -1 1

logS exp

logS calc

SANS T-TEST

y = 0,8737x - 0,3477

R2 = 0,871

N = 875

s = 0,7658

-12

-10

-8

-6

-4

-2

0

2

-12 -7 -2

logS exp

y = 0,9842x + 0,218

R2 = 0,7943

N = 75

s = 1,1955

-10.5

-8.5

-6.5

-4.5

-2.5

-0.5

1.5

3.5

5.5

-11 -9 -7 -5 -3 -1 1

logS exp

logS calc

MOYENNE

AVEC T-TEST

y = 0.8856x - 0.298

R2 = 0.8926

N = 929

s = 0.695

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

y = 0.8921x - 0.1328

R2 = 0.7443

N = 87

s = 1.205

-10.5

-8.5

-6.5

-4.5

-2.5

-0.5

1.5

3.5

-11 -9 -7 -5 -3 -1 1

logS exp

logS calc

SANS T-TEST

y = 0.9001x - 0.2496

R2 = 0.901

N = 927

s = 0.676

-12

-10

-8

-6

-4

-2

0

2

-12 -10 -8 -6 -4 -2 0 2

logS exp

logS calc

y = 0.8685x - 0.3064

R2 = 0.7063

N = 87

s = 1.291

-10.5

-8.5

-6.5

-4.5

-2.5

-0.5

1.5

3.5

-11 -9 -7 -5 -3 -1 1

logS exp

logS calc

(JA)

(JA)

(JT)

(JT)

(JA) (JT)

(JA) (JT)

- 26 -

ANNEXE 7 : OUTLAYERS

(1) Pentabromophenyl ether [2]

O

Br Br

Br

BrBrBrBr

Br

Br Br

(2) Octachlorodibenzo-p-dioxin [2]

Cl

OCl

OCl

Cl

Cl

Cl

Cl

Cl

(3) Didodecyl phthalate [2]

O O

O

O

(5) n-propylcyclopentane [1]

(4) Phthalic acid didecyl ester [2]

O O

O

O

Pour les molécules (3) (logSexp = -6,56) et (4) (logSexp = -6,13) on peut raisonnablement penser que

la différence entre la valeur expérimentale et la valeur calculée est originaire de la formation probables

de micelles inverses lorsque ces molécules sont en solution dans l’eau. Toutes deux sont en effet des

molécules à tête polaire à très longues chaînes aliphatiques. Ce facteur entraîne une importante

perturbation de la solubilité qui ne dépend donc évidemment plus que de la structure du composé.

- 27 -

ANNEXE 8 : UTILISATION DU PREDICTEUR REALISE ISIDA - QSPR KNOWLEDGE BASE

L’interface de la base de

connaissance ISIDA (cf

fig A) est intuitive et

complète, présentant

toutes les fonctions

possibles. En

sélectionnant la propriété

dont nous désirons obtenir

une estimation (dans notre

cas logS) l’ensemble des

modèles à disposition,

ainsi que leurs paramètres

associés, peut être

visualisé avant la phase de

prédiction, afin de

sélectionner celui de son

choix.

Le module de prédiction

permet à l’utilisateur

d’obtenir une estimation

de la valeur de logS pour

une structure isolée (fichier à entrer au format .MOL) ou pour une collection de molécules (fichier

.SDF). Les résultats, c’est-à-dire les associations structures-propriétés, peuvent être sauvés eux aussi

sous la forme d’un fichier .SDF, afin d’être réutilisés dans d’autres programmes.

Nous avons ici testé le prédicteur en lui soumettant une molécule non présente dans son jeu constitutif,

un calixérène (cf fig B) : le modèle sélectionné est I(AB,2-4) eq0 [m=2, t-test]. Instantanément la

valeur estimée par TRAIL est fournie : -10.37685985.

Très simple d’utilisation, il suffit donc à l’utilisateur de rentrer la structure de la (ou des) molécule(s)

désirée(s) afin d’obtenir le résultat souhaité.

Fig A : Interface de ISIDA - QSPR KNOWLEDGE BASE

Fig B : module de prédiction et résultat

- 28 -

REFERENCES BIBLIOGRAPHIQUES

1. A Fuzzy ARTMAP Based on Quantitative Structure-Property Relationships (QSPRs) for Predicting Aqueous Solubility on Organic Compounds,

Denise Yaffe, Yoren Cohen, Gabriela Espinosa, Alex Arenas, and Francesca Giralt,

J.Chem.Inf. Comput.Sci. 2001, 41, 1177-1207

2. Prediction of Aqueous Solubility of Heteroatom-Containing Organic Compounds from Molecular Structure,

Nathan R. McElroy and Peter C. Jurs,

J. Chem. Inf. Comput. Sci. 2001, 41, 1237-1247

3. Prediction of Aqueous Solubility of Organic Compounds by the General Solubility Equation (GSE),

Yingqing Ran, Neera Jain, and Samuel H. Yalkowsky,


4. Estimation of Aqueous Solubility of Organic Molecules by the Group Contribution

Approach – Application to the Study of Biodegradatrion,

G. Klopman, S. Wang, D. M. Balthasar,


5. Prediction of Aqueous Solubility of Organic Chemicals Based on Molecular Structure II.

– Application to PNAs, PCBs, PCDDs, etc. N. N. Nirmalakhandan, R. E. Speece,

Environ. Sci. Technol. 1989, 23, 708-713

6. A Method for Calculation of the Aqueous Solubility of Organic Compounds by using

New Fragment Solubility Constant, K. Wakita, M. Yoshimoto, H. Watanabe, S. Miyamoto,

Chem. Pharm. Bull. (Tokyo) 1986, 34, 4663-4681

7. Development of an Autmatic Estimation System for both the Partition Coefficient and

Aqueous Solubility, T. Suzuki,

J. Comput.-Aided Mol. Design, 1991, 5, 149-166

8. Group Contribution Method to Estimate Water Solubility in Organic Chemicals, R. Kühne, R.-U. Ebert, F. Kleint, G. Schmidt,

Chemosphere, 1995, 30, 2061-2077

9. Aqueous Functional Group Activity Coefficients (AQUAFAC) IV. – Applications to

Complex Organic Compounds, Y. Lee, P. B. Myrdal, S. H. Yalkowsky,

Chemosphere, 1996, 33, 2129-2144

10. Prediction of Drug Solubility from Monte Carlo Simulations, W. L. Jorgensen, E. M. Duffy,


11. Neural Network Based Quantitative Structural Property Relationships (QSPRs) for

Predicting Boiling Points of Aliphatic Hydrocarbons, G. Espinosa, D. Yaffe, Y. Cohen, A. Arenas, F. Giralt,


- 29 -

12. ISIDA : In Silico Design and data Analysis

Projet en collaboration entre le Laboratoire d’Infochimie du Prof. A. Varnek (Université Louis

Pasteur, Strasbourg, France) et l’équipe du Dr V. P. Solov’ev (Russian Academy of Sciences)

http://infochim.u-strasbg.fr/recherche/isida/index.php

13. Beware of Q²! A. Golbraikh, A. Tropsha

J. Molecular Graphics and Modelling 2002, 20, 269–276.

LOGICIELS UTILISES

• CHEMOFFICE 6.0 for Windows (ChemFinder, ChemFinder for Excel, ChemDraw) CambridgeSoft

www.camsoft.com

• TRAIL – Substructural Molecular Fragments Method (v 4.69)

V.P. Solov’ev & A. Varnek

Laboratoire d’Infochimie, UMR 7551 (Université Louis Pasteur, Strasbourg, France)

• EdiSDF – Editor of Structure-Data Files (v 3.92) V.P. Solov’ev & A. Varnek


• MICROSOFT OFFICE 2000 (Word 2000, Excel 2000) MicroSoft

www.microsoft.com

• DIVA v 2.1 Accelrys

www.accelrys.com

• ISIDA – QSPR Knowledge Base v1.0.0.0

N. Sieffert, V. P. Solov’ev


etude structure-propriété de la solubilité des molécules...

Documents