docking et scoring. introduction méthodes de docking représentations du site de liaison et du...

34
Docking et Scoring

Upload: mahaut-lafond

Post on 04-Apr-2015

110 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Docking et Scoring

Page 2: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Introduction

Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de l’espace des configurations du

complexe récepteur-ligand

Méthodes de Scoring Energie libre, affinité de liaison et scores de docking Fonctions de Score, score consensus

Logiciels de docking Logiciels existants DOCK, FlexX, GOLD, LUDI, AutoDock, Glide, FRED, CDOCKER

Precisions, applications

Page 3: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Docking et Scoring?

Positionner un ligand (petite molécule) dans le site de liaison d’un récepteur de façon à optimiser les interactions avec un récepteur.

Evaluer les interactions ligand-récepteur de façon à pouvoir discriminer entre les positionnements observés expérimentalement et les autres. Estimer l’affinité de liaison.

ligand

recepteur

complexe

docking scoring

… etc

structure X& G

Page 4: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Docking à 3 composantes

Représentation du site de liaison du récepteur et du ligand

Avant docking:

Echantillonage de l’espace des configurations du Complexe ligand récepteur

Pendant docking:

Evaluation des interactions ligand-recepteur

Pendant docking et scoring:

Page 5: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Structure des récepteurs et descriptions des sites de liaison

PDB (Protein Data Bank, www.rcsb.org/pdb/) site public de dépot des coordonnées 3D de macromolécules : enzymes + récepteurs structures crystal.: >12,000 structures, 788 ≤ 1.5 Å, 1.5 < 9,390 < 2.5 Å RMN: >450 structures, (et modèles par homologie construits à partir de séquence très similaires)

Limitations des structures expérimentales (Davis et al. 2003): Localisations des hydrogènes,des molécules d'eau, et des ions métalliques Identité et localisations de certains atomes lourds (e.g., ~1/6 des N/O de Asn &

Gln, et N/C de His sont incorrectement assigné dans la PDB; l'incertitude sur la position atteint 0.5 Å)

Flexibilité des protéines

Descriptions du site de liaison : coordonnées atomiques, surface, volume, points et distances, pharmacophores, vecteurs des liaisons,grille, potentiel électrostatique, moment hydrophobe, polaire, nonpolaire,typesd'atomes, etc.

Page 6: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

DOCK

GOLD

GOLD

Page 7: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Espace Chimique & Structurale Drug-like: MDDR (MDL Drug Data Report) >147,000 entrées, CMC

(Comprehensive Medicinal Chemistry) >8,600 entries

Non-drug-like: ACD (Available Chemicals Directory) ~3 millions entrées

Litératures et bases de données , Beilstein (>8 millions composés), CAS & SciFinder

CSD (Cambridge Structural Database, www.ccdc.cam.ac.uk): ~3 millions structures cristallines pour >264,000 differents composés dont >128,00 composés organiques

Composés disponibles Avec ou sans exclusivité: différents fournisseurs

Base de données Corporates: Quelques millions dans les grandes industries pharmaceutiques (selon)

Librairie virtuelles (énumération combinatoires)

Page 8: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Information Structurale 3D & Descriptions des Ligands

Convertisseurs 2D->3D : CORINA, OMEGA, CONCORD, MM2/3, WIZARD, COBRA.

CSD: <0.1 Å pour les petites molécules, ! Structures cristallines

PDB: complexes proteines ligand ~6000 entrées

Atomes associés avec des distances inter-atomiques, charges, pharmacophore, etc

Flexibilité: Ensemble de conformations, assemblage de fragments

Page 9: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Echantillonage de l’espace des configurations du Complexe ligand récepteur

Appariement de descripteurs: méthodes géométriques de reconnaissance de motifs pour apparier des descripteurs du ligand et du site récepteur

géométrique, chimique, propriétés pharmacophoriques, distances (paires, triplet, Tuplet) volume, vecteur, liaisons hydrogènes, hydrophobicité, charge, etc.

Simulations: MD (Dynamique Moléculaire), MC (Monte Carlo)

Autre: GA (algorithmes génétiques), similarité, combinaison de fragments

Challenges L'espace des configurations et conformationnel des complexes récepteurs ligands

est trop grand pour une exploration exhaustive. On ne peut ignorer la flexibilité conformationnelle du récepteur et du ligand. Changements de conformation importants (signalisation)

Page 10: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Appariement de descripteurs : DOCK

Compatibilités des distances entre les centres des spères et distances entre atomes lourds du ligand

Page 11: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Méthodes de constructions à partir de fragments Flexibilité et/ou de novo design

L'Identification et le positionnement du fragment de base sont très importants

Importance de l'optimisation de l'énergie pendant ou après le docking

ExemplesConstruction incrémentale dans FlexX avec appariement de triplet et clustering des poses pour maximiser le nombre d'interactions favorablesLudi : croissance et/ou connection à partir de librairies de fragments préconstruits et de linker

Maximisation des liaisons H et des interactions hydrophobes

Page 12: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Simulation Moléculaire: MD et MC

Deux composantes principales: Description des degrés de liberté (Possibilité de donner une certaines flexibilité à

la protéine) Evaluation de l'énergie

Mouvement local des atomes Forces présentes a chaque étape en MD (Molecular Dynamics) Aléatoire en MC (Monte Carlo)

Généralement consommateur de temps: Recherche de configuration de basse énergie à partir d'une configuration de

départ Plusieurs simulations avec différentes orientations de départ pour obtenir un

échantillonnage significatif.

Grille d'énergies précalculées. Pas de calcul plus grand (MD), poses de départ multiple.

Page 13: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Docking par Monte Carlo

T est réduite selon une procédure de refroidissement, une grille peut être utilisée pour les calculs d'énergie.

Comparé à des méthodes à base de gradients, MC ne nécessite qu'une simple fonction d'énergie.

Ne requiert pas le calcul de dérivées.

Possibilité de franchir des barrières d'énergies.

Tk

AEBEP

B

)()(exp

Page 14: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Docking par algorithme génétique Une fonction fitness (valeur sélective) est utilisée pour décider quels

individus (configurations) survivent et produisent des descendants pour la prochaine génération d'optimisation. Les degrés de liberté sont encodés sur des gènes composées de chaines binaires.

On assigne une fitness basée sur une fonction de score a une collection de gènes (chromosome) Il y a 3 opérateurs génétiques :

L'opérateur de mutation change aléatoirement les valeurs des gènes;

Le crossing-over provoque un échange d'un ensemble de gène entre parents

L'opérateur de migration déplace des chromosomes d'une sous population à une autre.

Requiert la génération d'une population (100) initiale alors que les méthodes traditonnelles MC et MD requièrent une seule ou quelques (10) structures de départ

Grande puissance d'exploration, dérive génétique, réglage des paramêtres délicat

GOLD (Jones et al. 1997)

Page 15: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Fonctions de score

Estimation rapide et simplifiée des énergies de liaison

STGGGG

KRTG

ninteractiosolvproteinsolvligandsolvcomplex

affinitybinding

///

ln

configurations du complexe

-sco

res

Structure X

?

scores <-> Gbinding

Page 16: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Types de fonctions de score

Basées sur les Champs de Force: terme d'interactions non liés, parfois combiné avec des termes pour la solvatation.

Empirique: régressions multiples pour ajuster les coefficients de fonctions basées sur la physique du sytème. Ajustement à partir d'un jeu de données de complexes récepteurs-ligands avec des affinités mesurées.

Knowledge-based: potentiels statistiques de paires d'atomes tabulées à partir des exemples issues des bases structurales

Autre: scores et/ou filtres basés sur de propriétés chimiques, pharmacophore, contacts, Complémentarité de forme

Fonction de score Consensus

Page 17: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Scoring basé sur les champs de force

Avantages Les termes des FFs sont bien étudiés et ont une base physique Transférable, rapides si utilisés sur une grille précalculée

Désavantages Ne tient compte que d'une part de l'énergie , énergies potentielles.

Parfois augmentée par des termes de solvatation et d'entropie L'électrostatique est souvent surestimée problêmes pour triés les

différents complexes

lig

i

rec

j ij

ji

bij

ij

aij

ij

Dr

qq

r

B

r

AE

1 1

332e.g. AMBER FF dans DOCK

Page 18: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Fonctions de score empiriques

Buts: reproduire les valeur expérimentales des énergies de liaison avec le minimum global de la fonction pour les coordonnées de la structure X expérimentale.

Avantages: estimation rapide et directe de l'énergie de liaison

Désavantages Il existe peu de complexes avec à la fois des structures et des énergies de liaison

Connues précisément

Discordances entre mesures d'affinité entre laboratoires (variabilité)

Forte dépendance sur l'orientation des atomes d'hydrogène

Forte dépendance au jeu d'apprentissage

Pas de véritables pénalités pour les mauvaises structures

,.

,int_,int_

,_0

RfcontlipoG

RfaroGRfionicG

RfHbondsneutralGNGGG

lipo

aroio

HBrotrot

LUDI & FlexX (Boehm 1994)

Page 19: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Potentiels Knowledge-based ou Potentiels of Mean Force (PMF) Suppositions

Un complexe crystallographique observé représente le placement optimum des atomes du ligand par rapport aux atomes du récepteur.

L'ypothèse de Boltzmann convertis les fréquences de trouver l'atome A du ligand a une distance r de l'atome B du récepteur en une énergie d'interaction entre A et B en fonction de la distance r .

w(r) = -kT ln g(r)

g(r) = distribution de fréquence w(r) = Energie libre relative ou PMF

Avantages Similaire aux méthodes empiriques, mais plus général (Il existe beaucoup plus de données

d'interdistances que d'énergies de liaison expérimentales )

Désavantages L'ypothèse de Boltzmann provient des statistiques de liquides spatiallement uniformes, le

complexe réceteur-ligand est un milieu à 2 composantes non uniforme

Les PMF sont "pairwise", alors que la probabilité de trouver les atomes A and B à une distance r n'est pas "pairwise" et dépends aussi des autres atomes

Page 20: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Consensus Scoring

Il existe beaucoup de fonctions de score , elles sont globalement plus ou moins équivalentes en terme de prédictivité, mais pas forcément sur les mêmes complexes

Approches combinées: une fonction de score pour l'échantillonage l'autre pour optimiser et/ou scorer

Globalement ces scores consensus réduisent les faux positifs

Page 21: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Logiciels de docking DOCK: (Kuntz et al. 1982)DOCK 4.0 (Ewing & Kuntz 1997)AutoDOCK (Goodsell & Olson 1990)AutoDOCK 3.0 (Morris et al. 1998) GOLD (Jones et al. 1997)FlexX: (Rarey et al. 1996) GLIDE: (Friesner et al. 2004)ADAM (Mizutani et al. 1994)CDOCKER (Wu et al. 2003)CombiDOCK (Sun et al. 1998)DIVALI (Clark & Ajay 1995)DockVision (Hart & Read 1992)FLOG (Miller et al. 1994) GEMDOCK (Yang & Chen 2004)Hammerhead (Welch et al. 1996)LIBDOCK (Diller & Merz 2001)MCDOCK (Liu & Wang 1999)PRO_LEADS (Baxter et al. 1998)

SDOCKER (Wu et al. 2004)QXP (McMartin & Bohacek 1997)Validate (Head et al. 1996)

de novo design toolsLUDI (Boehm 1992), BUILDER (Roe & Kuntz 1995)SMOG (DeWitte et al. 1997)CONCEPTS (Pearlman & Murcko 1996)DLD/MCSS (Stultz & Karplus 2000)Genstar (Rotstein & Murcko 1993)Group-Build (Rotstein & Murcko 1993)Grow (Moon & Howe 1991)HOOK (Eisen et al. 1994)Legend (Nishibata & Itai 1993)MCDNLG (Gehlhaar et al. 1995)SPROUT (Gillet et al. 1993)

Page 22: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Logiciels de docking: Facteurs importants

Sensibilité et transférabilité des paramêtres, y compris à la configuration de départ

Adaptabilité à des fonctions de scores additionnelles

Capacité d'amélioration itérative des paramêtres ou protocoles à partir de nouveaux résultats

Composition des jeux d'apprentissage, résultats des validations

Rapidité, interface utilisateur, formats de fichier

Parallélisme

Page 23: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

FlexX (Tripos/SYBYL) Basé sur des fragments, appariement de descripteurs, scores

empirique (Rarey et al. 1996)

Procédures: Sélection d'un petit ensemble de fragments de base qui peuvent être positionnés en

utilisant une simple fonction de score. Placement des fragments de base avec l'algorithme de pose clustering :

appariement rigide de triplet de liaisons H et d'interactions hydrophobes ,

fonction de score de Bohm's. Construction du reste du ligand de façon incrémentale à partir des fragments

restants.

Conformations du ligand Modèle MIMUMBA avec pour chaque rotule des angles de torsion de basse énergie

dérivée de la CSD. La structure des cycles provient de CORINA. Conformations multiples pour chaque fragment pendant la construction du ligand

Variations: procédure de placement de molécules d'eau explicites dans le site pendant le docking (placement précalculés). Simulation de la flexibilité du récepteur en utilisant un petit nombre de conformations alternatives de la protéine.

Page 24: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

GOLD

GA, appariement de liaisons H, scoring champ de force(Jones et al. 1997) Une configuration est représentée par deux chaines binaires:

1. la conformation du ligand et de la protéine définie par les angles de torsion;

2. Un appariement entre les HBD et HBA de la protéine et du ligand. Pour l'évaluation de la fitness, une structure 3D est générée à partir de la

représentation chromosomique, les HBD et HBA sont ensuite superposées aux positions précalculées sur le récepteur.

Fitness (score) : liaison H, énergie interne du ligand, énergie de van der Waals des interactions protéine ligand

Certains hydrogènes polaires du récepteur peuvent bouger. La flexibilité du ligand est totale, torsions biaisées par des données statistiques de la CSD:

La génération de la structure est biaisée vers la production de liaisons H inter-moléculaire.

Possibilité d'incorporer des contraintes : Distance, liaison H (protéine ou ligand ou les deux), fragment, similarité

Des points d'ancrage hydrophobes on été ajoutés. Jeu de données de validation : 100 complexes, 66 avec rmsd<2A.

Page 25: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

good prediction (4PHV - a peptide-like ligand docked into HIV protease):

close prediction (1GLQ - a nitrophenyl-substituted peptide ligand docked into glutathione-S-transferase):

prediction with significant errors (1EAP – a succinylaminophosphonate ligand docked into an antibody):

prediction that was wrong (1ICN - oleate docked into a fatty-acid binding protein):

Page 26: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

LUDI: Appariement de groupes polaires et hydrophobes

Structure based drug design

Calcul des sites d'interactions de la protéine et du ligand (liaison H ou hydrophobe), qui sont définis par des centres et des surfaces , à partir de : Distributions des contact non liés observés dans la CSD, Un ensemble de rêgles géométriques , Le programme GRID (Goodford 1985) qui calcule les énergies de liaison pour un

atome sonde promené dans le site (grille).

Ajustement du positionnement des fragments sur les sites d'interaction. Distances entre sites d'interaction sur le récepteur Appariement de triangles,

Croissance et connection des fragments Base de donnée de fragments Base de donnée de linker

Page 27: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Reproduction du mode de liaison (X-ray crystal structures)

Prediction de l'affinité de liaison (énergies libres)

Tri de composés en fonction de leur affinité

Augmentation du taux de hit dans le screening virtuel

Facteur d'amélioration : EF

Précision du docking Reproduction des structures crystallographiques avec rmsd<2A: 50-90% des

structures

Affinité de liaison: 1.5~2 unité log (32-100 fois, 2.05-2.73 kcal/mol)

Correlation entre scores et affinités, r^2<0.3

Précision et succès

0

_0

all

hitsall

VSselected

hits

VS

NN

NN

H

HEFactive inactive

active VRAI FAUXinactive FAUX VRAI

expt.pred.

Page 28: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Challenges du Docking Les structures 3D de beaucoup de cibles "drugables" ne sont pas connues

Identification du site de liaison, molécules d'eau explicites, pontage d'interactions par H20

Dépendance aux structures de la protéine et des ligands Source (apo, co-crystal, complexe avec un autre inhibiteur, NMR, homologie), Traitement

(hydrogenes, optimisation), Flexibilité, Conformation initial, Etat de protonation

Une bonne prédiction d'affinité n'implique pas forcément un bon mode de liaison

Favorise les molécules plus grandes et plus compliquées Les contributons à l'énergie libre de liaison des atomes lourds du ligand saturent à ~15 atomes.

Beaucoup d'interactions dont les liaisons H ne mènent pas toujours à de meilleures affinités (Kuntz et al. 1999).

Des ligands similaires peuvent adopter des modes de liaison différents -> docking proteine flexible

Page 29: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Docking Flexible

Hypothése du récepteur rigide :

Re-docking : 75% de succès

Cross-docking : Il existe des structures X du même récepteur avec différents ligands

succès plus mitigés : 49%

Adaptation, mouvement de la proteine, (parfois très faible)

Page 30: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Flexibilité de la protéine

conformations multiples de quelques résidues

Acetylcholinesterase

Phe330 est flexible et agit comme une porte

Page 31: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Mouvement d'un grand nombre de résidues Acetylcholinesterase

Flexibilité de la protéine

Page 32: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Flexibilité de la protéine Conséquences de la

flexibilité des protéines pour la conception de ligands : Un site, plusiurs mode de

liaison sont possibles Ces différences peuvent être

fonctionnellement relevante Protéines impliquées dans le

transport ou le métabolisme: très "promiscuous", lient beucoup de composés dans beaucoup d'orientations différentes Ex : P450

Page 33: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Modèle de liaison protéine ligand

Page 34: Docking et Scoring. Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de lespace des configurations du

Méthodes de Docking incorporant la flexibilité du récepteur

Ensemble docking Docking à des structure de protéine multiples

(expérimentales ou calculées) ou à des hybrides, en gérant les compatibilités entre structures

Docking à une structure moyenne unique – “soft docking” construction de grille d'interaction qui incorpore l'effet de plus d'une protéine

Induced fit modelling Dynamique Moléculaire et Monte Carlo