bio-informatique appliquée concepts et matrices des substitutions emese meglécz...

70
Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz [email protected] Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours de Jacques van Helden: http://jacques.van-helden.perso.luminy.univme d.fr/bioinformatics_introductory_course/web_c ourse/BI4U2/ Cours basé sur les cours de Céline Brochier-Armanet et Jacques van

Upload: diane-deville

Post on 03-Apr-2015

111 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Bio-informatique appliquéeConcepts et matrices des substitutions

Emese Meglécz [email protected]

Groupe Bureau Virtuel: AMU_BI4U2_bioinfo

TDs et cours de Jacques van Helden:http://jacques.van-helden.perso.luminy.univmed.fr/bioinformatics_introductory_course/web_course/BI4U2/

Cours basé sur les cours de Céline Brochier-Armanet et Jacques van Helden

Page 2: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Modèles évolutifs– Mutations, duplications, divergence

– Homologie, orthologie, paralogie, etc …

• Alignements de paires de séquences– Matrices de substitutions

– Dot plots (dottup, dotmatcher)

– Alignement par glissement

– Alignement avec indels• Global (Needleman-Wunsch)• Local (Smith-Waterman)

– Recherche de similarités dans les bases de données (Fasta, BLAST)

• Alignements multiples (ClustalX)• Identification de motifs dans les séquences

Contenu du cours

Page 3: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

% Identité « identities »:

Proportion des aa identiques entre les séquences

% Similarité « positives »:

Proportion des aa similaires entre les séquences

Similarité

Identities = 14/26 (54%), Positives = 15/26 (58%),

VCGMWLDGDIAAVDMFTHVEIGDDEVV G W+ GDI MFTH DD EV VAGIWVAGDIRGGPMFTHTAYDDFEV

Page 4: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• % Identité ou similarité maximale:100%

• % Identité entre deux séquences nucléiques aléatoires ?

Similarité

Page 5: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences nucléiques aléatoires ?

4 bases => % Identité attendu entre séquences aléatoires: ¼

Similarité

Page 6: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• % Identité ou similarité maximale:100%

• % Identité entre deux séquences protéiques aléatoires ?

Similarité

Page 7: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• % Identité ou similarité maximale: 100%

• % Identité entre deux séquences protéiques aléatoires ?

20 aa => % Identité attendu entre séquences aléatoires: 1/20

Similarité

Page 8: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• La similarité entre deux séquences peut s’interpréter par deux hypothèses alternatives:

– Homologie: la ressemblance s’explique par le fait que les deux séquences divergent d’un ancêtre commun.

– Evolution convergente (analogie): les similarités sont apparues dans les deux séquences de façon indépendante, mais ont été sélectionnées pour la même raison.

Similarité, homologie, analogie

Page 9: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Deux séquences sont dites homologues si elles possèdent un ancêtre commun

• L’existence d’un ancêtre commun est inférée à partir de la similarité

Événement évolutif (spéciation, duplication)

séquence1 séquence2

Ancêtre commun

Homologie

Page 10: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• L’homologie n’est pas quantifiable– Deux séquences sont homologues (possèdent des caractères

communs parce qu’elles dérivent d’un ancêtre commun) ou elles ne le sont pas.

– Raisonnement binaire

• La similarité est quantifiable– On peut dire de deux séquences qu’elles sont similaires à 50%

ou 75%

30 % d’identité sur une longueur de 100 AA

homologie est probable entre les séquences

Homologie ≠ Similarité

Page 11: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Deux séquences qui descendent d’un ancêtre commun divergent.• La divergence peut résulter d’une duplication ou d’une spéciation.• Evénements de mutations: substitutions, délétions, insertions.

Duplication et spéciation

a1 a2

divergence

now

time

a

duplication

ancestral sequence

b c

divergence

now

time

a

speciation

ancestral species

Page 12: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Inférence– Avant d’affirmer que deux séquences sont homologues, nous

devrions pouvoir retracer leur histoire jusqu’à leur ancêtre commun.

– Nous ne pouvons malheureusement pas disposer des séquences des espèces disparues. Il est donc impossible de démontrer formellement l’homologie.

– Cependant, nous pouvons appuyer l’hypothèse d’homologie sur une analyse de la vraisemblance d’un scénario évolutif (taux de mutations, niveaux de similarités).

– L’inférence d’homologie est toujours attachée à un certain risque de faux positifs.

Homologie

Page 13: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

La formulation correcte :

• on observe un certain niveau de similarité entre deux séquences (% identité, % similarité).

• Sur cette base, on évalue des scénarios évolutifs: cette similarité peut provenir

– d’une évolution convergente (analogie)– d’une évolution divergente à partir d’un ancêtre commun (homologie)– Similarité due au hasard

• Si la deuxième hypothèse est la plus vraisemblable, on infère que les séquences sont homologues.

Homologie ≠ Similarité

Page 14: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Convergence ou simple hasard pour de courtes séquences (quelques résidus)

Score = 32.0 bits (68), Expect = 9.5 Identities = 14/26 (54%), Positives = 14/26 (54%), Gaps = 7/26 (26%)

Query 2 VCGMWRDGDI---EMFTH---DD-EV 20 V G W GDI MFTH DD EV Sbjct 304 VAGIWVAGDIRGGPMFTHTAYDDFEV 329

Similarité sans homologie

Page 15: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Existence de régions de faible complexité (régions riches en quelques aa.,

• Cas de la fibroïne [GSGAGA]n)

Similarité sans homologie

Page 16: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Globine gamma humaine vs myoglobine humaine

GENE ID: 4151 MB | myoglobin [Homo sapiens] (Over 10 PubMed links) Score = 48.5 bits (114), Expect = 6e-06, Identities = 31/121 (26%), Positives = 53/121 (44%), Gaps = 0/121 (0%) Query 26 GETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIKHLDDLKGT 85 GE L RL +P T FD F +L S + + +K HG VLT+LG +K + Sbjct 9 GEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAE 68

Query 86 FAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTGVASALSSR 145 L++ H K + + + + ++ VL +F + Q + K + ++S Sbjct 69 IKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASN 128

Query 146 Y 146 Y Sbjct 129 Y 129

Homologie sans Similarité

Page 17: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Wajcmana et Kiger, 2002

Homologie sans Similarité

Page 18: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Analogie: relation entre deux caractères qui se sont développés de

manière convergente à partir d’ancêtres différents. • Homologie: L'homologie est la relation entre les deux caractères qui sont

descendus, le plus souvent avec une divergence, d'un caractère ancestral commun.

• Cenancestor: l'ancêtre commun le plus récent des taxons d’intérêt. MRCA (Most Recent Common Ancestor)

Homologie/analogie

Fitch, W. M. (2000). Homology a personal view on some of the problems. Trends Genet 16, 227-31 .

Page 19: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Orthologie: paire de gènes homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de spéciation

• La fonction est souvent conservée au cours de l’évolution des orthologues

• A, B et C sont orthologues

Les catégories d’homologies

SeqA SeqB SeqCChat Souris Rat

Myoglobines

Spéciations

Page 20: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Paralogie: paire de gènes homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de duplication génique

• Les fonctions d’un ou de plusieurs paralogues peuvent changer au cours de l’évolution (spécialisation, nouvelle fonction)

• B et C sont paralogues

• A et C, A et B sont orthologues

SeqA SeqB SeqCInsuline Insuline I Insuline IIChat Souris

Spéciation

Duplication

Les catégories d’homologies

Page 21: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Xénologie: relation entre les deux gènes homologues dont l'histoire, depuis leur ancêtre commun, implique le transfert du matériel génétique interspécifiques (horizontal)

Espèce A Espèce B

Ancêtre de BAncêtre de A

Les catégories d’homologies

Page 22: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Exercise

• Définissez le type d’homologie/analogies entre chaque paire des gènes.

– P paralogue

– O orthologue

– X xénologue

– A analogue

Orthologues: gènes homologues issus de la spéciationParalogues: gènes homologues issus d'un phénomène de duplicationXénologue: Gène ayant été acquis par transfert horizontal

A1 AB1 B1 B2 C1 C2 C3A1AB1B1B2C1C2C3

Page 23: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Exercise

A1 AB1 B1 B2 C1 C2 C3A1AB1B1 OB2C1 OC2C3

• Définissez le type d’homologie/analogie entre chaque paire des gènes.

– P paralogue

– O orthologue

– X xénologue

– A analogue

Orthologues: gènes homologues issus de la spéciationParalogues: gènes homologues issus d'un phénomène de duplicationXénologue: Gène ayant été acquis par transfert horizontal

Page 24: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Exercise

A1 AB1 B1 B2 C1 C2 C3A1 X O O O O OAB1 X X X X X XB1 O X P O P PB2 O X P P O OC1 O X O P P PC2 O X P O P PC3 O X P O P P

Orthologues: gènes homologues issus de la spéciationParalogues: gènes homologues issus d'un phénomène de duplicationXénologue: Gène ayant été acquis par transfert horizontal

• Définissez le type d’homologie/analogie entre chaque paire des gènes.

– P paralogue

– O orthologue

– X xénologue

– A analogue

Page 25: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Exercise

A1 AB1 B1 B2 C1 C2 C3A1 X O O O O OAB1 X X X X X XB1 O X P O P PB2 O X P P O OC1 O X O P P PC2 O X P O P PC3 O X P O P P

Orthologie peut être une relation 1 à N

A1 [orthologue]-> B1A1 [orthologue]-> B2

L’orthologie est réciproque.A1 <-[orthologue]-> B1

L’orthologie n’est pas transitiveA1 <-[orthologue]-> B1A1 <-[orthologue]-> B2B1 <-[paralogue]-> B2

Page 26: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Exercise

A1 AB1 B1 B2 C1 C2 C3A1 X O O O O OAB1 X X X X X XB1 O X P O P PB2 O X P P O OC1 O X O P P PC2 O X P O P PC3 O X P O P P

A1 AB1 B1 C1 B2 C2 C3

A, B, C représentent les espèces2, 3, 3 les copies des gènes

Spéciation

Duplication

Page 27: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Exercise

A, B, C représentent les espèces1, 2, 3 les copies des gènes

A1 AB1 B1 C1 B2 C2 C3

Spéciation

Duplication

A1 C3 C2 B2 C1 AB1 B1

Les deux arbres sont identiques

Page 28: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entreSeq1 et Seq2Seq1 et Seq3Seq1 et Seq4Seq2 et Seq3Seq2 et Seq4Seq3 et Seq4

Exercise

Page 29: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entreSeq1 et Seq2 paraloguesSeq1 et Seq3 orthologuesSeq1 et Seq4 orthologuesSeq2 et Seq3 orthologuesSeq2 et Seq4 orthologuesSeq3 et Seq4 paralogues

Spéciation

Duplications

Exercise

Page 30: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Espèce A Espèce B Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entreSeq1 et Seq2Seq1 et Seq3Seq1 et Seq4Seq2 et Seq3Seq2 et Seq4Seq3 et Seq4

Exercise

Page 31: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Espèce A Espèce B Espèce A Espèce B

Seq1 Seq2 Seq3 Seq4

Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entreSeq1 et Seq2 orthologuesSeq1 et Seq3 paraloguesSeq1 et Seq4 paralogues Seq2 et Seq3 paralogues Seq2 et Seq4 paralogues Seq3 et Seq4 orthologues

Spéciations

Duplication

Exercise

Page 32: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Alignez les séquences suivantes:

Seq1 GTTACGASeq2 GTTGGA

Alignement

Page 33: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Seq1 GTTACGASeq2 GTTGGA

Seq1 GTTACGASeq2 GTT-GGA *** **

Seq1 GTTACGASeq2 GTTG-GA *** **

Alignement 1

Alignement 2

Alignement

Page 34: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Identification des positions homologues dans les séquences nucléotidique ou protéiques

maximiser leurs similarités

AACTGCATTGTAAA-TGCAT-GTA** ***** ***

Alignement de 2 séquencesAlignement par paire:

Alignement multiple:

AACTGCATTGTAAA-TGCAT-GTAAACTCCATTGTAAA-TGAATT-TA** * ** **

Alignement des séquences

Page 35: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A1 B1 A’1 C1 A2 C2 A’2 B2Seq1 Seq2

Alignement global et local

Page 36: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A1 B1 A’1 C1 A2 C2 A’2 B2Seq1 Seq2

Alignement global

A1 B1 A’1 C1

A2 C2 A’2 B2

Seq2

Seq1

Alignement global et local

Page 37: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A1 B1 A’1 C1 A2 C2 A’2 B2Seq1 Seq2

Alignement global Alignement local

A1 B1 A’1 C1

A2 C2 A’2 B2

Seq2

Seq1 A1A2B1B2A’1A’2C1C2

A’1A2

A1A’2

Alignement global et local

Page 38: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Score: valeur numérique de chaque événement

Score de substitution (Y): 0Score d’identité (X): 1Pénalité de gap : -1

A T C G

A X Y Y Y

T Y X Y Y

C Y Y X Y

G Y Y Y X

Matrices des substitutions (matrice des scores)

Page 39: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A T C G

A 1 0 0 0

T 0 1 0 0

C 0 0 1 0

G 0 0 0 1

Pénalité de gap : -1

Seq1 GTTACGASeq2 GTT-GGA *** **

Seq1 GTTACGASeq2 GTTG-GA *** **

Calculez les scores !

Matrices des substitutions

Page 40: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A T C G

A 1 0 0 0

T 0 1 0 0

C 0 0 1 0

G 0 0 0 1

Pénalité de gap : -1

Seq1 GTTACGASeq2 GTT-GGA *** **

Seq1 GTTACGASeq2 GTTG-GA *** **

Score: 5 -1 = 4

Score: 5 -1 = 4

Matrices des substitutions

Page 41: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A T C G

A 5 -4 -4 -4

T -4 5 -4 -4

C -4 -4 5 -4

G -4 -4 -4 5

Pénalité de gap : -10

Seq1 GTTACGASeq2 GTT-GGA *** **

Seq1 GTTACGASeq2 GTTG-GA *** **

Calculez les scores !

Matrices des substitutions

Page 42: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A T C G

A 5 -4 -4 -4

T -4 5 -4 -4

C -4 -4 5 -4

G -4 -4 -4 5

Pénalité de gap : -10

Score: (5 x 5) – (1 x 4) –(1 x 10) = 11

Score: (5 x 5) – (1 x 4) –(1 x 10) = 11

Seq1 GTTACGASeq2 GTT-GGA *** **

Seq1 GTTACGASeq2 GTTG-GA *** **

Matrices des substitutions

Le valeur de score de l’alignement dépend de matrice de score utilisé

Page 43: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A T C G

A 5 -4 -4 -4

T -4 5 -4 -4

C -4 -4 5 -4

G -4 -4 -4 5

Pénalité de gap : -10

Seq1 GTTACGAGTTACGASeq2 GTT-GGAGTT-GGA *** ***** **

Seq1 GTTACGASeq2 GTT-GGA *** **

Calculez les scores et les identités !

Matrices des substitutions

Page 44: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A T C G

A 5 -4 -4 -4

T -4 5 -4 -4

C -4 -4 5 -4

G -4 -4 -4 5

Pénalité de gap : -10

Seq1 GTTACGAGTTACGASeq2 GTT-GGAGTT-GGA *** ***** **

Seq1 GTTACGASeq2 GTT-GGA *** **

Score: (10 x 5) – (2 x 4) –(2 x 10) = 22Identité : 5/7

Score: (5 x 5) – (1 x 4) –(1 x 10) = 11Identité : 5/7

Matrices des substitutions

Le valeur de score de l’alignement dépend de longueur de l’alignement

Page 45: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Le score de l’alignement dépend – Des matrices de substitutions => impossible de comparer des

alignements faits avec des matrices différentes– Longueur de l’alignement

Les scores servent à optimiser un alignement, une matrice de scores et une pénalité des gaps donnés

Matrices des substitutions

Page 46: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A G

C T

A T C G

A X Z Z Y

T Z X Y Z

C Z Y X Z

G Y Z Z X

Score d’identité (X): 1Score de transition (Y): 0,5Score de transversion (Z) : 0Pénalité de gap : -1

Modèle d’évolution: intégration des paramètres venant des observations biologiques

Purines

Pyrimidines

Modèle d’évolutionKimura à deux paramètres

Transition (Y)Transversion (Z)

Page 47: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A G

C T

A T C G

A 1 0 0 0,5

T 0 1 0,5 0

C 0 0,5 1 0

G 0,5 0 0 1

Seq1 GTTACGASeq2 GTT-GGA *** **

Seq1 GTTACGASeq2 GTTG-GA *** **

Pénalité de gap : -1

Calculez les scores !

Modèle d’évolution; Kimura à deux paramètres

Page 48: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A G

C T

A T C G

A 1 0 0 0,5

T 0 1 0,5 0

C 0 0,5 1 0

G 0,5 0 0 1

Seq1 GTTACGASeq2 GTT-GGA *** **

Seq1 GTTACGASeq2 GTTG-GA *** **

Score: 5 - 1+ 0 = 4

Score: 5 - 1+ 0,5 = 4,5

Pénalité de gap : -1

Modèle d’évolution

Page 49: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Alignez les séquences

suivantes et calculez

les scores:

Seq1 GTTGAGGCGTGGAAASeq2 GTTGCGTGGAAA

A T C G

A 1 0 0 0,5

T 0 1 0,5 0

C 0 0,5 1 0

G 0,5 0 0 1

Pénalité de gap : -1

Pénalité des indels

Page 50: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Seq1 GTTGAGGCGTGGAAASeq2 GTT---GCGTGGAAA *** *********

Seq1 GTTGAGGCGTGGAAASeq2 GTT--G-CGTGGAAA *** * ********

Seq1 GTTGAGGCGTGGAAASeq2 GTTG---CGTGGAAA **** ********

Alignement 1(12 x 1) – (3 x 1) = 9

A T C G

A 1 0 0 0,5

T 0 1 0,5 0

C 0 0,5 1 0

G 0,5 0 0 1

Pénalité de gap : -1

Alignement 2(12 x 1) – (3 x 1) = 9

Pénalité des indels

Alignement 3(12 x 1) – (3 x 1) = 9

Page 51: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

A T C G

A 1 0 0 0,5

T 0 1 0,5 0

C 0 0,5 1 0

G 0,5 0 0 1

Pénalité d’ouverture de gap : -3

Pénalité d’extension de gap :-1

Calculez les scores !

Pénalité des indels

Seq1 GTTGAGGCGTGGAAASeq2 GTT---GCGTGGAAA *** *********

Seq1 GTTGAGGCGTGGAAASeq2 GTT--G-CGTGGAAA *** * ********

Page 52: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Alignement 1(12x1) – 3 – (3x1) = 6

A T C G

A 1 0 0 0,5

T 0 1 0,5 0

C 0 0,5 1 0

G 0,5 0 0 1

Pénalité d’ouverture de gap : -3

Pénalité d’extension de gap :-1

Alignement 2(12x1) – (2x3) – (3x1) = 3

Pénalité des indels

Seq1 GTTGAGGCGTGGAAASeq2 GTT---GCGTGGAAA *** *********

Seq1 GTTGAGGCGTGGAAASeq2 GTT--G-CGTGGAAA *** * ********

Page 53: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Les mutations sont rares

Choisir l’hypothèse qui implique le moins de changements évolutifs ET

Les changements les plus probables

Alignement

Page 54: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Généralités:– f (mutations) > f (mutations observées)– f (substitutions) > f (indel) (contre exemple: microsatellites)

– f (transitions) > f (transversion)– Un évènement d’insertion/délétion peut impliquer

plusieurs résidus

Fréquence des mutations observés

Page 55: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Plus difficile à modéliser que celui des nucléotides:

– Un acide aminé peut être remplacé par un autre de différentes façons (code génétique).

• Phe (UUU, UUC) => Leu(UUA, UUG, CUU, CUC, CUA, CUG)

– Le nombre de substitutions requises pour passer d’un acide aminé à un autre diffère.

• Asn (AAU, AAC) => Trp (UGG) 3 mutations; Phe => Leu 1ou 2 mutations

– La probabilité des substitutions au niveau nucléotidique diffère

• P(AAU,Asn|GAU,Asp) > P(AAU,Asn|CAU,His)P(Transition) > P(Transversion)

Évolution des séquences protéiques (1)

Page 56: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

– Certaines substitutions peuvent avoir plus ou moins d’effet sur la fonction des protéines.

• Acide aminés polaires, apolaires, basique, acide, STOP

NQ

DE

KR

H

YWF

M

T

SC

A G

I LV

P

PetitOH

Polaire

Hydrophile

NH2

Chargé

NégatifPositif

Aromatique

Hydrophobe

Aliphatique

Évolution des séquences protéiques (2)

Page 57: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Mesure des fréquences de substitution dans des alignements de protéines homologues :

– Matrices basées sur des arbres construits en utilisant le maximum de parcimonie :

• PAM (Dayhoff et al., 1978).• JTT (Jones et al., 1992).

– Matrices basées sur des arbres construits en utilisant le maximum de vraisemblance :

• WAG (Whelan et Goldman, 2001).

– Matrices basées sur des comparaisons par paires utilisant des alignements locaux :

• BLOSUM (Henikoff et Henikoff, 1992).

Modèles d’évolution des séquence protéiques

Page 58: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Construction d’une matrice de substitution• Aligner des séquences

• Compter des occurrences de chaque paire d’aa dans les alignements (y compris les identités)

• Changer les nombres des occurrences en fréquences

VCGMVGVM

V C G M…

V 0,25

C 0 0

G 0,25 0,25 0

M…

0 0 0 0,25

V C G M…

V 1

C 0 0

G 1 1 0

M…

0 0 0 1

Page 59: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Construction d’une matrice de substitution

• Calculer la fréquence de chaque aa.fV= 0,375, fC= 0,125, fG= 0,25, fM= 0,25

• Transformer les fréquences en lod- scores (lod-score = "log-odds" = "log des chances"

VCGMVGVM

ji

jiijji ff

fss ,

2,, log

V C G M…

V 0,8

C NA NA

G 1,4 3 NA

M…

NA NA NA 2

38log25.0125.0

25.0log 22,,

GCCG ss

V C G M…

V 0,25

C 0 0

G 0,25 0,25 0

M…

0 0 0 0,25

Page 60: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Matrice PAM

• Chaque case représente la probabilité de voir ces deux résidus remplacés l'un par l'autre dans un alignement. (matrice lod-score, de "log-odds" ou "log des chances")

• Valeurs négatives => On observe le remplacement moins souvent qu’on pourrait l’attendre par hasard.

• Valeurs positives => On observe le remplacement plus souvent qu’on pourrait l’attendre par hasard.

fij est la fréquence de remplacement du résidu i par jfi et fj sont les fréquences respectives des résidus i et j

ji

jiijji ff

fss ,

2,, log

Page 61: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• PAM (Point Accepted Mutation) :– 71 familles de gènes nucléaires correspondant à 1300

séquences :• Séquences peu divergentes entre elles (identité ≥ 85 % entre

chaque paire possible dans une famille).

– Alignements globaux

• JTT (Jones, Taylor and Thornton) :– Construites à partir de 59 190 mutations ponctuelles observées

dans 16 300 protéines.– Alignements globaux.

Matrices PAM et JTT

Page 62: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

•La table est valable pour une certaine distance évolutive, car les fréquences des substitutions dépendent de taux de divergence entre les séquences.

•Margaret Dayhoff a calculé une série de matrices; chacune correspondant à un taux de divergence différent

PAM001 1% substitution per position en moyenne

PAM050 50 % substitution per position en moyenne

PAM250 250% substitution per position en moyenne (note: une position peut muter plusieurs fois)

•La matrice de substitution devrait être choisie en fonction des divergences entre les séquences

Matrice de PAM

Page 63: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Cys C 12Ser S 0 2Thr T -2 1 3Pro P -1 1 0 6Ala A -2 1 1 1 2Gly G -3 1 0 -1 1 5Asn N -4 1 0 -1 0 0 2Asp D -5 0 0 -1 0 1 2 4Glu E -5 0 0 -1 0 0 1 3 4Gln Q -5 -1 -1 0 0 -1 1 2 2 4His H -3 -1 -1 0 -1 -2 2 1 1 3 6Arg R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6Lys K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5Met M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6Ile I -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5

Leu L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6Val V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4

Phe F -4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9Tyr Y 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10Trp W -8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17

C S T P A G N D E Q H R K M I L V F Y WCys Ser Thr Pro Ala Gly Asn Asp Glu Gln His Arg Lys Met Ile Leu Val Phe Tyr Trp

Hydrophobic C P A G M I L VAromatic H F Y WPolar S T N Q YBasic H R KAcidic D E

Matrice de PAM250

S tryptophane/cystéine = -8S tyrosine/phénylalanine = 7S tryptophane/tryptophane = 17

Page 64: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Matrice de PAM250 (Hinton diagram)

• Carré jaunes => valeurs positives (mutations acceptés)

• Carrés rouges=> valeurs négatives (mutations rares).

• Les tailles de carrés sont proportionnelles aux valeurs absolues des scores

Page 65: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

BLOSUM (Blocks Substitution Matrices) :– Utilisation de ~2000 domaines conservés provenant de 500

familles de protéines.– Comparaisons effectuées dans les domaines alignés (banque

BLOCKS).– Matrices créées à partir de domaines comprenant des

séquences ± divergentes :• Toutes les paires ayant servi a construire une matrice BLOSUMk

ont une identité ≥ à k %.

• Matrices plus adaptées pour des protéines distantes du point de vue évolutif.

Matrice de BLOSUM

Page 66: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Matrice de BLOSUM62

Page 67: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Pas de matrice idéale.– BLOSUM globalement

meilleures que PAM.

• Degré de similarité des séquences.

• Il est recommandé d’expérimenter !

Choix d’une matrice

Page 68: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Score d’un alignement

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 R L A S V E T D M P - - - - - L T L R Q H . | . | : : | . : . go ge ge ge ge . . | . . | T L T S L Q T T L K N L K E M A H L G T HS -1 +4 +0 +4 +1 +2 +5 -1 +2 -1 -10 -1 -1 -1 -1 -1 -2 +4 -2 -1 +8 = 7

Go : Pénalité d’ouverture de gap (-10)Ge: Pénalité d’extension de gap (-1)

Page 69: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

• Matrices de substitution– PAM series

• Dayhoff, M. O., Schwartz, R. M. & Orcutt, B. (1978). A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure 5, 345--352.

– BLOSUM substitution matrices• Henikoff, S. & Henikoff, J. G. (1992). Amino acid substitution matrices from

protein blocks. Proc Natl Acad Sci U S A 89, 10915-9.

– Gonnet matrices, built by an iterative procedure• Gonnet, G. H., Cohen, M. A. & Benner, S. A. (1992). Exhaustive matching of

the entire protein sequence database. Science 256, 1443-5. 1.

Références clés pour les matrices de substitutions

Page 70: Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours

Bibliographie

• Tagu et Riesler: Bio-informatique. Principes d’utilisation des outils, 2010, Editions Quae (Code BU: 570.11 BIO)

• W. Mount. Bioinformatics: Sequence and Genome Analysis. (2004) pp. 692. http://www.bioinformaticsonline.org/ (Code BU: 572.86 MOU)

• Perrière et Brochier-Armanet: Concepts et méthodes en phylogénie moléculaire, 2010, Springer (BU:570.11 PER)

Cours basée sur les cours de Céline Brochier-Armanet et Jacques van Helden