identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Post on 05-Jan-2016
31 Views
Preview:
DESCRIPTION
TRANSCRIPT
Identification et analyse bioinformatiques d'éléments cis-
régulateursdans les génomes
Bernard Jacq,M2 BBSG 2008Module GF
Plan du cours (1ère partie)Rappels biologiques
• Introduction• Les éléments cis-régulateurs (ADN)• Les éléments trans-régulateurs (protéines)• Régions régulatrices et régulation in vivo
LE CONTROLE DE L’INFORMATION GENETIQUE EUCARYOTE
ARNADN PROTEINE
TRANSCRIPTION TRADUCTION
Quelques généralités sur la régulation de la transcription eucaryote (1/2)
• La variabilité d’expression des gènes eucaryotes résulte d’interactions entre des régions particulières des gènes et des combinaisons de facteurs protéiques spécifiques
• Ces régions d ’ADN sont d’une part les promoteurs (éléments génériques) et d’autres part différents types de régions appelées éléments cis-régulateurs (spécifiques)
• Le promoteur est défini comme la région d’ADN immédiatement en amont du site d’initiation de la transcription, au niveau de laquelle s’assemble le complexe d’initiation de la transcription (polymérase, cofacteurs)
Quelques généralités sur la régulation de la transcription eucaryote (2/2)
• Il y a différentes classes d’éléments cis-régulateurs:– enhanceurs– silenceurs– insulateurs– sites d’attachement à la matrice chromosomique
• l’ensemble des éléments cis-régulateurs d’un gène a généralement une organisation modulaire: différents sous-éléments cis-régulateurs sont chacun responsables d’une partie du patron d’expression global du gène
• les différents modules interagissent avec le même promoteur et la machinerie de transcription qui y est fixée
LE CONTROLE COMPLEXE DE L’ACTIVITE D’UN GENE PAR PLUSIEURS
INTERACTIONS PROTEINE-ADN
Plan du cours (1ère partie)
• Introduction• Les éléments cis-régulateurs (ADN)• Les éléments trans-régulateurs (protéines)• Régions régulatrices et régulation in vivo
Les Promoteurs eucaryotes
Ils sont consistués d’un groupe de motifs d’ADN regroupés en une 100aine de pb en 5’ du site d’initiation
• TATA Box• INR Box
• DPE Box
La TATA box est reconnue par la TBP (TATA binding Protein).L’ INR (initiator) et le DPE (downstream promoter element) sont reconnus par des TAFs (facteurs de transcription)
Promoteur
Exemples de TATA Boxes
Une façon de présenter des séquences consensus:Les « sequence logos »
Les Enhanceurs
• Aussi appelées Upstream Activation Sequences (UAS)
• Séquences qui assistent le promoteur dans l’initiation
• Peuvent être situées en amont ou en aval du promoteur (et même du gène)
• Peuvent être actives dans l’une ou l’autre orientation
• Sont reconnues par des facteurs de transcription spécifiques
Plan du cours (1ère partie)
• Introduction• Les éléments cis-régulateurs (ADN)• Les éléments trans-régulateurs (protéines)• Régions régulatrices et régulation in vivo
• Les éléments cis-régulateurs de la transcription sont reconnus par un grand nombre de facteurs protéiques :
• certains sont ubiquitaires : polymérase sur promoteur et FT généraux
• la majorité sont spécifiques : facteurs de transcription sur les enhanceurs
• Il existe plusieurs centaines de facteurs de transcription différents chez chaque organisme eucaryote, regroupés en quelques dizaines de familles structurales
Les Protéines régulatrices de la transcription chez les eucaryotes
Les principales famillesde protéines régulatrices
Protéines à motifs HTH Protéines à doigts à zinc Protéines Leucine zipper
Les principales famillesde protéines régulatrices
Protéines à motifs HTH Protéines à doigts à zinc Protéines Leucine zipper
Plan du cours (1ère partie)
• Introduction• Les éléments cis-régulateurs (ADN)• Les éléments trans-régulateurs (protéines)• Modules cis-régulateurs et régulation in vivo
Modules régulateurs
• Des gènes exprimés dans des contextes spatio-temporaux spécifiques possèdent souvent des MCR (modules cis-régulateurs) spécifiques : séquence régulatrice possédant un nombre significativement élevé de sites de fixation pour des facteurs de transcription tissu-spécifiques.
Photoreceptors
-140 -60
Ret-1 CRX NRL
NRL CRX Ret-1
-200 -40
Rhodopsin Enhancer
Rhodopsin Promoter
Arrestin
CRX Ret-3
-1760-1950
AIRS
Rat senescence marker
Human glucose-6-phosphatase
Human Protein C
Liver Skeletal muscleAChR-?
MCK5'
MLC-1f3f
-
Myf/E Myf/E Myf/E TEF
119 +30
Myf/EMyf/ESRF/CArG Mef-2 Novel Mef-2
-1256 -1050
Myf/E Myf/E Myf/E Mef-2
+25,000 +25,200
HNF-4 HNF-1HNF-4 HNF-3 HNF-3
-240 -133
-135
C/EBP C/EBP HNF-1 C/EBP HNF-1
-38
HNF-1HNF -3 C/EBPNF-I
-80 -9
NF-I
Photoreceptors
-140 -60
Ret-1 CRX NRL
-140 -60
Ret-1 CRX NRL
NRL CRX Ret-1
-200 -40
NRL CRX Ret-1
-200 -40
RhodopsinEnhancer
RhodopsinPromoter
Arrestin
CRX Ret-3
-1760-1950
AIRS CRX Ret-3
-1760-1950
AIRS
Ratsenescencemarker
Humanglucose-6 -phosphatase
HumanProteinC
Liver SkeletalmuscleAChR -?
MCK5'
MLC-1f3f
-
Myf/E Myf/E Myf/E TEF
119 +30
Myf/E Myf/E Myf/E TEF
119 +30
Myf/EMyf/ESRF/CArG Mef-2 Novel Mef-2
-1256 -1050
Myf/EMyf/E
Myf/EMyf/ESRF/CArG Mef-2 Novel Mef-2
-1256 -1050
Myf/E Myf/E Myf/E Mef-2
+25,000 +25,200
Myf/E Myf/E Myf/E Mef-2
+25,000 +25,200
HNF-4 HNF-1HNF-4 HNF-3 HNF-3
-240 -133
HNF-4 HNF-1HNF-4 HNF-3 HNF-3
-240 -133
-135
C/EBP C/EBP HNF-1 C/EBP HNF-1
-38-135
C/EBP C/EBP HNF-1 C/EBP HNF-1
-38
HNF-1HNF -3 C/EBPNF-I
-80 -9
NF-I HNF-1HNF -3 C/EBPNF-I
-80 -9
NF-I
Beaucoup de genes eucaryotes sont controlés par des combinaisons d’activateurs
et de répresseurs
stripes 3 + 7 stripe 2
repression site cluster
ps 6,8,10,12 stripesblastoderm +mesodermat GBE
ftzzebra element
evestripes 2 & 3+7
elements
kniposterior element
rholateral neurectoderm
stripe element
UbxPBX element
Quelques exemples d’éléments cis-régulateurs chez la Drosophile
Plan du cours (2ème partie)
Bioinformatique
• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l ’échelle génomique
Les motifs sont courts (6 à 20 pb) Ils utilisent un alphabet limité (A,C,G,T) Ils peuvent présenter une variabilité de séquence importante (sont dégénérés) Ils possèdent un faible contenu d’information (8 à 12 bits, soit un site tous les 250-4000pb) L’affinité de différents sites pour une même protéine peut varier de 3 ordres de magnitude La fonction régulatrice dépend souvent d ’interactions coopératives avec des sites voisins Ces sites sont trouvés dans les régions non-codantes
Celles-ci représentent:- 11% du génome d’E. coli- 25% du génome de la levure- 97% du génome humain
Les problèmes spécifiques liés à la recherche de motifs d’interaction dans
l’ADN
L’analyse bioinformatique de régions
cis-régulatrices
2 situations différentes
1) Recherche de motifs connus dans une ou plusieurs séquences
- Expressions régulières
- Matrices consensus
2) Découverte de motifs : Un groupe de séquences régulatrices doit contenir des motifs identiques ou similaires pour un ou plusieurs facteurs de transcription, mais ces motifs sont inconnus
• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l ’échelle
génomique
Plan du cours (2ème partie)
Différentes représentations d'un motif Différentes représentations d'un motif -> recherche dans de nouvelles -> recherche dans de nouvelles
séquencesséquences
YYYWGASTCACollection de sites -> recherche d'expressions
régulières (avec/sans substitution/délétion/insertion)
AAAAGAGTCAAAATGACTCAAAGTGAGTCAAAAAGAGTCAGGATGAGTCAAAATGAGTCAGAATGAGTCAAAAAGAGTCA
1 2 2 4 5 6 7 8 9 10
A 6 7 7 3 0 8 0 0 0 8T 0 0 0 5 0 0 0 8 0 0G 2 1 1 0 8 0 7 0 0 0C 0 0 0 0 0 0 1 0 8 0
Matrice de fréquence + "scoring scheme" + seuil
-> application lors du parcours de séquence
Séquence consensus (utilisation du code IUPAC)
-> recherche d'une expression régulière
Sequence logoReprésentation du contenu informationnel (en bits)
Passage d ’une matrice de fréquence à une matrice de poids-position
PosBase123456789101112A132080000012C223808000202G123000805452T 410000083222VCACGTKB
Site reconnu par le facteur Pho4p de la levure
Sites régulateurs: matrices pondérées
(Source : TRANSFAC)
Position
Fréquence observée de chaque base à la position i
Valeur entre0 et 2 (bits)
seq(i) = fb,i log2b
fb,i
pb
Fréquence génomique de la base b
Crédit: Denis Thieffry
• La séquence est parcourue avec la matrice, et un score est calculé pour chaque position
• Le plus haut score reflète la plus grande probabilité d'avoir un site fonctionel
• Comment définir un seuil significatif ?
Recherche d'un motif avec une matrice pondérée
Evaluation des outils de recherche de sites
Constitution de collections de séquences contrôles:
+ contenant des sites caractérisés
- ne contenant assurément pas de sites
- séquences "aléatoires"
- séquences "brouillées"
Différentes situations:• Site correctement reconnu = "vrai positif"• Prédiction abusive = "faux positif"• Site manqué = "faux négatif"• Absence de site correctement prédite = "vrai négatif"
Crédit: Denis Thieffry
Compromis lors de la recherche de sites entre:
• Sélectivité = Nbre vrais positifs/ Nbre total hits
• Sensibilité = Nbre vrais positifs/ Nbre total sites
=> Double évaluation:
Total sites = vrais positifs + faux négatifs
Total "hits" = vrais positifs + faux positifs
Grande sélectivité faible sensibilité
-> grande confiance dans les sites prédits
mais beaucoup de sites réels sont manqués
Faible sélectivité grande sensibilité
-> les sites réels sont noyés dans une mer de faux positifs
Crédit: Denis Thieffry
ENSEMBLE DE SEQUENCES
PROMOTEURS VRAIS
PROMOTEURS TROUVES
PROMOTEURS CORRECTE-
MENTPREDITS
VRAISNEGATIFS
FAUXPOSITIFS
VRAISPOSITIFS
FAUXNEGATIFS
COMMENT EVALUER LES PERFORMANCES DE LA METHODE ?TAUX DE RAPPEL = VRAIS POSITIFS/VRAIS POSITIFS +FAUX NEGATIFSTAUX DE PRECISION = VRAIS POSITIFS/VRAIS POSITIFS +FAUX POSITIFS
NB: TAUX DE PRECISION ET DE RAPPEL VARIENT EN SENS INVERSE
EVALUATION DES PERFORMANCES
Compromis lors de la recherche de sites
vrais négatifs
vrais positifs
faux positifsfaux négatifs scoreseuil
nombrede sitesreconnus
Crédit: Denis Thieffry
Fré
qu
en
ce
Faux positifsVrai positifsTotal hits
Fré
qu
en
ce
Fré
qu
en
ce
Pouvoir discriminant d'une matrice
Faiblement discriminantFortement discriminant
Raisonnablement discriminant
Faux positifsVrai positifsTotal hits
Faux positifsVrai positifsTotal hits
Score
ScoreScore
Crédit: Denis Thieffry
Sites de facteurs de transcription de Drosophile
Pause …..
Plan (2ème partie)
• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l ’échelle
génomique
Plan du cours (2ème partie)
Algorithmes de découverte de motifs
• Fréquences d'oligonucleotides– (W)consensus
• Algorithmes stochastiques – Gibbs sampling (AlignACE)– Maximum expectation (MEME)
• HMM
• Neural networks
1) Sélection d'un nombre aléatoire de positions dans un ensemble de séquences
2) Création d'une matrice avec ces positions
3) Isolation d'une séquence de l'ensemble et recherche du meilleur score avec la matrice
4) Remplacement de l'ancienne position avec la nouvelle position et actualisation de la matrice
5) Recommencer à partir de (3) pour un nombre fixe de cycles
Faites comme si vous connaissiez le motif, cela pourrait bien devenir vrai...
A 1 0 1 1 1 0C 0 1 1 2 1 0G 2 1 1 0 0 0T 1 2 1 0 2 3
N itérations
Trouvé
Pas trouvé
Découverte de motifs: Gibbs sampler (A Neuwalt)
Crédit: Denis Thieffry
Gibbs Sampling Example
• The following slides illustrate Gibbs sampling to discover a motif in yeast DNA sequences.
• This example uses a sequence model that allows multiple sites per sequence.
• Columns are sampled as well as sites.
5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT
5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG
5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT
5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC
5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA
5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA
5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA
…HIS7
…ARO4
…ILV6
…THR4
…ARO1
…HOM2
…PRO3
300-600 bp of upstream sequence per gene are searched in
Saccharomyces cerevisiae.
The Input Data SetThe Input Data Set
Source: G.M. Church
5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT
5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG
5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT
5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC
5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA
5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA
5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA
AAAAGAGTCA
AAATGACTCA
AAGTGAGTCA
AAAAGAGTCA
GGATGAGTCA
AAATGAGTCA
GAATGAGTCA
AAAAGAGTCA
**********MAP score = 20.37 (maximum)
…HIS7
…ARO4
…ILV6
…THR4
…ARO1
…HOM2
…PRO3
The Target MotifThe Target Motif(ce qu’il faudra découvrir)(ce qu’il faudra découvrir)
Source: G.M. Church
5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT
5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG
5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT
5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC
5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA
5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA
**********
TGAAAAATTC
GACATCGAAA
GCACTTCGGC
GAGTCATTAC
GTAAATTGTC
CCACAGTCCG
TGTGAAGCAC
5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT
5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG
5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT
5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC
5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA
**********
TGAAAAATTC
GACATCGAAA
GCACTTCGGC
GAGTCATTAC
GTAAATTGTC
CCACAGTCCG
TGTGAAGCACMAP score = -10.0
…HIS7
…ARO4
…ILV6
…THR4
…ARO1
…HOM2
…PRO3
Initial SeedingInitial Seeding
Source: G.M. Church
5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT
5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG
5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT
5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC
5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA
5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA
5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA
**********
TGAAAAATTC
GACATCGAAA
GCACTTCGGC
GAGTCATTAC
GTAAATTGTC
CCACAGTCCG
TGTGAAGCAC
Add?
**********
TGAAAAATTC
GACATCGAAA
GCACTTCGGC
GAGTCATTAC
GTAAATTGTC
CCACAGTCCG
TGTGAAGCAC
TCTCTCTCCA
How much better is the alignment with this site as opposed to without?
…HIS7
…ARO4
…ILV6
…THR4
…ARO1
…HOM2
…PRO3
SamplingSampling
Source: G.M. Church
5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT
5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG
5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT
5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC
5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA
5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA
5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA
**********
TGAAAAATTC
GACATCGAAA
GCACTTCGGC
GAGTCATTAC
GTAAATTGTC
CCACAGTCCG
TGTGAAGCAC
Add?
**********
TGAAAAATTC
GACATCGAAA
GCACTTCGGC
GAGTCATTAC
GTAAATTGTC
CCACAGTCCG
TGTGAAGCAC
How much better is the alignment with this site as opposed to without?
Remove.
ATGAAAAAAT
…HIS7
…ARO4
…ILV6
…THR4
…ARO1
…HOM2
…PRO3
Continued SamplingContinued Sampling
Source: G.M. Church
5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT
5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG
5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT
5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC
5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA
5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA
5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA
**********
GACATCGAAA
GCACTTCGGC
GAGTCATTAC
GTAAATTGTC
CCACAGTCCG
TGTGAAGCAC
Add?
**********
TGAAAAATTC
GACATCGAAA
GCACTTCGGC
GAGTCATTAC
GTAAATTGTC
CCACAGTCCG
TGTGAAGCAC
How much better is the alignment with this site as opposed to without?
…HIS7
…ARO4
…ILV6
…THR4
…ARO1
…HOM2
…PRO3
Continued SamplingContinued Sampling
Source: G.M. Church
5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT
5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG
5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT
5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC
5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA
5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA
5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA
**********
GACATCGAAA
GCACTTCGGC
GAGTCATTAC
GTAAATTGTC
CCACAGTCCG
TGTGAAGCAC
********* *
GACATCGAAAC
GCACTTCGGCG
GAGTCATTACA
GTAAATTGTCA
CCACAGTCCGC
TGTGAAGCACA
How much better is the alignment with this new
column structure?
…HIS7
…ARO4
…ILV6
…THR4
…ARO1
…HOM2
…PRO3
Column SamplingColumn Sampling
Source: G.M. Church
5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT
5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG
5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT
5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC
5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA
5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA
5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA
AAAAGAGTCA
AAATGACTCA
AAGTGAGTCA
AAAAGAGTCA
GGATGAGTCA
AAATGAGTCA
GAATGAGTCA
AAAAGAGTCA
**********MAP score = 20.37
…HIS7
…ARO4
…ILV6
…THR4
…ARO1
…HOM2
…PRO3
The Best MotifThe Best Motif
Source: G.M. Church
• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l’échelle
génomique
Plan du cours (2ème partie)
Sites de contrôle de la transcription(~7 bases d’information)
Genome de la levure:(12,5 Mb)
• 7 bases d’information (14 bits) ~ 1 occurence toutes les 16000 bases.• Une moyenne de 1500 occurences dans un génome de 12 Mb (24 * 106 sites).• Le nombre réel de sites biologiquement significatifs est probablement beaucoup plus faible .
Faisabilité d’une recherche de Faisabilité d’une recherche de motifs sur l’ensemble d’un motifs sur l’ensemble d’un
génomegénome
• On peut mettre à profit :
• les données d’expression d’ARN (microarrays): clusterisation en utilisant les données de mutations, les conditions expérimentales, les cinétiques d’expression.
• les données d’expression spatio-temporelle: hybridations in situ chez les métazoaires
• les catégorisations fonctionnelles des gènes (f. biochimique, f. cellulaire)
Comment réduire l’espace de recherche dans Comment réduire l’espace de recherche dans les séquences pour une recherche les séquences pour une recherche
génomique ? (1)génomique ? (1)
• On peut mettre à profit :
• la conservation inter-spécifique (phylogenomic footprinting)
• la sélection des séquences: éliminer les régions codantes (ORFs), les régions répétitives, et toute séquence susceptible de ne pas contenir de régions de régulation
• Le regroupement (clusterisation) de sites identiques:il est rare de trouver un seul site pour un facteur de transcription donné dans une région cis-régulatrice confirmée) ou de sites pour des FT de même spécificité Spatio-temporelle
Comment réduire l’espace de recherche dans Comment réduire l’espace de recherche dans les séquences pour une recherche les séquences pour une recherche
génomique ? (2)génomique ? (2)
Des Microarrays à la découverte de motifs cis-régulateurs
A1234Z4321
Clustering
EMBL
start
Blast
start
Recherche de motifs
Microarrays
D ’après Magali Lescot
Comparaisons Homme-souris genome pour localiser des sites de régulation
(Phylogenomic footprinting)
"98% of experimentally defined ... binding sites of skeletal-muscle-specific transcription factors are confined to the 19% of human sequences that are most conserved in the orthologous rodent sequences ... the binding specificities of all three major ... factors (MYF, SRD & MEF2) can be computationally identified."
Wasserman et al, Nat Genet 2000 Oct;26(2):225-8
Phylogenomic footprinting: utilisation du programme Vista
Exemple d ’utilisation de la notion de clusters de sites différents
Exemple d ’utilisation de la notion de clusters de sites différents
Exemple d ’utilisation de la notion de clusters de sites différents
Our Approach.
first step Grouping of genes based on the motifs that are overrepresented in their upstream regions. To each possible word w we associate the set Sw of all the genes in whose upstream region the word w is overrepresented
second step Select those sets which show some kind of functional characterization using microarray experiments or Gene Ontology annotations.
Microarray: For each set Sw we compare the expression distribution within the set with the genome wide one (using for example Kolmogorv- Smirnov test).
Une autre aproche (M. Caselle, Université de Turin)
Les sets S (mots)
• Pour chaque mot (5 à 8 pb), calculer sa fréquence dans toutes les régions en 5’ des gènes de tout le génome considéré comme un échantillon unique.
• On compte ensuite l’occurrence du mot dans la région 5’ de chaque gène pris isolément
• Si le nombre d’occurrences du mot dans la région 5’ du gène G est statistiquement significative (comparé par exemple à une distribution binomiale basée sur les fréquences de référence ci-dessus, alors le gène G
appartient au sous-ensemble S
Le Filtre GO (Gene Ontology)
• Pour chaque sous-ensemble S, on calcule la prévalence de tous les termes GO parmi les gènes annotés de S et la probabilité qu’une telle prévalence puisse survenir au hasard dans un jeu de même taille de gènes choisis au hasard.
• On considère qu’un gène est annoté pour un terme GO t s’il est directement annoté avec ce terme ou l’un quelconque de ses descendants dans le graphe GO.
• Pour un terme GO donné t, on appelle K(t) est le nombre total d’ORFs annotés avec ce terme dans le génome et K(m,t) le nombre d’ORFs annotés avec lui dans le set S(m). Si J et j(m) dénotent le nombre d’ORFs dans le génome et dans ke set S(m) respectivement, la probabilité du terme t est décrite par une loi hypergéométrique
• De cette façon, une p-value peut ête associée à chaque paire constituée d’un motif et d’un terme GO donnés
Où
Taux de fausses découvertes
• Le problème: vu le très grand nombre de P-values qui seront calculées (égal en principe au nombre de termes GO multiplié par le nombre de motifs analysés), il est clair que quelques valeurs faibles de P-values (faux positifs) peuvent apparaître dûes au hasard
• La façon classique de gérer ce problème (la correction de Bonferroni) n’est pas appropriée gans notre cas:
• A cause de la nature hiérarchique de l’ontologie GO, les différentes P-values calculées ne peuvent être considérées comme indépendantes les unes des autres.
• Comment gérer ce problème ?
• Les auteurs proposent de générer un grand nombre Nr de sets de gènes comparable en taille à la taille typique des sets associés aux motifs puis de classer ces sets « random » sur la base de leurs meilleures P-values
• De cette façon, on peut déterminer une probabilité p f(C) de taux de fausse découverte qui soit une fonction du seuil des P-values C
Peut-on prédire la localisation de sites de fixation de FT sur une séquence ?
Peut-on prédire la localisation d’un (ou plusieurs) promoteurs sur une séquence ?
Peut-on prédire l’emplacement de régions régulatrices sur une séquence ?
Quelques problèmes d’actualité en bioinformatique des séquences régulatrices
Echelle de facilité de la tâche
Assez Facile Difficile
Peut-on comparer des régions régulatrices ?
Peut-on prédire parmi des sites pour des FT ceux qui sont vraisemblables biologiquement et ceux qui ne le sont pas ?
Peut-on prédire l’expression spatiale d’un gène par l’analyse de ses régions régulatrices ?
Quelques problèmes d’actualité en bioinformatique des séquences régulatrices (suite)
C’est fini !
top related