identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Identification et analyse bioinformatiques d'éléments cis-

régulateursdans les génomes

Bernard Jacq,M2 BBSG 2008Module GF

Plan du cours (1ère partie)Rappels biologiques

• Introduction• Les éléments cis-régulateurs (ADN)• Les éléments trans-régulateurs (protéines)• Régions régulatrices et régulation in vivo

LE CONTROLE DE L’INFORMATION GENETIQUE EUCARYOTE

ARNADN PROTEINE

TRANSCRIPTION TRADUCTION

Quelques généralités sur la régulation de la transcription eucaryote (1/2)

• La variabilité d’expression des gènes eucaryotes résulte d’interactions entre des régions particulières des gènes et des combinaisons de facteurs protéiques spécifiques

• Ces régions d ’ADN sont d’une part les promoteurs (éléments génériques) et d’autres part différents types de régions appelées éléments cis-régulateurs (spécifiques)

• Le promoteur est défini comme la région d’ADN immédiatement en amont du site d’initiation de la transcription, au niveau de laquelle s’assemble le complexe d’initiation de la transcription (polymérase, cofacteurs)

Quelques généralités sur la régulation de la transcription eucaryote (2/2)

• Il y a différentes classes d’éléments cis-régulateurs:– enhanceurs– silenceurs– insulateurs– sites d’attachement à la matrice chromosomique

• l’ensemble des éléments cis-régulateurs d’un gène a généralement une organisation modulaire: différents sous-éléments cis-régulateurs sont chacun responsables d’une partie du patron d’expression global du gène

• les différents modules interagissent avec le même promoteur et la machinerie de transcription qui y est fixée

LE CONTROLE COMPLEXE DE L’ACTIVITE D’UN GENE PAR PLUSIEURS

INTERACTIONS PROTEINE-ADN

Plan du cours (1ère partie)

Les Promoteurs eucaryotes

Ils sont consistués d’un groupe de motifs d’ADN regroupés en une 100aine de pb en 5’ du site d’initiation

• TATA Box• INR Box

• DPE Box

La TATA box est reconnue par la TBP (TATA binding Protein).L’ INR (initiator) et le DPE (downstream promoter element) sont reconnus par des TAFs (facteurs de transcription)

Promoteur

Exemples de TATA Boxes

Une façon de présenter des séquences consensus:Les « sequence logos »

Les Enhanceurs

• Aussi appelées Upstream Activation Sequences (UAS)

• Séquences qui assistent le promoteur dans l’initiation

• Peuvent être situées en amont ou en aval du promoteur (et même du gène)

• Peuvent être actives dans l’une ou l’autre orientation

• Sont reconnues par des facteurs de transcription spécifiques

• Les éléments cis-régulateurs de la transcription sont reconnus par un grand nombre de facteurs protéiques :

• certains sont ubiquitaires : polymérase sur promoteur et FT généraux

• la majorité sont spécifiques : facteurs de transcription sur les enhanceurs

• Il existe plusieurs centaines de facteurs de transcription différents chez chaque organisme eucaryote, regroupés en quelques dizaines de familles structurales

Les Protéines régulatrices de la transcription chez les eucaryotes

Les principales famillesde protéines régulatrices

Protéines à motifs HTH Protéines à doigts à zinc Protéines Leucine zipper

Les principales famillesde protéines régulatrices

Protéines à motifs HTH Protéines à doigts à zinc Protéines Leucine zipper

• Introduction• Les éléments cis-régulateurs (ADN)• Les éléments trans-régulateurs (protéines)• Modules cis-régulateurs et régulation in vivo

Modules régulateurs

• Des gènes exprimés dans des contextes spatio-temporaux spécifiques possèdent souvent des MCR (modules cis-régulateurs) spécifiques : séquence régulatrice possédant un nombre significativement élevé de sites de fixation pour des facteurs de transcription tissu-spécifiques.

Photoreceptors

-140 -60

Ret-1 CRX NRL

NRL CRX Ret-1

-200 -40

Rhodopsin Enhancer

Rhodopsin Promoter

Arrestin

CRX Ret-3

-1760-1950

Rat senescence marker

Human glucose-6-phosphatase

Human Protein C

Liver Skeletal muscleAChR-?

MLC-1f3f

Myf/E Myf/E Myf/E TEF

119 +30

Myf/EMyf/ESRF/CArG Mef-2 Novel Mef-2

-1256 -1050

Myf/E Myf/E Myf/E Mef-2

+25,000 +25,200

HNF-4 HNF-1HNF-4 HNF-3 HNF-3

-240 -133

C/EBP C/EBP HNF-1 C/EBP HNF-1

HNF-1HNF -3 C/EBPNF-I

-80 -9

Photoreceptors

-140 -60

Ret-1 CRX NRL

-140 -60

Ret-1 CRX NRL

NRL CRX Ret-1

-200 -40

NRL CRX Ret-1

-200 -40

RhodopsinEnhancer

RhodopsinPromoter

Arrestin

CRX Ret-3

-1760-1950

AIRS CRX Ret-3

-1760-1950

Ratsenescencemarker

Humanglucose-6 -phosphatase

HumanProteinC

Liver SkeletalmuscleAChR -?

MLC-1f3f

119 +30

-1256 -1050

Myf/EMyf/E

-1256 -1050

+25,000 +25,200

-240 -133

-38-135

HNF-1HNF -3 C/EBPNF-I

-80 -9

NF-I HNF-1HNF -3 C/EBPNF-I

-80 -9

Beaucoup de genes eucaryotes sont controlés par des combinaisons d’activateurs

et de répresseurs

stripes 3 + 7 stripe 2

repression site cluster

ps 6,8,10,12 stripesblastoderm +mesodermat GBE

ftzzebra element

evestripes 2 & 3+7

elements

kniposterior element

rholateral neurectoderm

stripe element

UbxPBX element

Quelques exemples d’éléments cis-régulateurs chez la Drosophile

Plan du cours (2ème partie)

Bioinformatique

• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l ’échelle génomique

Les motifs sont courts (6 à 20 pb) Ils utilisent un alphabet limité (A,C,G,T) Ils peuvent présenter une variabilité de séquence importante (sont dégénérés) Ils possèdent un faible contenu d’information (8 à 12 bits, soit un site tous les 250-4000pb) L’affinité de différents sites pour une même protéine peut varier de 3 ordres de magnitude La fonction régulatrice dépend souvent d ’interactions coopératives avec des sites voisins Ces sites sont trouvés dans les régions non-codantes

Celles-ci représentent:- 11% du génome d’E. coli- 25% du génome de la levure- 97% du génome humain

Les problèmes spécifiques liés à la recherche de motifs d’interaction dans

l’ADN

L’analyse bioinformatique de régions

cis-régulatrices

2 situations différentes

1) Recherche de motifs connus dans une ou plusieurs séquences

- Expressions régulières

- Matrices consensus

2) Découverte de motifs : Un groupe de séquences régulatrices doit contenir des motifs identiques ou similaires pour un ou plusieurs facteurs de transcription, mais ces motifs sont inconnus

• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l ’échelle

génomique

Différentes représentations d'un motif Différentes représentations d'un motif -> recherche dans de nouvelles -> recherche dans de nouvelles

séquencesséquences

YYYWGASTCACollection de sites -> recherche d'expressions

régulières (avec/sans substitution/délétion/insertion)

AAAAGAGTCAAAATGACTCAAAGTGAGTCAAAAAGAGTCAGGATGAGTCAAAATGAGTCAGAATGAGTCAAAAAGAGTCA

1 2 2 4 5 6 7 8 9 10

A 6 7 7 3 0 8 0 0 0 8T 0 0 0 5 0 0 0 8 0 0G 2 1 1 0 8 0 7 0 0 0C 0 0 0 0 0 0 1 0 8 0

Matrice de fréquence + "scoring scheme" + seuil

-> application lors du parcours de séquence

Séquence consensus (utilisation du code IUPAC)

-> recherche d'une expression régulière

Sequence logoReprésentation du contenu informationnel (en bits)

Passage d ’une matrice de fréquence à une matrice de poids-position

PosBase123456789101112A132080000012C223808000202G123000805452T 410000083222VCACGTKB

Site reconnu par le facteur Pho4p de la levure

Sites régulateurs: matrices pondérées

(Source : TRANSFAC)

Position

Fréquence observée de chaque base à la position i

Valeur entre0 et 2 (bits)

seq(i) = fb,i log2b

Fréquence génomique de la base b

Crédit: Denis Thieffry

• La séquence est parcourue avec la matrice, et un score est calculé pour chaque position

• Le plus haut score reflète la plus grande probabilité d'avoir un site fonctionel

• Comment définir un seuil significatif ?

Recherche d'un motif avec une matrice pondérée

Evaluation des outils de recherche de sites

Constitution de collections de séquences contrôles:

+ contenant des sites caractérisés

- ne contenant assurément pas de sites

- séquences "aléatoires"

- séquences "brouillées"

Différentes situations:• Site correctement reconnu = "vrai positif"• Prédiction abusive = "faux positif"• Site manqué = "faux négatif"• Absence de site correctement prédite = "vrai négatif"

Compromis lors de la recherche de sites entre:

• Sélectivité = Nbre vrais positifs/ Nbre total hits

• Sensibilité = Nbre vrais positifs/ Nbre total sites

=> Double évaluation:

Total sites = vrais positifs + faux négatifs

Total "hits" = vrais positifs + faux positifs

Grande sélectivité faible sensibilité

-> grande confiance dans les sites prédits

mais beaucoup de sites réels sont manqués

Faible sélectivité grande sensibilité

-> les sites réels sont noyés dans une mer de faux positifs

ENSEMBLE DE SEQUENCES

PROMOTEURS VRAIS

PROMOTEURS TROUVES

PROMOTEURS CORRECTE-

MENTPREDITS

VRAISNEGATIFS

FAUXPOSITIFS

VRAISPOSITIFS

FAUXNEGATIFS

COMMENT EVALUER LES PERFORMANCES DE LA METHODE ?TAUX DE RAPPEL = VRAIS POSITIFS/VRAIS POSITIFS +FAUX NEGATIFSTAUX DE PRECISION = VRAIS POSITIFS/VRAIS POSITIFS +FAUX POSITIFS

NB: TAUX DE PRECISION ET DE RAPPEL VARIENT EN SENS INVERSE

EVALUATION DES PERFORMANCES

Compromis lors de la recherche de sites

vrais négatifs

vrais positifs

faux positifsfaux négatifs scoreseuil

nombrede sitesreconnus

Faux positifsVrai positifsTotal hits

Pouvoir discriminant d'une matrice

Faiblement discriminantFortement discriminant

Raisonnablement discriminant

Faux positifsVrai positifsTotal hits

ScoreScore

Sites de facteurs de transcription de Drosophile

Pause …..

Plan (2ème partie)

• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l ’échelle

génomique

Algorithmes de découverte de motifs

• Fréquences d'oligonucleotides– (W)consensus

• Algorithmes stochastiques – Gibbs sampling (AlignACE)– Maximum expectation (MEME)

• HMM

• Neural networks

1) Sélection d'un nombre aléatoire de positions dans un ensemble de séquences

2) Création d'une matrice avec ces positions

3) Isolation d'une séquence de l'ensemble et recherche du meilleur score avec la matrice

4) Remplacement de l'ancienne position avec la nouvelle position et actualisation de la matrice

5) Recommencer à partir de (3) pour un nombre fixe de cycles

Faites comme si vous connaissiez le motif, cela pourrait bien devenir vrai...

A 1 0 1 1 1 0C 0 1 1 2 1 0G 2 1 1 0 0 0T 1 2 1 0 2 3

N itérations

Trouvé

Pas trouvé

Découverte de motifs: Gibbs sampler (A Neuwalt)

Gibbs Sampling Example

• The following slides illustrate Gibbs sampling to discover a motif in yeast DNA sequences.

• This example uses a sequence model that allows multiple sites per sequence.

• Columns are sampled as well as sites.

5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT

5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG

5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT

5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC

5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA

5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA

5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

300-600 bp of upstream sequence per gene are searched in

Saccharomyces cerevisiae.

The Input Data SetThe Input Data Set

Source: G.M. Church

AAAAGAGTCA

AAATGACTCA

AAGTGAGTCA

AAAAGAGTCA

GGATGAGTCA

AAATGAGTCA

GAATGAGTCA

AAAAGAGTCA

**********MAP score = 20.37 (maximum)

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

The Target MotifThe Target Motif(ce qu’il faudra découvrir)(ce qu’il faudra découvrir)

Source: G.M. Church

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCACMAP score = -10.0

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

Initial SeedingInitial Seeding

Source: G.M. Church

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

TCTCTCTCCA

How much better is the alignment with this site as opposed to without?

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

SamplingSampling

Source: G.M. Church

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

Remove.

ATGAAAAAAT

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

Continued SamplingContinued Sampling

Source: G.M. Church

**********

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

Continued SamplingContinued Sampling

Source: G.M. Church

**********

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

********* *

GACATCGAAAC

GCACTTCGGCG

GAGTCATTACA

GTAAATTGTCA

CCACAGTCCGC

TGTGAAGCACA

How much better is the alignment with this new

column structure?

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

Column SamplingColumn Sampling

Source: G.M. Church

AAAAGAGTCA

AAATGACTCA

AAGTGAGTCA

AAAAGAGTCA

GGATGAGTCA

AAATGAGTCA

GAATGAGTCA

AAAAGAGTCA

**********MAP score = 20.37

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

The Best MotifThe Best Motif

Source: G.M. Church

• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l’échelle

génomique

Sites de contrôle de la transcription(~7 bases d’information)

Genome de la levure:(12,5 Mb)

• 7 bases d’information (14 bits) ~ 1 occurence toutes les 16000 bases.• Une moyenne de 1500 occurences dans un génome de 12 Mb (24 * 106 sites).• Le nombre réel de sites biologiquement significatifs est probablement beaucoup plus faible .

Faisabilité d’une recherche de Faisabilité d’une recherche de motifs sur l’ensemble d’un motifs sur l’ensemble d’un

génomegénome

• On peut mettre à profit :

• les données d’expression d’ARN (microarrays): clusterisation en utilisant les données de mutations, les conditions expérimentales, les cinétiques d’expression.

• les données d’expression spatio-temporelle: hybridations in situ chez les métazoaires

• les catégorisations fonctionnelles des gènes (f. biochimique, f. cellulaire)

Comment réduire l’espace de recherche dans Comment réduire l’espace de recherche dans les séquences pour une recherche les séquences pour une recherche

génomique ? (1)génomique ? (1)

• On peut mettre à profit :

• la conservation inter-spécifique (phylogenomic footprinting)

• la sélection des séquences: éliminer les régions codantes (ORFs), les régions répétitives, et toute séquence susceptible de ne pas contenir de régions de régulation

• Le regroupement (clusterisation) de sites identiques:il est rare de trouver un seul site pour un facteur de transcription donné dans une région cis-régulatrice confirmée) ou de sites pour des FT de même spécificité Spatio-temporelle

Comment réduire l’espace de recherche dans Comment réduire l’espace de recherche dans les séquences pour une recherche les séquences pour une recherche

génomique ? (2)génomique ? (2)

Des Microarrays à la découverte de motifs cis-régulateurs

A1234Z4321

Clustering

Recherche de motifs

Microarrays

D ’après Magali Lescot

Comparaisons Homme-souris genome pour localiser des sites de régulation

(Phylogenomic footprinting)

"98% of experimentally defined ... binding sites of skeletal-muscle-specific transcription factors are confined to the 19% of human sequences that are most conserved in the orthologous rodent sequences ... the binding specificities of all three major ... factors (MYF, SRD & MEF2) can be computationally identified."

Wasserman et al, Nat Genet 2000 Oct;26(2):225-8

Phylogenomic footprinting: utilisation du programme Vista

Exemple d ’utilisation de la notion de clusters de sites différents

Our Approach.

first step Grouping of genes based on the motifs that are overrepresented in their upstream regions. To each possible word w we associate the set Sw of all the genes in whose upstream region the word w is overrepresented

second step Select those sets which show some kind of functional characterization using microarray experiments or Gene Ontology annotations.

Microarray: For each set Sw we compare the expression distribution within the set with the genome wide one (using for example Kolmogorv- Smirnov test).

Une autre aproche (M. Caselle, Université de Turin)

Les sets S (mots)

• Pour chaque mot (5 à 8 pb), calculer sa fréquence dans toutes les régions en 5’ des gènes de tout le génome considéré comme un échantillon unique.

• On compte ensuite l’occurrence du mot dans la région 5’ de chaque gène pris isolément

• Si le nombre d’occurrences du mot dans la région 5’ du gène G est statistiquement significative (comparé par exemple à une distribution binomiale basée sur les fréquences de référence ci-dessus, alors le gène G

appartient au sous-ensemble S

Le Filtre GO (Gene Ontology)

• Pour chaque sous-ensemble S, on calcule la prévalence de tous les termes GO parmi les gènes annotés de S et la probabilité qu’une telle prévalence puisse survenir au hasard dans un jeu de même taille de gènes choisis au hasard.

• On considère qu’un gène est annoté pour un terme GO t s’il est directement annoté avec ce terme ou l’un quelconque de ses descendants dans le graphe GO.

• Pour un terme GO donné t, on appelle K(t) est le nombre total d’ORFs annotés avec ce terme dans le génome et K(m,t) le nombre d’ORFs annotés avec lui dans le set S(m). Si J et j(m) dénotent le nombre d’ORFs dans le génome et dans ke set S(m) respectivement, la probabilité du terme t est décrite par une loi hypergéométrique

• De cette façon, une p-value peut ête associée à chaque paire constituée d’un motif et d’un terme GO donnés

Taux de fausses découvertes

• Le problème: vu le très grand nombre de P-values qui seront calculées (égal en principe au nombre de termes GO multiplié par le nombre de motifs analysés), il est clair que quelques valeurs faibles de P-values (faux positifs) peuvent apparaître dûes au hasard

• La façon classique de gérer ce problème (la correction de Bonferroni) n’est pas appropriée gans notre cas:

• A cause de la nature hiérarchique de l’ontologie GO, les différentes P-values calculées ne peuvent être considérées comme indépendantes les unes des autres.

• Comment gérer ce problème ?

• Les auteurs proposent de générer un grand nombre Nr de sets de gènes comparable en taille à la taille typique des sets associés aux motifs puis de classer ces sets « random » sur la base de leurs meilleures P-values

• De cette façon, on peut déterminer une probabilité p f(C) de taux de fausse découverte qui soit une fonction du seuil des P-values C

Peut-on prédire la localisation de sites de fixation de FT sur une séquence ?

Peut-on prédire la localisation d’un (ou plusieurs) promoteurs sur une séquence ?

Peut-on prédire l’emplacement de régions régulatrices sur une séquence ?

Quelques problèmes d’actualité en bioinformatique des séquences régulatrices

Echelle de facilité de la tâche

Assez Facile Difficile

Peut-on comparer des régions régulatrices ?

Peut-on prédire parmi des sites pour des FT ceux qui sont vraisemblables biologiquement et ceux qui ne le sont pas ?

Peut-on prédire l’expression spatiale d’un gène par l’analyse de ses régions régulatrices ?

Quelques problèmes d’actualité en bioinformatique des séquences régulatrices (suite)

C’est fini !

identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Documents

atelier grand graphes et bioinformatiques

fluidité des génomes, rôle des éléments transposables

cellules et génomes Œuf de grenouille xenopus laevis

nadia el- mabrouk inférence de génomes ancestraux

génomes et enseignement de la biologie au xxième

partage de ressources bioinformatiques hétérogènes...

-- 1 --. -- 2 -- dokeos vos traitements bioinformatiques...

alignement de gÉnomes...

brassage génétique et diversification des génomes

m9 assemblage d'éléments mécaniques

tÖrtÉnelem francia...

Évolution des génomes des endosymbiotes chez les insectes

listes consultatives d'éléments nutritifs utilisables dans...

bioinformatique: annotation des génomes...

ordonnancement et réplication de données bioinformatiques...

cartographie génétique des génomes eucaryotes i...

comparaison de génomes de souches d’

inférence de génomes ancestraux

installation d'éléments mobiles equilibres

i.3 stabilité et variabilité des génomes et...