inserm tagc diversité des transcrits: les sites de polyadenylation « intergéniques » daniel...
TRANSCRIPT
INS
ER
M T
AG
C
Diversité des transcrits:Les sites de polyadenylation
« intergéniques »
Daniel Gautheret, 2005INSERM ERM206
Université de la Méditerranée
INS
ER
M T
AG
C
Annotation des génomes
● Humain/souris 2005: 22000 gènes annotés
● Est-on proche de la fin?
● Si peu de différence avec la mouche (15000 gènes) ou C. elegans (18000) ?
Annotation Ensembl
INS
ER
M T
AG
C
Les EST (expressed sequence tags): l’outil No 1 pour l’annotation des
génomes
INS
ER
M T
AG
C
Hier: clustering d’ESTs pour reconstruire les transcrits
Transcrit reconstruit
Cluster d’ESTs
(avant 2001: génomes vertébrés non disponibles)
INS
ER
M T
AG
C
Aujourd’hui: Alignements EST/génome
exons introns
INS
ER
M T
AG
C
Skipped exon
Alignement EST/génome
INS
ER
M T
AG
C
Epissage alternatif
3 gènes de détermination du sexe chez la drosophile, épissés différemment selon le sexe de l'individu:
INS
ER
M T
AG
C
Epissage alternatif via EST
Nombreux travaux réalisés Sociétés créées exclusivement sur le thème (par ex.
Compugen http://www.cgen.com/) Ex: Modrek B, Resch A, Grasso C, Lee C. Genome-wide detection
of alternative splicing in expressed sequences of human genes. Nucleic Acids Res 2001 Jul 1;29(13):2850-9 :
INS
ER
M T
AG
C
ASAP, AltExtron, ASD, SpliceNest…
ASAP interface (Lee et al.
2003)
INS
ER
M T
AG
C
Travaux récents sur la diversité du transcriptome
– Tiling array– Full-length cDNA
INS
ER
M T
AG
C
Rosetta: technologie de spottage d’oligonuléotides par jet d’encre (inkjet)
Le Tiling Array
INS
ER
M T
AG
C
INS
ER
M T
AG
C
Gène bien caractérisé: confirmation des exons « refseq » et apparition de nouvelles régions transcrites (ici correspondant à un cDNA déjà observé)
INS
ER
M T
AG
C
Apparition de nouveaux gènes dans régions intergéniques sans EST ni prédiction bioinformatique.
INS
ER
M T
AG
C
Que trouve-t-on?
– Nouveaux gènes codants● >2000 transcrits avec ORF non existant dans Ensembl
– Nouveaux gènes non-codants● >10000 transcrits
– Transcrits antisens● >5000 gènes ont transcription antisens
– Isoformes de gènes connus● Au moins 40% à 60% des gènes selon auteurs● Comprend également extensions (parfaois très longues) en 3’
– Artefacts● biologiques: « bruit » transcriptionnel● expérimentaux: hybridation non-spécifique, contamination
génomique…
INS
ER
M T
AG
C
Science, 2005
– Technologie: Affymetrix– 25-mères espacés de 5bp– polyA+ et polyA-– Noyau et cytoplasme– 8 lignées cellulaires différentes
Tiling 2
INS
ER
M T
AG
C
Etat de polyadenylation
– Parmi tous les transcrits observés:● 19% polyA+● 44% polyA-● 37% polyA+ et polyA-
● Donc la moitié du transcriptome humain est polyA-
● Important, car les transcrits qu’on regardait jusqu’à présent n’étaient que les polyA+!
INS
ER
M T
AG
C
Position des transcrits
– 60% des loci exprimés présentent des évidences de transcription sur 2 brins
– Beaucoup de transcription dans l’intergénique:● 50% des polyA- cytoplasmiques et 25% des polyA-
nucléaires sont intergéniques● 41% des polyA+ nucléaires sont intergéniques
INS
ER
M T
AG
C
Full length cDNAs
– 100,000 Full length cDNAs– + 1M « CAGE » (sortes de SAGE en 5’)
Science, 2005
INS
ER
M T
AG
C
Utilité des full-lengths
– Etude des promoteurs (impossible avec les EST)
– TSS alternatifs, exons 5’ alternatifs
INS
ER
M T
AG
C
Transcrits et Unités de Transcription
– TU: Transcription Unit. mRNAs sharing at least 1 nt and with same location and orientation
INS
ER
M T
AG
C
Conclusion projet « FANTOM3 »
– 32000 transcrits non-codants– 16000 nouveaux transcripts codants– 5000 nouvelles protéines– La majorité du génome est transcrit sur les deux brins– La grande diversité des transcrits dans chaque TU
soulève le problème de la précision des puces ADN conventionnelles, dans lesquelles chaque sonde hybride différents transcrits
INS
ER
M T
AG
C
Les besoins actuels
– Intégration initiation+épissage+transcription– Caractérisation des nouveaux transcrits
● Etude fonctionnelle (domaines, etc.)● Conservation● Validation expérimentale● Tissu-spécificité
The Alternative Transcript Diversity Project (ATD), 6e PCRD
INS
ER
M T
AG
C
INS
ER
M T
AG
C
La polyadénylation alternative
Coding sequence
To 5' end
AUUAAA
AAAAAAAAA...
AAUAAA CA GUUGU
Cleavage + polyA-addition sitePre-mRNA
mRNA alternative transcripts
3' UTR
PolyAdenylation Signal
CA GUUGU
AAAAAAAAA...
INS
ER
M T
AG
C
PAS Discovery through EST/mRNA Alignment
mRNA or EST-contig
ESTs
5’ESTs
3’ESTs
Gautheret et al. (1998) Genome Res. 8, 524
First observation in 1998: 189 cases of alternative polyadenylation2000: 1000 cases
Beaudoing et al. (2000) Genome Res. 10, 1001
INS
ER
M T
AG
C
EST-based PAS Map 2005
-> 54% human, 32% mouse(accept multiple sites for 1 signal,but refseq UTR only)
human mouse chicken
Tot PAS 66,600 52,300 3,500
PAS <3K from ENSEMBL Gene 31,000 27,900 2,900
PAS >10K from ENSEMBL Gene 29,000 19,400 300
Genes with no PAS 30% 36% 80%
Genes with 2 or more PAS* 50% 43% 7%
*relative to all genes with 1+ PAS
INS
ER
M T
AG
C
Intergenic PAS?
● « Intergenic » PAS are made of– False positives– Long range PAS– PAS from novel genes
stop stop
INS
ER
M T
AG
C
What is the actual reach of 3’UTRs?
● Textbook « Human Molecular Genetics 2 » (1999):
– 3′ UTR Average of about 0.6 kb (see Zhang, 1998) but this is likely to be an underestimate because of underreporting of genes with long 3′ UTRs
● Untranslated Regions of mRNA (Mignone et al. 2003) :
INS
ER
M T
AG
C
Several recent papers mentioning distal PAS
– All rely on EST sampling, but:● Require alignment on refseq gene/fl cdDNA or overlapping
ESTs● Cannot assess all long range PAS
INS
ER
M T
AG
C
1
10
100
1000
10000
100000
0
5000
1000
0
1500
0
2000
0
2500
0
3000
0
3500
0
4000
0
4500
0
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
All sites
background all
5' supported
background
ratio of 5' supported
Site distribution
Distance from STOP
# si
tes
in 5
00n
t w
ind
ow
Rat
io 5
’ s
up
po
rted
-5’ support is significant up to 9kb past Stop codon-May be limited by cloning capacity (few inserts larger than 6kb)
9kb?
INS
ER
M T
AG
C
0
10
20
30
40
50
60
70
80
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Distance of 3’ EST from STOP
Rel
ati
ve
po
siti
on
of
5’
ES
T(%
of
tran
scri
pt)
Position of 5’ EST in transcript
-As distance from Stop increases, 5’ EST are located closer to 3’ end-After >6kb, most 5’ EST are « out of gene »
stop
cDNA5’EST 3’EST
start
INS
ER
M T
AG
C
Classification Trees for PAS prediction
8 Variables:canonical/non canonical signalErpin score for downstream region#supporting ESTsPolyA/T in ESTsESTs overlap previous siteFull-length cDNASingle/multiple EST libraries5’EST from same clone mapping within gene
stop 5kb 10kb 15kb 20kb
Class 1 Class 2
INS
ER
M T
AG
C
Classification tree
+ Voting Procedure -> class 1 / class 2
INS
ER
M T
AG
C
Importance of variables
Canonical/non canonicalErpin score#supporting ESTspolyA/T in ESTsOverlap with previous siteFull-length cDNASingle/multiple EST libraries5’EST from same clone
All variables
No 5’ EST
INS
ER
M T
AG
C
Average P-value vs Distance
P no5'
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
P no5'
Distance from STOP
Rel
ati
ve
po
siti
on
of
5’
ES
T(%
of
tran
scri
pt)
@20k: ave P-value=0.2120% have P-value >0.5
-20% of long distance sites correspond to bona fide PAS
13kb
INS
ER
M T
AG
C
Conclusions
● P-values for polyA sites● 6000 Novel polyA+ genes in intergenic● Average 3’ UTR longer than measured based on 5’
EST mapping: around 2kb mean. – Consequence for ncRNA search in UTRs
INS
ER
M T
AG
C
Equipe
● polyA group @TAGC– Matthieu Legendre– William Ritchie– Takeshi Ara– Fabrice Lopez
● Arbres de classification: – Badih Ghattas, Département de Mathématiques, Aix-
Marseille II