the distribution of sequence motifs in human genes and their promoters
DESCRIPTION
Instytut Automatyki Politechnika Śląska Gliwice. The distribution of sequence motifs in human genes and their promoters. Gliwice 2010. Regulacja ekspresji genów. Zależności pomiędzy poziomem mRNA i białek. N=2468 R =0.58 . 2. N=423 R =0.47. 2. drożdże. bakterie e. coli. N=511 - PowerPoint PPT PresentationTRANSCRIPT
The distribution of sequence motifs in human genes and their promoters
Instytut AutomatykiPolitechnika ŚląskaGliwice
Gliwice 2010
bakterie e. coli
człowiek
drożdże
Global signatures of protein and mRNA expression levels Mol. BioSyst., 2009, 5, 1512 – 1526Raquel de Sousa Abreu
(Abreu et al. 2009)
N=2468R =0.58
N=423R =0.47
N=511R =0.22
2
2
2
Regulacja ekspresji genówZależności pomiędzy poziomem mRNA i białek
Regulacja ekspresji genów
Transkrypcja i translacja są wieloetapowymi procesami regulowanymi na wiele sposobów.
DNA RNA Białkotranskrypcja translacja
Centralny dogmat biologii molekularnej
+/-
-
+/-
TF
RBP
miRNA/siRNA
Wszystkie 3 mechanizmy bazują na rozpoznawaniu określonych wzorców w sekwencji nukleotydowej
Czynniki transkrypcyjneObszar promotora genu
obszar promotora
DNA
sekwencja genu
TFBSTF
TFBSTFBS
TF
Długość obszaru promotora nie jest jednoznacznie określona
Białka z rodziny czynników transkrypcyjnych wiążą się z obszarami sekwencji o długości 5-20+ nukleotydów o niejednoznaczne określonej budowie
TFBS
Czynniki transkrypcyjneMechanizmy działania
Stabilizacja bądź blokowanie wiązania polimerazy do DNA
Przyłączanie innych białek tzw. koaktywatorów bądź korepresorów do kompleksu DNA z czynnikiem transkrypcyjnym
Wzmacnianie bądź osłabianie oddziaływań pomiędzy DNA i histonami czyniąc DNA bardziej dostępnym na potrzeby procesu transkrypcji
Miejsca wiązania czynników transkrypcyjnychWielkoskalowe sposoby oznaczania
Metoda doświadczalna - mikromacierze ChIP-on-chip:
Możliwość badania jedynie określonych fragmentów genomu uzależnionych od sekwencji sond
Dane wymagają bardzo skomplikowanego preprocesingu Bardzo wysoki koszt
Metody obliczeniowe – macierze wag pozycji (PWM)
Duża liczba fałszywie dodatnich wyników Problemy z oszacowaniem parametrów analizy Niski koszt (dostęp do bazy danych motywów)
Obecność miejsca wiązania danego czynnika transkrypcyjnego nie jest jednoznaczne z tym, iż wpływa
on na ekspresje sąsiadującego genu!
Miejsca wiązania czynników transkrypcyjnychKonstrukcja macierzy wag pozycji (PWM)
Czynniki transkrypcyjne wiążą się z obszarami sekwencji o niejednoznacznie określonej budowie nukleotydowej budując wiązania o różnej sile uzależnionej od jakości dopasowania.
GTATAAAAAGCGG CTATAAAAGGCCC GTATAAAGGGGCG GTATATAAGCGCG CTATAAAGGGGCC GTATAAAGGCGGG
1 2 3 4 5 6 7 8 9 10 11 12 13A 0 0 6 0 6 5 6 3 1 0 0 0 0C 2 0 0 0 0 0 0 0 0 2 2 4 2G 4 0 0 0 0 0 0 3 5 4 4 2 4T 0 6 0 6 0 1 0 0 0 0 0 0 0
G T A T A A A A A G C G GC T A T A A A A G G C C CG T A T A A A G G G G C GG T A T A T A A G C G C GC T A T A A A G G G G C CG T A T A A A G G C G G G
sekwencja TATA-box
skala logarytmiczna
N
n
Miejsca wiązania czynników transkrypcyjnychWykorzystanie macierzy wag pozycji
Badanie obecności miejsc wiążących na podstawie PWM
ATGCTGATGCTAGCTAGCGATCACTACTAGCTACGGATGCTAGCTACTAGCTACGT
PWM
Podstawowe problemy: Problem niezaobserwowanych nukleotydów Liczba motywów zależna od składu zasad badanej sekwencji
S = ??
n
pm/pb - prawdopodobieństwo występowania nukleotydu si na pozycji i wynikające z modelu/tła(obszaru badanej sekwencji)
Miejsca wiązania czynników transkrypcyjnychWyznaczanie miary dopasowania
Miary dopasowania motywu wymagają normalizacji tak aby możliwe było stworzenie jednej reguły określającej jej znamienność dla wszystkich motywów
Motywy sekwencyjne maja różną długość (n) Liczba motywów użytych do stworzenia macierzy jest
inna (N)
Minimalna wartość miary dopasowania określająca znamienność biologiczną jest kompromisem miedzy czułością a specyficznością metody
N – liczba modeli użytych do stworzenia PWMε – „pseudo zliczenie” (0.01)wm – ilość zliczeń dla nukleotydu si w PWM
określone przez procentowy skład GC genomu/fragmentu badanej sekwencji
Miejsca wiązania czynników transkrypcyjnych
Implementacje metod:
Paster Hertz et al. 1990Match Kel et al. 2003rVISTA Loots et al. 2003Consite Sandelin et al. 2004Mapper Marinescu et
al. 2005
Dostępne metody w większości oferowane są na zasadzie tzw. chmur obliczeniowych (cloud computing) z wieloma ograniczeniami odnośnie sposobu prezentacji wyników i rozmiaru danych wejściowych.
Większość z nich jest zbyt skomplikowane aby możliwe było ich wykorzystanie do globalnej analizy podczas gdy ich skuteczność nieraz nie jest większa od przedstawionego podejścia.
Sieci neuronow
eModele
nieparametryczneŁańcuchy
Markova
Implementacja metody
Results table
>NF-kappaB MA0061.1A [ 0 0 1 25 19 7 1 2 2 0 ]C [ 0 0 0 0 13 1 2 17 35 36 ]G [38 38 37 13 1 3 2 0 0 0 ]T [ 0 0 0 0 5 27 33 19 1 2 ]
format Jasparformat GeneBank
format Fasta
Rozkład ilości TFBSZałożenia
Liczba wystąpień motywów na danej pozycji może być opisana rozkładem:
Normalnym Chi-kwardat F Snedecora Poissona Gumbela
Sekwencje genów maja różną długość konieczne jest zatem uniezależnienie wyników od ilości sekwencji na danej pozycji
Zbadano występowanie czynników transkrypcyjnych w obszarach promotorowych 22 tysięcy ludzkich genów sięgających 5 tysięcy nukleotydów od miejsca startu transkrypcji + sekwencje odpowiadających im genów.
Użyto 75 motywów sekwencyjnych w formacie PWM odpowiedzialnych za interakcje z czynnikami transkrypcyjnymi
Rozkład występowania przedstawiono za pomocą ilości motywów występujących od danej pozycji badanej sekwencji
1 2 3 4 5 6 7 8 9 10
4 4 4 4 4 3 3 3 2 1
Rozkład ilości TFBS
Rozkład ilości TFBSKorelacja pomiędzy liczbą motywów a składem GC
rs=-0.75p < 10-250
Rozkład ilości TFBSKorelacja pomiędzy składem GC a długością motywu PWM
rs=0.13p < 2.62
Skład GC fragmentów sekwencji
Podsumowanie
(Zoubak et al. 1996)
Miejsca wiązania czynników transkrypcyjnych występują stosunkowo często w genomie ze względu na ich niską specyficzność jednak najrzadziej w okolicy genów za których regulacje są odpowiedzialne.
Klasyczne metody oparte na korekcji prawdopodobieństwa wystąpień w oparciu o skład GC są nieskuteczne dla obszarów promotora do 1000 par zasad ze względu na gwałtowną zmianę stosunku nukleotydów AT/GC
Liczba TFBS zależy bardzo silnie od stosunku zasad AT/GC badanej sekwencji.
L = 0-42%H1 = 42-47%H2 = 47-52%H3 = 52-100%
Dziękuje za uwagę
Implementacja metodyRola
11 78,34
8 51,14
8 68,75
10 42,86
8 41,30
6 57,94
10 57,63
7 51,36