the distribution of sequence motifs in human genes and their promoters

The distribution of sequence motifs in human genes and their promoters

Instytut AutomatykiPolitechnika ŚląskaGliwice

Gliwice 2010

bakterie e. coli

człowiek

drożdże

Global signatures of protein and mRNA expression levels Mol. BioSyst., 2009, 5, 1512 – 1526Raquel de Sousa Abreu

(Abreu et al. 2009)

N=2468R =0.58

N=423R =0.47

N=511R =0.22

2

2

2

Regulacja ekspresji genówZależności pomiędzy poziomem mRNA i białek

Regulacja ekspresji genów

Transkrypcja i translacja są wieloetapowymi procesami regulowanymi na wiele sposobów.

DNA RNA Białkotranskrypcja translacja

Centralny dogmat biologii molekularnej

+/-

-

+/-

TF

RBP

miRNA/siRNA

Wszystkie 3 mechanizmy bazują na rozpoznawaniu określonych wzorców w sekwencji nukleotydowej

Czynniki transkrypcyjneObszar promotora genu

obszar promotora

DNA

sekwencja genu

TFBSTF

TFBSTFBS

TF

Długość obszaru promotora nie jest jednoznacznie określona

Białka z rodziny czynników transkrypcyjnych wiążą się z obszarami sekwencji o długości 5-20+ nukleotydów o niejednoznaczne określonej budowie

TFBS

Czynniki transkrypcyjneMechanizmy działania

Stabilizacja bądź blokowanie wiązania polimerazy do DNA

Przyłączanie innych białek tzw. koaktywatorów bądź korepresorów do kompleksu DNA z czynnikiem transkrypcyjnym

Wzmacnianie bądź osłabianie oddziaływań pomiędzy DNA i histonami czyniąc DNA bardziej dostępnym na potrzeby procesu transkrypcji

Miejsca wiązania czynników transkrypcyjnychWielkoskalowe sposoby oznaczania

Metoda doświadczalna - mikromacierze ChIP-on-chip:

Możliwość badania jedynie określonych fragmentów genomu uzależnionych od sekwencji sond

Dane wymagają bardzo skomplikowanego preprocesingu Bardzo wysoki koszt

Metody obliczeniowe – macierze wag pozycji (PWM)

Duża liczba fałszywie dodatnich wyników Problemy z oszacowaniem parametrów analizy Niski koszt (dostęp do bazy danych motywów)

Obecność miejsca wiązania danego czynnika transkrypcyjnego nie jest jednoznaczne z tym, iż wpływa

on na ekspresje sąsiadującego genu!

http://www.facebook.com/pages/BIOBASE/151836784433

Miejsca wiązania czynników transkrypcyjnychKonstrukcja macierzy wag pozycji (PWM)

Czynniki transkrypcyjne wiążą się z obszarami sekwencji o niejednoznacznie określonej budowie nukleotydowej budując wiązania o różnej sile uzależnionej od jakości dopasowania.

GTATAAAAAGCGG CTATAAAAGGCCC GTATAAAGGGGCG GTATATAAGCGCG CTATAAAGGGGCC GTATAAAGGCGGG

1 2 3 4 5 6 7 8 9 10 11 12 13A 0 0 6 0 6 5 6 3 1 0 0 0 0C 2 0 0 0 0 0 0 0 0 2 2 4 2G 4 0 0 0 0 0 0 3 5 4 4 2 4T 0 6 0 6 0 1 0 0 0 0 0 0 0

G T A T A A A A A G C G GC T A T A A A A G G C C CG T A T A A A G G G G C GG T A T A T A A G C G C GC T A T A A A G G G G C CG T A T A A A G G C G G G

sekwencja TATA-box

skala logarytmiczna

N

n

Miejsca wiązania czynników transkrypcyjnychWykorzystanie macierzy wag pozycji

Badanie obecności miejsc wiążących na podstawie PWM

ATGCTGATGCTAGCTAGCGATCACTACTAGCTACGGATGCTAGCTACTAGCTACGT

PWM

Podstawowe problemy: Problem niezaobserwowanych nukleotydów Liczba motywów zależna od składu zasad badanej sekwencji

S = ??

n

pm/pb - prawdopodobieństwo występowania nukleotydu si na pozycji i wynikające z modelu/tła(obszaru badanej sekwencji)

Miejsca wiązania czynników transkrypcyjnychWyznaczanie miary dopasowania

Miary dopasowania motywu wymagają normalizacji tak aby możliwe było stworzenie jednej reguły określającej jej znamienność dla wszystkich motywów

Motywy sekwencyjne maja różną długość (n) Liczba motywów użytych do stworzenia macierzy jest

inna (N)

Minimalna wartość miary dopasowania określająca znamienność biologiczną jest kompromisem miedzy czułością a specyficznością metody

N – liczba modeli użytych do stworzenia PWMε – „pseudo zliczenie” (0.01)wm – ilość zliczeń dla nukleotydu si w PWM

określone przez procentowy skład GC genomu/fragmentu badanej sekwencji

Miejsca wiązania czynników transkrypcyjnych

Implementacje metod:

Paster Hertz et al. 1990Match Kel et al. 2003rVISTA Loots et al. 2003Consite Sandelin et al. 2004Mapper Marinescu et

al. 2005

Dostępne metody w większości oferowane są na zasadzie tzw. chmur obliczeniowych (cloud computing) z wieloma ograniczeniami odnośnie sposobu prezentacji wyników i rozmiaru danych wejściowych.

Większość z nich jest zbyt skomplikowane aby możliwe było ich wykorzystanie do globalnej analizy podczas gdy ich skuteczność nieraz nie jest większa od przedstawionego podejścia.

Sieci neuronow

eModele

nieparametryczneŁańcuchy

Markova

Implementacja metody

Results table

>NF-kappaB MA0061.1A [ 0 0 1 25 19 7 1 2 2 0 ]C [ 0 0 0 0 13 1 2 17 35 36 ]G [38 38 37 13 1 3 2 0 0 0 ]T [ 0 0 0 0 5 27 33 19 1 2 ]

format Jasparformat GeneBank

format Fasta

http://www.embl.de/index.php

Rozkład ilości TFBSZałożenia

Liczba wystąpień motywów na danej pozycji może być opisana rozkładem:

Normalnym Chi-kwardat F Snedecora Poissona Gumbela

Sekwencje genów maja różną długość konieczne jest zatem uniezależnienie wyników od ilości sekwencji na danej pozycji

Zbadano występowanie czynników transkrypcyjnych w obszarach promotorowych 22 tysięcy ludzkich genów sięgających 5 tysięcy nukleotydów od miejsca startu transkrypcji + sekwencje odpowiadających im genów.

Użyto 75 motywów sekwencyjnych w formacie PWM odpowiedzialnych za interakcje z czynnikami transkrypcyjnymi

Rozkład występowania przedstawiono za pomocą ilości motywów występujących od danej pozycji badanej sekwencji

1 2 3 4 5 6 7 8 9 10

4 4 4 4 4 3 3 3 2 1

Rozkład ilości TFBS

Rozkład ilości TFBSKorelacja pomiędzy liczbą motywów a składem GC

rs=-0.75p < 10-250

Rozkład ilości TFBSKorelacja pomiędzy składem GC a długością motywu PWM

rs=0.13p < 2.62

Skład GC fragmentów sekwencji

Podsumowanie

(Zoubak et al. 1996)

Miejsca wiązania czynników transkrypcyjnych występują stosunkowo często w genomie ze względu na ich niską specyficzność jednak najrzadziej w okolicy genów za których regulacje są odpowiedzialne.

Klasyczne metody oparte na korekcji prawdopodobieństwa wystąpień w oparciu o skład GC są nieskuteczne dla obszarów promotora do 1000 par zasad ze względu na gwałtowną zmianę stosunku nukleotydów AT/GC

Liczba TFBS zależy bardzo silnie od stosunku zasad AT/GC badanej sekwencji.

L = 0-42%H1 = 42-47%H2 = 47-52%H3 = 52-100%

Dziękuje za uwagę

Implementacja metodyRola

11 78,34

8 51,14

8 68,75

10 42,86

8 41,30

6 57,94

10 57,63

7 51,36

the distribution of sequence motifs in human genes and their promoters

Documents