the distribution of sequence motifs in human genes and their promoters

19
The distribution of sequence motifs in human genes and their promoters Instytut Automatyki Politechnika Śląska Gliwice Gliwice 2010

Upload: nairi

Post on 24-Feb-2016

46 views

Category:

Documents


0 download

DESCRIPTION

Instytut Automatyki Politechnika Śląska Gliwice. The distribution of sequence motifs in human genes and their promoters. Gliwice 2010. Regulacja ekspresji genów. Zależności pomiędzy poziomem mRNA i białek. N=2468 R =0.58 . 2. N=423 R =0.47. 2. drożdże. bakterie e. coli. N=511 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: The distribution of sequence motifs in human genes and their promoters

The distribution of sequence motifs in human genes and their promoters

Instytut AutomatykiPolitechnika ŚląskaGliwice

Gliwice 2010

Page 2: The distribution of sequence motifs in human genes and their promoters

bakterie e. coli

człowiek

drożdże

Global signatures of protein and mRNA expression levels Mol. BioSyst., 2009, 5, 1512 – 1526Raquel de Sousa Abreu

(Abreu et al. 2009)

N=2468R =0.58

N=423R =0.47

N=511R =0.22

2

2

2

Regulacja ekspresji genówZależności pomiędzy poziomem mRNA i białek

Page 3: The distribution of sequence motifs in human genes and their promoters

Regulacja ekspresji genów

Transkrypcja i translacja są wieloetapowymi procesami regulowanymi na wiele sposobów.

DNA RNA Białkotranskrypcja translacja

Centralny dogmat biologii molekularnej

+/-

-

+/-

TF

RBP

miRNA/siRNA

Wszystkie 3 mechanizmy bazują na rozpoznawaniu określonych wzorców w sekwencji nukleotydowej

Page 4: The distribution of sequence motifs in human genes and their promoters

Czynniki transkrypcyjneObszar promotora genu

obszar promotora

DNA

sekwencja genu

TFBSTF

TFBSTFBS

TF

Długość obszaru promotora nie jest jednoznacznie określona

Białka z rodziny czynników transkrypcyjnych wiążą się z obszarami sekwencji o długości 5-20+ nukleotydów o niejednoznaczne określonej budowie

TFBS

Page 5: The distribution of sequence motifs in human genes and their promoters

Czynniki transkrypcyjneMechanizmy działania

Stabilizacja bądź blokowanie wiązania polimerazy do DNA

Przyłączanie innych białek tzw. koaktywatorów bądź korepresorów do kompleksu DNA z czynnikiem transkrypcyjnym

Wzmacnianie bądź osłabianie oddziaływań pomiędzy DNA i histonami czyniąc DNA bardziej dostępnym na potrzeby procesu transkrypcji

Page 6: The distribution of sequence motifs in human genes and their promoters

Miejsca wiązania czynników transkrypcyjnychWielkoskalowe sposoby oznaczania

Metoda doświadczalna - mikromacierze ChIP-on-chip:

Możliwość badania jedynie określonych fragmentów genomu uzależnionych od sekwencji sond

Dane wymagają bardzo skomplikowanego preprocesingu Bardzo wysoki koszt

Metody obliczeniowe – macierze wag pozycji (PWM)

Duża liczba fałszywie dodatnich wyników Problemy z oszacowaniem parametrów analizy Niski koszt (dostęp do bazy danych motywów)

Obecność miejsca wiązania danego czynnika transkrypcyjnego nie jest jednoznaczne z tym, iż wpływa

on na ekspresje sąsiadującego genu!

Page 7: The distribution of sequence motifs in human genes and their promoters

Miejsca wiązania czynników transkrypcyjnychKonstrukcja macierzy wag pozycji (PWM)

Czynniki transkrypcyjne wiążą się z obszarami sekwencji o niejednoznacznie określonej budowie nukleotydowej budując wiązania o różnej sile uzależnionej od jakości dopasowania.

GTATAAAAAGCGG CTATAAAAGGCCC GTATAAAGGGGCG GTATATAAGCGCG CTATAAAGGGGCC GTATAAAGGCGGG

  1 2 3 4 5 6 7 8 9 10 11 12 13A 0 0 6 0 6 5 6 3 1 0 0 0 0C 2 0 0 0 0 0 0 0 0 2 2 4 2G 4 0 0 0 0 0 0 3 5 4 4 2 4T 0 6 0 6 0 1 0 0 0 0 0 0 0

G T A T A A A A A G C G GC T A T A A A A G G C C CG T A T A A A G G G G C GG T A T A T A A G C G C GC T A T A A A G G G G C CG T A T A A A G G C G G G

sekwencja TATA-box

skala logarytmiczna

N

n

Page 8: The distribution of sequence motifs in human genes and their promoters

Miejsca wiązania czynników transkrypcyjnychWykorzystanie macierzy wag pozycji

Badanie obecności miejsc wiążących na podstawie PWM

ATGCTGATGCTAGCTAGCGATCACTACTAGCTACGGATGCTAGCTACTAGCTACGT

PWM

Podstawowe problemy: Problem niezaobserwowanych nukleotydów Liczba motywów zależna od składu zasad badanej sekwencji

S = ??

n

pm/pb - prawdopodobieństwo występowania nukleotydu si na pozycji i wynikające z modelu/tła(obszaru badanej sekwencji)

Page 9: The distribution of sequence motifs in human genes and their promoters

Miejsca wiązania czynników transkrypcyjnychWyznaczanie miary dopasowania

Miary dopasowania motywu wymagają normalizacji tak aby możliwe było stworzenie jednej reguły określającej jej znamienność dla wszystkich motywów

Motywy sekwencyjne maja różną długość (n) Liczba motywów użytych do stworzenia macierzy jest

inna (N)

Minimalna wartość miary dopasowania określająca znamienność biologiczną jest kompromisem miedzy czułością a specyficznością metody

N – liczba modeli użytych do stworzenia PWMε – „pseudo zliczenie” (0.01)wm – ilość zliczeń dla nukleotydu si w PWM

określone przez procentowy skład GC genomu/fragmentu badanej sekwencji

Page 10: The distribution of sequence motifs in human genes and their promoters

Miejsca wiązania czynników transkrypcyjnych

Implementacje metod:

Paster Hertz et al. 1990Match Kel et al. 2003rVISTA Loots et al. 2003Consite Sandelin et al. 2004Mapper Marinescu et

al. 2005

Dostępne metody w większości oferowane są na zasadzie tzw. chmur obliczeniowych (cloud computing) z wieloma ograniczeniami odnośnie sposobu prezentacji wyników i rozmiaru danych wejściowych.

Większość z nich jest zbyt skomplikowane aby możliwe było ich wykorzystanie do globalnej analizy podczas gdy ich skuteczność nieraz nie jest większa od przedstawionego podejścia.

Sieci neuronow

eModele

nieparametryczneŁańcuchy

Markova

Page 11: The distribution of sequence motifs in human genes and their promoters

Implementacja metody

Results table

>NF-kappaB MA0061.1A [ 0 0 1 25 19 7 1 2 2 0 ]C [ 0 0 0 0 13 1 2 17 35 36 ]G [38 38 37 13 1 3 2 0 0 0 ]T [ 0 0 0 0 5 27 33 19 1 2 ]

format Jasparformat GeneBank

format Fasta

Page 12: The distribution of sequence motifs in human genes and their promoters

Rozkład ilości TFBSZałożenia

Liczba wystąpień motywów na danej pozycji może być opisana rozkładem:

Normalnym Chi-kwardat F Snedecora Poissona Gumbela

Sekwencje genów maja różną długość konieczne jest zatem uniezależnienie wyników od ilości sekwencji na danej pozycji

Zbadano występowanie czynników transkrypcyjnych w obszarach promotorowych 22 tysięcy ludzkich genów sięgających 5 tysięcy nukleotydów od miejsca startu transkrypcji + sekwencje odpowiadających im genów.

Użyto 75 motywów sekwencyjnych w formacie PWM odpowiedzialnych za interakcje z czynnikami transkrypcyjnymi

Rozkład występowania przedstawiono za pomocą ilości motywów występujących od danej pozycji badanej sekwencji

1 2 3 4 5 6 7 8 9 10

4 4 4 4 4 3 3 3 2 1

Page 13: The distribution of sequence motifs in human genes and their promoters

Rozkład ilości TFBS

Page 14: The distribution of sequence motifs in human genes and their promoters

Rozkład ilości TFBSKorelacja pomiędzy liczbą motywów a składem GC

rs=-0.75p < 10-250

Page 15: The distribution of sequence motifs in human genes and their promoters

Rozkład ilości TFBSKorelacja pomiędzy składem GC a długością motywu PWM

rs=0.13p < 2.62

Page 16: The distribution of sequence motifs in human genes and their promoters

Skład GC fragmentów sekwencji

Page 17: The distribution of sequence motifs in human genes and their promoters

Podsumowanie

(Zoubak et al. 1996)

Miejsca wiązania czynników transkrypcyjnych występują stosunkowo często w genomie ze względu na ich niską specyficzność jednak najrzadziej w okolicy genów za których regulacje są odpowiedzialne.

Klasyczne metody oparte na korekcji prawdopodobieństwa wystąpień w oparciu o skład GC są nieskuteczne dla obszarów promotora do 1000 par zasad ze względu na gwałtowną zmianę stosunku nukleotydów AT/GC

Liczba TFBS zależy bardzo silnie od stosunku zasad AT/GC badanej sekwencji.

L = 0-42%H1 = 42-47%H2 = 47-52%H3 = 52-100%

Page 18: The distribution of sequence motifs in human genes and their promoters

Dziękuje za uwagę

Page 19: The distribution of sequence motifs in human genes and their promoters

Implementacja metodyRola

11 78,34

8 51,14

8 68,75

10 42,86

8 41,30

6 57,94

10 57,63

7 51,36