biologiczne bazy danych (1)theta.edu.pl/wp-content/uploads/2018/04/podstbioinf_wd3-1.pdf · baza...
TRANSCRIPT
BIOINFORMATYKA
HISTORIA
1. 1982 utworzenie bazy danych GenBank (NIH)
• dane ogólnodostępne
• sekwencje nukleotydów
2. Wprowadzenie sekwencji z projektu mapowania
genomu człowieka
3. … i innych genomów
4. Eksplozja danych – nowa dyscyplina nauki –
bioinformatyka
Copyright ©2017, J. Szyda & M. Mielczarek
GenBank (NCBI)
12. 1982 680 338 pz; 606 sekwencji
02. 2016 207 018 196 067 pz; 190 250 235 sekwencji
02. 2017 228 719 437 638 pz; 199 341 377 sekwencji
01. 2018 249 722 163 594 pz; 206 293 625 sekwencji
Copyright ©2017, J. Szyda & M. Mielczarek
BIOINFORMATYKA
BIOINFORMATYKA
• odbieranie
• przechowywanie
• analiza
• modelowanie
• dystrybucja
danych związanych z sekwencją DNA i białek
Copyright ©2017, J. Szyda & M. Mielczarek
BIOINFORMATYKA
IN VIVO IN VITRO IN SILICO
BADANIA BIOLOGICZNE
Copyright ©2017, J. Szyda & M. Mielczarek
BIOINFORMATYKA
GŁÓWNE DZIEDZINY BADAŃ
1. Analiza funkcji genów
• wpływ genów na obserwowane cechy
• interakcje pomiędzy genami
2. Badania ewolucyjne
• porównywanie sekwencji DNA
• spokrewnienie organizmów
• konstrukcja drzew filogenetycznych
• bioróżnorodność
3. Analiza struktury DNA
• predykcja genów
• porównywanie sekwencji DNA i białek
4. Modelowanie struktury białekCopyright ©2017, J. Szyda & M. Mielczarek
BIOINFORMATYKA
ROLA INTERNETU (dane i narzędzia)
1. Przykłady ogólnodostępnych baz danych
• PubMed
• OMIM
• KEGG
2. Przykłady ogólnodostępnych programów
• BLAST
• Haploview
Copyright ©2017, J. Szyda & M. Mielczarek
BIOINFORMATYKA
ROLA INTERNETU (dane dostępne dla wszystkich)
1. Darmowe
2. Wszędzie dostępne
3. Aktualne
4. Korygowane
problematyka ochrony danych
Copyright ©2017, J. Szyda & M. Mielczarek
BIOINFORMATYKA
OBSZARY ZASTOSOWAŃ
1. Medycyna
2. Farmaceutyka
3. Kryminalistyka
4. Rolnictwo
5. Ochrona środowiska
Copyright ©2017, J. Szyda & M. Mielczarek
PROJEKTY POZNANIA INNYCH GENOMÓW
CAŁKOWICIE ZSEKWENCJONOWANE GENOMY (historia)
w ogólnodostępnych bazach danych
• 1995 Hemophilus influenzae
• 1996 Saccharomyces cerevisiae ~12 Mb
• 1998 Caenorhabditis elegans
• 1998 Plasmodium falciparum ~23 Mb
• 1999 pierwszy chromosom człowieka
• 2000 Arabidopsis thaliana ~119 Mb
• 2000 Drosophila melanogaster ~180 Mb
• 2005 Mus musculus
Copyright ©2017, J. Szyda & M. Mielczarek
Genome (NCBI) - PROJEKTY POZNANIA INNYCH GENOMÓW
4 050
90 855
7 117
SprzedażMarzec 2017
Copyright ©2017, J. Szyda & M. Mielczarek
Styczeń 2018
5 003
126 842
13 009
Pierwszorzędowe (pierwotne): GenBank, PDB
• Surowe dane biologiczne, archiwa sekwencji lub dane
strukturalne wprowadzane do baz przez naukowców
Drugorzędowe (wtórne): SWISS-PROT, PIR
• Informacje przetworzone komputerowo, lub poprawione
ręcznie na podstawie oryginalnych informacji z
pierwszorzędowych baz danych
Specjalistyczne: FlyBase, baza danych HIV
• Specjalistyczne zagadnienia
BIOLOGICZNE BAZY DANYCH
Copyright ©2017, J. Szyda & M. Mielczarek
• Dane niekompletne (np. niekompletna adnotacja)
• Błędy:
- błędy technologii (np. sekwenatora),
zanieczyszczenia
- błędna adnotacja
• Rozprzestrzenianie błędów
• Wysoka redundacja informacji
(non-redundant RefSeq)
PUŁAPKI W BAZACH DANYCH
Copyright ©2017, J. Szyda & M. Mielczarek
BAZA DANYCH NCBI
1. NCBI
2. Dane gromadzone przez NCBI
3. Przegląd baz danych NCBI:
• Publikacje naukowe
• Projekty biologiczne
• OMIM: fenotypy człowieka
• Sekwencje DNA
• Geny
• Funkcje genów
• Polimorfizm pojedynczych nukleotydów
zawartość
metody
wyszukiwania
Copyright ©2017, J. Szyda & M. Mielczarek
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION
NCBI
1. Utworzone w 1988
2. Dziedziny nauki: biologia molekularna, biochemia,
genetyka
3. Zadania
• Przechowywanie → bazy danych
• Analiza danych → oprogramowanie
• Udostępnianie baz danych i oprogramowania do
badań naukowych
• Koordynacja gromadzenia danych na poziomie
międzynarodowym
Copyright ©2017, J. Szyda & M. Mielczarek
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION
www.ncbi.nlm.nih.gov/About/index.html
Copyright ©2017, J. Szyda & M. Mielczarek
DANE
NCBI
Bazy danych
• Zbiór zintegrowanych baz
danych
• Entrez
Literatura
• Artykuły naukowe (PubMed)
• Książki
• Grafika
• Podręczniki nt NCBI
Oprogramowanie
• Analiza sekwencji
• Manipulowanie danymi
• Analiza filogenetyczna
• ...
korzystanie wprowadzanie
Copyright ©2017, J. Szyda & M. Mielczarek
DANE
www.ncbi.nlm.nih.gov
danewprowadzanie
oprogramowanieliteratura
Copyright ©2017, J. Szyda & M. Mielczarek
PubMed - PUBLIKACJE NAUKOWE
1. Artykuły naukowe
2. Streszczenia + pełne teksty
3. Zapytania tematyczne np. clinical queries
4. Liczba czasopism:
1. 03.2016: 35 712
2. 03.2017: 46 217
3. 01.2018: 46 508
5. Od 1950 roku
www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed
PubMed - PUBLIKACJE NAUKOWE
WYSZUKIWANIE PROSTE - AUTOR
WYSZUKIWANIE PROSTE - FRAZA
1. Serch PubMed for genome: → 1 116 403
2. Serch PubMed for human genome: → 143 881
3. Serch PubMed for human genome chromosome 19: → 830
4. Serch PubMed for human genome HSA19 → 13
Copyright ©2017, J. Szyda & M. Mielczarek
PubMed - PUBLIKACJE NAUKOWE
WYSZUKIWANIE PRECYZYJNE – search builder
kryteria wyszukiwania
składnia zapytania
za
leżn
oś
ci lo
gic
zn
e
Copyright ©2017, J. Szyda & M. Mielczarek
wyszukiwanie precyzyjne
PubMed - PUBLIKACJE NAUKOWE
STRUKTURA REKORDU
da
ne
bib
lio
gra
fic
zn
e
au
torz
y
str
eszczen
ie
pe
łny t
ek
st
podobne publikacje
cytowania
Copyright ©2017, J. Szyda & M. Mielczarek
PubMed - PUBLIKACJE NAUKOWE
ZAPYTANIA MEDYCZNE - clinical queries
Copyright ©2017, J. Szyda & M. Mielczarek
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH
www.ncbi.nlm.nih.gov/bioproject
Copyright ©2017, J. Szyda & M. Mielczarek
lista projektów
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH
Nr projektuNazwa
gatunkuKod gatunku
Rodzaj
projektuCel projektu
Data
zakończenia
Copyright ©2017, J. Szyda & M. Mielczarek
PRZYKŁADY OGRANICZEŃ
1. Search for bovine: → 1 904 1 560
2. Search for "Bos taurus" [ORGN]: → 937 741
3. Search for "Bos taurus" [ORGN] AND "Genome
sequencing" [project data type]: → 43 37
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH
Copyright ©2017, J. Szyda & M. Mielczarek
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH
www.ncbi.nlm.nih.gov/bioproject/
Copyright ©2017, J. Szyda & M. Mielczarek
ważne projekty
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH
www.ncbi.nlm.nih.gov/bioproject
Copyright ©2017, J. Szyda & M. Mielczarek
dbGaP
dbGaP
1. Dane ogólnodostępne
• Ogólne informacje o próbach danych
• Fenotypy
• Wyniki analizy asocjacyjnej, studiów klinicznych
2. Dane o ograniczonym dostępie
• Wartości fenotypów poszczególnych osobników
• Struktura spokrewnienia osobników
• Dodatkowe wyniki
www.ncbi.nlm.nih.gov/sites/entrez?db=gap
Copyright ©2017, J. Szyda & M. Mielczarek
dbGaP- zbiory danych
Dostępne
informacje
Liczebność
próby danych
Struktura
danych
Copyright ©2017, J. Szyda & M. Mielczarek
Gene – INFORMACJE O GENACH
Gene
1. Liczba genów: 17 089 516
2. Pierwszy wpis
• 30.07.2003
• Tuatara
www.ncbi.nlm.nih.gov/sites/entrez?db=gene
Copyright ©2017, J. Szyda & M. Mielczarek
SNP & dbVar - POLIMORFIZMY GENETYCZNE
745 SNP
www.ncbi.nlm.nih.gov/sites/entrez?db=snp
www.ncbi.nlm.nih.gov/dbvar/content/org_summary
Copyright ©2017, J. Szyda & M. Mielczarek
Protein- INFORMACJE O BIAŁKACH
Protein
1. Sekwencje aminokwasów
2. Translacja DNA z genowych baz danych
3. Integracja informacji z różnych baz danych (poza NCBI)
• UniProt
• Protein Data Bank
www.ncbi.nlm.nih.gov/sites/entrez?db=protein
Copyright ©2017, J. Szyda & M. Mielczarek
OMIM - ONLINE MENDELIAN INHERITANCE IN MAN
OMIM
1. Informacje o fenotypach ludzkich
2. Baza założona w latach 1960-tych (od 1985 online)
3. Zawartość stan 03.2016 / 03.2017 / 01.2018
1. Wpisy do bazy danych:
22 296 / 23 958 / 24 401
2. Fenotypy o znanym podłożu genetycznym:
4 085 / 4 957 / 5 162
3. Fenotypy o nieznanym podłożu genetycznym:
1 708 / 1 789 / 1 591
www.ncbi.nlm.nih.gov/sites/entrez?db=omim
Copyright ©2017, J. Szyda & M. Mielczarek
WYSZUKIWANIE PROSTE
OMIM - ONLINE MENDELIAN INHERITANCE IN MAN
WYSZUKIWANIE SPECYFICZNE
Copyright ©2017, J. Szyda & M. Mielczarek
OMIA - ONLINE MENDELIAN INHERITANCE IN ANIMALS
OMIA informacje o fenotypach zwierząt z wyłączeniem
człowieka, myszy i szczura
http://omia.angis.org.au/home/
Copyright ©2017, J. Szyda & M. Mielczarek
Magda Mielczarek 58Podstawy bioinformatyki 2015
FORMATY DANYCH
Po co?
Przykłady:
• FASTA
• FASTQ
• GenBank
• Newick
• SAM
• VCF
• BED
• … i inne
http://software.broadinstitute.org/software/igv/home
Mielczarek and Szyda 2016
Copyright ©2017, J. Szyda & M. Mielczarek
• Prosty i popularny czytelny dla wielu programów
do analizy bioinformatycznej
• Zapis sekwencji kwasów nukleinowych oraz białek
>gi|52693750|dbj|AB175071.1| Neomys fodiens
mitochondrial cytb gene for cytochrome b, complete
cds
ATGACCAACTTTCGAAAAACCCATCCATTAATAAA
AATTCTTAACAACTCATTCATCGATCTCCCAGCCC
CATCAAACATTTCATCATGATGAAATTTCGGGTCC
CTTCTAGGATTGTGCCTAGTAATCCAGATCCTGA
CTGGCCTCTTTCTAGCAATACATTACACTTCAGAT
FASTA
Copyright ©2017, J. Szyda & M. Mielczarek
Identyfikator
sekwencjiopis
Symbol Description Bases represented
A Adenine A
1
C Cytosine C
G Guanine G
T Thymine T
U Uracil U
W Weak A T
2
S Strong C G
M aMino A C
K Keto G T
R puRine A G
Y pYrimidine C T
Bnot A (B comes after A)
C G T
3
D not C A G T
H not G A C T
V
not T (V comes after T and U)
A C G
NaNy base (not a gap)
A C G T 4 Copyright ©2017, J. Szyda & M. Mielczarek
aNy bases
Genom referencyjny Bos taurus (Zimin et al. 2009)
Copyright ©2017, J. Szyda & M. Mielczarek