the big data era

29
A.A. 2010-2011 CORSO DI BIOINFORMATICA per il CLT in Biotecnologie Sanitarie Università di Padova Docente: Dr. STEFANIA BORTOLUZZI

Upload: camdyn

Post on 05-Jan-2016

40 views

Category:

Documents


0 download

DESCRIPTION

A.A. 2010-2011 CORSO DI BIOINFORMATICA per il CLT in Biotecnologie Sanitarie Università di Padova Docente: Dr. STEFANIA BORTOLUZZI. Nature journal Issue of 4 September 2008. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: THE BIG DATA ERA

A.A. 2010-2011

CORSO DI BIOINFORMATICA

per il CLT in Biotecnologie SanitarieUniversità di Padova

Docente: Dr. STEFANIA BORTOLUZZI

Page 2: THE BIG DATA ERA

THE BIG DATA ERA

“Researchers need to be obliged to document and manage their data with as much professionalism as they devote to their experiments.”

Nature journalIssue of 4 September 2008

Importance of data:• Retrieval• Integration• Analysis

An at least basic knowledge of bioinformatic methods in unavoidable also for experimental researchers

Bioinformaticsfrom basic methods for managing biosequences to systems biology models

Page 3: THE BIG DATA ERA

DATABASES AND DATA RETRIEVALBiosequences and Gene-related info

Page 4: THE BIG DATA ERA

WORKING WITH BIOSEQUENCESAlignments and similarity search

Page 5: THE BIG DATA ERA

gene details

An

nota

tion

Tra

cks

officialsequence

comparisons

SNPs

NAVIGATING GENOMESBy Genome Browsers

Page 6: THE BIG DATA ERA

Introduction to more advanced bioinformatics

• Gene expression data analysis

Page 7: THE BIG DATA ERA

Svolgimento del corso e modalità d’esame

• Al II semestre del II anno.• Durata: 32 ore, comprendenti lezioni teoriche frontali ed esercitazioni al computer. • Valutazione finale: in base all’esito delle esercitazioni svolte in piccoli gruppi e di una verifica scritta individuale.

Page 8: THE BIG DATA ERA

WEB SITE DEDICATO AL CORSOhttp://compgen.bio.unipd.it/~stefania/Didattica/AA2010-

2011/

Page 9: THE BIG DATA ERA

I LEZIONE

• Database primari e Database secondari• Database di sequenze nucleotidiche e proteiche • GenBank, short seqs. archives• SWISSPROT, Uniprot

• ENTREZ Information retrieval system– Pubmed– Bookshelf

Page 10: THE BIG DATA ERA

INTRODUZIONE ALL’UTILIZZO DI DATABASE

Struttura e organizzazione di database

I database sono insiemi di dati memorizzati su un computer con diversi livelli di astrazione al di sopra di essi; ogni livello di astrazione consente di organizzare i dati contenuti e di accedervi. Database diversi organizzano i dati in modi differenti

• database Flat-File il tipo piu’ semplice di database

• database relazionali (Oracle, mySQl) permettono la composizione di interrogazioni o query che collegano piu' tabelle, stabilendo delle "relazioni" tra i contenuti delle singole tabelle.

• database Object Oriented, le informazioni sono gestite come "oggetti" con varie "proprietà", invece che records con campi.

Tutti i sistemi di database impiegano delle interfacce (API, Application Programming Interface) per accedere ai dati e modificarli

Page 11: THE BIG DATA ERA

INTRODUZIONE ALL’UTILIZZO DI DATABASE

Database flat-file

Il tipo piu' semplice di database e' il database flat-file, formato da files di testo ASCII in formato standard che il programa esamina per cercare informazioni.

Il formato e' di solito costituito da un insieme di campi, contenenti ciascuno una specifica categoria di informazioni, delimitati attraverso caratteri speciali o con lunghezza fissa assegnata.

Il pregio principale dei database flat-file e' la semplicita' di gestione, controbilanciata pero' dall’incapacita' di gestire accesso concorrente e dalla mancanza di indicizzazione dei dati, che non consentono interrogazioni sequenziali.

Page 12: THE BIG DATA ERA

LEVELS OF PROTEIN SEQUENCE AND STRUCTURAL ORGANISATION

PRIMARY sequence primary database

SECONDARY motif secondary database

TERTIARY domain module secondary database

DATABASE PRIMARI E DATABASE SECONDARIORGANIZZANO RISPETTIVAMENTE DATI ORIGINALI E CONOSCENZA GENERATA A PARTIRE DA ANALISI DI DATI O INTEGRAZIONE DI DATI DIVERSI

Page 13: THE BIG DATA ERA

Using a database

• How to get information out of a database:– Summaries: how many entries, average or extreme

values; rates of change, most recent entries, etc. – Browsing: getting a sense of the kind and quality of

information available, e.g. checking familiar records– Search: looking for specific, predefined information

• “Key” to searching a database:– Must identify the element(s) of the database that are of

interest somehow:• Gene name, symbol, location or other identifying information.• Sequences of genes, mRNAs, proteins, etc.• A crossreference from another database or database generated id.

Page 14: THE BIG DATA ERA

DATABASE PRIMARI

DATABASE DI SEQUENZE NUCLEOTIDICHE Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un codice che lo identifica univocamente (ACCESSION NUMBER).

Le tre principali banche dati primarie di sequenze nucleotidiche sono: EMBL nucleotide database, ora gestita dall’EBI (1980)

EMBL = European Molecular Biology Laboratory (Heidelberg) EBI = European Bioinformatics Institute (Hinxton, UK)

GenBank = banca dell NIH gestita dal NCBI (1982) NIH = National Institutes of Health (Stuttura USA) NCBI = National Center for Biotechnology Information, Bethesda, Maryland

DDBJ = banca DNA giapponese (1986) DDBJ = DNA DataBase of Japan

SCAMBIO DI DATI Nel 1988, i gruppi responsabili dei 3 database si sono organizzati nell’International Collaboration of DNA Sequence Databases per utilizzare un formato comune e scambiarsi giornalmente le sequenze.  

Page 15: THE BIG DATA ERA

SUBMISSION DIRETTA La gran parte delle sequenze finisce in uno dei tre database perché l’autore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, l’unico con il diritto di modificarlo. Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due.ANNOTAZIONE Ci sono poi anche degli “annotatori” che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database.

Problema della ridondanza

There are specialized, streamlined procedures for batch submissions of sequences, such as EST, STS, and HTG

sequences (High-throughput sequencing).

DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank

Page 16: THE BIG DATA ERA

DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBankNAR Database Issue

Year Base Pairs Sequences1998 2,008,761,784 2,837,8972008 99,116,431,942 98,868,465

Page 17: THE BIG DATA ERA

GenBank contiene diverse sezioni in passato divise per gruppi tassonomici e strategie di sequenziamento ora tre grandi sezioni : CoreNucleotide (the main collection), dbEST (Expressed Sequence Tags), and dbGSS (Genome Survey Sequences). dbEST database pubblico di "Expressed Sequence Tags" (sequenze espresse contrassegnate), contiene tutte le sequenze ottenute dal sequenziamento parziale o totale di cloni di cDNA, molto utili per:

• Identificare nuovi geni

• Studiare la struttura esoni/introni di geni

• Studiare l’espressione genica

Come e’ fatta un’entry di GenBank ?

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

Page 18: THE BIG DATA ERA
Page 19: THE BIG DATA ERA
Page 20: THE BIG DATA ERA

• Pyrosequencing o sequencing by syntesis: si basa sulla rilevazione del pirofosfato rilasciato dall’incorporazione di un nucleotide durante la sintesi del DNA, effettuata in nanoreattori in emulsione.

• Per ciascuna cella, la sequenza nucleotidica è determinata dai picchi del pirogramma, mentre il filamento di DNA complementare viene sintetizzato

• Accumulo ancora più rapido e massivo di moltissime sequenze brevi:

• short reads: 35 for Illumina and solid, 250-450 for Roche 454• Un singolo run puo’ produrre 1000000 di sequenze (reads) 450 Megabasi in 10 ore

• Servono nuovi database/repository di dati!

Nuove metodologie di sequenziamento di terza generazione

Page 21: THE BIG DATA ERA

Nuove metodologie di sequenziamento di terza generazione

• Nuovi database/repository di dati grezzi:

• NCBI SRA Short Reads Archive• ENA european nucleotide archive

• Assemblies disponibili in genbank• Struttura tipo di un’entry:

• metadati su study, sample ed experiment• dati, sequenze vere e proprie in formato [email protected] FHKWVLO02GHWT8 length=141TTTCTTTGACCACGTCTTGGTTTTGCACCAGAAGTCCACCAACTACACCTGTGTATTCTGCTTCCACTTCACTGGCCTCTTGAGCATCAAATGGTAAGGCAAGGATACGCAAGTTTTTCTTTTGTTGGTTCGAAAATAGGC+SRR007324.1 FHKWVLO02GHWT8 length=141AA??111AAAAAAAAAAAEBAAAAABBAAABAA????BAA???@?AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA@@@;:@...*1++......33229/..0

Page 22: THE BIG DATA ERA
Page 23: THE BIG DATA ERA

DATABASE PRIMARI DATABASE DI SEQUENZE PROTEICHE

SWISS-PROTDatabase di sequenze proteiche annotate, “scarsamente”

ridondanti e cross-referenced

Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti all’EMBL

TrEMBL contiene due sezioni:

SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC.

REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche, ...), senza AC.

TrEMBLnew, generato ogni settimana.

Page 24: THE BIG DATA ERA

DATABASE SECONDARI

UniProt (Universal Protein Resource)

Il piu’ grande catalogo di informazioni sulle proteine. Contiene informazioni sulla sequenza e sulla funzione di proteine ed e’ ottenuto dall’insieme delle informazioni contenute in Swiss-Prot, TrEMBL e PIR.

Page 25: THE BIG DATA ERA

UniProt http://www.uniprot.org/uniprot/UniProt Knowledgebase, due parti:

•Records annotati manualmente, informazioni dalla letteratura (UniProtKB/Swiss-Prot)•Records risultato di analisi computazionali, in attesa di annotazione completa (UniProtKB/TrEMBL).

Page 26: THE BIG DATA ERA

DATABASE SECONDARI

ENTREZ - Information retrieval system

• E' stato sviluppato all’NCBI (National Center for Biotechnology Information, USA) per permettere l'accesso a dati di biologia molecolare e citazioni bibliografiche.

• Sfrutta il concetto di “neighbouring”: possibilita' di collegare tra loro oggetti diversi di database differenti, indipendentemente dal fatto che essi siano direttamente “cross-referenced”.

• Tipicamente, ENTREZ permette l'accesso a database di sequenze nucleotidiche, di sequenze proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici (PubMed).

Page 27: THE BIG DATA ERA
Page 28: THE BIG DATA ERA

PubMed

Page 29: THE BIG DATA ERA

Bookshelf