bioinformatik: the next generation · next-generation-sequencing: das comeback der sequenzierung...

32
Bioinformatik: The Next Generation Prof. Dr. Caroline Friedel Lehr- und Forschungseinheit Bioinformatik

Upload: others

Post on 19-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Bioinformatik: The Next Generation

Prof. Dr. Caroline Friedel Lehr- und Forschungseinheit Bioinformatik

Page 2: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Was ist Bioinformatik?

Informatik → Methoden: •  Algorithmen •  Theoretische Informatik •  Datenbanken •  Softwareentwicklung

Theoretische und Praktische Informatik Statistik, Mathematik

Molekularbiologie, Biochemie, Genetik, Evolutionsbiologie, …

„Die Bioinformatik ist eine interdisziplinäre Wissenschaft, die Probleme aus den Lebenswissenschaften mit theoretischen computergestützten Methoden löst“

Wikipedia

Biologie → Anwendungen: •  Genomsequenzierung •  Genexpressionsanalyse •  Biologische Netzwerke •  … Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 2

Page 3: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Der Klassiker: Sequenzsuche

CATTATCTGTTTTTGCTATTAATGTCATACCTGCTATTCAGACAAATCAATTTGCTCTCTTAATAAAGGATGAGCTTCCTGTAGCTTTTTGTAGCTGGGCCAGTTTAGATCTGGAATGTGAGGTAAAATATATAAATGAT

•  BLAST = Basic Local Alignment Search Tool

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 3

Page 4: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Der Anfang der Bioinformatik

•  Erste Anwendungen: –  Gen- und Proteindatenbanken, Proteinstrukturen, etc. –  Sequenzanalyse und -vergleiche

•  Der Durchbruch: –  Genomsequenzierung –  Shotgun sequencing –  Assemblierung notwendig –  Menschliches Genom (Celera)

•  > 27 Mio Reads (~550 bp) •  > 20.000 CPU Stunden •  300 Mio $

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 4

Page 5: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Was noch?

•  Gen-Vorhersage und Annotation

•  Analyse der Genom-Struktur und Evolution

•  Proteinfunktion: Vorhersage und Analyse

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 5

Page 6: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

15./16. Februar 2001: Die ersten Drafts

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 6

Page 7: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

The Sequence of the Human Genome J. Craig Venter et al.

•  Abstract •  1 Sources of DNA and Sequencing Methods •  1.1 Library construction and sequencing •  1.2 Trace processing •  1.3 Quality assessment and control •  2 Genome Assembly Strategy and Characterization •  2.1 Assembly data sets •  2.2 Assembly strategies •  2.3 Whole-genome assembly •  2.4 Compartmentalized shotgun assembly •  2.5 Comparison of the WGA and CSA scaffolds •  2.6 Mapping scaffolds to the genome •  2.7 Assembly and validation analysis •  3 Gene Prediction and Annotation •  3.1 Automated gene annotation •  3.2 Otto validation •  3.3 Gene number •  3.4 Features of human gene transcripts •  4 Genome Structure •  4.1 Cytogenetic maps •  4.2 Linkage map •  4.3 Correlation between CpG islands and genes •  4.4 Genome-wide repetitive elements

•  5 Genome Evolution •  5.1 Retrotransposition in the human genome •  5.2 Pseudogenes •  5.3 Gene duplication in the human genome •  5.4 Large-scale duplications •  6 A Genome-Wide Examination of Sequence

Variations •  6.1 SNPs found by aligning the Celera consensus

to the PFP assembly •  6.2 Comparisons to public SNP databases •  6.3 Estimation of nucleotide diversity from

ascertained SNPs •  6.4 Variation in nucleotide diversity across the

human genome •  6.5 SNPs by genomic class •  7 An Overview of the Predicted Protein-Coding

Genes in the Human Genome •  7.1 Molecular functions of predicted human proteins •  7.2 Evolutionary conservation of core processes •  7.3 Differences between the human genome and

other sequenced eukaryotic genomes •  8 Conclusions

7 Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU

Page 8: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Nach dem Genom

•  Ursprüngliche Hoffnung: Genomsequenz verbessert Verständnis von –  Menschlicher Evolution –  Ursachen von Krankheiten –  Wechselspiel zwischen Umwelt und Vererbung

•  Stattdessen eher nur mehr Fragen –  Viel weniger Gene als erwartet: ~20,000 anstatt > 100,000 –  96-99% Ähnlichkeit zwischen Mensch und Schimpanse. Woher

kommt der Unterschied ? –  Nur wenige Krankheiten durch einzelne Mutationen und Gene

verursacht

•  Komplexität durch Interaktion zwischen Genom und Umwelt

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 8

Page 9: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Nach dem Genom

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 9

Page 10: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Nach dem Genom – Die Ära der Omics

•  Omics = Genomweite Studien •  Genomics = Alles was es im Genom gibt •  Transcriptomics = Alle Transkripte / mRNA •  Proteomics = Alle Proteine •  Interactomics = Alle Interaktionen •  Metabolomics = Alle Metabolite •  Kinomics = Alle Kinasen •  …

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 10

Page 11: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Next-Generation-Sequencing: Das Comeback der Sequenzierung

•  Schnell und einfach zu bedienen •  Hoher Durchsatz •  ⇒Sequenzieren wird immer billiger

11 Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU

Page 12: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Next-Generation-Sequencing: Das Comeback der Sequenzierung

12 Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU

Page 13: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Genome über Genome

•  Eukaryoten: 1842 (2015) •  Prokaryoten: 30684 (2015) •  Viren: 4465 (2015)

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 13

Page 14: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Genome über Genome

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 14

2504

Page 15: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

•  Nicht mehr nur Genom-Sequenzierung sondern auch –  RNA-Sequenzierung (RNA-seq) –  ChIP-seq –  DNase-seq –  Ribsome profiling (Ribo-seq) –  ATAC-seq –  NET-seq – …

Next-Generation-Sequencing: Das Comeback der Sequenzierung

15 Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU

Page 16: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Beispiel-Fragestellung: RNA Sequenzierung (RNA-seq)

Eingabe: Kurze Sequenzier-Reads

Alignment gegen das Genom

Welche mRNAs gibt es?

Wie häufig sind sie?

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 16

Page 17: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

ENCODE

•  The ENCODE Project: ENCyclopedia Of DNA Elements

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 17

Page 18: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

ENCODE

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 18

Page 19: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Big Data

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 19

Datenmenge pro Run Dauer

•  1,600 Arten von Experimenten •  147 Gewebearten •  >15 Terabyte Rohdaten •  >300 Computerjahre für die Analyse

Page 20: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Ohne Bioinformatik geht in der (experimentellen) Biologie nichts mehr

Next-Generation-Sequencing: Das Comeback der Bioinformatik

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 20

Page 21: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Wofür braucht man Bioinformatik ?

•  Datenverwaltung –  Speichern –  Indizieren –  Integration

•  Datenverarbeitung –  z.B. Assemblierung –  Read-Mapping –  Normalisierung

•  Analyse und Interpretation

Datenbanken

Software / Webserver

Biologische Erkenntnisse

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 21

Page 22: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Ziel: Von Daten zur Systembiologie

•  Möglichst vollständige Beschreibung eines biologischen Systems

Detailgrad

Größe des Systems

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 22

Page 23: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Arbeitsfeld

Datenbanken

Biologie Informatik

Anwendung: Verwendung existierender Methoden

Entwicklung neuer Methoden

Software-entwicklung

Experimentelle Arbeit mit bioinformatischer Unterstützung

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 23

Page 24: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Jobaussichten

•  Wissenschaft

•  Biotechnologie-Unternehmen: –  Illumina, Applied Biosystems, Affymetrix, Eurofins, etc.

•  Pharmazeutische Forschung: –  Boehringer-Ingelheim, Bayer Schering, Roche, etc.

•  Softwareentwicklung –  Genomatix, Biomax, etc.

•  Unternehmensberatung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 24

Page 25: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Studienplan Bioinformatik Bachelor

Informatik Mathematik,Statistik

Bioinformatik Biologie, (Bio)chemie

1 Program-mierung

Analysis Einführung in die Bioinformatik I

Chemie Biologie

2 Algorithmik Bioinformatik Tutorium

Logik & Diskrete Strukturen

Einführung in die Bioinformatik II Problem-Based Learning

Biologie Biochemie Grundlagen

3 Datenbanken Lineare Algebra

Problem-Based Learning Programmierpraktikum

Biochemie Grundlagen

4 Formale Sprachen & Komplexität

Stochastik & Statistik

Algorithm. Bioinformatik I Fortgeschr. Biochemie

5 Algorithm. Bioinformatik II Praktikum

Praktikum

6 Wahlpflichtveranstaltungen

Weiterf. Bioinfo., Prakt. Arbeit, Bachelorarbeit 25

Page 26: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Zulassung

•  Eignungsfeststellungsverfahren (EFV) •  Bewerbung bis zum 15. Juli

–  Ausgefüllter Bewerbungsbogen (online) –  kurzer tabellarischer Lebenslauf –  Kopie des Abiturzeugnisses –  Kurzaufsatz, warum man Bioinformatik studieren will

•  Auswertung –  Abiturnote –  Besonders Fächer: Mathematik, Biologie, Informatik, Chemie,

Physik, Deutsch, Englisch ⇒ Annahme oder Auswahlgespräch

•  Auswahlgespräch –  Bewertung: Abiturnote und Ergebnis des Auswahlgesprächs

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 26

Page 27: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Annahmequoten

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 27

0 20 40 60 80

100 120 140 160 180 20

00

2001

20

02

2003

20

04

2005

20

06

2007

20

08

2009

20

10

2011

20

12

2013

20

14

2015

20

16

2017

Beworben Angenommen

Page 28: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Professoren

N.N.

Lehrstühle

N.N.

Rost

Mewes

Zimmer

Friedel Frishman Heun

Antes Metzler Theis

Gagneur

Professoren für

Bioinformatik

Assoziierte Gruppen

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 28

Baumbach

Page 29: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Standorte

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 29

Page 30: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Standorte

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 30

Page 31: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Studierende

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 31

0

50

100

150

200

250

300 20

00

2001

20

02

2003

20

04

2005

20

06

2007

20

08

2009

20

10

2011

20

12

2013

20

14

2015

20

16

2017

Master Bachelor Diplom

Page 32: Bioinformatik: The Next Generation · Next-Generation-Sequencing: Das Comeback der Sequenzierung Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 15 . Beispiel-Fragestellung:

Weitere Informationen

•  Web-Seite zum gemeinsamen Studiengang: –  www.bioinformatik-muenchen.de/

•  Web-Seite zum EFV mit Formularen: –  https://www.bio.ifi.lmu.de/studium/studiengaenge_bioinformatik/

•  Fachschaft Bioinformatik: –  www.bioinformatik-muenchen.com/

•  Informationsstand: HS A 120

Noch Fragen ?

Prof. Dr. Caroline Friedel, Tag der offenen Tür der LMU 32