methoden der bioinformatik - bioinfo.ipmb.uni-heidelberg.de · methoden der bioinformatik...
TRANSCRIPT
Methoden der BioinformatikEinführung in Bash und Python
Carl HerrmannIPMB Universität Heidelbergeilslabs – B080 – [email protected]
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
1922Leonard Thompson14 Jahre Typ 1 Diabetes
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
1922
Pankreasextrakte
Leonard Thompson14 Jahre Typ 1 Diabetes
Dr. Frederick Banting
520 mg/dl↓
120 mg/dl
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Welches Insulin sollte man dieser Patiente injizieren ?
1922
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Welches Insulin sollte man dieser Patiente injizieren ?
1951
1960
19681966 1967
FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCN
FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCTSICSLYQLENYCN
FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASVCSLYQLEHYCN
FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCTSICSLYQLENYCN
FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASVCSLYQLENYCN
1968
VPTQRLCGSHLVDALYFVCGERGFFYSPKPIRELEPLLGIVEQCCHNTCSLANLEGYCN
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCNFVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCTSICSLYQLENYCN
FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCNFVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCTSICSLYQLENYCN
FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCNFVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASVCSLYQLENYCN
FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCNFVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASVCSLYQLEHYCN
FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTSICSLYQLENYCNVPTQRLCGSHLVDALYFVCGERGFFYSPKPIRELEPLLGIVEQCCHNTCSLANLEGYCN
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Werden Aminosäuren zufällig ausgetauscht ?
Warum haben einige Sequenzen mehr Veränderungen ?
Warum haben einige Teile der Proteine keine Mutationen ?
Verändern diese Mutationen die Funktion ?
Fragen ...
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
>sp|Q8WWZ7|ABCA5_HUMAN ATP-binding cassette sub-family A memberMSTAIREVGVWRQTRTLLLKNYLIKCRTKKSSVQEILFPLFFLFWLILISMMHPNKKYEEVPNIELNPMDKFTLSNLILGYTPVTNITSSIMQKVSTDHLPDVIITEEYTNEKEMLTSSLSKPSNFVGVVFKDSMSYELRFFPDMIPVSSIYMDSRAGCSKSCEAAQYWSSGFTVLQASIDAAIIQLKTNVSLWKELESTKAVIMGETAVVEIDTFPRGVILIYLVIAFSPFGYFLAIHIVAEKEKKIKEFLKIMGLHDTAFWLSWVLLYTSLIFLMSLLMAVIATASLLFPQSSSIVIFLLFFLYGLSSVFFALMLTPLFKKSKHVGIVEFFVTVAFGFIGLMIILIESFPKSLVWLFSPFCHCTFVIGIAQVMHLEDFNEGASFSNLTAGPYPLIITIIMLTLNSIFYVLLAVYLDQVIPGEFGLRRSSLYFLKPSYWSKSKRNYEELSEGNVNGNISFSEIIEPVSSEFVGKEAIRISGIQKTYRKKGENVEALRNLSFDIYEGQITALLGHSGTGKSTLMNILCGLCPPSDGFASIYGHRVSEIDEMFEARKMIGICPQLDIHFDVLTVEENLSILASIKGIPANNIIQEVQKVLLDLDMQTIKDNQAKKLSGGQKRKLSLGIAVLGNPKILLLDEPTAGMDPCSRHIVWNLLKYRKANRVTVFSTHFMDEADILADRKAVISQGMLKCVGSSMFLKSKWGIGYRLSMYIDKYCATESLSSLVKQHIPGATLLQQNDQQLVYSLPFKDMDKFSGLFSALDSHSNLGVISYGVSMTTLEDVFLKLEVEAEIDQADYSVFTQQPLEEEMDSKSFDEMEQSLLILSETKAALVSTMSLWKQQMYTIAKFHFFTLKRESKSVRSVLLLLLIFFTVQIFMFLVHHSFKNAVVPIKLVPDLYFLKPGDKPHKYKTSLLLQNSADSDISDLISFFTSQNIMVTMINDSDYVSVAPHSAALNVMHSEKDYVFAAVFNSTMVYSLPILVNIISNYYLYHLNVTETIQIWSTPFFQEITDIVFKIELYFQAALLGIIVTAMPPYFAMENAENHKIKAYTQLKLSGLLPSAYWIGQAVVDIPLFFIILILMLGSLLAFHYGLYFYTVKFLAVVFCLIGYVPSVILFTYIASFTFKKILNTKEFWSFIYSVAALACIAITEITFFMGYTIATILHYAFCIIIPIYPLLGCLISFIKISWKNVRKNVDTYNPWDRLSVAVISPYLQCVLWIFLLQYYEKKYGGRSIRKDPFFRNLSTKSKNRKLPEPPDNEDEDEDVKAERLKVKELMGCQCCEEKPSIMVSNLHKEYDDKKDFLLSRKVKKVATKYISFCVKKGEILGLLGPNGAGKSTIINILVGDIEPTSGQVFLGDYSSETSEDDDSLKCMGYCPQINPLWPDTTLQEHFEIYGAVKGMSASDMKEVISRITHALDLKEHLQKTVKKLPAGIKRKLCFALSMLGNPQITLLDEPSTGMDPKAKQHMWRAIRTAFKNRKRAAILTTHYMEEAEAVCDRVAIMVSGQLRCIGTVQHLKSKFGKGYFLEIKLKDWIENLEVDRLQREIQYIFPNASRQESFSSILAYKIPKEDVQSLSQSFFKLEEAKHAFAIEEYSFSQATLEQVFVELTKEQEEEDNSCGTLNSTLWWERTQEDRVVF
>sp|Q8K448|ABCA5_MOUSE ATP-binding cassette sub-family A member 5MATAIRDVGVWRQTRTLLLKNYLIKCRTKKSSVQEILFPLFFLFWLILVSMMHPNKKYEEVSDIELSPMDKFSLSNVILGYTPVTNITSSIMQRVSTDHLPKVIVTEEYANEKELVAASLSKSSNFVGVVFKDTMSYELRFFPEMIPVSSIYMNSREGCSKTCDAAQYWSLGFTVLQASIDAAIIQLKTNVSVWSELESTKAVIMGEAAVVEIDTFPRGVILIYLVIAFSPFGYFLAIHIVAEKEKKLKEFLKIMGLHDTAFWLSWVLLYASLIFLMSLLMAVIATASSLFPQSSSIVIFLLFFLYGLSSVFFALMLTPLFKKSKHVGVVEFFVTVVFGFVGLLIVLIESFPRSLVWLFSPLCQCAFLIGIAQVMHLEDFNEGALFSNLTEGPYPLIITIIMLALDSVFYVLLAVYLDQVIPGEFGLRRSSLYFLKPSYWSKNKRNYKELSEGNINGNISLNEIVEPVSSEFIGKEAIRISGIQKSYRKKTENVEALRNLSFDIYEGQITALLGHSGTGKSTLMNILCGLCPPSDGFASIYGHRVSEIDEMFEARKMIGICPQSDINFDVLTVEENLSILASIKGIPANNIIQEVQKVLLDLDMQAIKDNQAKKLSGGQKRKLSVGIAVLGNPKILLLDEPTAGMDPCSRHIVWNLLKYRKANRVTVFSTHFMDEADILADRKAVISQGMLKCVGSSIFLKSKWGIGYRLSMYIDRYCATESLSSLVRQHIPAAALLQQNDQQLVYSLPFKDMDKFSGLFSALDIHSNLGVISYGVSMTTLEDVFLKLEVEAEIDQADYSVFTQQPREEETDSKSFDEMEQSLLILSETKASSVSTMSLWKQQVSTIAKFHFLSLKRESKSVRAVLLLLLIFFAVQIFMFFLHHSFKNAVVPIKLVPDLYFLKPGDKPHKYKTSLLLQNSTDSDINGLIEFFAHQNIMVAMFNDSDYVSAAPHSAALNVVRSEKDYVFSAVFNSTMVYCLPVMMNIISNYYLYHLNVTEAIQTWSTPFIQEITDIVFKIELYFQAALLGIIVTAMPPYFAMENAENHKIKAYTQLKLSGLLPSAYWVGQAVVDIPLFFVVLILMLGSLFAFHHGLYFYPAKFLAVVFCLIAYVPSVILFTYIASFTFKKILNTKEFWSFIYSVTALACVAITETTFFLQYAVTAVFHYTFCIAIPIYPLLGCLISFIKGSWKNMPKNENTYNPWDRLLVAVIMPYLQCILWIFLLQHYEKIHGGRSIRKDPFFRALSQKAKNKKFPEPPINEDEDEDVKAERLKVKELMGCQCCEEKPAIMVCNLHKEYDDKKDFLHSRKTTKVATKYISFCVKKGEILGLLGPNGAGKSTVINTLVGDVEPTSGKIFLGDYGSHSSEDDESIKCMGYCPQTNPLWPDLTLQEHFEIYGAVKGMSPGDMKEVISRITKALDLKEHLQKTVKKLPAGIKRKLCFALSMLGNPQVTLLDEPSTGMDPRAKQHMWRAIRTAFKNKKRAALLTTHYMEEAEAVCDRVAIMVSGQLRCIGTVQHLKSKFGKGYFLEIKLKDWIENLEIDRLQREIQYIFPNASRQESFSSILAFKIPKEDVQSLSQSFAKLEEAKRTFAIEEYSFSQATLEQVFVELTKEQEEEDNSCGTLASTLWWERTQEDRVVF
Wir brauchen andere Werkzeuge als unsere Augenund unser Gehirn ...
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Biologiematik
Computational Biology
Systembiologie
in-silico Biologie
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Am Anfang waren Proteinmodelle ...
Al
Al
Al
Al
Al Al
Arg
Arg
Arg Arg
Arg
ThrThr
Thr
ThrThr
Thr
Thr « Suppe » von Aminosäuren ?Thr
Thr
Arg
Al
Thr
GemeinsameStruktur
Gemeinsame Struktur +Mikroheterogeneität ?
GemeinsameStruktur
Gemeinsame Struktur, aber welche ?
Fred Sanger, erste Sequenzierung des Insulinproteins1951/1952
Proteine habe eine einzigartige lineare Struktur
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Am Anfang waren Proteinmodelle ...Darstellung einer linearen Sequenz
Biomusik
Noten
Text
Bioliteratur
>sp|P42858|HD_HUMAN Huntingtin MATLEKLMKAFESLKSFQQQQQQQQQQQQQQQQQQQQQPPPPPPPPPPPQLPQPPPQAQPLLPQPQPPPPPPPPPPGPAVAEEPLHRPKKELSATKKDRVNHCLTICENIVAQSVRNSPEFQKLLGIAMELFLLCSDDAESDVRMVADECLNKVIKALMDSNLPRLQLELYKEIKKNGAPRSLRAALWRFAELAHLVRPQKCRPYLVNLLPCLTRTSKRPEESVQETLAAAVPKIMASFGNFANDNEIKVLLKAFIANLKSSSPTIRRTAAGSAVSICQHSRRTQYFYSWLLNVLLGLLVPVEDEHSTLLILGVLLTLRYLVPLLQQQVKDTSLKGSFGVTRKEMEVSPSAEQLVQVYELTLHHTQHQDHNVVTGALELLQQLFRTPPPELLQTLTAVGGIGQLTAAKEESGGRSRSGSIVELIAGGGSSCSPVLSRKQKGKVLLGEEEALEDDSESRSDVSSSALTASVKDEISGELAASSGVSTPGSAGHDIITEQPRSQHTLQADSVDLASCDLTSSATDGDEEDILSHSSSQVSAVPSDPAMDLNDGTQASSPISDSSQTTTEGPDSAVTPSDSSEIVLDGTDNQYLGLQIGQPQDEDEEATGILPDEASEAFRNSSMALQQAHLLKNMSHCRQPSDSSVDKFVLRDEATEPGDQENKPCRIKGDIGQSTDDDSAPLVHCVRLLSASFLLTGGKNVLVPDRDVRVSVKALALSCVGAAVALHPESFFSKLYKVPLDTTEYPEEQYVSDILNYIDHGDPQVRGATAILCGTLICSIL
[Takahashi & Miller, Genome Biology 2007]
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Proteinsequenzen entschlüsseln ...
MTQFDKQYNSIIKDIINNGISDEEFDVRTKWDSDGTPAHTLSVISKQMRFDNSEVPILTTKKVAWKTAIKELLWIWQLKSNDVNDLNMMGVHIWDQWKQEDGTIGHAYGFQLGKKNRSLNGEKVDQVDYLLHQLKNNPSSRRHITMLWNPDELDAMALTPCVYETQWYVKHGKLHLEVRARSNDMALGNPFNVFQYNVLQRMIAQVTGYELGEYIFNIGDCHVYTRHIDNLKIQMEREQFEAPELWINPEVKDFYDFTIDDFKLINYKHGDKLLFEVAV
VNNBM SSDII XZOWR TIEHI FQKNN WKCSS DGLHG GXEMJ IWKBA YZGWJ QTAHK AUSVR SCJTR OQ
Mignonne allons voir si la roseQui ce matin avait écloseSa robe pourpre au soleil Ursprung ? Funktion ? Struktur ?
Enigma
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
DNA-Sequenzen entschlüsseln
accg
attg
cgga
tc
tcggagcttagg
accgattgcggatc
accgattgcggatc
aaagggatcggat
accgattgcggatc
aattcggatcgg
ggattcgatcggattccggattaggcaaatc
ttattaggcataggattcgatcggatt
accgattgcggatc
agctaggacggatcgggaggattcggaggatcaggat
Stellt euch ein Puzzle mit6.000.000.000 Teilen vor ...
Wo auf dem Genom alignierendie Fragmente ?
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Die genomische Neuzeit
● 10 Machinen● 1.8 Terabasen in 3 Tagen● 18,000 Genome / Jahr● ”Factory-scale sequencing
technology”● Das Genom für 1000 $ ...
Illumina X-ten
3600000 kmlanger Text wenn in
Arial 12 geschrieben...
NGS = next-generation sequencing
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Die genomische Neuzeit ...
LogarithmischeSkala ...
Kosten sinkenMenge an Sequenzen nimmt zu ...
Human GenomeProject - 10 Jahre~ $3 Milliarden
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Die genomische Neuzeit ...
Nature Reviews Genetics 11, 685-696
Wo treten Mutationen auf ?Wo gibt es genomische Bruchpunkte ?Welche chromosomalen Veränderungen gibt es ?
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Big Data ...● 12 Tbytes pro Tag
● 10 Tbytes pro Tag
● Heidelberg DAC:5-10 Tbytes pro Tag
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
SequenzanalyseAlgorithmen um Sequenzen
zu entschlüsseln(Alignments ,
Multiple alignments,...)
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Daten ManagementWie kann man diese Information speichern / strukturieren ?
1965: 65 Proteinsequenzen
Diese Information muss numerisch erfasst werden → Datenbanken ; effiziente Formate
Margaret Dayhof2015: SwissProt
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Formate für biologische Sequenzen
>gi|56405477|gb|AY826204.1| Giardia intestinalis isolate NLH20 18S ribosomal RNA gene, partial sequenceTTCCGGTCGATCCTGCCGGAGCGCGACGCTCTCCCCAAGGACGAAGCCATGCATGCCCGCTCACCCGGGACGCGGCGGACGGCTCAGGACAACGGTTGCACCCCCCGCGGCGGTCCCTGCTAGCCGGACACCGCTGGCAACCCGGCGCCAAGACGTGCGCGCAAGGGCGGGCGCCCGCGGGCGAGCAGCGTGACGCAGCGACGGCCCGCCCGGGCTTCCGGGGCATCACCCGGTCGGCGCGGTCGCGGCGCGCCGAGGGCCCGACGCCTGGCGGAGAATCAGGGTTCGACTCCGGAGAGCAG
Beschreibungszeile, die mit « > » anfängt
Sequenz, auf mehreren Zeilen gebrochen
das Standardformat : FASTA
Dieses Format wird immer noch von den meisten Programmen(z.B. BLAST) erkannt und benutztFür hochdurchsatz Daten gibt es mitlerweile andere, effizientereFormate
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
@SRR540192.1580 IL34_5480:5:1:6425:1038/1CATCTTGGCCTCTGTGCAGCATTCCTTTCTCCATGGT+IIIIIIHIIIIIIHIIIIIIIIIIIIIIIHIIHIHID@SRR540192.1752 IL34_5480:5:1:7005:1052/1GCTCCCAGAAACCCAGGGCCACTGGCAGCTTCAGGGA+GGGGGGGBG@GGGGB@>D<GGGF@<?<?9??;(?:2(@SRR540192.1788 IL34_5480:5:1:10167:1053/1ATGGGCTTCCTCCGGCTTTCAGCCACCTGCGCCCTGC+GG@G>G@E3<B=B;B<E>EDEAAAB:B.:=>A?;[email protected] IL34_5480:5:1:5889:1093/1TGATCATCTGGCTGATGCGGTGACTGCCACCCTTGAG+IIGIIIIIIIIIIIIIDIIIGIIIHGHHHIIIIHIHD
Formate für NGS Daten
Beschreibungszeile, die mit « @ » anfängtKode der Maschine, auf der sequenziert wurde
« Read »FASTQ für rohe Daten «Qualität»
siGATA.6755134 16 chr1 16228 40 26M * 0 0 TCTCAGTCGCACACACGAGCCAGCAG BB:DEBD5BD@FFFDGFFGFGGGGGG AS:i:4 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:7T18 YT:Z:UUsiGATA.17439299 16 chr1 17478 42 26M * 0 0 CGAGCCGAGCCACCCGTCACCCCCTG BDBD?=FEFDFBEEDEECAFFDFGEG AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:26 YT:Z:UUsiGATA.11320345 0 chr1 87691 24 26M * 0 0 CTCTGCAAATCGCAATGCTTTGCATG GGGGGGGGGFGGGGGGGGGGGGGGGG AS:i:5 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:20G5 YT:Z:UU
BAM/SAM für alignierte reads
Read Nummer
Flag : ist das read korrekt aligniert ?
auf welchemChromosom
an welcherPosition
wie gut istdas Alignment ?
Gibt esmismatches ?
« Read » «Qualität»
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Daten visualisieren...
Genome Browser (IGV, UCSC Genome Browser)
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Daten visualisieren...
[Kim et al., PLOS One (2013)]
Circos Plots Daten→
Integration
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
BioinformatikEN
Daten ManagementSpeichern / Strukturieren / Verbreiten(Datenbanken, Informationsextraktion
Visualisierung)
SequenzanalyseAlgorithmen um Sequenzen
zu entschlüsseln(Alignments ,
Multiple alignments,...)
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Automatische Analyse von biomedizinischen Bildern
« Partikel tracking »
Segmentierung von Zellkernen
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Image Registration
[Wang & Chen, Scientific Reports 2014]
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
BioinformatikEN
Daten ManagementSpeichern / Strukturieren / Verbreiten(Datenbanken, Informationsextraktion
Visualisierung)
SequenzanalyseAlgorithmen um Sequenzen
zu entschlüsseln(Alignments ,
Multiple alignments,...)
BildverarbeitungExperimentelle Daten
erfassen / bearbeiten / filtern(Bildverarbeitung, ...)
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Sag mir, wer Deine Freunde sind
eigentlich weiss ich es schon ...
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
… und ich sage Dir ...
● … für wen du wählst● … ob Du eine geeignete Zielperson für RedBull
bist● … was Deine musikalischen Vorlieben sind
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Karte der Facebook Freundschaften von ProteinenInteraktionen
● … Funktion● … Gewebe Spezifizität● … Rolle in Krankheitsbildung
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Genregulation
EpigenetischeVeränderungen
TranskriptionsfaktorBindestellen
Gen-Expression
Zielgen
Tae-Kyung Kim et al. Nature (2010)
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Regulatorische Netzwerke
Oh, Min; Ahn, Jaegyoon; Yoon, Youngmi (2014)
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
BioinformatikEN
Daten ManagementSpeichern / Strukturieren / Verbreiten(Datenbanken, Informationsextraktion
Visualisierung)
SequenzanalyseAlgorithmen um Sequenzen
zu entschlüsseln(Alignments ,
Multiple alignments,...)
BildverarbeitungExperimentelle Daten
erfassen / bearbeiten / filtern(Bildverarbeitung, ...)
SystembiologieDarstellung integrierterbiologischer Prozesse ;
Netzwerkanalysen
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
BioinformatikEN
Daten ManagementSpeichern / Strukturieren / Verbreiten(Datenbanken, Informationsextraktion
Visualisierung)
SequenzanalyseAlgorithmen um Sequenzen
zu entschlüsseln(Alignments ,
Multiple alignments,...)
BildverarbeitungExperimentelle Daten
erfassen / bearbeiten / filtern(Bildverarbeitung, ...)
SystembiologieDarstellung integrierterbiologischer Prozesse ;
Netzwerkanalysen
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Einführung in Linux/ bash & Python
Bioinformatik @ MoBi... … eine lange Geschichte
BildverarbeitungTeil 1
SequenzanalyseTeil 13. FS
Einführung in die Biostatistik
4. FS
Bioinformatikder Genregulation
Python PraktikumBildverarbeitungTeil 2 SequenzanalyseAnalyse von NGS Daten
5. FS
Roland Eils Matthias Schlesner Karl Rohr Carl Herrmann
6. FS BildverarbeitungTeil 3
Anwendung : Machinenlernenund Genomik
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Teil 1 : Einführung in Bash / Python
Datum Thema Veranstaltung Ort Zeit
Do. 15/10 Einführung VL BQ 10-12
Fr. 16/10 Bash Üb. IPMB 10-11.30/11.30-13
Do. 22/10 Bash (cont.) Üb. IPMB 10-11 / 11-12
Fr. 23/10 Awk Üb. IPMB 10-11.30/11.30-13
Do. 29/10 Einf. Python VL BQ 10-12
Fr. 30/10 Python Üb. IPMB 10-11.30/11.30-13
Do. 5/11 Python Üb. IPMB 10-11 / 11-12
Fr. 6/11 Python Üb. IPMB 10-11.30/11.30-13
Do. 12/11 What else ? VL BQ 10-12
Fr. 13/11 Git Üb. IPMB 10-11.30/11.30-13
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Bioinformatik ist sehr vielseitig ….
… aber hat immer mit Komputern zu tun !
Wir müssen lernen, mit Komputernzu kommunizieren !
Programmieren→
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Kluge Investition ...Er
trag
gebrauchte Zeit
per Hand / Excel
Computer
Lernphase ...
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Programmiersprachen
s'il te plait...!per favore ! s'il te plait...!
pliz !
● um dem Computer Befehle erteilen, wir müssen seine Sprache(n) sprechen
● viele unterschiedliche Programmiersprachen(C, C++, R , Perl, Java, Python, …)
● man kann im Prinzip jede Sprache benutzen…● … aber einige Sprachen sind besser für bestimmte Anwendungen
(rechenintensive Aufgaben, Text Verarbeitung,...)
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Zwei wichtige Kategorienman unterscheidet zwischen interpretierten Sprachen (a.k.a
Skripte) und kompilierten Sprachen
Beispiel : ein baskischer Sprecher möchte bei einer Konferenz einen Vortrag halten (auf Baskisch…); 2 Möglichkeiten
1)ihn bitten, seinen Text im voraus zu schicken, um ihn zu übersetzen und zu verteilenVorteil : die Konferenz wird flüssiger; man hat eine Kontrolle über den InhaltNachteil : eine Etappe mehr
2)einen Dolmetscher einstellen, der direkt übersetztVorteil : eine Etappe wenigerNachteil : langsamer
Kom
pilie
rung
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
for (i=0;i<N;i++)
{ printf(« Resultat : %f\n »,result[i]); }
Code (ex. C)
Compiler
00001101010100101010101000101110001101010011010110100101010100010101010010010101010100101001010101010010100101010010010100101111101010010101010010101010011001001010010100100101010100101001
Fehler bei der Kompilierung
Fehler beim Ausführen
Ergebnis
Machinensprache
Kompilierung
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
for ($i=0;$i<$N;$i++)
{ print shift(@resultats); }
Code (ex. Perl)
Fehler
Ergebnis
Interpreter
Interpretierung (Perl, Python,...)
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Programmiersprachen im MoBi● Perl
Larry Wall 1987 « scripting langage » sehr gut für Bearbeitung von Textdateien→ sehr leistungsfähige reguläre Expressionen (um bestimmte Muster im Text zu
finden) Grosse Bibliothek von Funktionen → Bio-Perl immer noch sehr verbreitet unter Bioinformatikern (der älteren Generation…)
● Python ( Python Praktikum, 5. FS)→ Guido van Rossum, 1989 « scripting language », aber Objekt-orientiert sehr gut für Sequenzanalysen, dank vieler eingebauter Methoden gute alternative zu Perl, wird immer mehr eingesetzt natürlichere Syntax als Perl (sauberer ...)
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Programmiersprachen im MoBi● Java ( Bildverarbeitung, K. Rohr)→
James Gosling, Mike Sheridan, and Patrick Naughton, 1991 Objekt-orientierte Sprache Gleicher Code kann auf allen Plateformen mittels eine Virtuellen Machine
ausgeführt werden « very portable »→
Java code Java bytecodekompiliert kompiliertJava Virtual Machine
(JRE)
Spezifisch fürjede Computer-
Plateform (Windows, Linux, Mac OSX,...)
Carl Herrmann – Methoden der Bioinformatik – WS 2015/2016
Programmiersprachen im MoBi● R ( Einführung in die Biostatistik, 4. FS)→
wird sehr oft benutzt zur statistischen Analyse von Daten Sehr reichhaltige Bibliothek von Funktionen für biologische Daten (Bioconductor,
…) sehr gut, um Plots zu erstellen sehr gutes IDE (Integrated Development Environment) → RStudio