한남대학교 생명시스템과학과 생물정보학 제 6강

69
생생생생생 Bioinformatics 2014 2 학학 학학학학학학학학 학학학학학 6생 2014.10.7

Upload: suk-namgoong

Post on 28-Jun-2015

661 views

Category:

Science


14 download

DESCRIPTION

한남대학교 생명시스템과학과 생물정보학 제 6강

TRANSCRIPT

Page 1: 한남대학교 생명시스템과학과 생물정보학 제 6강

생물정보학Bioinformatics

2014 2 학기생명시스템과학과

한남대학교

6 강 2014.10.7

Page 2: 한남대학교 생명시스템과학과 생물정보학 제 6강

강의 계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )

3 주차 서열 분석의 원리 I

4 주차 서열 분석의 원리 II

5 주차 단백질의 구조및 기능 예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)

9 주차 유전체 발현분석10주차

개인유전체학 I

11주차

개인유전체학 II

12주차

메타지놈

13주차

최신 연구동향

14주차

기말고사

Page 3: 한남대학교 생명시스템과학과 생물정보학 제 6강

각종 생물의 지놈 사이즈Triticum sp

(wheat) 17,000Mb

Homo sapiens 3,200Mb

Mus musculus 2,700Mb Danio rerio 1,700Mb

Oryza sativa 430Mb Arabidopsisthaliana

157Mb Drosophilamelanogaster

122Mb

Caenorhabditis elegans 97Mb

Saccharomycescerevisiae

12Mb

Streptomycessp. 9Mb

Escherichia coli

4.6MbHaemophillusinfluenza

1.8Mb

BacteriophageLambda

0.048Mb HIV 0.009Mb

Protopterus aethiopicus 133,000Mb

대체로 진핵생물 , 다세포생물 , 생물의 복잡도에 따라서 지놈 사이즈가 커진다역시 사람은 만물의 영장 ? 그러나 언제나 그렇지만은 않다 .

Page 4: 한남대학교 생명시스템과학과 생물정보학 제 6강

유전자 갯수는 ?

Homo sapiens

Oryza sativa

Drosophilamelanogaster

Caenorhabditis elegans

Saccharomycescerevisiae

Escherichia coli

BacteriophageLambda

지놈 크기 (Mb)

유전자 갯수

3200 20,687

430 26,837

157 15,682

97 20,470

12 6,275

4.6 4,288

0.048 73

지놈 사이즈의 엄청난 차이에 비해 실제 유전자 갯수의 차이는 미미

Page 5: 한남대학교 생명시스템과학과 생물정보학 제 6강

유전자의 밀도

진핵생물의 경우 실제 단백질을 암호화하고 있는 영역은 극히 일부에 불과

진핵생물의 대개의 영역은 인트론 , 트랜스포존 등이 차지하고 있음

Page 6: 한남대학교 생명시스템과학과 생물정보학 제 6강

복사본 ?

- 대개의 고등생물은 2 카피 이상의 동일한 염색체 (= 상동염색체 ) 를 가지고 있음

* Diploid ( 엄마 1 x 아빠 1)

- 식물의 경우에는 다배체 (Polyploidy) 의 유전체를 가지고 있는 경우가 많음

- 박테리아 , 일부 곰팡이류 : haploid

Page 7: 한남대학교 생명시스템과학과 생물정보학 제 6강

시퀀싱할 수 있는 길이와 지놈 사이즈와의 차이

Sanger Sequencing : 1kb

한번에 시퀀싱할 수 있는 DNA 의 길이는 지놈의 길이에 비해서 매우 짧다 .어떻게 매우 짦은 시퀀스를 가지고 큰 지놈의 시퀀스를 결정할 것인가 ?

Next Generation Sequencing : ~300bp

Page 8: 한남대학교 생명시스템과학과 생물정보학 제 6강

샷건 시퀀싱 Shotgun Sequencing

Shotgun

Long Genomic DNA

Random Shearing

Sequence Assembly

Generation of Consensus Sequences

Page 9: 한남대학교 생명시스템과학과 생물정보학 제 6강

Sequence Assembly

DNA Sequencer 에서 유래된 짧은 시퀀스의 공통서열을 찾아서 서로 서열정렬을 수행

ACGCGATTCAGGTTACCACGCGTAGCGCATTACACAGATTAG

ACGCGATTCAGGTTACCACG

GCGATTCAGGTTACCACGCGTAG

TTCAGGTTACCACGCGTAGCGCATT

TAGCGCATTACACAGATTAG

TTACCACGCGTAGCGCATTACACA

CGCGTAGCGCATTACACAGAT

Consensus Sequences (Contig)

Contig : a sets of overlapping DNA segments representing a consensus region of DNA

Page 10: 한남대학교 생명시스템과학과 생물정보학 제 6강

Overlap-Layout-Consensus (OLC)

Sequence Assembly Algorithm

1. 모든 시퀀스 데이터(Reads) 를 1:1 비교하여 겹치는 것이 있는것을 찾는다

2. 겹치는 시퀀스를 정리하여 순서를 정함

3. Alignment 를 만들고 consensus 시퀀스를 결정

Page 11: 한남대학교 생명시스템과학과 생물정보학 제 6강

Scaffolding

시퀀스 어셈블리를 통해 생성된 Contig

어떻게 Contig 간의 순서를 찾는가 ?

Contig 1 Contig 2 Contig 3

?

?

?

Page 12: 한남대학교 생명시스템과학과 생물정보학 제 6강

Mate Pair (Paired End) Sequencing

샷건 시퀀싱 과정으로 다시 돌아가면…

Genomic DNARandom ShearingSize fractionation

Make Library with Size fractionated Sample(i.e. 1kb)Sequencing in Both DirectionsSequence data In both Direction

1-F 1-R 2-F 2-R

3-F 3-R 4-F 4-R

Sequence Assembly

Contig 1 Contig 2 Contig 3

1F 1R

Contig1-Contig2 is Linked with Gap

2F

2R

Contig 3 (Reverse)

Contig2-Contig3 (Rev)Is linked with Gap

Page 13: 한남대학교 생명시스템과학과 생물정보학 제 6강

Scaffold and Gaps

Contig 1 Contig 2 Contig 3

Scaffold (Supercontig) : Contig 간의 관계가 Mate-pair (or Paired End) 정보등을 통해서파악된 contig 간의 모임

Sequencing gap : Scaffold 내의 Contig 내부에 존재하는 , 길이와 위치를 알고 있는 시퀀스미결정 영역

ATAAAGGAGAGTAGAGAGGAGNNNNNN……..NNNNNNNNATAAAGGAGAGTAGAGAGGAG

Contig 1 Gap Contig 2

Physical Gap : Scaffold 간의 Gap ( 갭의 길이와 위치를 알 수 없다 )

Page 14: 한남대학교 생명시스템과학과 생물정보학 제 6강

Gaps

Gap 은 왜 생기는가 ?

1. 시퀀싱양의 부족 Genome

• Shotgun Sequencing 은 Random 인 관계로 전체 지놈보다 훨씬 더 많은 양의 DNA 를 시퀀싱하지 않는 한 Cover 되지 않는 영역은 발생한다 .

• 시퀀싱을 점점 더 많이 할 수록 이러한 영역은 줄어든다 . 그러나 ..

• 얼마나 많은 양의 시퀀싱을 해야 하는가 ?

Page 15: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 16: 한남대학교 생명시스템과학과 생물정보학 제 6강

Contig coverage

Coverage : Contig 위치에 몇번 중복으로 시퀀싱을 했나 ?

Page 17: 한남대학교 생명시스템과학과 생물정보학 제 6강

Lander-Waterman StatisticsG : 시퀀싱하려는 지놈의 길이N : 우리가 시퀀싱한 낱개 시퀀스의 갯수 L : 각각의 시퀀스의 길이 c = nL/G : 커버리지 ( 지놈의 길이에 비해서 몇 배 시퀀스를 더했는가 ?) T: 검출가능한 최소의 시퀀스간 overlapσ = (L-t)/L

Contig 의 갯수 = Ne-cσ Contig 의 길이 = L((ecσ – 1) / c + 1 – σ)

Page 18: 한남대학교 생명시스템과학과 생물정보학 제 6강

Example

c N #islands #contigs bases not in any read

bases not in contigs

1 1,667 655 614 698 367,806

3 5,000 304 250 121 49,787

5 8,334 78 57 20 6,735

8 13,334 7 5 1 335

Genome size: 1 Mbp Read Length: 600 Detectable overlap: 40

http://www.cbcb.umd.edu/confcour/CMSC828H-materials/Lecture3-Assembly-Intro.ppt

Page 19: 한남대학교 생명시스템과학과 생물정보학 제 6강

19

Experimental data

X coverage

# ctgs % > 2X avg ctg size (L-W)max ctg

size# ORFs

1 284 54 1,234 (1,138) 3,337 526

3 597 67 1,794 (4,429) 9,589 1,092

5 548 79 2,495 (21,791) 17,977 1,398

8 495 85 3,294 (302,545) 64,307 1,762

complete 1 100 1.26 M 1.26 M 1,329

http://www.cbcb.umd.edu/confcour/CMSC828H-materials/Lecture3-Assembly-Intro.ppt

Page 20: 한남대학교 생명시스템과학과 생물정보학 제 6강

- 시퀀싱의 양을 늘릴수록 지놈에서 커버하는 영역은 커지고 Contig 의 갯수 (Gap 의 갯수 ) 는 줄어듬

- 그러나 그 개선 효과는 시퀀싱양을 늘리면 늘릴수록 적어진다 .

- 최적의 시퀀싱양과 퀄리티간의 타협이 필요 .

- 실제 상황에서는 ?

요약하면 ..

Page 21: 한남대학교 생명시스템과학과 생물정보학 제 6강

Gap 이 생기는 이유 (2)

Repeat

생물의 지놈 , 특히 고등생물의 지놈에는 반복서열 (Repeated DNA) 가 많이 존재Human Genome : 약 50% 가 Repeated DNA 로 추산됨 .

Repeat 와 Gap

Repeat CollapseGap Gap

Page 22: 한남대학교 생명시스템과학과 생물정보학 제 6강

Repeat 에 의한 Misassembly

근본적으로는 Repeat 의 길이보다 단일 Reads 의 길이가 길어야 함 .

Original

Misassembly

Repeat 에 의한 Misassembly, Gap 형성을 막기 위해서는 ..

Page 23: 한남대학교 생명시스템과학과 생물정보학 제 6강

Gap 이 생기는 이유 (3)

특정 영역의 DNA 는 시퀀싱 자체가 힘들다

- G/C Rich Regions

- Secondary / hairpin Structure..

- Repeated regions (AG, CA, CT, GT, AGG, ACC, CCG, CCT, CTT, GCC, GGA, CCCTTT)

따라서 시퀀싱을 아무리 많이 한다고 해서 Gap 이 없이 완벽한 시퀀스가 나오도록 어셈블리하는 것은 불가능하다 .

Page 24: 한남대학교 생명시스템과학과 생물정보학 제 6강

Draft Assembly 지놈 초안

샷건 시퀀싱

어셈블러 Assembler

Contig 1 Contig 2 Contig 3

Contig 4 Contig 5 Contig 6Scaffold

#2

Scaffold#1

Contig 7 Contig 8 Contig 9Scaffold

#3

Contig and Scaffold

Page 25: 한남대학교 생명시스템과학과 생물정보학 제 6강

Genome Assembly 의 데이터를 나타내는 파라메터

http://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.26/

전체 시퀀스 길이 = Contig 길이의 합Scaffold 사이의 갭 = Physical GapScaffold 의 갯수

?

Contig 의 갯수

Page 26: 한남대학교 생명시스템과학과 생물정보학 제 6강

N50 Contig (Scaffold) Length1. Contig 을 길이순으로 정렬

120kb

150kb

100kb

80kb

40kb

20kb

19kb

5kb

….

Total 600kb

2. 전체 Contig 총합의 절반 ( 예에서는 300kb) 가 되는Contig 의 사이즈

120kb

150kb

100kb

80kb

40kb

20kb

19kb

5kb

….

Total 600kb

370kb

N50 contig 의 size 는 = 100kb

N50 Contig (Scaffold) 의 Size 가 클수록 = assembly 의 퀄리티가 좋음

Page 27: 한남대학교 생명시스템과학과 생물정보학 제 6강

De Novo assembly

Shotgun Phase

Gap Closing

Scaffolding

Finishing

Draft sequence

Finished Sequence

여태까지 지놈 시퀀스가 알려져 있지 않은 생물의 지놈 시퀀스를 결정하기 위함

Page 28: 한남대학교 생명시스템과학과 생물정보학 제 6강

Finishing

- Draft Assembly 를 거쳐서 산출된 Scaffold 혹은 Contig 는 완벽하지 않음

- 다수의 Gap, 혹은 misassembly 를 포함하고 있음 .

- 수작업으로 이들을 교정해야 함 .

PCR

Sequencing of Gap

- Gap Closing (Gap Filling)

- 프로젝트의 중요도에 따라서 수행되지 않는 경우도 많음 .

Page 29: 한남대학교 생명시스템과학과 생물정보학 제 6강

지놈간의 퀄리티 비교Human MousePig Dog

Horse

Page 30: 한남대학교 생명시스템과학과 생물정보학 제 6강

ALL assemblies are not created equal

- 사람 , 마우스 , 초파리 , 애기장대 (Arabidopsis) 등의 연구가 많이 된 모델생물의 경우 피니싱이완료된 고퀄의 지놈

- 반면 가축 , 작물등과 같이 비교적 연구가 덜 된 생물의 경우에는 드래프트 지놈일 가능성이높음 .

- 따라서 이런 생물의 경우에는 등록된 지놈 시퀀스 자체가 불완전할 가능성이 높음 .

- 자신이 찾는 유전자가 완전한 형태로 등록되지 않았다고 하더라도 , 완벽히 신뢰할 수 없음 .

Page 31: 한남대학교 생명시스템과학과 생물정보학 제 6강

- 지놈 시퀀싱이 완료되었다면 그 다음은 ? - Sequence Annotation

Sequence Annotation

설명이 없는 위성사진 / 지도는 그닥 쓸모가 없지만지도에 설명이 추가되면 유용하듯이

이러한 단순한 시퀀스로만으로 유용하지 않지만

Page 32: 한남대학교 생명시스템과학과 생물정보학 제 6강

Gene PredictionsDNA 시퀀스 중에서 단백질을 코딩하는 영역은 어디에 있는가 ?

원핵생물 (Bacteria)

- 유전자의 밀도가 높음- Intron 은 거의 존재하지 않는다- 상대적으로 예측이 쉬움

진핵생물 (Animal, Plant, Fungi..)

- 유전자의 밀도가 낮음 - 대부분은 Intron - 난이도가 더 높다

Page 33: 한남대학교 생명시스템과학과 생물정보학 제 6강

원핵생물 (Bacteria) 에서의 유전자 예측aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

Page 34: 한남대학교 생명시스템과학과 생물정보학 제 6강

유전암호

시작코돈 : ATG

스톱코돈 : TAA TGA TAG

간단한가 ?

Page 35: 한남대학교 생명시스템과학과 생물정보학 제 6강

aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

어떤 ‘ ATG’ 가 시작코돈일까 ?

Page 36: 한남대학교 생명시스템과학과 생물정보학 제 6강

aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

DNA 는 ‘양면’ 이 다 사용된다 .

CCGCATGAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTCCCAGCTTAGCATAGCCGCATGCATTAGCATATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTCCCAGCTTAGCATAGCCGCATGAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTCCCAGCTTAGCATAGCCGCATGCATTAGCATATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCAGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTAGCATATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATTCCAAGGTAAATCCCAAGACCATTCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGTCATCGGATCCCAGCTTGCATAGCCGCATGCATTAGCATAGCCGCATGCATTGTCATCGGATCCCAGCTTAGCATAGCCGCATGCATTAGCATAGCCGCATGCATT

Page 37: 한남대학교 생명시스템과학과 생물정보학 제 6강

ctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

6 가지 가능성 어디서부터 개시코돈인가 ?+

Page 38: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 39: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 40: 한남대학교 생명시스템과학과 생물정보학 제 6강

ORF (Open Reading Frame)

Genomic Sequence

Open reading frame

ATG TGA

• 6 가지 Reading Frame 에서 가능한 모든 ORF 를 추적한 다음 ,

• 가능한 ORF 중에서 어떤 ORF 가 “가장 유전자스러운” 것인지를 선별한다 .

- ORF 의 길이 : 60-100aa 이상 . - Codon Usages : 사용된 Codon 이 해당 생물에서 널리 사용되는 것인가 ?- ATG앞에는 Ribosomal Binding Site (RBS) 가 존재하는가 ?- Promoter 의 존재- Transcription Terminator 의 존재

Page 41: 한남대학교 생명시스템과학과 생물정보학 제 6강

Codon Usages : 모든 코돈이 평등하게 사용되지 않는다

Human Codon Usage

Page 42: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 43: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 44: 한남대학교 생명시스템과학과 생물정보학 제 6강

가장 유사한 종을 선택

Page 45: 한남대학교 생명시스템과학과 생물정보학 제 6강

진핵생물의 유전자 예측

exon1 exon2 exon3intron1 intron2

transcription

translation

splicing

• 인트론과 엑손의 존재• 일단 인트론과 엑손부터 예측해야함

bix.ucsd.edu/bioalgorithms/presentations/Ch06_GenePred_stat.ppt

Page 46: 한남대학교 생명시스템과학과 생물정보학 제 6강

인트론은 대개 GT 로 시작되어 AG 로 끝남

5’ 3’Donor site

Position

%

Page 47: 한남대학교 생명시스템과학과 생물정보학 제 6강

bix.ucsd.edu/bioalgorithms/presentations/Ch06_GenePred_stat.ppt

Page 48: 한남대학교 생명시스템과학과 생물정보학 제 6강

GENESCAN

Page 49: 한남대학교 생명시스템과학과 생물정보학 제 6강

exon1 exon2 exon3intron1 intron2

transcriptionPre-mRNA

splicingmRNA AAAAAAAAAAGppp

mRNA 를 시퀀싱하여 Exon 을 파악하는 것이 차라리 더 정확 !

Page 50: 한남대학교 생명시스템과학과 생물정보학 제 6강

Transcriptiome Sequencing

Page 51: 한남대학교 생명시스템과학과 생물정보학 제 6강

mRNA/Protein 정보를 알고 있는 상황에서 Exon-Intron 구조를 알려면 ?

BLAST? 이 용도에 더 적합한 Tool 이 있음https://genome.ucsc.edu/cgi-bin/hgBlat?command=start

BLAT on DNA is designed to quickly find sequences of 95% and greater similarity of length 25 bases or more.

25bp 이상 되는 95% 이상 같은 서열을 BLAST 보다 훨씬 더 빨리 찾을 수 있는 서열검색

Page 52: 한남대학교 생명시스템과학과 생물정보학 제 6강

>sp|Q9D0A3|ARPIN_MOUSE Arpin OS=Mus musculus GN=Arpin PE=1 SV=1MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILLEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD

>gi|146141195|ref|NM_027420.4| Mus musculus RIKEN cDNA 2610034B18 gene (2610034B18Rik), mRNAAGGGCCTCGGCGTGGGGAAAATGAGCCGCATCTACCAGGATAGCGCCCTCCGCAACAAGGCCGTGCAGAGCGCGCGCCTGCCGGGAACCTGGGACCCTGCCACCCACCAAGGGGGAAATGGCATCTTGCTGGAGGGGGAGCTCGTGGATGTATCTCGGCACAGCATCTTGGATGCCCATGGCAGGAAGGAGCGCTACTATGTGCTGTATATCCAGCCCAGCTGTATCCACAGGCGTAAGTTTGACCCCAAGGGAAATGAAATTGAGCCCAACTTCAGTGCCACCAGGAAGGTGAACACAGGCTTCCTCATGTCATCTTACAAGGTGGAGGCCAAGGGCGACACAGACCGGCTCACCCTGGAGGCGCTGAAGAGCCTGGTAAACAAGCCCCAGCTGCTGGAATTGACAGAGAGCCTCACCCCAGACCAGGCGGTGGCATTCTGGATGCCTGAGTCAGAGATGGAGGTCATGGAACTCGAACTGGGGACTGGAGTGCGATTAAAAACTCGGGGTGATGGTCCCTTCATAGATTCCTTAGCCAAACTGGAGCTGGGGACAGTGACCAAGTGTAATTTTGCTGGTGATGGAAAGACGGGAGCTTCCTGGACAGACAATATCATGGCCCAGAAGTCTTCAGAGAGGAACACAGCAGAGATCCGAGAGCAAGGAGACGGGGCAGAGGACGAGGAATGGGATGACTGAGGTGCCTCCTCAACTAGACCAGCATCTGGGATGGTGTCGCTGAGAAGTGGCCACACCAACTTCTGCCTTGGAGAGATCAGGCTGTCAAGCAGAATATCATTGAACACCCTCTGATGAAATCAAACCCAAGACCTCAGTACTCACCAAGGGTCTCCAGGCTATGGCTTTTGTATGTCTGTGGCCCTCATTGGATGCAAGGCTAGCTTTCCTAGATCTATCTCCAGTATTCCTTTCCCTAGGTAGCAGGCATGGACTAGATGAGTCCTCCAAGGTACACAATTGACAAAGGCTCCTTGTCTGAGTCCAGAGGGACTCAGGGGGTAAGAGCGCCGGCTCTTTCCAATCCTGCAGTTTTCTCCTTTTTTTGCTTTCTACCCTGTGCCAGCTTCTTTTTGTGCCTCTGTTCTCCTGTCCCAGTCTTCCTCTGTCTGTTCTTCCCTGTCCCACACCCAAGATACCACTTCATTATTTCTATTCAGCTCTGTGCCTCTGTGGGCTTTCCTGCCTTAGATCTCTGTCTTAGGGCTCTTACTGCTCCAATGAAACCCGACGACCCAAAGCAACTTGGGGAGGGAAGGGTTTATTTCACTCACAGATCCGTAGAACAGTTCATCACCAGTAAAGCAGTGAGAGCAGGAGCTCAAGCAGGGCAGGAACCTGGAGGCAGGAGCAGAGAGCGTGGTGTGCTGCAAACTGGCTCGCTCTGTTTGCTTTCTTCTAGAACCCAGGACCACCAGCCCAGTAATGGCATTACCTAGAATGGGCTGGGCCGGGGTACTCTAGCTTCTGTCAGGTTGACATAAAGCTAGTTATCACACACCTATCTGGCTGCTGTCCTAAAGATGCCATTTTTGGGAAGGCCTTCAGCCTTCCCAGCTGTGTCTAGCCGGTCCACAAGTCTTGACTCATTCCACTGGGCCAACTTTTTATATTTTTAAAATATTTTCTTTTTAATAAATAGTGCTGGTACTTAAACCTAGTGCTCCATGCTTGCTAGGTGAGTGATCCACCACTGTCTACACCAACAAGTCCCAGACCGTATTTTTTGGTATGACTCTTTTTGTTGTTTTGTACTTGGAGAACTTCTTAGGAGTGAGTACTCTTCGGGAAAGAATTCCTCCACACGACTGGGTTCTTGTCTCGTGTTTATGGTCTTCTAGCTGAGTCACAATCCTAGACGAGAACCCCAGTCTTAGTGTGCCCCTGCTCAGCCCTGTGACAAGATCTGGAACGGAAGTCTACACGTCTTGAGTGTGACCATGGCAGGTGTACGCATCCTGCCTGATCCTGGGAAAAAGGGTGAGGGAGGACAGGGATTACTGATCCGACTTCATGGTTCAAACTCAATGACAGATGCTTTCTGTCACCAGTACTGACAATACTGAGTTCTTCCTGATGCTAGTGCTTAAGTTAAGTACTTGGAGTAGTCTGTCACAACAACCCTATGATGTACATAGGATAAATATCCCCATTTTTGATACAT

Page 53: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 54: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 55: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 56: 한남대학교 생명시스템과학과 생물정보학 제 6강

Exon

Intron

Page 57: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 58: 한남대학교 생명시스템과학과 생물정보학 제 6강

단백질 서열로 지놈 내의 DNA 서열을 직접 검색

Page 59: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 60: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 61: 한남대학교 생명시스템과학과 생물정보학 제 6강

DEMO

GeneScanBLAT

Page 62: 한남대학교 생명시스템과학과 생물정보학 제 6강

Genome Browser

웹 브라우저가 인터넷을 브라우징하는데 필요하듯이

지놈 시퀀스의 내용을 브라우징하는데는 지놈 브라우저가 필요하다https://genome.ucsc.edu/cgi-bin/hgGateway

Page 63: 한남대학교 생명시스템과학과 생물정보학 제 6강

Genome Browser 에서 볼 수 있는 것

Sequence

Exon-Intron Structure (Gene Model)

Gene Organization ( 관심 유전자 옆에는 어떤 유전자가 있나 ?)

Isoforms

Page 64: 한남대학교 생명시스템과학과 생물정보학 제 6강

Genome Browser 에서 볼 수 있는 것 (2)

SNP (Single Nucleotide Polymorphism)

Evolutionary Conservation

Many More..

Page 65: 한남대학교 생명시스템과학과 생물정보학 제 6강

https://genome.ucsc.edu/cgi-bin/hgGateway?hgsid=391202295_JGaFYJcfhzhda8tpxiu05mQAqVqK

Page 66: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 67: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 68: 한남대학교 생명시스템과학과 생물정보학 제 6강
Page 69: 한남대학교 생명시스템과학과 생물정보학 제 6강

UCSC Genome Browser

Demo