Download - HGP And Computer
http://biohackers.net
휴먼게놈프로젝트와 컴퓨터 Human genome project and Computer
science
김형용 , Insilicogen, Inc.
순서 생물학 백그라운드 Genome 의 구조 서열결정작업 HGP 이후의 이야기들 컴퓨터과학의 기여
Genome
게놈 ? 지놈 ? 유전자 (gene), 유전체 (genome)
Great 3 books
우주 – 생명 - 인간
Central Dogma of Molecular Biology
Protein structure
20 Amino acids Sequence specifies conformation RNase
Life
DNA’s common method of producing more DNA
Review the life
Evolution
Self replicator
Chromosome
1 cM ~= 1 Mbps
Gene structure
Junk DNA
전체 Genome 의 5% 만이 단백질이 되는 영역 . 그렇다면 나머지는 ?
Repetitive sequence LINE (>300bps) SINE (300bps), Alu (30000~50000 개 ) Microsatelite
Human genome
3~4x1014 cells (~=245)
> 200 cell type
3x109 bps (3Gbps = 3Gbyte)
20000~25000 Genes
98% unknown functional DNA
0.1% difference with you
Information theory : 30Mbyte
Human genome project DOE, NHGRI 에서 시작 . 2003 년 공식 완료 . 13 년 .
7 개국 참여 95% 나 되는 Junk DNA 를 꼭 그 많은 돈을 들여서
해야만 했는가 ? 목적
Human DNA 에서 모든 Gene의 동정 30 억 염기서열의 결정 Database에 결과의 저장 이를 분석할 수 있는 도구의 향상 관련 윤리적 문제의 연구
History
PCR RFLP Genetic marker BAC Shotgun sequencing Whole genome shotgun
Gel Electrophoresis 젤 ( 그물막 ) 에 전하를 띤 물질을 통과시킴으로 , 분리하는 방법 .
작을수록 멀리 ~ DNA, Protein
PCR
Polymerase Chain Reaction
Genetic marker
Polymorphic allele locus
Genetic map
Cloning
무지 작은 저 분자를 하나씩 직접 읽을 수 없다 .
따라서 , “ 동일” 한 것들 여러 개를 갖고 실험
Gene cloning Gene cloning 과정
1. Genome 상에서 원하는 영역을 정한다 . 2. 원하는 영역을 뽑아낼 수 있는 PrimerDesign 을 한다 . 3. PCR 로 해당영역의 major band 를 확인하고 , 추출한다 . 4. CloningVector 에 삽입한다 . 5. Selection 의 과정을 통해 , 해당 유전자가 삽입된 벡터가 들어있는
클론을 선발한다 . Cloning vector
Plasmid : Cosmid : 30 kb BAC : 350 kb YAC : 2 Mb 이상 PAC : 300 kb
DNA sequencing
DNA sequencing
Frederic Sanger DNA, Protein 유효길이 700-800bp
DNA sequencing
Shotgun sequencing게놈을 읽기 위해 유전학자들은 먼저 게놈을 수천조각으로 부순 뒤 ,
아무렇게나 잘라졌을 이 조각들을 가지고 시작할 수 밖에 없다 . 재조립하기 위해 파괴하는 것 , 그것이 분자생물학자들의 저주받을
운명이고 직업적 강박관념이다 . -- 다니엘코엥 , 휴먼게놈을 찾아서
Genome sequencing
Clone by clone method Genetic marker 에
따라 BAC 선발 후 shotgun
Whole genome shotgun 무작정 shotgun Repeat 로 인한
조립에의 어려움 . 컴퓨터만 믿는다 .
Current status (since 2003) Human Chromosome 4 Completed, April 2005. Human Chromosome 2 Completed, April 2005. Human Chromosome X Completed, March 2005. Human Chromosome 16 Completed, December 2004. Human Gene Count Estimates Changed to 20,000 to 25,000,
October 2004. Human Chromosome 5 Completed, September 2004. Human Chromosome 9 Completed, May 2004. Human Chromosome 10 Completed, May 2004. Human Chromosome 19 Completed, March 2004. Human Chromosome 13 Completed, March 2004. Human Chromosome 6 Completed, October 2003. Human Chromosome 7 Completed, July 2003. Human Chromosome Y Completed, June 2003. Human Genome Project Completion: 1990-2003 (April 2003)
Genome browser
UCSC Genome browser NCBI Genome browser Ensembl VistaBrowser
Genetic disease – before HGP
Genetic disease – after HGP
Comparative genomics Synteny (Gene order), Gene duplicati
on, Gene fusion
Comparative genomics
SNP Single Nucleotide Polymorphism 종간 다양성 종내 다양성 염기변화 유전자내 아미노산변화
구조변화
Haplotype
HapMap 일본 , 영국 , 중국 ,
캐나다 , 미국 , 나이지리아
Project 의 목표는 MinorAllele 의 빈도가 최소 5% 이상이고 평균 간격이 5 kilobase 인 60 만개 SNPs 을 genotype 하는 것
Transcriptome, Proteome
EST DNA chip Proteomics
EST Expression Sequence Tag
Transformational grammar Regular grammar : computer program Context free grammar : DNA
Palindrome, “ 다시 합창합시다” Context sensitive grammar Unrestricted Grammar : 자연어
Sequence alignment
Smith-Waterman algorithm
BLAST
Unknown sequence
Known sequenceDatabase
Object oriented programming
Computer programming paradigm 생명현상의 모델링
마치며… Rosetta stone Programming