Download - Bioinformática en la era post-genómica
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Bioinformática en la era post-genómica
Ascanio Rojas A.
Centro Nacional de Cálculo Científico, ULA. CPTM.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
En esta Charla:
• Introducción a la Bioinformática
• Genómica
• Uso de la información genética y
Bases de datos
• El futuro de la genómica
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Un poco de historia
- 1866 Gregor Mendel describe los mecanismos de la herencia
- 1868 Friedrich Miescher descubre el ADN en el núcleo
- 1909 El término ‘gen’ se usa por primera vez - 1944 se identifica el ADN como el material de la
herencia - 1953 F. Crick J. Watson resuelven la estructura
del ADN - 1955 S. Ochoa y A. Körnberg descifran el
código genético - 1956 Identificados 23 pares de cromosomas
humanos - 1969 Se aísla el primer gen, en una bacteria. - 1972 Stanley Cohen desarrolla la tecnología
recombinante. - 1977 F. Sanger, A. Maxam y W. Gilbert,
desarrollan el método de secuenciación del ADN.
- 1982 el NIH y Los Alamos National Laboratory establecen la base de datos GenBank, dando inicio a la bioinformática.
- 1984 Se crean las primeras plantas transgénicas y se discute por primera vez el genoma humano
- 1985 Un año después se inventa la técnica de la PCR - 1986 Se prueba la vacuna de Hepatitis B (Ing.
Genética). Se inventa la primer equipo automático de secuenciación
- 1989 Se identifican los Sequence-tagged sites (STS) - 1990 Inicia El Proyecto del Genoma Humano. - 1996 Secuenciado el genoma de la levadura de la
cerveza. Nace en Escocia Dolly, el primer mamífero clonado. El único cordero resultante de 277 fusiones de óvulos. Es sacrificada el 14 de febrero de 2003.
- 2003 Se publica la versión completa del genoma Humano.
…continuará.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
El ADN
• El cuerpo humano tiene 100 trillones de células.
• En el núcleo hay ~2 m de ADN enrollados en una estructura
de unos 0,0001 cm, ordenados en 46 crosomomas.
• Todo el ADN de estas células podría estirarse e ir y volver
hasta el sol 600 veces (la secuencia llenaría 200 guías
telefónicas de 500 páginas)
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Que es la bioinformática?
National Center for Biotechnology Information (NCBI, 2001):
“Bioinformática es un campo de la ciencia en el cual confluyen varias disciplinas tales
como: biología, computación y tecnología de la información. El fin último de este campo
es facilitar el descubrimiento de nuevas ideas biológicas así como crear perspectivas
globales a partir de las cuales se puedan discernir principios unificadores en biología. Al
comienzo de la "revolución genómica", el concepto de bioinformática se refería sólo a la
creación y mantenimiento de base de datos donde se almacena información biológica,
tales como secuencias de nucleótidos y aminoácidos. ….
Harvey y Mc. Meekin, 2002
Bioinformática es la aplicación del desarrollo de la computación y las matemáticas que
permite la administración, análisis y comprensión de datos para resolver preguntas
biológicas. (con conexiones a medi-, quimio-, neuro-, etc. informática). Modificado de:
Center for Research on Innovation and Competition
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Informática
World Wide Web (Web o www.) o Red Global
Mundial es un sistema de documentos de hipertexto
o hipermedios enlazados y accesibles a través de
Internet. Con un navegador Web se visualiza
contenido en texto, imágenes, vídeos u otros
contenidos multimedia, y navegar a través de ellas
usando hiperenlaces. Creada en 1990 Tim Berners-
Lee y Robert Cailliau en el CERN (Ginebra, Suiza)
Una dirección IP es un número que identifica de
manera lógica y jerárquica a una interfaz de un
dispositivo (habitualmente una computadora)
dentro de una red.
IPv4
4.294.967.296 (232) direcciones de red diferentes
IPv6
340.282.366.920.938.463.463.374.607.431.768.211.456 (2128 ó 340 sextillones)
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Bases de datos en Bioinformática
National Center for Biotechnology Information (NCBI)
Creada en 1979 en the LANL (Los Alamos, CA). Mantenida desde 1992
NCBI (Bethesda, MD, USA).
European Bioinformatics Institute (EBI)
Creada en 1980 en The European Molecular Biology Laboratory
in Heidelberg. Es mantenida por el EBI- Cambridge, desde 1994.
GenomeNet Inició 1984, en the National Institute of
Genetics (NIG) Mishima, Japón. Mantenida por Center for
Information Biology and DNA Data Bank of Japan.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Genoma La totalidad del ADN de un organismo Fago λ 5×104 pb Escherichia coli 4×106 pb Levadura 2×107 pb Caenorhabditis elegans 8×107 pb Drosophila melanogaster 2×108 pb Humano 3×109 pb Mitocondrial humano 1.6×104 pb
Genómica Conjunto de ciencias y técnicas dedicadas al estudio exhaustivo del funcionamiento, evolución y origen de los genomas.
Los estudios genómicos se caracterizan por su interdisciplinaridad
debido a que el gran número de datos generados que requiere de
conocimientos biológicos, estadísticos e informáticos.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Números del Genoma Humano
• Nuclear: 3.200 millones pb / Mitocondrial: 16.600 pb
• ~38.000 genes (el doble que la mosca del vinagre, un tercio
más que el gusano común y 5.000 genes más que la planta
Arabidopsis)
• 99,99% de código es compartido entre
humanos (difieren en 1.250 letras)
• 5 % del genoma codifica proteínas (se
estima que existen ~300.000 proteínas).
• 25 % de genoma no codifica nada o se desconoce su función
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Secuenciación Es un conjunto de métodos y técnicas
bioquímicas cuya finalidad es la determinación
del orden de los nucleótidos (A, C, G y T) en un
oligonucleótido de ADN.
El método clásico de terminación de la cadena o método de Sanger. (Usando
didesoxinucleótidos trifosfato –ddNTPs- como terminadores de la cadena de
ADN). Se lee en ~700 pb en cada lectura, aunque no están agrupadas en
cromosomas…
Secuencia1 ACC AGA ATA CC
Secuencia 2 TC CAG AAT AA
Secuencia3 TA CCC GTG ATC CA
AGG CAT ACC AGA ATA CCC GTG ATC CAG AAT AAG C
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
• A diferencia del sistema de Sanger (67.000 bases/hora), el nuevo método 454
puede determinar 20 millones bases en 4,5 horas. En 5 días se secuencia y anota el
genoma de una bacteria completo
• El costo por genoma decae: 300 millones $ en 2003, 1 millón $ en 2007, 60.000 $
2009 y 5.000 dólares para mediados de año.
• El Premio Archon X ha ofrecido 10 millones $ al grupo que logre secuenciar 100
genomas humanos en 10 días por 10.000 dólares o menos.
PacBio (+1,000 bases)
espera comercializar en
2010 máquinas de segunda
generación que puede llevar
a cabo la secuenciación del
genoma por 1.000 dólares
en 2013.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Estado actual de los Proyectos genomas
• Grupos multidisciplinares
• Interacción entre centros de investigación
• Generación de una cantidad ingente de datos
• Análisis complejos y Fechas ajustadas
• Grandes presupuestos
• Genomas anotados: 1865
• Proyectos Genomas: 11148
• Microbios: 299
• Arqueas: 206
• Bacterias: 6730
• Eucariotas: 2007
Last Update: 2018-06 @www.genomesonline.org
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Números
600 millones de pb/año se añaden a bases de datos, haciendo que se duplique tamaño de las BD cada 14 meses aproximadamente
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Fernández X. 2009
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Incidencia de la Bioinformática, la genómica y la filogenética
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Science 2.0
“Collaborative Commons”
Open Notebook Science
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
YouTube-EDU
Más de 200 universidades
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Nuevas tecnologías Nuevos retos
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
1000 Genomes
Producirá más de 20TB de datos en secuencia...
• Fase piloto. 60 muestras HapMap secuenciadas (low coverage)
• Segunda fase piloto. Dos tríos de europeos y africanos (high coverage)
• Tercera fase piloto. Secuenciando 1.000 genes en 1,000 individuos (high
coverage).
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Personal Genomics
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
La era post genómica
Transcriptóma
Un transcrito es una copia de RNA de un gen. El
transcriptoma son todas las copias de RNA en una
célula, tejido o individuo
Proteómica
El proteoma son todas las proteínas de una
célula, tejido o individuo
Metabolómica
El metaboloma son todas las moléculas de
una célula, tejido o individuo que producen
las proteínas del proteoma.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Proteómica
• Proteómica es el estudio a gran escala de proteínas, en particular de su estructura y función. Es considerada el siguiente paso en el estudio de un sistema biológico, luego de la genómica.
• Es más complicada que la genómica debido a que el genoma es relativamente constante, el proteoma difiere de una célula a otra y de un momento a otro (más complejo en sistema eucariontes).
• Matrix assisted laser
desorption/ionization time-of-
flight mass spectrometry
(MALDI-TOF-MS)
• Electrospray fourier-transform
ion cyclotron mass
spectrometry (ESI-FTICR MS)
http://www.proteinatlas.org Cantidad de genes:
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Medicina genómica
Uso rutinario de análisis genotípicos para mejorar el cuidado de la salud6
tiene sus pilares en la capacidad de conocer los SNPs de cada individuo y de
modificar el medio ambiente en que este se desarrolla.
• No es reactiva
• Predictiva y preventiva
• Proviene de la genómica y otras ‘-
ómicas’
• Se centra en individuos y
poblaciones
• Enfoque bioinformático apoyándose
en nuevas tecnologías analíticas.
Estudios de asociación genética (GWAS)
Los estudios de “asociación genética” buscan establecer la relación estadística entre
variables genéticas poblacionales y un fenotipo determinado (rasgo, riesgo de
enfermedad, etc.)
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Farmacogenómica
Disciplina que estudia el efecto de la variabilidad genética de un
individuo en su respuesta a determinados fármacos.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Ejemplos
Cantidad de genes
El proteoma general es bien conservado
(mas de 6000 COGs compartidos)
Tc y Lm (intracelulares) comparten mas
genes
Tc y Tb comparten mas que Lm
La mayoría de los genes únicos son proteínas
de superficie
Parásito Total Analizado Único
T. brucei 9,068 8,082 26 %
T. cruzi 12,000 10,834 32 %
L. major 8,311 7,624 12 %
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Distribución de dominios proteicos
1617 Dominios proteicos (Pfam& TIGRFAM)
• 73% presentes en otros eucariotas
• 10% de archeobacteria
• 17% de origen procariota
Pocos dominios propios de grupo
Menos de 5% únicos de una especie
• L.major PF01187
o Macrophage migration inhibitory factor
• T.brucei PF03238
o VSG expression site associated gene
• T.cruzi PF05577
o Serine carboxipeptidase S28
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011
Ascanio Rojas A.
Gracias…