introdução à bioinformática - files.download-de-livros...
TRANSCRIPT
Bioinformática
• União da ciência da computação com a biologia molecular
• É uma área nova
• Há 10 anos atrás o termo nem existia
• Depois da descoberta de Watson e Crick (1953) de que o DNA é estruturado como uma hélice dupla; a Bioinformática passa a ser um dos instrumentos mais importante e fundamental para o estudo da Biologia Molecular.
A história começa na década de 1940 com a invenção do moderno computador digital
Ele se chama digital, pois os dados são armazenados com um alfabeto binário
•Dígitos binários – 0 e 1
•A operação também é digital, baseada na lógica liga/desligaA descoberta da hélice dupla, em 1953, mostrou que a informação
genética também é armazenada de forma digital
Mas diferente do alfabeto binário dos computadores, os dados genéticos são armazenados com um alfabeto quaternário
•A, C, G e T
Mais tarde se descobriu que a forma dos genes operarem também é digital
•Até certo ponto, os genes podem ser “ligados” ou “desligados”
Apenas estas observações já seria suficiente para prever, na década de 1950, que um dia informática e biologia molecular iriam juntas fazer
nascer uma nova área de conhecimento
A bioinformática passou a ser reconhecida como importante pelo mundo científico por volta de 1995
• Ano que o primeiro genoma de uma bactéria foi publicado
A Biologia Molecular
•Apesar da estrutura do DNA ter sido desvendada em 1953, a informação nela contida não podia ser “lida”
•Foi como tivéssemos descoberto o alfabeto utilizado para escrever “o livro da vida”, mas as “palavras” desse livro estavam com letrinhas tão pequenas que não conseguíamos lê-las
•Foi preciso esperar até fins da década de 1980 para que aparecesse uma “lente de aumento” suficientemente boa que permitisse a leitura dessas letrinhas em grande quantidade
A computação
•Computadores sendo capazes de armazenar cada vez mais informação, de processá-la de modo cada vez mais rápido, a um custo cada vez menor
•Na década de 1970 a unidade básica de armazenamento de informação era o kilobyte -- 1000 bytes, aproximadamente 1000 letras
•Um computador de grande porte daquela época tinha alguns kbytes de memória
•Com tal memória um computador desses não seria capaz de processar nem sequer o genoma de um vírus, que pode chegar a 20 kilobases, ou 20 mil letrinhas; que dirá o genoma humano, com seus 3 bilhões de letrinhas
Quase que em sintonia desembocamos em 1995
Os computadores já estavam suficientemente poderosos para poder processar os milhões e
milhões de letrinhas.
E assim nasceu a bioinformática,
Primeiro _ problema é
chamado de problema
biotecnológico
•Montagem do DNA
Segunda _ diz respeito à
natureza da biologia molecular
•Saber que informação está
contida nos genomas
•Montagem de DNA
•Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas ou bases
•As máquinas seqüenciadoras conseguem ler apenas pedaços de cerca de 1000 bases
•Então como é possível ler um livro de 3 ou 4 milhões de letras se só conseguimos ler fragmentos de 1000 letras?
•A solução é gerar uma enorme quantidade de fragmentos que tenham sobreposição entre si
•Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses fragmentos
•É necessário um programa de computador para montar esse quebra cabeça
Montagem de DNA
• É necessario um computador que consiga ler diretamente as 3 ou 4 milhões de bases
•Existem dezenas ou centenas de outros problemas na bioinformática, cada um deles motivado por uma particular tecnologia
Limitação tecnológica
atual
Que problemas são esses? São basicamente de dois tipos
•Primeiro- temos a interpretação do DNA como uma linguagem, a linguagem dos genes
•Segundo- entender os efeitos da informação genética
Os genomas contém informação
•Por exemplo:
•Para diferentes espécies de organismos e para diferentes indivíduos de uma espécie, particularmente a nossa. Essa interpretação requer métodos, técnicas, algoritmos que vêm principalmente da informática, pois afinal ela é a ciência da informação
•Dar sentido a essa sopa é tarefa dos bioinformatas
Algumas Definições
• Pesquisa e desenvolvimento de ferramentas computacionais, matemáticas e estatísticas para a resolução de problemas da Biologia
• Biologia Molecular
• Número de definições Número de bioinformatas
• Muitos tem sua própria definição de Bioinformática, com detalhes sutis para refletir seu interesse em Ciências Biológicas
A Computação está para a Biologia da mesma forma que a matemática está para física
Harold Morowitz
Uma combinação de Ciência da Computação, Tecnologia da Informação e Genética para determinar e
analisar informação genética
Bits Journal - Bioinformatics: Information Technology & Systems
Ênfase está se deslocando progressivamente do acúmulo de dados para a sua interpretação
Com os sequenciamentos realizados, um grande volume de dados tem sido gerado
Esses dados precisam agora ser analisados
Análise laboratorial é difícil e cara
Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos
Para muitas dessas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos
• Técnicas de laboratório de Biologia Molecular quase sempre geram dados com erros ou imprecisões
• Erros na coleta de dados
• Erros na construção de bases de dados
Fornece técnicas para lidar com os problemas acima
Aprendizado de Máquina
TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG
ATCTCGTAGCTA
ATCTCGTAGCTAGCTACGACGTCTA
ATCTCGTAGCTAGCTA
ATCTCGTAGCTAG
ATCTCGTAGCTAGC
ATCTCGTAGCTAGCT
ATCTCGTAGCTAGCTAC
ATCTCGTAGCTAGCTACG
ATCTCGTAGCTAGCTACGA
ATCTCGTAGCTAGCTACGAC
ATCTCGTAGCTAGCTACGACG
ATCTCGTAGCTAGCTACGACGT
ATCTCGTAGCTAGCTACGACGTC
ATCTCGTAGCTAGCTACGACGTCT
A
G
C
T
A
C
G
A
C
G
T
C
T
A
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT
ATCTCGTAGCT