melhorando a predição de estruturas secundárias de proteínas usando rn recorrentes e perfis....

35
Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and Pierre Baldi Edson Filho

Upload: brenno-barbosa

Post on 07-Apr-2016

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Melhorando a Predição de estruturas secundárias de

proteínas usando RN recorrentes e perfis.

Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and Pierre Baldi

Edson Filho

Page 2: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O Problema• Predizer estruturas terciárias (3D) e a

função de proteínas conhecendo apenas a sua estrutura primária (linear)

• Predição de estruturas– Predição da posição (relativa) espacial de cada

átomo na estrutura terciária gerada apenas do conhecimento da estrutura primária (seqüência)

Page 3: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Motivação

• Por que predizer estruturas de proteínas?

– A predição de estruturas pode ser usada na criação de drogas

– Pode ser usada para entender efeitos das mutações em estruturas e funções

Page 4: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Motivação• Por que predizer a estrutura?

– Atualmente conhecemos cerca de 350.000 seqüências e apenas 11.000 estruturas*.

– O conhecimento estrutural ajuda a conhecer a função e o mecanismo de ação da proteína.

• *D.R. Westhead,2002

Page 5: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Motivação

• Genome sequencing projects– generate large quantities of genomic

sequences– BUT what does it mean?

• Prediction of protein sequence, structure and function can give clue

• Predictions can be verified experimentally– often slow

Page 6: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Motivação

• Paradigma evolucionário– Se pudermos mostrar que uma seqüência de

uma função(estrutura) desconhecida é similar a uma ou mais estruturas(funções) conhecidas então elas têm detalhes estruturais(funcionais) comuns entre elas.

Page 7: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Artifícios

• Profile Analysis • BLAST• PSIBLAST• Redes Neurais Recorrentes• Secondary Structure Prediction• DSSP

Page 8: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

What is a Profile?• A profile is a position-dependent scoring

matrix that has N rows and 20+ columns. N is the length of the profile. The first 20 columns of each row specify the probability for finding, at that position in the target sequence, each of the 20 amino acid residues. The >20 column(s) contain(s) a penalty (penalties) for insertions / deletions at that position. Specifically, the Mkj element of the profile is the score for jth amino acid (or gap) at kth position of the sequence.

Page 9: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Profile analysis: detection of distantly related proteins

• Profile analysis é um método para detectar proteínas remotamente relacionadas usando comparação de seqüências. A base para comparação é a distância mutacional mais o resultados de estudos estruturais e a informação implícita no alinhamento de seqüência de proteínas de famílias similares.

Page 10: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Profile analysis: detection of distantly related proteins (cont.)

• Esse método possui duas diferenças básicas em relação aos métodos de comparação convencionais: – Qualquer número de seqüências podem ser usados

para construir o perfil, considerando assim mais informação.

– O perfil inclui penalidades para inserção ou deleção para cada posição. Isso permite incluir a prova da estrutura secundária no esquema de teste.

• Gribskov M, McLachlan AD, Eisenberg D.

Page 12: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

PSI-BLAST

• Position-Specific Iterative BLAST. Uma busca iterativa usando BLAST. Um perfil é construído a partir de uma busca inicial, este é então usado em buscas subsequentes.

• O processo pode ser repetido, com as novas seqüências encontradas em cada ciclo para refinar o perfil. (Altschul et al.)

Page 13: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

DSSP Program

• Função:– Definition of secondary structure of proteins

given a set of 3D coordinates• Descrição:

– The DSSP program defines secondary structure, geometrical features and solvent exposure of proteins, given atomic coordinates in Protein Data Bank format.

– The program does NOT PREDICT protein structure.

Page 14: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Como funciona o DSSP

• DSSP works by assigning potential backbone hydrogen bonds (based on the 3D coordinates of the backbone atoms) and subsequently by identifying repetitive bonding patterns.

Page 15: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Estrutura Secundária• 8 classes

– H - alpha helix – B - residue in isolated betabridge – E - extended strand, participates in beta ladder– G - 3-helix [3/10 helix]– I - 5 helix [pi helix] – T - hydrogen bonded turn – S - bend – “.”

• 3 classes:– helices, strands, and coils

Page 16: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O que são RNA

• São modelos computacionais com propriedades de adaptação, agrupamento e generalização.

• Estruturas distribuídas formadas por um grande número de unidades de processamento conectadas entre si e inspiradas no neurônio biológico.

Page 17: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Redes Neurais Recorrentes• RNR são redes neurais com realimentação

(Feedback), isto é, redes com "feedback" são aquelas cujo grafo de conectividade contém pelo menos um ciclo.

Page 18: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

RNR - Exemplo

Page 19: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Por que utilizar as RNs? • habilidade de tratar sistemas não-lineares:

relevante na classificação de padrões; • tolerância a falhas: o conhecimento é

distribuído pela RN, mais que em uma simples localização de memória.

• adaptabilidade: Os aspectos de aprendizado, auto-organização, generalização e treinamento estão intrinsecamente ligados a esta característica;

• aprendizado: uma RN pode modificar seu comportamento em resposta ao ambiente.

Page 20: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Por que utilizar as RNs?• generalização: consiste na RN mapear

entradas similares em saídas similares • treinamento: é a forma pela qual a RN aprende • processamento paralelo: as RNs são

estruturalmente paralelas. A seqüência de processamento das RNs é realizada em paralelo e simultaneamente

• abstração: muitas RNs são capazes de abstrair a essência de um conjunto de entradas

Page 21: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Aplicações de RNR

• Sequence Recognition and Classication: the net produces a particular output pattern once the whole input sequence is seen.

• Sequence Reproduction and Prediction: the net can generate the rest of a sequence when it sees part of it.

• Temporal Association: the net will produce an output sequence in response to a specic input sequence.

Page 22: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O experimento

• Segunda versão do SSpro para classificação secundária nas classes padrões (hélice, corda e cilindro).

• Primeira versão do SSpro8 para classificação secundária em oito classes.

• Ambos podem ser encontrados em: http://promoter.ics.uci.edu/BRNN-PRED/

Page 23: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O experimento

• Quatro conjuntos de dados foram usados para desenvolver e testar a aplicação sendo um para treinamento(TRAIN) e três para teste(R126, EVA, and CASP4)

• Mesmo conjunto de treinamento do SSpro 1.0

Page 24: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O conjunto de Treinamento

• at least 30 amino acids long• have no chain breaks • Produce a DSSP output• are obtained by X-ray diffraction methods

with a resolution of at least 2.5 Å.• The resulting training set consists of 1180

sequences corresponding to 282,303 amino acids.

Page 25: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O experimento

• Profiles (Perfis)– Para tentar melhorar, foi usado tanto o perfil

BLAST quanto o PSIBLAST considerados na entrada. Usar perfis no nível de entrada geralmente têm melhorado a precisão que quando usados na saída.

Page 26: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O experimento

• BLAST– Os perfis de entrada para o SSpro 1.0

foram construidos inicialmente rodando o BLAST sobre o banco não redundante(NR) com os parâmetros default. A versão usada era a disponível em Outubro de 1999 e continha aproximadamente 420.000 seqüências de proteínas.

Page 27: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O experimento

• PSI-BLAST– Foram derivados novos perfis

alinhando todas as proteínas do banco NR usando o PSIBLAST.

Page 28: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O experimento

• Recurrent Neural Network Architectures – Foi proposta uma classe de rede neural

recorrente que pode atenuar algumas limitações das redes feed-forward. Nessas redes foram usadas pequenas janelas de entrada de tamanho fixo.

Page 29: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O experimento - TESTES

• R126– O primeiro teste independente, foi

usado o conjunto original de 126 seqüências de Rost and Sander, atualmente correspondendo a um total de 23.363 posições de aminoácidos.

– Houve 76.62% de acerto no SSPro 1.0– Houve 78.13% de acerto no SSPro 2.0– Houve 62.58% de acerto no SSPro8 2.0

Page 30: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O experimento - TESTES• EVA

– Um novo teste se tornou possível, graças as seqüências do EVA, que compara servidores de predição em uma base regular usando as seqüências depositadas semanalmente.

– Este foi o maior banco em que o SSpro 1.0 foi testado junto com outros servidores.

– Houve 76.00% de acerto no SSPro 1.0– Houve 77.65% de acerto no SSPro 2.0– Houve 63.31% de acerto no SSPro8 2.0

Page 31: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

O experimento - TESTES

• CASP4– O ultimo teste foi feito com as 40 seqüências

do CASP4 disponíveis em http://predictioncenter.llnl.gov/casp4/ que correspondem a 9047 resíduos.

– Houve 77.80% de acerto no SSPro 1.0– Houve 80.65% de acerto no SSPro 2.0

Page 32: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Resultados - SSpro• Em todos os casos, PSI-BLAST profiles

proveram uma melhora de pelo menos 1.5%. No conjunto EVA, SSpro 2.0 foi 77.7%. melhor que todos os outros sistemas avaliados.

• incidentalmente, treinando no perfil BLAST e testando no PSIBLAST também levou a melhora no desempenho, embora não muita.

Page 33: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Resultados – SSpro8• Aparentemente, a predição em oito

classes classes não melhorou a predição da estrutura secundária em três classes. entretanto, os resultados atuais são emcorajadores, pois os resultados tendem a melhorar com o aumento da quantidade de dados disponíveis.

Page 34: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Comparando com o CIN

• Combining only three neural networks, an average Q3 accuracy prediction by residues of 75,93% is achieved.

• For a second database, RS126, an average accuracy of 74,13%.

Page 35: Melhorando a Predição de estruturas secundárias de proteínas usando RN recorrentes e perfis. Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and

Conculões

• Foram desenvolvidos três preditores “state-of-the-art” para estrutura secundária em três e oito classes, usando um grupo de redes recorrentes bidirecionais e perfis PSIBLAST.

• Estimou-se o ganho atribuído ao uso de PSI-BLAST profiles sobre BLAST.