melhorando a predição de estruturas secundárias de proteínas usando rn recorrentes e perfis....

Post on 07-Apr-2016

219 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Melhorando a Predição de estruturas secundárias de

proteínas usando RN recorrentes e perfis.

Gianluca Pollastri, Darisz Przybylski, Burkhard Rost, and Pierre Baldi

Edson Filho

O Problema• Predizer estruturas terciárias (3D) e a

função de proteínas conhecendo apenas a sua estrutura primária (linear)

• Predição de estruturas– Predição da posição (relativa) espacial de cada

átomo na estrutura terciária gerada apenas do conhecimento da estrutura primária (seqüência)

Motivação

• Por que predizer estruturas de proteínas?

– A predição de estruturas pode ser usada na criação de drogas

– Pode ser usada para entender efeitos das mutações em estruturas e funções

Motivação• Por que predizer a estrutura?

– Atualmente conhecemos cerca de 350.000 seqüências e apenas 11.000 estruturas*.

– O conhecimento estrutural ajuda a conhecer a função e o mecanismo de ação da proteína.

• *D.R. Westhead,2002

Motivação

• Genome sequencing projects– generate large quantities of genomic

sequences– BUT what does it mean?

• Prediction of protein sequence, structure and function can give clue

• Predictions can be verified experimentally– often slow

Motivação

• Paradigma evolucionário– Se pudermos mostrar que uma seqüência de

uma função(estrutura) desconhecida é similar a uma ou mais estruturas(funções) conhecidas então elas têm detalhes estruturais(funcionais) comuns entre elas.

Artifícios

• Profile Analysis • BLAST• PSIBLAST• Redes Neurais Recorrentes• Secondary Structure Prediction• DSSP

What is a Profile?• A profile is a position-dependent scoring

matrix that has N rows and 20+ columns. N is the length of the profile. The first 20 columns of each row specify the probability for finding, at that position in the target sequence, each of the 20 amino acid residues. The >20 column(s) contain(s) a penalty (penalties) for insertions / deletions at that position. Specifically, the Mkj element of the profile is the score for jth amino acid (or gap) at kth position of the sequence.

Profile analysis: detection of distantly related proteins

• Profile analysis é um método para detectar proteínas remotamente relacionadas usando comparação de seqüências. A base para comparação é a distância mutacional mais o resultados de estudos estruturais e a informação implícita no alinhamento de seqüência de proteínas de famílias similares.

Profile analysis: detection of distantly related proteins (cont.)

• Esse método possui duas diferenças básicas em relação aos métodos de comparação convencionais: – Qualquer número de seqüências podem ser usados

para construir o perfil, considerando assim mais informação.

– O perfil inclui penalidades para inserção ou deleção para cada posição. Isso permite incluir a prova da estrutura secundária no esquema de teste.

• Gribskov M, McLachlan AD, Eisenberg D.

PSI-BLAST

• Position-Specific Iterative BLAST. Uma busca iterativa usando BLAST. Um perfil é construído a partir de uma busca inicial, este é então usado em buscas subsequentes.

• O processo pode ser repetido, com as novas seqüências encontradas em cada ciclo para refinar o perfil. (Altschul et al.)

DSSP Program

• Função:– Definition of secondary structure of proteins

given a set of 3D coordinates• Descrição:

– The DSSP program defines secondary structure, geometrical features and solvent exposure of proteins, given atomic coordinates in Protein Data Bank format.

– The program does NOT PREDICT protein structure.

Como funciona o DSSP

• DSSP works by assigning potential backbone hydrogen bonds (based on the 3D coordinates of the backbone atoms) and subsequently by identifying repetitive bonding patterns.

Estrutura Secundária• 8 classes

– H - alpha helix – B - residue in isolated betabridge – E - extended strand, participates in beta ladder– G - 3-helix [3/10 helix]– I - 5 helix [pi helix] – T - hydrogen bonded turn – S - bend – “.”

• 3 classes:– helices, strands, and coils

O que são RNA

• São modelos computacionais com propriedades de adaptação, agrupamento e generalização.

• Estruturas distribuídas formadas por um grande número de unidades de processamento conectadas entre si e inspiradas no neurônio biológico.

Redes Neurais Recorrentes• RNR são redes neurais com realimentação

(Feedback), isto é, redes com "feedback" são aquelas cujo grafo de conectividade contém pelo menos um ciclo.

RNR - Exemplo

Por que utilizar as RNs? • habilidade de tratar sistemas não-lineares:

relevante na classificação de padrões; • tolerância a falhas: o conhecimento é

distribuído pela RN, mais que em uma simples localização de memória.

• adaptabilidade: Os aspectos de aprendizado, auto-organização, generalização e treinamento estão intrinsecamente ligados a esta característica;

• aprendizado: uma RN pode modificar seu comportamento em resposta ao ambiente.

Por que utilizar as RNs?• generalização: consiste na RN mapear

entradas similares em saídas similares • treinamento: é a forma pela qual a RN aprende • processamento paralelo: as RNs são

estruturalmente paralelas. A seqüência de processamento das RNs é realizada em paralelo e simultaneamente

• abstração: muitas RNs são capazes de abstrair a essência de um conjunto de entradas

Aplicações de RNR

• Sequence Recognition and Classication: the net produces a particular output pattern once the whole input sequence is seen.

• Sequence Reproduction and Prediction: the net can generate the rest of a sequence when it sees part of it.

• Temporal Association: the net will produce an output sequence in response to a specic input sequence.

O experimento

• Segunda versão do SSpro para classificação secundária nas classes padrões (hélice, corda e cilindro).

• Primeira versão do SSpro8 para classificação secundária em oito classes.

• Ambos podem ser encontrados em: http://promoter.ics.uci.edu/BRNN-PRED/

O experimento

• Quatro conjuntos de dados foram usados para desenvolver e testar a aplicação sendo um para treinamento(TRAIN) e três para teste(R126, EVA, and CASP4)

• Mesmo conjunto de treinamento do SSpro 1.0

O conjunto de Treinamento

• at least 30 amino acids long• have no chain breaks • Produce a DSSP output• are obtained by X-ray diffraction methods

with a resolution of at least 2.5 Å.• The resulting training set consists of 1180

sequences corresponding to 282,303 amino acids.

O experimento

• Profiles (Perfis)– Para tentar melhorar, foi usado tanto o perfil

BLAST quanto o PSIBLAST considerados na entrada. Usar perfis no nível de entrada geralmente têm melhorado a precisão que quando usados na saída.

O experimento

• BLAST– Os perfis de entrada para o SSpro 1.0

foram construidos inicialmente rodando o BLAST sobre o banco não redundante(NR) com os parâmetros default. A versão usada era a disponível em Outubro de 1999 e continha aproximadamente 420.000 seqüências de proteínas.

O experimento

• PSI-BLAST– Foram derivados novos perfis

alinhando todas as proteínas do banco NR usando o PSIBLAST.

O experimento

• Recurrent Neural Network Architectures – Foi proposta uma classe de rede neural

recorrente que pode atenuar algumas limitações das redes feed-forward. Nessas redes foram usadas pequenas janelas de entrada de tamanho fixo.

O experimento - TESTES

• R126– O primeiro teste independente, foi

usado o conjunto original de 126 seqüências de Rost and Sander, atualmente correspondendo a um total de 23.363 posições de aminoácidos.

– Houve 76.62% de acerto no SSPro 1.0– Houve 78.13% de acerto no SSPro 2.0– Houve 62.58% de acerto no SSPro8 2.0

O experimento - TESTES• EVA

– Um novo teste se tornou possível, graças as seqüências do EVA, que compara servidores de predição em uma base regular usando as seqüências depositadas semanalmente.

– Este foi o maior banco em que o SSpro 1.0 foi testado junto com outros servidores.

– Houve 76.00% de acerto no SSPro 1.0– Houve 77.65% de acerto no SSPro 2.0– Houve 63.31% de acerto no SSPro8 2.0

O experimento - TESTES

• CASP4– O ultimo teste foi feito com as 40 seqüências

do CASP4 disponíveis em http://predictioncenter.llnl.gov/casp4/ que correspondem a 9047 resíduos.

– Houve 77.80% de acerto no SSPro 1.0– Houve 80.65% de acerto no SSPro 2.0

Resultados - SSpro• Em todos os casos, PSI-BLAST profiles

proveram uma melhora de pelo menos 1.5%. No conjunto EVA, SSpro 2.0 foi 77.7%. melhor que todos os outros sistemas avaliados.

• incidentalmente, treinando no perfil BLAST e testando no PSIBLAST também levou a melhora no desempenho, embora não muita.

Resultados – SSpro8• Aparentemente, a predição em oito

classes classes não melhorou a predição da estrutura secundária em três classes. entretanto, os resultados atuais são emcorajadores, pois os resultados tendem a melhorar com o aumento da quantidade de dados disponíveis.

Comparando com o CIN

• Combining only three neural networks, an average Q3 accuracy prediction by residues of 75,93% is achieved.

• For a second database, RS126, an average accuracy of 74,13%.

Conculões

• Foram desenvolvidos três preditores “state-of-the-art” para estrutura secundária em três e oito classes, usando um grupo de redes recorrentes bidirecionais e perfis PSIBLAST.

• Estimou-se o ganho atribuído ao uso de PSI-BLAST profiles sobre BLAST.

top related