metodologias de classificação supervisionada para análise de dados de microarrays
DESCRIPTION
Centro de Estatística e Aplicações da Universidade de Lisboa. Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays. Sílvia Pedro Rebouças [email protected]. 20/02/2010. Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/1.jpg)
Metodologias de Metodologias de Classificação Classificação
Supervisionada para Supervisionada para Análise de Dados de Análise de Dados de
MicroarraysMicroarrays
Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL)
Co-orientadora: Professora Doutora Ana Pires ( CEMAT, IST-UTL)
20/02/2010
Centro de Estatística e Aplicações da Universidade de Lisboa
Sílvia Pedro Rebouças
![Page 2: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/2.jpg)
1. Introdução2. Objectivos3. Estado da arte4. Aplicação5. Referências bibliográficas
CEAUL Sílvia Pedro Rebouças
SumárioSumário
20/02/2010 2
![Page 3: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/3.jpg)
Monitorização do nível de expressão de milhares de genes em simultâneo, através
de microarrays.
CEAUL Sílvia Pedro Rebouças
1. Introdução1. Introdução
20/02/2010 3
Biologia
EstatísticaAprendizagem
Automática
Necessidade de tratar conjuntos de dados complexos, com um número muito elevado de variáveis (p) para um número geralmente reduzido de observações (n).
![Page 4: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/4.jpg)
Os estudos desenvolvidos na área da análise de dados de microarrays tentam dar resposta a 3 questões fundamentais (Stekel, 2003):
◦ Quais os genes com expressão diferencial num conjunto de dados relativamente a outro?
◦ Quais as relações presentes entre os genes ou entre os indivíduos em estudo?
◦Como classificar indivíduos tendo por base as suas medidas de expressão genética?
CEAUL Sílvia Pedro Rebouças 20/02/2010 4
ClassificaçãoClassificação
SupervisionadaSupervisionadaNão
supervisionada
![Page 5: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/5.jpg)
Classificação Supervisionada:
◦ X é uma matriz contendo a informação referente à quantificação da expressão de p genes para n indivíduos.
◦ xij representa o nível de expressão do j-ésimo gene
(variável) para o i-ésimo indivíduo (observação).
◦ yi identifica o grupo a que pertence o indivíduo.
◦ Para cada indivíduo têm-se xi = (xi1, ..., xip) e yi.
◦ Pretende-se treinar classificadores numa amostra de modelação (learning set)
L = {(x1, y1), …, (xnL, ynL)}
e utilizá-los para classificar novas amostras, denominadas amostras de validação ou teste (test set)
T = {x1, …, xnT}CEAUL Sílvia Pedro Rebouças 20/02/2010 5
![Page 6: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/6.jpg)
CEAUL Sílvia Pedro Rebouças
2. Objectivos2. Objectivos
20/02/2010 6
Objectivo geral:Implementar, testar e comparar técnicas de classificação supervisionada aplicadas à análise de dados de microarrays.
Objectivos específicos:◦ Implementar, testar e comparar técnicas de:
Pré-processamento Normalização Imputação de valores omissos Redução de dimensionalidade
Classificação supervisionada 2 grupos ou mais Séries temporais
Avaliação da qualidade do ajustamento e da capacidade preditiva
![Page 7: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/7.jpg)
CEAUL Sílvia Pedro Rebouças 20/02/2010 7
◦ Desenvolver aplicações em R: A Language and Environment for Statistical Computing (http://www.R-project.org) capazes de implementar os métodos propostos;
◦ Contribuir para a definição de linhas orientadoras no que diz respeito à escolha da(s) técnica(s) mais adequada(s) de classificação supervisionada de dados de microarrays;
◦ Aplicar as várias técnicas de Data Mining a conjuntos de dados reais de microarrays, na área da saúde, contribuindo para o avanço da investigação nesta área.
![Page 8: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/8.jpg)
Métodos de classificação supervisionada aplicados a dados de microarrays:
◦ Análise discriminante linear de Fisher, linear diagonalizada e quadrática (Lee et al., 2005);
◦ Regressão logística penalizada (Liao & Chin, 2007);
◦ Árvores de classificação (Boulesteix & Tutz, 2006);◦ Modelos Bayesianos (Roth & Lange, 2004);◦ Vizinhos mais próximos (Boulesteix & Tutz, 2006);◦ Médias difusas (Asyali et al., 2005);◦ Modelos factoriais de misturas (Martella, 2006);◦ Redes neuronais artificiais (O’Neill & Song, 2003);◦ Máquinas de suporte vectorial (Pirooznia & Deng,
2006). CEAUL Sílvia Pedro Rebouças
3. Estado da arte3. Estado da arte
20/02/2010 8
![Page 9: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/9.jpg)
Estudos comparativos: Dudoit et al. (2002) e Lee et al. (2005) Estudos de revisão: Boulesteix et al. (2008) e Dupuy & Simon (2007) Classificação em mais do que 2 grupos: Li et al. (2004), Boulesteix &
Tutz (2006) e Kim et al. (2006)
A elevada dimensionalidade dos dados de microarrays tornam a aplicação dos métodos de classificação morosa e por vezes inviável, requerendo uma redução prévia de dimensionalidade.
Métodos de selecção de genes:◦ Selecção de genes com expressão diferencial
teste t, teste de Mann-Whitney, Análise de Variância ou teste de Kruskall-Wallis;
False Discovery Rate (Benjamini & Hochberg, 1995); Métodos bayesianos (Antunes & Sousa, 2008).
◦ Algoritmos moleculares (Ooi & Tan, 2003) Métodos de redução de dimensionalidade:
◦ Análise de componentes principais;◦ Método dos mínimos quadrados parciais (Nguyen & Rocke, 2004);◦ Padrões de interacção (Boulesteix & Tutz, 2006).
CEAUL Sílvia Pedro Rebouças 20/02/2010 9
![Page 10: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/10.jpg)
A aplicação de metodologias de classificação supervisionada a dados temporais de microarrays é uma área emergente na genómica funcional, que constitui uma importante fonte de informação para o conhecimento dos processos biológicos e para o desenvolvimento de fármacos e terapêuticas eficientes.
Classificação supervisionada aplicada a dados temporais de microarrays: Laegreid et al. (2003), Liang and Kelemen (2004), Liang and Kelemen (2005) e Tucker et al. (2005)
Pré-processamento de dados temporais de microarrays: Liang et al. (2005)
Esta é uma área pouco estudada e um desafio do ponto de vista estatístico!
CEAUL Sílvia Pedro Rebouças 20/02/2010 10
![Page 11: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/11.jpg)
CEAUL Sílvia Pedro Rebouças
4. Aplicação4. Aplicação
20/02/2010 11
Aplicação realizada no Curso de Formação Avançada:◦ Bases de dados:
Leucemia (Golub et al., 1999) Cancro do cólon (Alon et al., 1999)
◦ Métodos de classificação aplicados (biblioteca do R): Regressão logística penalizada (GeneLogit) Àrvores de classificação (tree) Redes neuronais (nnet) Classificador dos vizinhos mais próximos (class)
◦ Pré-processamento: Método 1: thresholding, filtragem e transformação
logarítmica de base 10 (Dudoit et al., 2002) Método 2: Selecção dos genes com expressão diferencial
(teste t)
![Page 12: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/12.jpg)
CEAUL Sílvia Pedro Rebouças 20/02/2010 12
◦ Resultados: Leucemia (modelação: 38 ind., validação: 34 ind. )
Método de classificaçãoPré-proces-
samentoNúmero de
genes
Proporção de erros na amostra de modelação
Proporção de erros na amostra de validação
Regressão logística penalizadaMét. 1 3571 (q = 20) 0,0000 0,0294
Méts. 1 e 2 471 (q = 20) 0,0526 0,0588
Árvore de classificaçãoMét. 1 3571 0,0000 0,0882
Méts. 1 e 2 471 0,0526 0,2647
Rede neuronal (Perceptrão simples)
Mét. 1 e 2 471 0,0000 0,2059
Mét. 1 1 0,0000 0,0882
Mét. 1 2 0,1053 0,0882
Rede neuronal (5un) Mét. 1 2 0,0000 0,2059
Classificador vizinhos mais
próximos
k = 1 Mét. 1 e 2 471 0,0000 0,0882
k = 4 Mét. 1 e 2 471 0,0526 0,0000
k = 3 Mét. 1 3571 0,0000 0,0294
![Page 13: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/13.jpg)
CEAUL Sílvia Pedro Rebouças 20/02/2010 13
Cancro do cólon (modelação: 31 ind., validação: 31 ind. )
Método de classificaçãoPré-proces-
samentoNúmero de
genes
Proporção de erros na amostra de modelação
Proporção de erros na amostra de validação
Regressão logística penalizada
Nenhum 2000 (q = 2) 0,0645 0,1935Mét. 1 1224 (q = 2) 0,3226 0,3871Mét. 2 60 (q = 2) 0,0645 0,2581
Méts. 1 e 2 43 (q = 2) 0,3226 0,3871
Árvore de classificação
Nenhum 2000 0,0526 0,3226Mét. 1 1224 0,0645 0,3226Mét. 2 60 0,0645 0,3226
Méts. 1 e 2 43 0,0645 0,3226
Rede neuronal (Perceptrão simples)
Mét. 1 2 0,0968 0,1613Mét. 2 60 0,1935 0,3226
Méts. 1 e 2 43 0,0000 0,3871
Rede neuronal com 5 unidades na camada escondida
Mét. 1 2 0,0000 0,2903Mét. 2 60 0,1290 0,3871
Méts. 1 e 2 43 0,0323 0,3548
Classificador vizinhos mais
Próximos
k = 1 Nenhum 2000 0,0000 0,1481k = 1 Mét. 1 1224 0,0000 0,1935k = 1 Mét. 2 60 0,0000 0,2258k = 1 Mét. 1 e 2 43 0,0000 0,2258
![Page 14: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/14.jpg)
CEAUL Sílvia Pedro Rebouças 20/02/2010 14
Cancro do cólon (modelação: 40 ind., validação: 22 ind. )
Método de classificaçãoPré-proces-
samentoNúmero de
genes
Proporção de erros na amostra de modelação
Proporção de erros na amostra de validação
Regressão logística penalizada
Nenhum 2000 (q = 2) 0,1000 0,3636
Mét. 1 1224 (q = 2) 0,0750 0,6818
Mét. 2 86 (q = 2) 0,1250 0,1364
Méts. 1 e 2 64 (q = 2) 0,3750 0,6818
Árvore de classificação
Nenhum 2000 0,0750 0,4091
Mét. 1 1224 0,0750 0,4091
Mét. 2 86 0,0750 0,4091
Méts. 1 e 2 64 0,0750 0,4091
Rede neuronal (Perceptrão simples)
Mét. 1 3 0,0750 0,4091
Mét. 2 86 0,0000 0,5909
Méts. 1 e 2 64 0,0250 0,3636
Rede neuronal com 5 unidades na camada escondida
Mét. 1 3 0,0500 0,3636
Mét. 2 86 0,0250 0,3636
Méts. 1 e 2 64 0,0500 0,3636
Classificador vizinhos mais
Próximos
k = 1 Nenhum 2000 0,0000 0,2273
k = 1 Mét. 1 1224 0,0000 0,1818
k = 1 Mét. 2 86 0,0000 0,2727
k = 1 Mét. 1 e 2 64 0,0000 0,1818
![Page 15: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/15.jpg)
CEAUL Sílvia Pedro Rebouças 20/02/2010 15
◦ Conclusões: A regressão logística penalizada é suportada por
uma teoria matemática sólida e apresenta bom desempenho, contudo, o algoritmo proposto por Liao & Chin (2007) e implementado na biblioteca GeneLogit revelou-se computacionalmente muito intenso e moroso.
As árvores de classificação apresentam boas capacidades de ajustamento recorrendo a poucas variáveis. Têm como principal atractivo a facilidade de interpretação.
As redes neuronais são um método emergente e com bom desempenho, contudo, o uso de camadas escondidas conduziu geralmente a problemas de sobreaprendizagem. O número de pesos a estimar nos dados de microarrays ultrapassam as capacidades computacionais da biblioteca nnet.
![Page 16: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/16.jpg)
CEAUL Sílvia Pedro Rebouças 20/02/2010 16
O classificador dos vizinhos mais próximos, apesar de muito simples, revelou-se um método com excelente desempenho.
Alguns dos genes com maior poder explicativo não apresentam expressão diferencial. A selecção de genes com expressão diferencial pode não ser a melhor forma de lidar com a elevada dimensionalidade dos dados.
Como continuação deste trabalho, está planeado ensaiar e avaliar a aplicação de técnicas multivariadas de redução de dimensionalidade, entre as quais, a análise de componentes principais robusta.
Os resultados diferem consoante a divisão efectuada nas bases de dados em amostra de modelação e amostra de validação, pelo que, pretende-se aplicar em trabalhos futuros o método da validação cruzada para evitar este problema.
![Page 17: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/17.jpg)
CEAUL Sílvia Pedro Rebouças 20/02/2010 17
Principais linhas de investigação futura
◦ Metodologias de redução de dimensionalidade
Análise de Componentes Principais Robustas (Branco & Pires, 2009)
◦ Análise comparativa de métodos de classificação supervisionada
◦ Classificação supervisionada de dados temporais de microarrays
![Page 18: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/18.jpg)
CEAUL Sílvia Pedro Rebouças
5. Referências 5. Referências bibliográficasbibliográficas
20/02/2010 18
Alon, U.; Barkai, N.; Notterman, D.; Gish, K.; Ybarra, S.; Mack, D. & Levine, A. (1999) Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays, Proc. Natl. Acad. Sci. USA, 96, 6745-6750.
Antunes, M. & Sousa, L. (2008) Bayesian classification and non-bayesian label estimation via EM algorithm to identify differentially expressed genes: a comparative study, Biometrical Journal, 50 (5), 824-836.
Asyali, M. & Alci, M. (2005) Reliability analysis of microarray data using fuzzy c-means and normal mixture modelling based classification Methods, Bioinformatics, 21, 644-649.
Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing, Journal of the Royal Statistical Society, Series B, 57, 289 -300.
Boulesteix, A.-L.; Strobl, C.; Augustin, T. & Daumer, M. (2008) Evaluating microarray-based classifiers: An overview, Cancer Informatics, 6, 77-97.
![Page 19: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/19.jpg)
20/02/2010
CEAUL Sílvia Pedro Rebouças 19
Boulesteix, A.-L. & Tutz, G. (2006) Identification of interaction patterns and classification with applications to microarray data, Computational Statistics & Data Analysis, 50, 783-802.
Branco, J.A. & Pires, A.M. (2009) Robust principal component analysis for high-dimensional data. Trabalho submetido.
Dudoit, S.; Fridlyand, J. & Speed, T. (2002) Comparison of discrimination methods for the classification of tumours using gene expression data, Journal of the American Statistical Association, 97 (457), 77-87.
Dupuy, A. & Simon, R. (2007) Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting, Journal of National Cancer Institute, 99, 147-157.
Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J., Coller, H., Loh, M., Downing, J., Caligiuri, M., Bloomfield, C. & Lander, E. (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 286, 531-537.
Kim, Y.; Kwon, S. & Song, S. (2006) Multiclass sparse logistic regression for classification of multiple cancer types using gene expression data, Computational Statistics & Data Analysis, 51, 1643-1655.
![Page 20: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/20.jpg)
20/02/2010
CEAUL Sílvia Pedro Rebouças 20
Laegreid, A.; Hvidsten, T.; Midelfart, H. et al. (2003) Predicting gene ontology biological process from temporal gene expression patterns, Genome Research, 13, 965-979.
Lee, J.; Lee, J.; Park, M. & Song, S. (2005) An extensive comparison of recent classification tools applied to microarray data, Computational Statistics & Data Analysis, 48, 869-885.
Li, T.; Zhang, C. & Ogihara, M. (2004) A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression, Bioinformatics, 20, 15, 2429-2437.
Liang, Y. and Kelemen, A. (2004) Hierarchical Bayesian neural network for gene expression temporal patterns, Statistical Applications in Genetics and Molecular Biology, 3 (1), article 20.
Liang, Y. and Kelemen, A. (2005) Temporal gene expression classification with regularised neural networks, International Journal of Bioinformatics Research and Applications, 1 (4), 399-413.
Liao, J. & Chin, K.-V. (2007) Logistic regression for disease classification using microarray data: model selection in a large p and small n, Bioinformatics, 23, 1945-1951.
Martella, F. (2006) Classification of microarray data with factor mixture models, Bioinformatics, 22, 2, 202-208.
![Page 21: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays](https://reader035.vdocuments.site/reader035/viewer/2022062322/5681487e550346895db58826/html5/thumbnails/21.jpg)
20/02/2010
CEAUL Sílvia Pedro Rebouças 21
Nguyen, D. & Rocke, D. (2004) On partial least squares dimension reduction for microarray-based classification: a simulation study, Computational Statistics & Data Analysis, 46, 407-425.
O’Neill, M. & Song, L. (2003) Neural network analysis of lymphoma microarray data: prognosis and diagnosis near-perfect, BMC Bioinformatics, 4: 13.
Ooi, C. & Tan, P. (2003) Genetic algorithms applied to multi-class prediction for the analysis of gene expression data, Bioinformatics, 19 (1), 37-44.
Pirooznia, M. & Deng, Y. (2006) SVM classifier – a comprehensive Java interface for support vector machine classification of microarray data, BMC Bioinformatics, 7, Suppl 4, S25.
Roth, V. & Lange, T. (2004) Bayesian class discovery in microarray datasets, IEEE Transactions on Biomedical Engineering, 51, 5, 707-718.
Stekel, D. (2003) Microarray Bioinformatics, Cambridge University Press.
Tucker, A.; Vinciotti, V.; Hoen, P. and Liu, X. (2005) Bayesian Network Classifiers for Time-Series Microarray Data, Inteligent Data Analysis, Lecture Notes in Computer Science, 3646, 475-485.