carlos montanari - nequimed.iqsc.usp.brnequimed.iqsc.usp.br/files/2015/03/a1-1.pdf · artificial...
TRANSCRIPT
-
03/03/2016
1
Carlos MontanariGrupo de Estudos em Química Medicinal
NEQUIMEDDepartamento de Química e Física Molecular
Instituto de Química de São Carlosemail: [email protected]
http://www.nequimed.iqsc.usp.br/
Carlos MontanariIQSC, 2016
-
03/03/2016
2
Bibliografia
1. Chemometrics : A Practical Guide (Wiley-Interscience Series on
Laboratory Automation) by Kenneth R. Beebe, Randy J. Pell,
Mary Beth Seasholtz “Wiley-Interscience (March 20, 1998)
2. Chemometrics : Data Analysis for the Laboratory and Chemical Plant
by Richard G. Brereton (John Wiley & Sons, April 4, 2003)
3. Nature-inspired methods in chemometrics: genetic algorithms and
artificial neural networks (Data Handling in Science and Technology)
by Riccardo Leardi. Elsevier Science (December 3, 2003)
4. Multi- and Megavariate Data Analysis: Principles and Applications
by L. Eriksson, E. Johansson, N. Kettaneh-Wold, and S. Wold (2001)
5. Chemometric Techniques for Quantitative Analysis
by Richard Kramer. Marcel Dekker (June 1, 1998)
Conteúdo
1. Mineração de dados
2. Estudo de casos
3. Produção e análise de dados
4. Construção de modelos
4.1Regressão, classificação, híbridos
5. Experimentos
6. Validação e interpretação
-
03/03/2016
3
Definições?Não tem uma definição universal!
1 "Chemometrics is the use of mathematical and statistical methods for handling, interpreting, and predicting chemical data."
Malinowski, E.R.. (1991) Factor Analysis in Chemistry, Second Edition, page 1.
2 "The entire process whereby data (e.g., numbers in a table) are transformed into information used for decision making."
Beebe, K. R., Pell, R. J., and M. B. Seasholtz. (1998) Chemometrics: A Practical Guide, page 1.
3 "Chemometrics is a chemical discipline that uses mathematics, statistics and formal logic
(a) to design or select optimal experimental procedures; (b) to provide maximum relevant chemical information by analyzing
chemical data; and (c) to obtain knowledge about chemical systems."
4 Massart, D.L., et al.. (1997) Data Handling in Science and Technology 20A: Handbook of Chemometrics and Qualimetrics Part A, page 1.
Quimiometria e Laboratórios Inteligentes
1.Ensaio (processos analíticos em tecnologia)2.Qualidade por planejamento
1.Programas acadêmicos e industriais3.Economia de custo e tempo4.Modelagem quantitativa
1.Quão efetivo é o processo de validação5.Otimização
-
03/03/2016
4
Tendência comportamental
TécnicasNão há uma técnica. Use várias em várias etapas!
Quimiometria não é estatística!
1. Pré-processamento
2. Seleção de variáveis
3. Análise de componentes principais (PCA)
4. Análise de agrupamentos (HCA)
5. Método do vizinho mais próximo (KNN)
1.K-means
6. Similaridade química por analogia (SIMCA)
7. Análise de regressão multivariada (MRA)
8. Análise dos mínimos quadrados parciais (PLS)
9. PCA-K-means
-
03/03/2016
5
Modelos
1 Procedimento guiado por teoria1.1 Sistemas complexos mal definidos
1.1.1. Conhecimento prévio insuficiente1.1.2. Informação prévia incerta sobre a estrutura do
modelo1.1.3. Conhecimento insuficiente sobre os fatores de
interferência
2. Procedimento guiado por dados2.1. Falta de conhecimento prévio sobre a
estrutura do modelo matemático
Problemas em predição
1. Grande coleção de dados
1.1. Mais variáveis do que objetos
1.1.1. Problema: dimensionalidade
2. Capacidade preditiva do modelo ruim
3. Resultado: extração irrelevante de conhecimento
-
03/03/2016
6
Quimiometria
1. Análise de dados:
1.1. Extração de informação dos dados químicos
2. Planejamento experimental:
2.1. Conteúdo de informação dos dados
3. Modelagem:
3.1. Investigação das relações complicadas
4. Obtenção de dados multivariados a partir de experimentos
X Y C
Variáveis Classe
1, 2, 3, ..., p 1, 2, 3, ..., r 1
Classes
-
03/03/2016
7
Estratégias quimiométricas
Dados Exploração de dados
OtimizaçãoRegressãoClassificação
Análise de agrupamentos
Experimentos
Planejamento experimental
Problema Objetivo
s
Hipótese
s
Modelo qualitativo Modelo quantitativo Modelo empírico
Medicinal Chemistry and Drug Discovery
SAR/SPR/STR
Data banks, Combinatorial
chemistryNatural products
Discovery,identification,
validation
Virtual and
Realcollections
In silico models(affinity/potency/ADME)Synthetic viability
Pharmacological screening, HTS
Cheminformatics
DrugLigandsBiological
Target Lead
Discovery andDevelopment
Identification and optimization
Clinical phases
Approval
Molecular biology
Bioinformatics
Pre-clinical studies
(Montanari et al. Burger's Medicinal Chemistry, Drug Discovery and Development. 7th Ed. 2010)
-
03/03/2016
8
Localização do modelo
1D
2D
3D
Coligativas
Estereodinâmica
Estereoeletrônica
InteraçãoLigante-receptor
Nova entidade química (NCE)
Mr < 500; H, C, N, O, P, S, F, Cl, Br
= 1062-64
Problema numeral
-
03/03/2016
9
Problema numeral...
Chemical Abstract >> 100.106
WDI > 90.103
1448 fármacos, 131 biofármacos e 85 nutracêuticos em uso terapêutico.+ 5080 fármacos experimentais
vs
-
03/03/2016
10
Quantificação da diversidade química
1. Responder às perguntas:
1. (i) Quanta diversidade está perdida
1. (ii) Quanta diversidade é necessária
2. Respostas:
2.(i) Calcular e medir propriedades:
Índices topológicos
Grupos funcionais
Lipofilia, etc.
2.(ii) Análise estatística multivariada
Quantificação
-
03/03/2016
11
Quantificação...1. Por exemplo: Extremos de uma
coleção de hexapeptídeos
1.1. 64 milhões de possibilidades!
1.1.1. Ac-Phe-Phe-Phe-Phe-Phe-Phe-NH2.
CLOG P= 5,5
1.1.2. Ac-Arg-Arg-Arg-Arg-Arg-Arg-NH2.
CLOG P = -13
Carregado: CLOG D = -37
Problema de representação
1.CNS
1.1. Pequena distribuição!
1.2. Diversidade química redundante!
2. Então,
2.1. REPRESENTAÇÃO.
Planejar série dentro do SSS
CLOG P
Número de Ocorrências
0-1 1-2 2-3 3-4 4-5 5-6
-
03/03/2016
12
1. Quantos grupos podem/devem ser usados
X possibilidades = X4 combinações
2. Quais grupos?
3. Todas as combinações são necessárias?
“Grupos-de-construção” dentro do SSS?
SÍNTESE COMBINATÓRIA
2. X = 166 subs.3. Síntese de 7,6.108
moléculas
1. X = 13 28.561!(X2 = 5 25)
N
N
R2
OR4
R3
R1
O que são elemento estrutural e descritor físico-químico?Qual é a relação com a
propriedade e atividade?
Propriedade Estrutura
Atividade
Atividade Propriedade
Estrutura
-
03/03/2016
13
Propriedade Estrutura
Atividade
Diagrama de Venn
Química do nosso século!
1. Quantos substâncias químicas existem? E, quais?
2. Chemical Abstract
– 11.000 substâncias/dia!
– 2.500 documentos/dia!
3. O problema não é somente obter informações, mas como
organizá-las!
-
03/03/2016
14
Como solucionar?
Quimiometria
Quimiometria sem equações (ou quase nenhuma) é designado para aqueles que desejam explorar o poder das ferramentas quimiométricas, mas são desencorajados pelo alto nível da matemática encontrados em muitos livros e manuais de software.
A ênfase da disciplina está na correta aplicação e interpretação de métodos quimiométricos para solucionar os problemas da vida real do químico.
O objetivo é ensinar da forma mais simples possível, para que os(as) alunos(as) tornem-se bons praticantes e gerentes em quimiometria.
Arieh Warshel, Prêmio Nobel de Química 2013