grupo de estudos em química medicinal departamento de...
TRANSCRIPT
Carlos MontanariGrupo de Estudos em Química Medicinal
NEQUIMEDDepartamento de Química e Física Molecular
Instituto de Química de São Carlosemail: [email protected]
http://www.nequimed.iqsc.usp.br/
Bibliografia
1. Chemometrics : A Practical Guide (Wiley-Interscience Series on
Laboratory Automation) by Kenneth R. Beebe, Randy J. Pell,
Mary Beth Seasholtz “Wiley-Interscience (March 20, 1998)
2. Chemometrics : Data Analysis for the Laboratory and Chemical Plant
by Richard G. Brereton (John Wiley & Sons, April 4, 2003)
3. Nature-inspired methods in chemometrics: genetic algorithms and
artificial neural networks (Data Handling in Science and Technology)
by Riccardo Leardi. Elsevier Science (December 3, 2003)
4. Multi- and Megavariate Data Analysis: Principles and Applications
by L. Eriksson, E. Johansson, N. Kettaneh-Wold, and S. Wold (2001)
5. Chemometric Techniques for Quantitative Analysis
by Richard Kramer. Marcel Dekker (June 1, 1998)
Conteúdo
1. Mineração de dados
2. Estudo de casos
3. Produção e análise de dados
4. Construção de modelos
4.1Regressão, classificação, híbridos
5. Experimentos
6. Validação e interpretação
Definições?
1 "Chemometrics is the use of mathematical and statistical methods for handling, interpreting, and predicting chemical data."
Malinowski, E.R.. (1991) Factor Analysis in Chemistry, Second Edition, page 1.
2 "The entire process whereby data (e.g., numbers in a table) are transformed into information used for decision making."
Beebe, K. R., Pell, R. J., and M. B. Seasholtz. (1998) Chemometrics: A Practical Guide, page 1.
3 "Chemometrics is a chemical discipline that uses mathematics, statistics and formal logic
(a) to design or select optimal experimental procedures; (b) to provide maximum relevant chemical information by analyzing
chemical data; and (c) to obtain knowledge about chemical systems."
4 Massart, D.L., et al.. (1997) Data Handling in Science and Technology 20A: Handbook of Chemometrics and Qualimetrics Part A, page 1.
AplicaçõesBiologia, engenharia química, medicina, química analítica,
química forense, química medicinal...
1. Processamento de imagens, segmentação e
análise
2. Classificação e análise de sinais de radar
3. Reconhecimento facial
4. Reconhecimento e entendimento da fala
5. Identificação de impressão digital
6. Reconhecimento do caráter
7. Classificação de cerâmica em sítios pré-clássicos
8. Reconhecimento da escrita
9. Análise e entendimento dos sinais de eletrocardiografia
10.Diagnose médica
11.Mineração de dados
12.Análise sísmica
13.Reconhecimento de padrões.
Relações entre amostras: pacientes, alimentos, organismos,
colunas cromatográficas, madeira, água, cachaça, espectros.
Entre variáveis: concentração de compostos, picos espectrais,
testes
cromatográficos (formato do pico, similaridade de compostos, pHs
e fases móveis diferentes), composição elementar
Exemplos1. Medicina: toxicologia
2. Genotipagem: biotecnologia
3. Produção de comprimidos (formulações): medicamentos
4. Biologia: cheiro típico de animais
5. Cromatografia: classificação de colunas
6. Análise de materiais: plástico (mudança de fase – análise
térmica)
7. Deteção de drogas ilegais (cocaína, canabis, heroína,
ecstasy). Espectrometria de massas tandem (deteção de 2
íons por droga)
8. Monitorar reações (desenvolvimento de novas reações,
otimização de reações, processo de manufatura).
Indústrias química e farmacêutica
TécnicasNão há uma técnica. Use várias em várias etapas!
Quimiometria não é estatística!
1. Pré-processamento
2. Seleção de variáveis
3. Análise de componentes principais
4. Análise de agrupamentos
5. Análise discriminatória
6. Simplex
7. MRA
8. PLS
9. KNN
10.SIMCA
11.Redes Neurais
Modelos
1 Procedimento guiado por teoria1.1 Sistemas complexos mal definidos
1.1.1. Conhecimento prévio insuficiente1.1.2. Informação prévia incerta sobre a estrutura
do modelo1.1.3. Conhecimento insuficiente sobre os fatores
de interferência
2. Procedimento guiado por dados2.1. Falta de conhecimento prévio sobre a
estrutura do modelo matemático
Problemas em predição
1. Grande coleção de dados
1.1. Mais variáveis do que objetos
1.1.1. Problema: dimensionalidade
2. Capacidade preditiva do modelo ruim
3. Resultado: extração irrelevante de conhecimento
Quimiometria
1. Análise de dados:
1.1. Extração de informação dos dados químicos
2. Planejamento experimental:
2.1. Conteúdo de informação dos dados
3. Modelagem:
3.1. Investigação das relações complicadas
4. Obtenção de dados multivariados a partir de experimentos
Estratégias quimiométricas
Dados Exploração de dados
OtimizaçãoRegressãoClassificação
Análise de agrupamentos
Experimentos
Planejamento experimental
Problema Objetivo
s
Hipótese
s
Modelo qualitativo Modelo quantitativo Modelo empírico
Localização do modelo
1D
2D
3D
Coligativas
Estereodinâmica
Estereoeletrônica
InteraçãoLigante-receptor
Problema ontológico(Como dividir os compostos para ter homogeneidade)
3 - M e t h y l - p e n t - 2 - o n e
3 - M e t h y l - c y c l o p e n t a n o n e
M e t h y l - h e x a n o n e
A c e t i c a c i d
6 - M e t h y l - h e p t - 5 - e n - 2 - o n e
3 - M e t h y l - h e x a n a l
N o n a n - 2 - o n e
E U n d e c - 2 - e n - 1 - o l
N o n a n - 4 - o n e
H e p t a n a l
P h e n o l
2 - E t h y l - h e x a n - 1 - o l
M e t h y l i s o b u t a n o n e
1 - M e t h y l - p y r r o l e
p - X y l e n e
T r i m e t h y l - p y r a z i n e
2 , 5 - D i m e t h y l - p y r a z i n e
1 - P h e n y l - p r o p a n - 2 - o n e
1 - E t h y l - 3 - M e t h y l - b e n z e n e
1 , 3 - D i m e t h y l - b e n z e n e
H e x a n - 2 - o n e
2 - P r o p e n y l i d e n e - c y c l o b u t e n e
2 - E t h e n y l - 6 - m e t h y l - p y r a z i n e
D e c a n a l
H e p t a n - 2 - o n e
E t h y l - b e n z e n e
N o n - 2 - e n - 4 - o n e
B e n z a l d e h y d e
O c t a n a l
P e n t a n - 2 - o n e
H e x a n a l
3 - E t h y l - c y c l o p e n t a n - 1 - o n e
N o n a n a l
- 0 . 3
- 0 . 2
- 0 . 1
0
0 . 1
0 . 2
0 . 3
0 . 4
- 0 . 3 - 0 . 2 - 0 . 1 0 0 . 1 0 . 2 0 . 3 0 . 4
Pesos (loadings): impressão digital química
(aldeídos, aromáticos, cetonas)
Quantificação da diversidade química
1. Responder às perguntas:
1. (i) Quanta diversidade está perdida
1. (ii) Quanta diversidade é necessária
2. Respostas:
2.(i) Calcular e medir propriedades:
Índices topológicos
Grupos funcionais
Lipofilia, etc.
2.(ii) Análise estatística multivariada
Quantificação...
1. Por exemplo: Extremos de uma coleção de hexapeptídeos
1.1. 64 milhões de possibilidades!
1.1.1. Ac-Phe-Phe-Phe-Phe-Phe-Phe-NH2.
CLOG P= 5,5
1.1.2. Ac-Arg-Arg-Arg-Arg-Arg-Arg-NH2.
CLOG P = -13
Carregado: CLOG D = -37
Problema de representação
1.CNS
1.1. Pequena distribuição!
1.2. Diversidade química redundante!
2. Então,
2.1. REPRESENTAÇÃO.
Planejar série dentro do SSS
CLOG P
Número de Ocorrências
0-1 1-2 2-3 3-4 4-5 5-6
1. Quantos grupos podem/devem ser usados
u X possibilidades = X4 combinações
2. Quais grupos?
3. Todas as combinações são necessárias?
“Grupos-de-construção” dentro do SSS?
SÍNTESE COMBINATÓRIA
2. X = 166 subs.3. Síntese de 7,6.108
moléculas
1. X = 13 28.561!(X2 = 5 25)
N
N
R 2
OR 4
R 3
R 1
Escolha de descritores
Problema de Buffon: probabilidade da agulha aterrissar sobre a linha
Comprimento
Cor
Composição
Textura
Orientação
Métodos
1. Análise 1D
2. Outras dimensões requerem técnicas de decomposiçãoRegressão múltipla
PCA
PLS
...
3. Objetivos: conectar os descritores com elementos estruturais para interpolar e extrapolar dados
O que são elemento estrutural e descritor físico-químico?
Qual é a relação com a atividade?
Propriedade Estrutura
Atividade
Atividade Propriedade
Estrutura
Química do século XXI!
1. Quantos substâncias químicas existem? E, quais?
2. Chemical Abstract
– 679.837/ano!
– 1862/dia
Perca 30 dias e você estará atrás de 55.860 substâncias!
3. O problema não é somente obter informações, mas como
organizá-las!