grupo de estudos em química medicinal departamento de...

37
Carlos Montanari Grupo de Estudos em Química Medicinal NEQUIMED Departamento de Química e Física Molecular Instituto de Química de São Carlos email: [email protected] http://www.nequimed.iqsc.usp.br/

Upload: buikiet

Post on 13-Feb-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

Carlos MontanariGrupo de Estudos em Química Medicinal

NEQUIMEDDepartamento de Química e Física Molecular

Instituto de Química de São Carlosemail: [email protected]

http://www.nequimed.iqsc.usp.br/

Quimiometria

Carlos MontanariIQSC, 2012

Bibliografia

1. Chemometrics : A Practical Guide (Wiley-Interscience Series on

Laboratory Automation) by Kenneth R. Beebe, Randy J. Pell,

Mary Beth Seasholtz “Wiley-Interscience (March 20, 1998)

2. Chemometrics : Data Analysis for the Laboratory and Chemical Plant

by Richard G. Brereton (John Wiley & Sons, April 4, 2003)

3. Nature-inspired methods in chemometrics: genetic algorithms and

artificial neural networks (Data Handling in Science and Technology)

by Riccardo Leardi. Elsevier Science (December 3, 2003)

4. Multi- and Megavariate Data Analysis: Principles and Applications

by L. Eriksson, E. Johansson, N. Kettaneh-Wold, and S. Wold (2001)

5. Chemometric Techniques for Quantitative Analysis

by Richard Kramer. Marcel Dekker (June 1, 1998)

Conteúdo

1. Mineração de dados

2. Estudo de casos

3. Produção e análise de dados

4. Construção de modelos

4.1Regressão, classificação, híbridos

5. Experimentos

6. Validação e interpretação

Definições?

1 "Chemometrics is the use of mathematical and statistical methods for handling, interpreting, and predicting chemical data."

Malinowski, E.R.. (1991) Factor Analysis in Chemistry, Second Edition, page 1.

2 "The entire process whereby data (e.g., numbers in a table) are transformed into information used for decision making."

Beebe, K. R., Pell, R. J., and M. B. Seasholtz. (1998) Chemometrics: A Practical Guide, page 1.

3 "Chemometrics is a chemical discipline that uses mathematics, statistics and formal logic

(a) to design or select optimal experimental procedures; (b) to provide maximum relevant chemical information by analyzing

chemical data; and (c) to obtain knowledge about chemical systems."

4 Massart, D.L., et al.. (1997) Data Handling in Science and Technology 20A: Handbook of Chemometrics and Qualimetrics Part A, page 1.

AplicaçõesBiologia, engenharia química, medicina, química analítica,

química forense, química medicinal...

1. Processamento de imagens, segmentação e

análise

2. Classificação e análise de sinais de radar

3. Reconhecimento facial

4. Reconhecimento e entendimento da fala

5. Identificação de impressão digital

6. Reconhecimento do caráter

7. Classificação de cerâmica em sítios pré-clássicos

8. Reconhecimento da escrita

9. Análise e entendimento dos sinais de eletrocardiografia

10.Diagnose médica

11.Mineração de dados

12.Análise sísmica

13.Reconhecimento de padrões.

Relações entre amostras: pacientes, alimentos, organismos,

colunas cromatográficas, madeira, água, cachaça, espectros.

Entre variáveis: concentração de compostos, picos espectrais,

testes

cromatográficos (formato do pico, similaridade de compostos, pHs

e fases móveis diferentes), composição elementar

Exemplos1. Medicina: toxicologia

2. Genotipagem: biotecnologia

3. Produção de comprimidos (formulações): medicamentos

4. Biologia: cheiro típico de animais

5. Cromatografia: classificação de colunas

6. Análise de materiais: plástico (mudança de fase – análise

térmica)

7. Deteção de drogas ilegais (cocaína, canabis, heroína,

ecstasy). Espectrometria de massas tandem (deteção de 2

íons por droga)

8. Monitorar reações (desenvolvimento de novas reações,

otimização de reações, processo de manufatura).

Indústrias química e farmacêutica

TécnicasNão há uma técnica. Use várias em várias etapas!

Quimiometria não é estatística!

1. Pré-processamento

2. Seleção de variáveis

3. Análise de componentes principais

4. Análise de agrupamentos

5. Análise discriminatória

6. Simplex

7. MRA

8. PLS

9. KNN

10.SIMCA

11.Redes Neurais

Modelos

1 Procedimento guiado por teoria1.1 Sistemas complexos mal definidos

1.1.1. Conhecimento prévio insuficiente1.1.2. Informação prévia incerta sobre a estrutura

do modelo1.1.3. Conhecimento insuficiente sobre os fatores

de interferência

2. Procedimento guiado por dados2.1. Falta de conhecimento prévio sobre a

estrutura do modelo matemático

Problemas em predição

1. Grande coleção de dados

1.1. Mais variáveis do que objetos

1.1.1. Problema: dimensionalidade

2. Capacidade preditiva do modelo ruim

3. Resultado: extração irrelevante de conhecimento

Quimiometria

1. Análise de dados:

1.1. Extração de informação dos dados químicos

2. Planejamento experimental:

2.1. Conteúdo de informação dos dados

3. Modelagem:

3.1. Investigação das relações complicadas

4. Obtenção de dados multivariados a partir de experimentos

X Y C

Variáveis Classe

1, 2, 3, ..., p 1, 2, 3, ..., r 1

Classes

Estratégias quimiométricas

Dados Exploração de dados

OtimizaçãoRegressãoClassificação

Análise de agrupamentos

Experimentos

Planejamento experimental

Problema Objetivo

s

Hipótese

s

Modelo qualitativo Modelo quantitativo Modelo empírico

Localização do modelo

1D

2D

3D

Coligativas

Estereodinâmica

Estereoeletrônica

InteraçãoLigante-receptor

Nova entidade química (NCE)

Mr < 500; H, C, N, O, P, S, F, Cl, Br

= 1062-64

Problema numeral

Problema numeral...

Chemical Abstract 2,7x107

WDI 7x104

~2000 fármacos em uso clínico!

vs

Problema ontológico(Como dividir os compostos para ter homogeneidade)

3 - M e t h y l - p e n t - 2 - o n e

3 - M e t h y l - c y c l o p e n t a n o n e

M e t h y l - h e x a n o n e

A c e t i c a c i d

6 - M e t h y l - h e p t - 5 - e n - 2 - o n e

3 - M e t h y l - h e x a n a l

N o n a n - 2 - o n e

E U n d e c - 2 - e n - 1 - o l

N o n a n - 4 - o n e

H e p t a n a l

P h e n o l

2 - E t h y l - h e x a n - 1 - o l

M e t h y l i s o b u t a n o n e

1 - M e t h y l - p y r r o l e

p - X y l e n e

T r i m e t h y l - p y r a z i n e

2 , 5 - D i m e t h y l - p y r a z i n e

1 - P h e n y l - p r o p a n - 2 - o n e

1 - E t h y l - 3 - M e t h y l - b e n z e n e

1 , 3 - D i m e t h y l - b e n z e n e

H e x a n - 2 - o n e

2 - P r o p e n y l i d e n e - c y c l o b u t e n e

2 - E t h e n y l - 6 - m e t h y l - p y r a z i n e

D e c a n a l

H e p t a n - 2 - o n e

E t h y l - b e n z e n e

N o n - 2 - e n - 4 - o n e

B e n z a l d e h y d e

O c t a n a l

P e n t a n - 2 - o n e

H e x a n a l

3 - E t h y l - c y c l o p e n t a n - 1 - o n e

N o n a n a l

- 0 . 3

- 0 . 2

- 0 . 1

0

0 . 1

0 . 2

0 . 3

0 . 4

- 0 . 3 - 0 . 2 - 0 . 1 0 0 . 1 0 . 2 0 . 3 0 . 4

Pesos (loadings): impressão digital química

(aldeídos, aromáticos, cetonas)

Seleção de compostos

Depois de Carr e Jhoti

Quantificação da diversidade química

1. Responder às perguntas:

1. (i) Quanta diversidade está perdida

1. (ii) Quanta diversidade é necessária

2. Respostas:

2.(i) Calcular e medir propriedades:

Índices topológicos

Grupos funcionais

Lipofilia, etc.

2.(ii) Análise estatística multivariada

Quantificação

Quantificação...

1. Por exemplo: Extremos de uma coleção de hexapeptídeos

1.1. 64 milhões de possibilidades!

1.1.1. Ac-Phe-Phe-Phe-Phe-Phe-Phe-NH2.

CLOG P= 5,5

1.1.2. Ac-Arg-Arg-Arg-Arg-Arg-Arg-NH2.

CLOG P = -13

Carregado: CLOG D = -37

Problema de representação

1.CNS

1.1. Pequena distribuição!

1.2. Diversidade química redundante!

2. Então,

2.1. REPRESENTAÇÃO.

Planejar série dentro do SSS

CLOG P

Número de Ocorrências

0-1 1-2 2-3 3-4 4-5 5-6

1. Quantos grupos podem/devem ser usados

u X possibilidades = X4 combinações

2. Quais grupos?

3. Todas as combinações são necessárias?

“Grupos-de-construção” dentro do SSS?

SÍNTESE COMBINATÓRIA

2. X = 166 subs.3. Síntese de 7,6.108

moléculas

1. X = 13 28.561!(X2 = 5 25)

N

N

R 2

OR 4

R 3

R 1

Escolha de descritores

Problema de Buffon: probabilidade da agulha aterrissar sobre a linha

Comprimento

Cor

Composição

Textura

Orientação

Métodos

1. Análise 1D

2. Outras dimensões requerem técnicas de decomposiçãoRegressão múltipla

PCA

PLS

...

3. Objetivos: conectar os descritores com elementos estruturais para interpolar e extrapolar dados

O que são elemento estrutural e descritor físico-químico?

Qual é a relação com a atividade?

Propriedade Estrutura

Atividade

Atividade Propriedade

Estrutura

Propriedade Estrutura

Atividade

Diagrama de Venn

Química do século XXI!

1. Quantos substâncias químicas existem? E, quais?

2. Chemical Abstract

– 679.837/ano!

– 1862/dia

Perca 30 dias e você estará atrás de 55.860 substâncias!

3. O problema não é somente obter informações, mas como

organizá-las!

Como solucionar?

Quimiometria