estatistica experimental 3

Josias JônatasData Mining Consultant

StatSoft South America Consulting Services

Análise de Agrupamentos

Análise de Componentes Principais

Análise de Fatores

Análise Discriminante

Multivariate Statistical Process Control - MSPC

Conteúdo

Definição

Análise de Agrupamento é uma

técnica multivariada cuja finalidade é agregar

objetos (OTU’s – Unidades de Objetos

Taxonômicos) com base nas características que

eles possuem. O resultado são grupos que

exibem máxima homogeneidade de

objetos dentro de grupos e, ao mesmo tempo,

máxima heterogeneidade entre os grupos.

T ree D iagram for 36 C asesW ard`s method

Euc lidean dis tanc es

SuiçaSuécia

RFA

RU Israel

Nova Zelândia

ItáliaEspanha

EUA

AustráliaJapão

Canadá

PortugalIugosláv

GréciaH

ungriaU

RSS

Uruguai

FilipinaC

hinaC

.Rica

Chile TurquiaM

éxicoBrasil R

ep.C. Af.

GanaN

igériaPaquist

BangladeQ

ueniaArgélia

EgitoIndiaH

aiti Bolívia

0

10

20

30

40

50

60

70

Linkage Distance

Conceitos Básicos

Tempo (em dias)

Consumo (em R$)

Conceitos Básicos

Alguns pontos relevantes que devemos observar em análise de agrupamentos são:

A análise de agrupamentos não faz distinção entre variáveis dependentes e independentes, no entanto pode examinar relações de interdependência entre todo o conjunto de variáveis.

O objetivo principal de análise de agrupamentos é classificar objetos em grupos relativamente homogêneos, a partir das variáveis consideradas importantes para a análise;

Os objetos em um grupo são relativamente semelhantes em termos dessas variáveis e diferentes de objetos de outros grupos;

A mais forte aplicação desta técnica tem sido em Pesquisa de Marketing, principalmente, Segmentação de Mercado.

Fase 2

Padronizando os dados

Imagine a situação descrita

na tabela ao lado. Foram medidas 3 características de

8 clientes e queremos avaliar

uma forma de agrupar estes

clientes e encontrar aquelas que acompanham

um comportamento

semelhante.

Percentual deImportância

SalárioMédio

ConsumoMédio

Cliente 1 10,85 1.500,80 149,35

Cliente 2 14,13 1.496,07 187,99

Cliente 3 8,62 1.448,79 130,97

Cliente 4 23,04 1.277,33 424,87

Cliente 5 16,04 1.204,02 214,36

Cliente 6 43,74 1.190,94 1.139,52

Cliente 7 25,39 1.292,91 358,39

Cliente 8 42,86 1.590,66 721,90

Média 23,08 1.375,19 415,92

Desvio Padrão

13,69 152,05 351,62

Fase 2O primeiro passo da análise é definir um critério para a formação dos grupos. Um critério que parece ser razoável é considerar a proximidade entre os pontos. Pontos próximos, então, representariam regiões com comportamentos semelhantes no que se refere às variáveis do gráfico, ou seja, regiões que podem fazer parte de um mesmo grupo.

C liente 1C liente 2

C liente 3

C liente 4


C liente 7

C liente 8

-50,00 0,00 50,00 100,00 150,00 200,00 250,00 300,00 350,00 400,00 450,00 500,00

P erc entual de Im portânc ia

1.150,00

1.200,00

1.250,00

1.300,00

1.350,00

1.400,00

1.450,00

1.500,00

1.550,00

1.600,00

1.650,00

Média S

alarial


Fase 2C liente 1C liente 2

C liente 3

C liente 4


C liente 7

C liente 8

-50,00 0,00 50,00 100,00 150,00 200,00 250,00 300,00 350,00 400,00 450,00 500,00


1.150,00

1.200,00

1.250,00

1.300,00

1.350,00

1.400,00

1.450,00

1.500,00

1.550,00

1.600,00

1.650,00

Média S

alarial

Note que as distâncias no sentido vertical são muito maiores do que no sentido horizontal, o que reflete o fato da variabilidade da variável X2 ser muito maior do que a de X1. Em termos, práticos, a variável X1 contribuiu muito pouco para a definição dos grupos. E se quiséssemos dar igual importância às duas variáveis?


Fase 2Clie nte 1Clie nte 2

Clie nte 3

Clie nte 4

Clie nte 5Clie nte 6

Clie nte 7

Clie nte 8

-1 ,20 -1 ,00 -0 ,80 -0 ,60 -0 ,40 -0 ,20 0,00 0,20 0,40 0,60 0,80 1,00 1,20 1,40 1,60 1,80


-1 ,40

-1 ,20

-1 ,00

-0 ,80

-0 ,60

-0 ,40

-0 ,20

0,00

0,20

0,40

0,60

0,80

1,00

1,20

1,40

1,60

Média Salarial

Uma maneira popular de tratar com isso é usar variáveis padronizadas. Ou seja, subtraímos a média do grupo de cada valor e dividimos pelo desvio padrão:

Isso garante que as duas variáveis estão sendo consideradas com importâncias equivalentes. Observe agora os novos grupos.

j

jijij S

XXZ


Resumo dos Estágios

1. Escolha do critério de parecença

2. Definição do número de grupos

3. Formação dos grupos

4. Validação do agrupamento

5. Interpretação dos grupos

Nesse primeiro instante devemos avaliar se as variáveis devem ou não ser padronizadas e o critério

que será utilizado na determinação dos grupos.

O número de grupos pode ser definido a priori, através de algum conhecimento que se tenha

sobre os dados, conveniência de análise ou ainda pode ser definido a posteriori com base

nos resultados da análise.

Aqui definimos o algoritmo que será utilizado na

identificação dos grupos: Métodos hierárquicos e

Métodos de Partição

Deve-se garantir que de fato as variáveis têm comportamento diferenciado nos diversos

grupos. É comum, então, que cada grupo seja uma amostra aleatória de alguma subpopulação e aplicar técnicas inferenciais para compará-las.

Ao final do processo de formação de grupos é importante caracterizar os

grupos formados. O uso de estatísticas descritivas é recomendado para esta

fase da análise.

Medidas de Parecença

As medidas de parecença têm um papel central nos

algoritmos de agrupamentos. Através delas são definidos critérios para avaliar se dois

pontos estão próximos, e portanto podem fazer parte de

um mesmo grupo, ou não.

Há dois tipos de medidas de parecença: medidas de

similaridade (quanto maior o valor, maior a semelhança

entre os objetos) e medidas de dissimilaridade (quanto maior o

valor, mais diferentes são os objetos.)

Medidas disponíveis naSolução STATISTICA

Algoritmos de Agrupamentos

A maioria dos algoritmos utilizados na formação dos agrupamentos pode ser classificada em duas grandes famílias de métodos: hierárquicos e de partição.

Métodos Hierárquicos Aglomerativos

•Para esses métodos os agrupamentos são formados a partir de uma matriz de parecença;

•Queremos identificar os objetos que mais se parecem;

•Agrupamos esses objetos e os consideramos como um único objeto;

•Definimos uma nova matriz de parecença.


Os procedimentos hierárquicos envolvem a construção de uma hierarquia de uma estrutura do tipo árvore. Existem basicamente dois tipos de procedimentos hierárquicos de agrupamento: Aglomerativos e Divisivos.Métodos Hierárquicos Aglomerativos Usando o STATISTICA

Vamos enumerar pelos menos 5 mé-todos aqui:

•Método do vizinho mais próximo;

•Método do vizinho mais longe;

•Método das médias das distâncias;

•Método da centróide;

•Método de Ward.

O STATISTICA traz uma série de métodos implementados:

a distância entre os grupos é

definida como sendo a

distância entre os elementos

mais próximos (menor

distância) dos dois grupos

Método do vizinho mais próximo(Single Linkage)


a distância entre dois grupos é definida como

sendo a distância entre

os indivíduos mais distantes

dos dois grupos (distância máxima).

Método do vizinho mais longe(Complete Linkage)


Este método define a coordenada de cada grupo como sendo a

média das coordenadas de seus

objetos. Uma vez obtida essa

coordenada, denominada centróide,

a distância entre os grupos é obtida

através do cálculo das distâncias entre os

centróides.

Método do centróide


O método de Ward busca unir objetos que tornem os agrupamentos formados os mais homogêneos possível. A medida de homogeneidade utilizada baseia-se na partição da soma de quadrados total de uma análise de variância. Observe abaixo:

Método de Ward

k

j Gi

ji

k

j

jj

k

j Gii

jj

XxXXnXx1

211

1

211

1

211

O Método de Ward, é atraente por basear-se numa medida com forte apelo estatístico e por gerar grupos que, assim como os do método do vizinho mais longe, possuem alta homogeneidade interna.


No STATISTICA

Na opção Input File existem duas maneiras para entrar com uma base de dados: Raw Data ou Distance Matrix. Por vezes, algum procedimento hierárquico ou medida de distância não está implementada num procedimento automático. É possível, então, entrar com a matriz de distância e avaliar os grupos. As informações que esta matriz deve ter são:

Medidas de distância;

Média, Desvio Padrão e Número de Casos;

Tipo de Matriz:

1 – Matriz de Correlação;

2 – Matriz de Similaridade;

3 – Matriz de Dissimilaridade;

4 – Matriz de Variância e Covariância.

No STATISTICA

Exercício

Abra o arquivo Países.sta e avalie algum tipo de agrupamento entre os 36 países disponíveis para análise.

Análise de Componentes Principais (ACP) é uma técnica estatística que transforma linearmente um conjunto de p variáveis em

um novo conjunto com um número menor (k) de variáveis não-correlacionadas, que explica uma parcela substancial das informações

do conjunto original.

Definição

Projec tion of the c as es on the f ac tor-plane ( 1 x 2)

Cas es w ith s um of c os ine s quare >= 0,00

A c tiv e

B olív ia

B ras i l

Chi le

Uruguai

Canadá

E UA

Méx ic o

C.Ric a

Haiti

E s panhaG réc ia

Hungria

Itál ia

Iugos lávP ortugal

RURF A

S uéc ia

S uiç a

URS SE gito

T urquiaA rgél ia

Is rael

B anglade

P aquis tã

IndiaF i l ipina

China

J apãoA us trál ia

Nova Z elândia

Rep.C. A f.

NigériaG ana

Quenia

-8 -6 -4 -2 0 2 4 6 8 10

Fac tor 1: 70,05%

-5

-4

-3

-2

-1

0

1

2

3

4

Factor 2: 8,46%

Também será útil quando desejamos

confirmar um modelo de

agrupamento avaliado com a

técnica de Análise de Agrupamentos

(ao lado vemos os grupos vistos

anteriormente)

Motivação

No menu Help, opte por Open Examples, na pasta Datasets busque o arquivo Economic Indicators. O arquivo consta de

informações econômicas (Imposto, PNB, Inflação e Dívida) de 40 países.

Vamos estudar o relacionamento

entre as variáveis usando a Análise

de Correlações. Depois faremos uma Análise de

Agrupamentos e, logo em seguida,

uma Análise de Componentes

Principais.

Motivação

Vamos proceder com uma análise de correlação. No menu Statistics, opte por Basic Statistics and Tables e, em seguida, clique duas vezes na opção Correlation matrices.

Insira todas as variáveis em One variable list e clique em Summary Correlation matrix.

Depois clique na opção Scatterplot matrix.

MotivaçãoCorrelations (Ec onomic indic ators 4v *40c )

W A GE RA T E

GNP

INFLA T ION

DE B T

Vamos avaliar os resultados: O que há de peculiar entre as variáveis? Qual a estrutura de relação entre elas?

Motivação

Tree Diagram f or 40 Cas es

W ard`s method

Euc lidean dis tanc es

SpainIreland

KoreaItaly

IndonesiaPortugalH

ungaryThailand

PolandC

zech Republic

Greece

MexicoM

alaysiaC

hinaTaiw

anFinlandBelgium

Luxemburg

Switzerland

Germ

anyN

etherlandsD

enmark

BritainJapan

Sweden

USA France

Norw

ayAustria

AustraliaH

aiti EthiopiaPeruKeniaEgypt South AfricaBrazil

India Sri LankaAlgeria

0

5

10

15

20

25

30

35

40

Linkage Distance

MotivaçãoAgora, para finalizar essa motivação, vamos à técnica de Análise de Componentes Principais. No menu Statistics, opte por Multivariate Exploratory Techiniques e Principal Components & Classification Analysis.

MotivaçãoNa aba Advanced, em Variables inserimos as variáveis de interesse para a análise como na janela abaixo. Variáveis suplementares são aqueles que desejamos analisar, mas não diretamente.

Podemos desejar usar

apenas algumas

observações, então usamos

Active cases variable.

Motivação

Para observar o comportamento

das variáveis podemos avaliar

um gráfico de scaterplot. Clique

em Plot var. factor

coordinates, 2D. Em seguida, na

aba Cases clique em Plot cases

factor coordinates, 2D.

Motivação

Projec tion of the v ar iables on the f ac tor-plane ( 1 x 2)

W AG E RA T E G NP

INF LA T IO N

DEBT

-1,0 -0,5 0,0 0,5 1,0

Fac tor 1 : 94,31%

-1,0

-0,5

0,0

0,5

1,0

Factor 2 : 3,11%

Motivação



A c tiv e

A lgeria

A us tral iaA us tria

B elgium

B ri tain

B raz i l

China

Cz ec h Republ ic Denm arkE gypt

E thiopia

F inland

F ranc e

G ermany

G reec eHaiti Hungary

IndiaIndones ia

Ireland

Italy

J apan

K enia

K orea Lux emburg

Malay s ia

Mex ic o

Netherlands

Norw ay

P eru

P oland

P ortugal

S outh A fric a

S pain

S ri Lank a S w edenS w itz erland

T aiw an

T hai land

USA

-6 -5 -4 -3 -2 -1 0 1 2 3 4 5

Fac tor 1: 94,31%

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

Factor 2: 3,11%

As p variáveis originais (X1, . . . , Xp) são transformadas em p variáveis (Y1, . . . , Yp), denominadas componentes principais, de modo que Y1 é aquela que explica a maior parcela da variabilidade total dos dados, Y2 explica a segunda maior parcela e assim por diante. Portanto, podemos afirmar que os principais objetivos de ACP são:

Principais Objetivos da Análise

ComponentesPrincipais

Reduçãoda dimensionalidade

dos dados

Obtençãode combinações

interpretáveis das variáveis

Descriçãoe entendimento da

estrutura de correlação das variáveis

Confirma grupos da Análise de Agrupamentos

- O intuito da análise é resumir o padrão de correlação entre as variáveis e muitas vezes é possível chegar a conjuntos não correlacionados de variáveis, de modo que surge alguns agrupamentos;

- Algebricamente, as componentes principais são combinações lineares das variáveis originais;

- Geometricamente, as componentes principais são as coordenadas dos pontos amostrais em um sistema de eixos obtido pela rotação do sistema de eixos original, na direção da máxima variabilidade dos dados;

- A análise de componentes principais depende somente da matriz de covariância ou a de correlação. Não exige qualquer suposição sobre a forma da distribuição multivariada dessas variáveis;

- Se a normalidade existe, a análise é engrandecida, se não ela ainda vale a pena.

Algumas Considerações Importantes

Como Obter as Componentes Principais

Suponha que estamos observando

3 variáveis que refletem a motivação,

preferência e habilidades

intelectuais de um grupo de pessoas. No

entanto, queremos saber se é possível

ter respostas adequadas quando

trabalhamos apenas duas variáveis.

Vamos retornar àquele exemplo sobre índices econômicos. Vejamos como se estrutura o relacionamento entre as variáveis e avaliar um modelo algébrico de componentes principais. Clique em Eigenvalues e Eigenvectors (Autovalores e Autovetores).

Aplicação

Aplicação

Aplicação

Os autovetores nos dão os coeficientes das equações lineares abaixo:

CP1 = – 0,507.Wagerate + 0,497.GNP – 0,504.Inflation – 0,492.Debt

CP2 = 0,386.Wagerate + 0,183.GNP + 0,516.Inflation – 0,742.Debt

CP3 = – 0,192.Wagerate – 0,848.GNP – 0,204.Inflation – 0,450.Debt

CP4 = 0,746.Wagerate + 0,025.GNP – 0,662.Inflation – 0,066.Debt

CP1 é responsável por 94,31% da informação original e CP2 é responsável por 3,11% da informação original. Essas duas componentes juntas nos fornecem 97,42% de informação.

Quantidade de Componentes a Escolher

Eigenvalues of correlation m atrix

94,31%

3,11% 2,23% ,34%

0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0

Eigenv alue number

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

Eigenvalue

Como Interpretar as Componentes Principais?

- A interpretação é feita com base nas correlações entre as variáveis originais e as componentes principais, e nos coeficientes dados pelas combinações lineares que levam às componentes principais;

- As correlações são medidas das contribuições individuais de cada variável e não consideram a contribuição multivariada das demais variáveis;

- A primeira componente principal pode ser interpretada como uma média entre as variáveis com maior coeficiente na combinação linear

Contribuições

Podemos medir o grau de relação que existe entre as variáveis e as componentes principais com a opção Factor & variable correlations.

E podemos também medir a contribuição

de cada variável para a construção de

uma componente

principal usando a

opção Contributions of variables.

Contribuições

111.CPX WagerateCPX Wagerate CPv

98512,0772414,3.5072,0

2CPX WagerateCPX Wagerate 11

ãoContribuiç v

257252,05072,0 2

Análise de Classificação

Podemos avaliar um modelo de

agrupamento usando a técnica de

componentes principais, basta clicar

nas opções Factor coordinates of cases e

Plot case factor coordinates, 2D.

Um modelo de Scores pode ser exibido com

as opções Factor scores e Factor scores

Coefficients



A c tiv e

A lgeria

A us tral iaA us tria

B elgium

B ri tain

B raz i l

China

Cz ec h Republ ic Denm arkE gypt

E thiopia

F inland

F ranc e

G ermany

G reec eHaiti Hungary

IndiaIndones ia

Ireland

Italy

J apan

K enia

K orea Lux emburg

Malay s ia

Mex ic o

Netherlands

Norw ay

P eru

P oland

P ortugal

S outh A fric a

S pain

S ri Lank a S w edenS w itz erland

T aiw an

T hai land

USA

-6 -5 -4 -3 -2 -1 0 1 2 3 4 5

Fac tor 1: 94,31%

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

Factor 2: 3,11%

Análise de Classificação

Exercício

Abra o arquivo Países.sta e confirme o agrupamento entre os 36 países na técnica de Cluster Analysis.

Definição e Conceitos

Análise Fatorial é um nome genérico dado a uma classe de métodos estatísticos multivariados cujo propósito principal é definir a estrutura subjacente em uma matriz de dados. Assim, têm-se os seguintes pontos:

Abordar o problema de analisar a estrutura das inter-relações (correlações) entre um grande número de variáveis, definindo um conjunto de dimensões latentes comuns, chamadas de fatores;

Identificar as dimensões separadas da estrutura e então determinar o grau em que cada variável é explicada por cada dimensão;

Resumir e reduzir os dados em dimensões latentes interpretáveis e compreensíveis usando escores para cada dimensão e, conseqüentemente, substituir as variáveis originais.


Os modelos de análise fatorial buscam explicar o comportamento das variáveis observadas em relação ao comportamento de um conjunto de variáveis não observadas (variáveis latentes ou fatores).

Desta forma, sejam

Um modelo de análise fatorial é dado por:

TpXX ,,1 TpE ,,1

pmpmpppp

mm

mm

FFX

FFX

FFX

1

2222122

1111111


pmpmpp

m

m

pp F

F

F

X

X

X

2

1

2

1

21

22221

11211

2

1

2

1

Traduzindo para notação de matriz, temos:

Cargas Fatoriais

Podemos interpretar as cargas fatoriais como:

jimimjijiji FFFFCovFXCov ;, 11

ijjjijji FFCovFXCov ;,

Observe que os fatores são ortogonais, ou seja a covariância entre fatores é igual a zero. Portanto,


Vamos estudar a variância das variáveis observadas. Para Xi temos:

imimiiiii FFVarXVarXVar 112

o resultado disso é:

Portanto, temos dois importantes conceitos:

Comunalidade. Parcela da variância de Xi que é explicada pelos fatores comuns.

Especificidade. Parcela de variância de Xi que não é explicada pelos fatores

iimii 221

2

221

2imiic

idadeEspecifici :

Pode-se usar a proporção de

variabilidade explicada:2

2

Pri

ii

c


Se definimos a variabilidade total das variáveis originais como sendo:

p

iiT

1

22

p

iic

1

2

Representa a parcela da variabilidade total que é explicada pelo conjunto de fatores. Conseqüentemente,

21

2

PrT

p

ii

T

c

temos, então que

é a proporção da variabilidade total dos dados que é explicada pelo conjunto de fatores comuns.

Aplicação

Imagine a matriz de correlação para nove elementos da imagem de uma loja:

Política de devolução Pessoal Disponibilidade de

produto

Serviço interno Diversidade de itens para cada produto Nível de Preço

Atmosfera da loja Diversidade de produtos

Qualidade de produto

A questão que se pode levantar é: Estes elementos todos são separados no que se refere às suas propriedades de avaliação ou eles se ‘agrupam’ em algumas áreas mais gerais de avaliação?

Aplicação

Aplicação

Experiência Interna

Oferta de Produtos

Valor

O propósito geral de técnicas de análise fatorial é encontrar um modo de condensar a informação contida em diversas variáveis originais em um conjunto menor de novas dimensões compostas ou variáveis estatísticas com uma perda mínima de informação.

Fase 1Planejamento da Análise Fatorial

Etapas do Processo de Análise Fatorial

Obj

etiv

o

É importante definir com critério as variáveis que farão parte da pesquisa com Análise Fatorial, definir as propriedades de medidas e tipos de variáveis envolvidas. Quanto maior for o número de variáveis, maior será o tamanho da amostra.

Algumas cuidados importantes em Análise de Fatores dizem respeito ao tamanho da amostra:

Dificilmente um pesquisador realiza uma Análise Fatorial com menos que 50 observações;

Preferencialmente, o tamanho da amostra deve ser maior ou igual a 100;

Alguns estudiosos propõem um mínimo de 20 observações vezes o número de variáveis a serem estudadas.

Quando se lida com amostras menores, o pesquisador sempre deve interpretar qualquer descoberta com precaução.

Variá

veis

Tam

anho

da

Am

ostr

a


Abra o arquivo Hatco.sta na pasta Treinamento / BDs / STATISTICA /.

Fase 4Cargas fatoriais:

A carga fatorial é o meio de interpretar o papel que cada variável tem na definição de cada fator;

As cargas fatoriais são a correlação de cada variável com o fator, elas são significantes quando seus valores excedem 0,70;

Cargas maiores fazem a variável ser representativa no fator.

Rotação de fatores:

Interpretação dos Fatores

V1V2

V3

V4

V5

0,50 1,0-0,50-1,0

-0,50

-1,0

0,50

1,0

Fator 1

Fator 2 Fator 2_Ort

Fator 1_Ort

RotaçãoFatorialOrtogonale Oblíqua

Fator 2_Obl

Fator 1_Obl

Quartimax. Concentra-se em rotacionar o fator inicial de modo que uma variável tenha carga alta em um fator e cargas tão baixas nos demais;

Varimax. Este método, por outro lado, busca concentrar cargas altas e baixas em cada fator, isso maximiza a variância

Equamax. É uma espécie de acordo entre os dois métodos acima.


Exemplo

Vamos usar uma base de dados da Hatco para avaliar a existência de agrupamentos de percepções que clientes têm com respeito à empresa.As variáveis que nos interessam são: X1 a X4, X6

e X7.

O tamanho da amostra é de

100 observações,

resultando em 14 casos para cada variável,

um valor aceitável.

Exemplo: Medidas de Correlação

Suposições de Normalidade, Linearidade, Homocedasticidade... afetam as correlações e se estas não são significantes, então a perda é considerável nos resultados da Análise Fatorial. Sendo assim, é preciso avaliar a grandeza e significância das correlações.

Estas correlações

são significantes

ao nível de 5%. Note que

8 das 15 correlações

são significantes.

Isso é adequado.

Exemplo: Decidindo Quantos Fatores Usar

O passo seguinte é selecionar o número de componentes a serem mantidos para análise posterior. Podemos usar os autovalores para fazer essa seleção, tomando o teste da raiz latente em que os autovalores devem assumir resultados superiores a 1. Portanto, temos 3 fatores com essa característica e que respondem por 83,24% da variabilidade nas variáveis originais.

Exemplo: O Gráfico para o Teste da Raiz Latente

Teste da R ais Latente

2,513

1,740

0,597 0,5300,416

0,204

1 2 3 4 5 6

Number of Eigenv alues

0,0

0,5

1,0

1,5

2,0

2,5

3,0

Value

Exemplo: Cargas Fatoriais e Cumunalidades

Uma vez decididos por 2 fatores, então precisamos informar ao STATISTICA

que ele deve escolher 2 fatores com autovalores

maior que 1.

Clique em OK na janela ao lado e retorne ao módulo de análise. Clique em Summary: Factor loading.

Exemplo: Cargas Fatoriais e Cumunalidades

O fator 1 é o que explica a porção maior da variabilidade e o fator 2 é o que explica ligeiramente menos;

2,51 é a porção de variabilidade total explicada pelo Fator 1, isso corresponde a 41,89% de explicação;

1,74 é a porção de variabilidade total explicada pelo Fator 2 que corresponde a 28,99% de explicação;

A significância das cargas fatoriais foram aquelas com valores superiores a 0,70.

Exemplo: Aplicando Rotação Varimax

Desta forma temos 39,50% em lugar dos 41,89% para

o Fator 1; temos 31,40% em lugar dos 28,99% para

o Fator 2.

A rotação compensou a variância explicada por cada fator, distribuindo melhor os 70,9% de variabilidade explicada pelos dois fatores.


Factor Loadings, Factor 1 vs. Factor 2R otation: U nrotatedEx trac tion: Pr inc ipal c omponents

X1

X2

X3

X4 X6

X7

-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8

Fac tor 1

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

Factor 2


Factor Loadings, Factor 1 vs. Factor 2

R otation: V arim ax norm alizedEx trac tion: Pr inc ipal c omponents

X1

X2

X3

X4X6

X7

-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0

Fac tor 1

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

Factor 2

Definição

A análise discriminante envolve determinar uma variável estatística que é a combinação linear de duas ou mais variáveis independentes que discriminarão melhor entre grupos definidos a priori.

A discriminação é conseguida estabelecendo-se os pesos da variável estatística para cada variável para maximizar a variância entre grupos relativa à variância dentro dos grupos.

A B A B

Função Discriminante Função Discriminante

A combinação linear para uma análise discriminante, também conhecida como a função discriminante, é determinada de uma equação que assume a seguinte forma:

onde

zjk = escore Z discriminante da função discriminante j para o objeto k

a = intercepto

wi = peso discriminante para a variável independente i

xik = objeto k na variável Xi.

Definição

nknkkjk xwxwxwaz 2211

Exemplo

Uma empresa está interessada em investigar se um de seus novos produtos será comercialmente bem-sucedido. Isso conduz a uma pesquisa com consumidores que comprariam ou não o novo produto. Estudamos, então, as 3 características descritas no quadro abaixo:

Note que a característica Durabilidade discrimina

bem os dois grupos.

Já a característica Estilo tem uma diferença entre médias de grupo igual a

0,2. No entanto, isso não caracteriza uma má

discriminação. É preciso avaliar a dispersão e os escores discriminantes.

Exemplo

10

9 7

8

5 26 1

1 2 3 4 5 6 7 8 9 10

4 3X1

Durabilidade

10

9

7

8 52

6

1

1 2 3 4 5 6 7 8 9 10

4 3X2

Desempenho

10

97 8

5 2 61

1 2 3 4 5 6 7 8 9 10

43X3

Estilo

Exemplo

Usando apenas a variável X1 obtemos um percentual de classificação correta de 90%, visto que o item 5 não foi alocado corretamente. Quando inserimos a variável X2, obtemos 100% de acerto na Função 2. Mas com a análise discriminante, estamos interessados não só em agrupar, como também maximizar variabilidade entre grupos.

Exemplo

Exemplo

Faremos um procedimento passo a passo. O método é o Forward stepwise.

Exemplo

DesempenhodeDurabilidaZ .3588,0.4756,053,4

O função discriminante:

Exemplo

A Matriz de Classificação e a Classificação dos

Casos estão demonstradas nas

tabelas a seguir.

Estágios do Processo de Análise Discriminante

À medida que conceituamos os

procedimentos da análise faremos um

exemplo para nos familiarizarmos com o

STATISTICA.

Abra o arquivo Hatco.sta.

Em Vars, opte por clicar em All Specs.

Veja o significado de cada variável.


Objetivo da Pesquisa:

Determinar se existem diferenças estatisticamente significantes entre os perfis de escore médio em um conjunto de variáveis para dois (ou mais) grupos definidos a priori;

Determinar quais das variáveis independentes explicam o máximo de diferenças nos perfis de escore médio dos dois ou mais grupos;

Estabelecer procedimentos para classificar objetos em grupos, com base em seus escores em um conjunto de variáveis independentes;

Estabelecer o número e a composição das dimensões de discriminação entre grupos formados a partir do conjunto de variáveis independentes.


Projeto de Pesquisa para Análise Discriminante:

Seleção de Variáveis Dependente e Independentes:

O pesquisador deve se concentrar na variável dependente primeiro. O número de grupos pode ser dois ou mais, mas devem ser mutuamente excludentes e cobrir todos os casos.

Tamanho da amostra:

A Análise Discriminante é muito sensível ao tamanho da amostra e o número de variáveis preditoras Alguns estudos sugerem um número de 20 observações para cada preditora.

Divisão da Amostra:

É muito comum um estudo de validação do modelo, usando recursos de divisão da amostra (crossvalidation); este procedimento consiste em dividir a amostra em duas partes: 1. Modelagem (não menos que 60%) e 2. Teste (não mais que 40%).


Projeto de Pesquisa para Análise Discriminante

Vamos observar os dados em termos de média e desvio-padrão, considerando o tamanho amostral.



Crie uma nova variável na tabela em que o valor geral é 1 para todos os casos.

Ela aparece ao lado como NewVar e será uma variável auxiliar

para contagem de casos.



A variável X11 avalia duas abordagens quanto à compra de produtos e serviços:

1 – Análise de Valor Total: avalia cada aspecto de compra, incluindo cada tanto o produto quanto o serviço que é comprado;

0 – Especificação de Compra: define-se todas as características de produto e serviço desejados e o vendedor, então, faz uma oferta para preencher as especificações.

Já a variável Grupo define uma parte das observações que será usado para análise (assume valor 0) e a parte das observações que será usada para validar (assume valor 1) o modelo discriminante. Usamos 60 observações para análise e 40 para validação.


Suposições da Análise Discriminante:

Uma suposição chave é a de normalidade multivariada para as variáveis independentes. Existem evidências da sensibilidade da análise discriminante a violações dessas suposições;

Outra questão é a matriz de covariância que é desconhecida, no entanto deve ser igual para todo grupo; matrizes desiguais afetam negativamente o processo de classificação;

Também é preciso ter cuidado com a Multicolinearidade.

Estágios do Processo de Análise DiscriminanteEstimação do Modelo Discriminante:

Método Computacional

Estimação Simultânea: envolve a computação da função discriminante, de modo que todas as variáveis independentes são consideradas juntas;

Estimação Stepwise: envolve a inclusão das variáveis independentes na função discriminante, uma por vez, com base em seu poder discriminatório.

Significância Estatística

As medidas de lambda de Wilks, traço de Hotelling e critério de Pillai avaliam a significância estatística do poder discriminatório da função discriminante;

A maior raiz característica de Roy avalia apenas a primeira função discriminante;

Se um método stepwise é empregado para estimar a função discriminante, as medidas D2 de Mahalanobis são mais adequadas

Exemplo no STATISTICA

Escolha as variáveis para análise em

Variables:

X11 é Dependente e de X1 a X7, são as

Independentes.

Escolha a opção Tradicional discriminant analysis. A outra opção é usada quando temos variáveis independentes categóricas.


Vamos usar a opção Cross validation para

avaliar a função discriminante para

esses dados.

Habilite a opção Foward stepwise para o procedimento computacional


Esta tabela nos dá o entendimento das variáveis que entram na Análise Discriminante.



Note que a variável X7 é a que apresenta maior poder discriminante e foi escolhida primeiro. Em seguida aparece X3 e depois X1 disputa com X5 com valores muito próximos.

Após a seleção das 3 variáveis, as 4 restantes não contribuem para discriminar os grupos.

Avaliação do Ajuste Geral:

Cálculo de Escores Z discriminantes

Avaliação de Diferenças de Grupos

Um caminho para avaliar o ajuste geral do modelo é determinar a magnitude de diferenças entre membros de cada grupo em termos dos escores Z discriminantes. Podemos fazer isso usando a comparação dos centróides dos grupos, o escore Z discriminante média para todos os membros dos grupos.

Avaliação da Precisão Preditiva de Pertinência de Grupo

O uso de matriz de classificação nos informa o valor razão de sucesso (um percentual de classificação correta);

O escore de corte que é o critério em relação ao qual o escore discriminante de cada objeto é comparado para determinar em qual grupo o objeto deve ser classificado.

nknkkjk xwxwxwaz 2211



O que desejamos, desde o início, é

maximizar a distância entre as médias populacionais e

minimizar a variância.

Uma medida de distância usada é o D2

de Mahalanobis.

Clique nas opções Class squared

Mahalanobis distances, Class means for

canonical variables e Tests of significance of

distances.


773,0

2238063,1.22836,1.38

CorteZ

Observações com escores discriminantes menores que ZCorte se classificam no grupo de Análise de Valor Total ( 1 ). E os escores com valores maiores, se classificam no grupo Especificação de Compra ( 0 ).

Interpretação dos Resultados:

Pesos Discriminantes

A interpretação de pesos discriminantes é análoga à interpretação de pesos beta em análise de regressão e está, portanto, sujeita às mesmas críticas.


731 .659,0.472,0.447,0 XXXZ

É a função discriminante com pesos padronizados.


Cargas Discriminantes

As cargas discriminantes medem a correlação linear simples entre cada variável independente e a função discriminante.


As cargas são consideradas mais

válidas do que os pesos como um

meio de interpretação do

poder discriminatório de

variáveis independentes por

causa de sua natureza

correlacional.


A Diferença entre os Grupos

Associado a cada função discriminante encontramos um raiz característica (autovalor);

O teste Lambda de Wilk avalia a diferença entre os grupos (0 e 1);

A estatística Qui-Quadrado revela se a diferença entre os grupos é significante;

O R canônico pode ser interpretado elevando-se o seu valor ao quadrado, então dizemos que o modelo discriminante


explica certa porcentagem (66,9%) da variância na variável dependente.

Coeficientes da Função de Classificação

Resultados da Classificação


LSC para Diâmetro Interno de Pistão

LIC para Diâmetro Interno de Pistão

LSC para Diâmetro Externo de Pistão

LIC para Diâmetro Externo de Pistão

Usando MSPC:

- Avaliamos cada variável no tempo;

- Avaliamos o conjunto de variáveis, dado que a relação entre elas existe;

- Avaliamos cada lote para determinar sucesso na detecção de um processo irregular.

Controle Estatístico do Processo Multivariado

1 2 . . . k

2..

.

j

i

.

.

.

Variáveis

Lote

sTempo

Time-wise Mult-way Principal Components Analysis

Vamos usar um exemplo do Help do STATISTICA para ilustrar o uso desta técnica multivariada. Os dados vem de um processo industrial que mede a polimerização de um reator por lote.


Descrição do problema:

• Para cada batelada tomamos 100 leituras de 10 variáveis observadas;

• Tomamos 55 bateladas:

• 47 bateladas alcançaram sucesso, ou seja, a qualidade do polímero é aceitável: 1-37, 39, 41, 43, 44, 47 e 49;

• 4 bateladas estão próximas do limite de tolerância: 38, 45, 46 e 49;

• 8 bateladas não obtiveram sucesso: 40, 42 e 50-55;

• Dividimos essas bateladas em 2 arquivos: 30 com sucesso estão em NormalBatches.sta e 25 (com sucesso, sem sucesso e próximo dos limites) foram misturadas em BatchesForDeployment.sta.


Objetivos da análise:

• Aplicar TMPCA em NormalBatches.sta para construir um modelo de referência que descreva a evolução de bons lotes;

• Usar este modelo para identificar bateladas futuras como lotes com Sucesso ou sem Sucesso usando os dados de BatchesForDeployment.sta.


Este módulo suporta a entrada tanto de variáveis

contínuas como de variáveis discretas que assumam um comportamento dicotômico

(variável dummy), assumindo valores 0 e 1.

Podemos explorar o comportamento do Processo com PCA e modelar com PLS, usando o tempo ou os lotes.


Escolha as variáveis como no quadro a seguir.


Nonlinear Iterative Partial Least Squares, NIPALS é o algoritmo responsável por encontrar o conjunto mais adequado de Componentes Principais e também por descrever um modelo de estrutura latente nos dados (PLS).

Nesta janela, selecionamos o método para determinar o

número de componentes. O método de Cross Validation é

indicado, visto que fará uma busca iterativa do melhor número de componentes.


Uma importante característica do STATISTICA TMPCA é sua funcionalidade de pré-processamento que nos habilita a a padronizar os dados para construir um modelo melhor.

A opção default é Unit standard deviations, ela calcular um único desvio padrão para padronizar todos os lotes. Esse procedimento é requerido sempre que executamos uma PCA.

Podemos criar um procedimento de substituição de Missing Data. E quando trabalhamos com grandes bases de dados, podemos informar ao STATISTICA que a base é de certa ordem em MB.

Uma avaliação primária é concernente às componentes geradas pela iteração. Na opção Summary na aba Quick, vemos uma tabela que avalia o R2 das componentes com os casos selecionados aleatoriamente para treinamento do modelo por Cross Validation.

A parte dos casos que não foi usada no modelo tem o seu índice em Q2.

Foram geradas 14 componentes, visto que 10 componentes foram avaliadas com casos para treinamento e 10 com casos para teste.



Time-w is e Multi-w ay Pr inc ipal Components A naly s is Summary Ov erv iew

Number of c omponents is 14

R²X(Cumul.) Q²(Cumul.)

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Component

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1,1


Variable im portance

0,931 0,927 0,926

0,8910,884

0,8470,841

0,824 0,820

0,799

T 2 DR T 3 DR T 1 DR T F M 2 T F M 1 PR ES 2 T 1 R M T 2 R M PR ES 3 PR ES 1

Variab le

0,78

0,80

0,82

0,84

0,86

0,88

0,90

0,92

0,94

0,96

0,98

1,00

Power


Hotelling T² Control Chart

Number of c omponents is 14

99,000%

B 1B 2

B 3B 4

B 5B 6

B 7B 8

B 9B 10

B 11B 12

B 13B 14

B 15B 16

B 17B 18

B 19B 20

B 21B 22

B 23B 24

B 25B 26

B 27B 28

B 29B 30

Batc h

0

10

20

30

40

50

60

70

80

90

100

T²

90,478

Agora o alvo é encontrar possíveis outliers. Podemos detectar outliers a partir de seus x-scores, visto que o uso de Componentes Principais transformou os valores originais em outra escala. Usamos, então, a distribuição amostral multivariada T2-Hotelling. Para ao i-ésima observação temos:

C

k ik

iki s

tT

12

22

tik é o escore da i-ésima observação para o k-ésimo componente;

sik é o desvio padrão estimado de tk;

C é o número de componentes.


Outras medidas para diagnóstico:

O T2-Hotelling não é suficiente para predizer outliers, especialmente se inserimos observações que não foram usadas para treinar o modelo. Uma quantidade melhor é o Erro Quadrático da Predição (SPE – Square of the predictions error). Para o i-ésimo elemento temos o SPE definido ao lado.

Podemos usar ainda os resíduos para detectar outliers com a técnica distância do modelo (D-To-Model). Tome a i-ésima observação e veja ao lado.

M

jijiji xxQ

1

2ˆ

CM

xx

ModelToD

M

jijij

1

2ˆ

xij é um elemento da matriz X_Barra;

xij é um elemento da matriz de escores das Componentes Principais

^

M é o número de variáveis originais;

xij é o número de componentes


SPE(Q ) ChartN umber o f components is 14

99,000%0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 81 84 87 90 93 96 99

Time

0

1

2

3

4

5

6

7

8

9

10

11

12

Q


Distance to m odelN u mb er o f co mp o n en ts is 14

T he normalized d istance to the model is 0,496

B1B2

B3B4

B5B6

B7B8

B9B10

B11B12

B13B14

B15B16

B17B18

B19B20

B21B22

B23B24

B25B26

B27B28

B29B30

Batc h

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

Dis

tance

Os valores são considerados outliers se excedem o limite calculado de 0,496 calculado pela solução.

Score scatterplot (t1 vs. t2)S tan d ard d eviatio n o f t1: 19,470

S tan d ard d eviatio n o f t2: 10,948

B 1B 2

B 3

B 4

B 5B 6

B 7B 8B 9

B 10

B 11B 12

B 13

B 14

B 15

B 16

B 17B 18

B 19B 20

B 21B 22

B 23B 24

B 25

B 26 B 27B 28

B 29

B 30

-80 -60 -40 -20 0 20 40 60 80

t1

-80

-60

-40

-20

0

20

40

60

80

t2 + /-3,000*S td.Dev


O gráfico abaixo exprime o fato de que as bateladas não sofrem desvios da normalidade quando avaliamos as 10 variáveis juntas. A elipse representa o limite correlacionado para esta variáveis.


Score contribution plot (t1, 0)

0,039

0,008

0,036

0,016

0,026

0,0040,000 0,000

0,018

0,011

T 1 DR T 2 DR T 3 DR PR ES 1 T F M 1 T 1 R M T 2 R M PR ES 2 PR ES 3 T F M 2

Variab le

-0,05

-0,04

-0,03

-0,02

-0,01

0,00

0,01

0,02

0,03

0,04

0,05

Score contribution (B1 - A

verage)

Podemos ainda avaliar a importância de cada variável para algum componente. O gráfico abaixo, por exemplo, se refere ao primeiro componente e, note, a primeira variável é a que mais influencia.


Para avaliar a trajetória dos pontos ao longo do tempo, usamos a opção Trajectory.

Trajectory plot of variable: T 1DR

N umber o f ba tches: 30

0 7 14 21 28 35 42 49 56 63 70 77 84 91 98

Time

0,5

0,6

0,7

0,8

0,9

1,0

Trajectory

+/-3 ,000*Std .D ev +/-2 ,000*Std .D ev M ean


Agora vamos avaliar uma nova batelada contida no arquivo Batches For Deployment, no Help do STATISTICA, usando o procedimento de MSPC Deployment. Gere o PMML script do como ao lado.


Cancele a janela ao lado até retornar à janela inicial. Abra o arquivo que será avaliado (use Open Data) e siga os passos.


Busque o script do PMML salvo em lugar conhecido e seguro. Use a opção Load models do STATISTICA MSPC.

Assim que inserir o script, as opções na aba Results estarão habilitadas para uso. Clique em Summary.


Avalie novamente os resultados anteriores para esse novo conjunto de bateladas. Observe que essas bateladas estão fora de especificação e, portanto, a qualidade dos polímeros não é satisfatória.


Hotelling T² Control ChartN umber o f components is 14

19.516,728

10.337,292

20.433,084

10.184,001

20.904,183

7.842,383

B31B32

B33B34

B35B36

B37B38

B39B40

B41B42

B43B44

B45B46

B47B48

B49B50

B51B52

B53B54

B55

B atch

0

5000

10000

15000

20000

25000

T²

90,478 99 ,000%

StatSoft South AmericaDeptº. de Projetos e Consultoria

Josias Jônatas – Consultor Data MinerDeptº. de Treinamentos e Suporte

Andréia Santiago – Gerente de TreinamentosFone: 55 11 3422 4250

Fax: 55 11 3422 4255

estatistica experimental 3

Documents