estatistica experimental 3
DESCRIPTION
muito bomTRANSCRIPT
![Page 1: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/1.jpg)
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
![Page 2: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/2.jpg)
Análise de Agrupamentos
Análise de Componentes Principais
Análise de Fatores
Análise Discriminante
Multivariate Statistical Process Control - MSPC
Conteúdo
![Page 3: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/3.jpg)
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
![Page 4: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/4.jpg)
Definição
Análise de Agrupamento é uma
técnica multivariada cuja finalidade é agregar
objetos (OTU’s – Unidades de Objetos
Taxonômicos) com base nas características que
eles possuem. O resultado são grupos que
exibem máxima homogeneidade de
objetos dentro de grupos e, ao mesmo tempo,
máxima heterogeneidade entre os grupos.
T ree D iagram for 36 C asesW ard`s method
Euc lidean dis tanc es
SuiçaSuécia
RFA
RU Israel
Nova Zelândia
ItáliaEspanha
EUA
AustráliaJapão
Canadá
PortugalIugosláv
GréciaH
ungriaU
RSS
Uruguai
FilipinaC
hinaC
.Rica
Chile TurquiaM
éxicoBrasil R
ep.C. Af.
GanaN
igériaPaquist
BangladeQ
ueniaArgélia
EgitoIndiaH
aiti Bolívia
0
10
20
30
40
50
60
70
Linkage Distance
![Page 5: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/5.jpg)
Conceitos Básicos
Tempo (em dias)
Consumo (em R$)
![Page 6: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/6.jpg)
Conceitos Básicos
Alguns pontos relevantes que devemos observar em análise de agrupamentos são:
A análise de agrupamentos não faz distinção entre variáveis dependentes e independentes, no entanto pode examinar relações de interdependência entre todo o conjunto de variáveis.
O objetivo principal de análise de agrupamentos é classificar objetos em grupos relativamente homogêneos, a partir das variáveis consideradas importantes para a análise;
Os objetos em um grupo são relativamente semelhantes em termos dessas variáveis e diferentes de objetos de outros grupos;
A mais forte aplicação desta técnica tem sido em Pesquisa de Marketing, principalmente, Segmentação de Mercado.
![Page 7: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/7.jpg)
Fase 2
Padronizando os dados
Imagine a situação descrita
na tabela ao lado. Foram medidas 3 características de
8 clientes e queremos avaliar
uma forma de agrupar estes
clientes e encontrar aquelas que acompanham
um comportamento
semelhante.
Percentual deImportância
SalárioMédio
ConsumoMédio
Cliente 1 10,85 1.500,80 149,35
Cliente 2 14,13 1.496,07 187,99
Cliente 3 8,62 1.448,79 130,97
Cliente 4 23,04 1.277,33 424,87
Cliente 5 16,04 1.204,02 214,36
Cliente 6 43,74 1.190,94 1.139,52
Cliente 7 25,39 1.292,91 358,39
Cliente 8 42,86 1.590,66 721,90
Média 23,08 1.375,19 415,92
Desvio Padrão
13,69 152,05 351,62
![Page 8: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/8.jpg)
Fase 2O primeiro passo da análise é definir um critério para a formação dos grupos. Um critério que parece ser razoável é considerar a proximidade entre os pontos. Pontos próximos, então, representariam regiões com comportamentos semelhantes no que se refere às variáveis do gráfico, ou seja, regiões que podem fazer parte de um mesmo grupo.
C liente 1C liente 2
C liente 3
C liente 4
C liente 5C liente 6
C liente 7
C liente 8
-50,00 0,00 50,00 100,00 150,00 200,00 250,00 300,00 350,00 400,00 450,00 500,00
P erc entual de Im portânc ia
1.150,00
1.200,00
1.250,00
1.300,00
1.350,00
1.400,00
1.450,00
1.500,00
1.550,00
1.600,00
1.650,00
Média S
alarial
Padronizando os dados
![Page 9: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/9.jpg)
Fase 2C liente 1C liente 2
C liente 3
C liente 4
C liente 5C liente 6
C liente 7
C liente 8
-50,00 0,00 50,00 100,00 150,00 200,00 250,00 300,00 350,00 400,00 450,00 500,00
P erc entual de Im portânc ia
1.150,00
1.200,00
1.250,00
1.300,00
1.350,00
1.400,00
1.450,00
1.500,00
1.550,00
1.600,00
1.650,00
Média S
alarial
Note que as distâncias no sentido vertical são muito maiores do que no sentido horizontal, o que reflete o fato da variabilidade da variável X2 ser muito maior do que a de X1. Em termos, práticos, a variável X1 contribuiu muito pouco para a definição dos grupos. E se quiséssemos dar igual importância às duas variáveis?
Padronizando os dados
![Page 10: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/10.jpg)
Fase 2Clie nte 1Clie nte 2
Clie nte 3
Clie nte 4
Clie nte 5Clie nte 6
Clie nte 7
Clie nte 8
-1 ,20 -1 ,00 -0 ,80 -0 ,60 -0 ,40 -0 ,20 0,00 0,20 0,40 0,60 0,80 1,00 1,20 1,40 1,60 1,80
P erc entual de Im portânc ia
-1 ,40
-1 ,20
-1 ,00
-0 ,80
-0 ,60
-0 ,40
-0 ,20
0,00
0,20
0,40
0,60
0,80
1,00
1,20
1,40
1,60
Média Salarial
Uma maneira popular de tratar com isso é usar variáveis padronizadas. Ou seja, subtraímos a média do grupo de cada valor e dividimos pelo desvio padrão:
Isso garante que as duas variáveis estão sendo consideradas com importâncias equivalentes. Observe agora os novos grupos.
j
jijij S
XXZ
Padronizando os dados
![Page 11: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/11.jpg)
Resumo dos Estágios
1. Escolha do critério de parecença
2. Definição do número de grupos
3. Formação dos grupos
4. Validação do agrupamento
5. Interpretação dos grupos
Nesse primeiro instante devemos avaliar se as variáveis devem ou não ser padronizadas e o critério
que será utilizado na determinação dos grupos.
O número de grupos pode ser definido a priori, através de algum conhecimento que se tenha
sobre os dados, conveniência de análise ou ainda pode ser definido a posteriori com base
nos resultados da análise.
Aqui definimos o algoritmo que será utilizado na
identificação dos grupos: Métodos hierárquicos e
Métodos de Partição
Deve-se garantir que de fato as variáveis têm comportamento diferenciado nos diversos
grupos. É comum, então, que cada grupo seja uma amostra aleatória de alguma subpopulação e aplicar técnicas inferenciais para compará-las.
Ao final do processo de formação de grupos é importante caracterizar os
grupos formados. O uso de estatísticas descritivas é recomendado para esta
fase da análise.
![Page 12: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/12.jpg)
Medidas de Parecença
As medidas de parecença têm um papel central nos
algoritmos de agrupamentos. Através delas são definidos critérios para avaliar se dois
pontos estão próximos, e portanto podem fazer parte de
um mesmo grupo, ou não.
Há dois tipos de medidas de parecença: medidas de
similaridade (quanto maior o valor, maior a semelhança
entre os objetos) e medidas de dissimilaridade (quanto maior o
valor, mais diferentes são os objetos.)
Medidas disponíveis naSolução STATISTICA
![Page 13: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/13.jpg)
Algoritmos de Agrupamentos
A maioria dos algoritmos utilizados na formação dos agrupamentos pode ser classificada em duas grandes famílias de métodos: hierárquicos e de partição.
Métodos Hierárquicos Aglomerativos
•Para esses métodos os agrupamentos são formados a partir de uma matriz de parecença;
•Queremos identificar os objetos que mais se parecem;
•Agrupamos esses objetos e os consideramos como um único objeto;
•Definimos uma nova matriz de parecença.
![Page 14: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/14.jpg)
Algoritmos de Agrupamentos
Os procedimentos hierárquicos envolvem a construção de uma hierarquia de uma estrutura do tipo árvore. Existem basicamente dois tipos de procedimentos hierárquicos de agrupamento: Aglomerativos e Divisivos.Métodos Hierárquicos Aglomerativos Usando o STATISTICA
Vamos enumerar pelos menos 5 mé-todos aqui:
•Método do vizinho mais próximo;
•Método do vizinho mais longe;
•Método das médias das distâncias;
•Método da centróide;
•Método de Ward.
O STATISTICA traz uma série de métodos implementados:
![Page 15: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/15.jpg)
a distância entre os grupos é
definida como sendo a
distância entre os elementos
mais próximos (menor
distância) dos dois grupos
Método do vizinho mais próximo(Single Linkage)
Algoritmos de Agrupamentos
![Page 16: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/16.jpg)
a distância entre dois grupos é definida como
sendo a distância entre
os indivíduos mais distantes
dos dois grupos (distância máxima).
Método do vizinho mais longe(Complete Linkage)
Algoritmos de Agrupamentos
![Page 17: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/17.jpg)
Este método define a coordenada de cada grupo como sendo a
média das coordenadas de seus
objetos. Uma vez obtida essa
coordenada, denominada centróide,
a distância entre os grupos é obtida
através do cálculo das distâncias entre os
centróides.
Método do centróide
Algoritmos de Agrupamentos
![Page 18: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/18.jpg)
O método de Ward busca unir objetos que tornem os agrupamentos formados os mais homogêneos possível. A medida de homogeneidade utilizada baseia-se na partição da soma de quadrados total de uma análise de variância. Observe abaixo:
Método de Ward
k
j Gi
ji
k
j
jj
k
j Gii
jj
XxXXnXx1
211
1
211
1
211
O Método de Ward, é atraente por basear-se numa medida com forte apelo estatístico e por gerar grupos que, assim como os do método do vizinho mais longe, possuem alta homogeneidade interna.
Algoritmos de Agrupamentos
![Page 19: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/19.jpg)
No STATISTICA
Na opção Input File existem duas maneiras para entrar com uma base de dados: Raw Data ou Distance Matrix. Por vezes, algum procedimento hierárquico ou medida de distância não está implementada num procedimento automático. É possível, então, entrar com a matriz de distância e avaliar os grupos. As informações que esta matriz deve ter são:
Medidas de distância;
Média, Desvio Padrão e Número de Casos;
Tipo de Matriz:
1 – Matriz de Correlação;
2 – Matriz de Similaridade;
3 – Matriz de Dissimilaridade;
4 – Matriz de Variância e Covariância.
![Page 20: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/20.jpg)
No STATISTICA
![Page 21: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/21.jpg)
Exercício
Abra o arquivo Países.sta e avalie algum tipo de agrupamento entre os 36 países disponíveis para análise.
![Page 22: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/22.jpg)
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
![Page 23: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/23.jpg)
Análise de Componentes Principais (ACP) é uma técnica estatística que transforma linearmente um conjunto de p variáveis em
um novo conjunto com um número menor (k) de variáveis não-correlacionadas, que explica uma parcela substancial das informações
do conjunto original.
Definição
Projec tion of the c as es on the f ac tor-plane ( 1 x 2)
Cas es w ith s um of c os ine s quare >= 0,00
A c tiv e
B olív ia
B ras i l
Chi le
Uruguai
Canadá
E UA
Méx ic o
C.Ric a
Haiti
E s panhaG réc ia
Hungria
Itál ia
Iugos lávP ortugal
RURF A
S uéc ia
S uiç a
URS SE gito
T urquiaA rgél ia
Is rael
B anglade
P aquis tã
IndiaF i l ipina
China
J apãoA us trál ia
Nova Z elândia
Rep.C. A f.
NigériaG ana
Quenia
-8 -6 -4 -2 0 2 4 6 8 10
Fac tor 1: 70,05%
-5
-4
-3
-2
-1
0
1
2
3
4
Factor 2: 8,46%
Também será útil quando desejamos
confirmar um modelo de
agrupamento avaliado com a
técnica de Análise de Agrupamentos
(ao lado vemos os grupos vistos
anteriormente)
![Page 24: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/24.jpg)
Motivação
No menu Help, opte por Open Examples, na pasta Datasets busque o arquivo Economic Indicators. O arquivo consta de
informações econômicas (Imposto, PNB, Inflação e Dívida) de 40 países.
Vamos estudar o relacionamento
entre as variáveis usando a Análise
de Correlações. Depois faremos uma Análise de
Agrupamentos e, logo em seguida,
uma Análise de Componentes
Principais.
![Page 25: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/25.jpg)
Motivação
Vamos proceder com uma análise de correlação. No menu Statistics, opte por Basic Statistics and Tables e, em seguida, clique duas vezes na opção Correlation matrices.
Insira todas as variáveis em One variable list e clique em Summary Correlation matrix.
Depois clique na opção Scatterplot matrix.
![Page 26: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/26.jpg)
MotivaçãoCorrelations (Ec onomic indic ators 4v *40c )
W A GE RA T E
GNP
INFLA T ION
DE B T
Vamos avaliar os resultados: O que há de peculiar entre as variáveis? Qual a estrutura de relação entre elas?
![Page 27: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/27.jpg)
Motivação
Tree Diagram f or 40 Cas es
W ard`s method
Euc lidean dis tanc es
SpainIreland
KoreaItaly
IndonesiaPortugalH
ungaryThailand
PolandC
zech Republic
Greece
MexicoM
alaysiaC
hinaTaiw
anFinlandBelgium
Luxemburg
Switzerland
Germ
anyN
etherlandsD
enmark
BritainJapan
Sweden
USA France
Norw
ayAustria
AustraliaH
aiti EthiopiaPeruKeniaEgypt South AfricaBrazil
India Sri LankaAlgeria
0
5
10
15
20
25
30
35
40
Linkage Distance
![Page 28: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/28.jpg)
MotivaçãoAgora, para finalizar essa motivação, vamos à técnica de Análise de Componentes Principais. No menu Statistics, opte por Multivariate Exploratory Techiniques e Principal Components & Classification Analysis.
![Page 29: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/29.jpg)
MotivaçãoNa aba Advanced, em Variables inserimos as variáveis de interesse para a análise como na janela abaixo. Variáveis suplementares são aqueles que desejamos analisar, mas não diretamente.
Podemos desejar usar
apenas algumas
observações, então usamos
Active cases variable.
![Page 30: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/30.jpg)
Motivação
Para observar o comportamento
das variáveis podemos avaliar
um gráfico de scaterplot. Clique
em Plot var. factor
coordinates, 2D. Em seguida, na
aba Cases clique em Plot cases
factor coordinates, 2D.
![Page 31: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/31.jpg)
Motivação
Projec tion of the v ar iables on the f ac tor-plane ( 1 x 2)
W AG E RA T E G NP
INF LA T IO N
DEBT
-1,0 -0,5 0,0 0,5 1,0
Fac tor 1 : 94,31%
-1,0
-0,5
0,0
0,5
1,0
Factor 2 : 3,11%
![Page 32: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/32.jpg)
Motivação
Projec tion of the c as es on the f ac tor-plane ( 1 x 2)
Cas es w ith s um of c os ine s quare >= 0,00
A c tiv e
A lgeria
A us tral iaA us tria
B elgium
B ri tain
B raz i l
China
Cz ec h Republ ic Denm arkE gypt
E thiopia
F inland
F ranc e
G ermany
G reec eHaiti Hungary
IndiaIndones ia
Ireland
Italy
J apan
K enia
K orea Lux emburg
Malay s ia
Mex ic o
Netherlands
Norw ay
P eru
P oland
P ortugal
S outh A fric a
S pain
S ri Lank a S w edenS w itz erland
T aiw an
T hai land
USA
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5
Fac tor 1: 94,31%
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Factor 2: 3,11%
![Page 33: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/33.jpg)
As p variáveis originais (X1, . . . , Xp) são transformadas em p variáveis (Y1, . . . , Yp), denominadas componentes principais, de modo que Y1 é aquela que explica a maior parcela da variabilidade total dos dados, Y2 explica a segunda maior parcela e assim por diante. Portanto, podemos afirmar que os principais objetivos de ACP são:
Principais Objetivos da Análise
ComponentesPrincipais
Reduçãoda dimensionalidade
dos dados
Obtençãode combinações
interpretáveis das variáveis
Descriçãoe entendimento da
estrutura de correlação das variáveis
Confirma grupos da Análise de Agrupamentos
![Page 34: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/34.jpg)
- O intuito da análise é resumir o padrão de correlação entre as variáveis e muitas vezes é possível chegar a conjuntos não correlacionados de variáveis, de modo que surge alguns agrupamentos;
- Algebricamente, as componentes principais são combinações lineares das variáveis originais;
- Geometricamente, as componentes principais são as coordenadas dos pontos amostrais em um sistema de eixos obtido pela rotação do sistema de eixos original, na direção da máxima variabilidade dos dados;
- A análise de componentes principais depende somente da matriz de covariância ou a de correlação. Não exige qualquer suposição sobre a forma da distribuição multivariada dessas variáveis;
- Se a normalidade existe, a análise é engrandecida, se não ela ainda vale a pena.
Algumas Considerações Importantes
![Page 35: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/35.jpg)
Como Obter as Componentes Principais
Suponha que estamos observando
3 variáveis que refletem a motivação,
preferência e habilidades
intelectuais de um grupo de pessoas. No
entanto, queremos saber se é possível
ter respostas adequadas quando
trabalhamos apenas duas variáveis.
![Page 36: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/36.jpg)
Vamos retornar àquele exemplo sobre índices econômicos. Vejamos como se estrutura o relacionamento entre as variáveis e avaliar um modelo algébrico de componentes principais. Clique em Eigenvalues e Eigenvectors (Autovalores e Autovetores).
Aplicação
![Page 37: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/37.jpg)
Aplicação
![Page 38: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/38.jpg)
Aplicação
Os autovetores nos dão os coeficientes das equações lineares abaixo:
CP1 = – 0,507.Wagerate + 0,497.GNP – 0,504.Inflation – 0,492.Debt
CP2 = 0,386.Wagerate + 0,183.GNP + 0,516.Inflation – 0,742.Debt
CP3 = – 0,192.Wagerate – 0,848.GNP – 0,204.Inflation – 0,450.Debt
CP4 = 0,746.Wagerate + 0,025.GNP – 0,662.Inflation – 0,066.Debt
CP1 é responsável por 94,31% da informação original e CP2 é responsável por 3,11% da informação original. Essas duas componentes juntas nos fornecem 97,42% de informação.
![Page 39: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/39.jpg)
Quantidade de Componentes a Escolher
Eigenvalues of correlation m atrix
94,31%
3,11% 2,23% ,34%
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
Eigenv alue number
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
Eigenvalue
![Page 40: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/40.jpg)
Como Interpretar as Componentes Principais?
- A interpretação é feita com base nas correlações entre as variáveis originais e as componentes principais, e nos coeficientes dados pelas combinações lineares que levam às componentes principais;
- As correlações são medidas das contribuições individuais de cada variável e não consideram a contribuição multivariada das demais variáveis;
- A primeira componente principal pode ser interpretada como uma média entre as variáveis com maior coeficiente na combinação linear
![Page 41: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/41.jpg)
Contribuições
Podemos medir o grau de relação que existe entre as variáveis e as componentes principais com a opção Factor & variable correlations.
E podemos também medir a contribuição
de cada variável para a construção de
uma componente
principal usando a
opção Contributions of variables.
![Page 42: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/42.jpg)
Contribuições
111.CPX WagerateCPX Wagerate CPv
98512,0772414,3.5072,0
2CPX WagerateCPX Wagerate 11
ãoContribuiç v
257252,05072,0 2
![Page 43: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/43.jpg)
Análise de Classificação
Podemos avaliar um modelo de
agrupamento usando a técnica de
componentes principais, basta clicar
nas opções Factor coordinates of cases e
Plot case factor coordinates, 2D.
Um modelo de Scores pode ser exibido com
as opções Factor scores e Factor scores
Coefficients
![Page 44: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/44.jpg)
Projec tion of the c as es on the f ac tor-plane ( 1 x 2)
Cas es w ith s um of c os ine s quare >= 0,00
A c tiv e
A lgeria
A us tral iaA us tria
B elgium
B ri tain
B raz i l
China
Cz ec h Republ ic Denm arkE gypt
E thiopia
F inland
F ranc e
G ermany
G reec eHaiti Hungary
IndiaIndones ia
Ireland
Italy
J apan
K enia
K orea Lux emburg
Malay s ia
Mex ic o
Netherlands
Norw ay
P eru
P oland
P ortugal
S outh A fric a
S pain
S ri Lank a S w edenS w itz erland
T aiw an
T hai land
USA
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5
Fac tor 1: 94,31%
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Factor 2: 3,11%
Análise de Classificação
![Page 45: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/45.jpg)
Exercício
Abra o arquivo Países.sta e confirme o agrupamento entre os 36 países na técnica de Cluster Analysis.
![Page 46: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/46.jpg)
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
![Page 47: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/47.jpg)
Definição e Conceitos
Análise Fatorial é um nome genérico dado a uma classe de métodos estatísticos multivariados cujo propósito principal é definir a estrutura subjacente em uma matriz de dados. Assim, têm-se os seguintes pontos:
Abordar o problema de analisar a estrutura das inter-relações (correlações) entre um grande número de variáveis, definindo um conjunto de dimensões latentes comuns, chamadas de fatores;
Identificar as dimensões separadas da estrutura e então determinar o grau em que cada variável é explicada por cada dimensão;
Resumir e reduzir os dados em dimensões latentes interpretáveis e compreensíveis usando escores para cada dimensão e, conseqüentemente, substituir as variáveis originais.
![Page 48: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/48.jpg)
Definição e Conceitos
Os modelos de análise fatorial buscam explicar o comportamento das variáveis observadas em relação ao comportamento de um conjunto de variáveis não observadas (variáveis latentes ou fatores).
Desta forma, sejam
Um modelo de análise fatorial é dado por:
TpXX ,,1 TpE ,,1
pmpmpppp
mm
mm
FFX
FFX
FFX
1
2222122
1111111
![Page 49: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/49.jpg)
Definição e Conceitos
pmpmpp
m
m
pp F
F
F
X
X
X
2
1
2
1
21
22221
11211
2
1
2
1
Traduzindo para notação de matriz, temos:
Cargas Fatoriais
Podemos interpretar as cargas fatoriais como:
jimimjijiji FFFFCovFXCov ;, 11
ijjjijji FFCovFXCov ;,
Observe que os fatores são ortogonais, ou seja a covariância entre fatores é igual a zero. Portanto,
![Page 50: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/50.jpg)
Definição e Conceitos
Vamos estudar a variância das variáveis observadas. Para Xi temos:
imimiiiii FFVarXVarXVar 112
o resultado disso é:
Portanto, temos dois importantes conceitos:
Comunalidade. Parcela da variância de Xi que é explicada pelos fatores comuns.
Especificidade. Parcela de variância de Xi que não é explicada pelos fatores
iimii 221
2
221
2imiic
idadeEspecifici :
Pode-se usar a proporção de
variabilidade explicada:2
2
Pri
ii
c
![Page 51: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/51.jpg)
Definição e Conceitos
Se definimos a variabilidade total das variáveis originais como sendo:
p
iiT
1
22
p
iic
1
2
Representa a parcela da variabilidade total que é explicada pelo conjunto de fatores. Conseqüentemente,
21
2
PrT
p
ii
T
c
temos, então que
é a proporção da variabilidade total dos dados que é explicada pelo conjunto de fatores comuns.
![Page 52: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/52.jpg)
Aplicação
Imagine a matriz de correlação para nove elementos da imagem de uma loja:
Política de devolução Pessoal Disponibilidade de
produto
Serviço interno Diversidade de itens para cada produto Nível de Preço
Atmosfera da loja Diversidade de produtos
Qualidade de produto
A questão que se pode levantar é: Estes elementos todos são separados no que se refere às suas propriedades de avaliação ou eles se ‘agrupam’ em algumas áreas mais gerais de avaliação?
![Page 53: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/53.jpg)
Aplicação
![Page 54: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/54.jpg)
Aplicação
Experiência Interna
Oferta de Produtos
Valor
![Page 55: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/55.jpg)
O propósito geral de técnicas de análise fatorial é encontrar um modo de condensar a informação contida em diversas variáveis originais em um conjunto menor de novas dimensões compostas ou variáveis estatísticas com uma perda mínima de informação.
Fase 1Planejamento da Análise Fatorial
Etapas do Processo de Análise Fatorial
Obj
etiv
o
É importante definir com critério as variáveis que farão parte da pesquisa com Análise Fatorial, definir as propriedades de medidas e tipos de variáveis envolvidas. Quanto maior for o número de variáveis, maior será o tamanho da amostra.
Algumas cuidados importantes em Análise de Fatores dizem respeito ao tamanho da amostra:
Dificilmente um pesquisador realiza uma Análise Fatorial com menos que 50 observações;
Preferencialmente, o tamanho da amostra deve ser maior ou igual a 100;
Alguns estudiosos propõem um mínimo de 20 observações vezes o número de variáveis a serem estudadas.
Quando se lida com amostras menores, o pesquisador sempre deve interpretar qualquer descoberta com precaução.
Variá
veis
Tam
anho
da
Am
ostr
a
![Page 56: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/56.jpg)
Etapas do Processo de Análise Fatorial
Abra o arquivo Hatco.sta na pasta Treinamento / BDs / STATISTICA /.
![Page 57: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/57.jpg)
Fase 4Cargas fatoriais:
A carga fatorial é o meio de interpretar o papel que cada variável tem na definição de cada fator;
As cargas fatoriais são a correlação de cada variável com o fator, elas são significantes quando seus valores excedem 0,70;
Cargas maiores fazem a variável ser representativa no fator.
Rotação de fatores:
Interpretação dos Fatores
V1V2
V3
V4
V5
0,50 1,0-0,50-1,0
-0,50
-1,0
0,50
1,0
Fator 1
Fator 2 Fator 2_Ort
Fator 1_Ort
RotaçãoFatorialOrtogonale Oblíqua
Fator 2_Obl
Fator 1_Obl
Quartimax. Concentra-se em rotacionar o fator inicial de modo que uma variável tenha carga alta em um fator e cargas tão baixas nos demais;
Varimax. Este método, por outro lado, busca concentrar cargas altas e baixas em cada fator, isso maximiza a variância
Equamax. É uma espécie de acordo entre os dois métodos acima.
Etapas do Processo de Análise Fatorial
![Page 58: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/58.jpg)
Exemplo
Vamos usar uma base de dados da Hatco para avaliar a existência de agrupamentos de percepções que clientes têm com respeito à empresa.As variáveis que nos interessam são: X1 a X4, X6
e X7.
O tamanho da amostra é de
100 observações,
resultando em 14 casos para cada variável,
um valor aceitável.
![Page 59: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/59.jpg)
Exemplo: Medidas de Correlação
Suposições de Normalidade, Linearidade, Homocedasticidade... afetam as correlações e se estas não são significantes, então a perda é considerável nos resultados da Análise Fatorial. Sendo assim, é preciso avaliar a grandeza e significância das correlações.
Estas correlações
são significantes
ao nível de 5%. Note que
8 das 15 correlações
são significantes.
Isso é adequado.
![Page 60: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/60.jpg)
Exemplo: Decidindo Quantos Fatores Usar
O passo seguinte é selecionar o número de componentes a serem mantidos para análise posterior. Podemos usar os autovalores para fazer essa seleção, tomando o teste da raiz latente em que os autovalores devem assumir resultados superiores a 1. Portanto, temos 3 fatores com essa característica e que respondem por 83,24% da variabilidade nas variáveis originais.
![Page 61: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/61.jpg)
Exemplo: O Gráfico para o Teste da Raiz Latente
Teste da R ais Latente
2,513
1,740
0,597 0,5300,416
0,204
1 2 3 4 5 6
Number of Eigenv alues
0,0
0,5
1,0
1,5
2,0
2,5
3,0
Value
![Page 62: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/62.jpg)
Exemplo: Cargas Fatoriais e Cumunalidades
Uma vez decididos por 2 fatores, então precisamos informar ao STATISTICA
que ele deve escolher 2 fatores com autovalores
maior que 1.
Clique em OK na janela ao lado e retorne ao módulo de análise. Clique em Summary: Factor loading.
![Page 63: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/63.jpg)
Exemplo: Cargas Fatoriais e Cumunalidades
O fator 1 é o que explica a porção maior da variabilidade e o fator 2 é o que explica ligeiramente menos;
2,51 é a porção de variabilidade total explicada pelo Fator 1, isso corresponde a 41,89% de explicação;
1,74 é a porção de variabilidade total explicada pelo Fator 2 que corresponde a 28,99% de explicação;
A significância das cargas fatoriais foram aquelas com valores superiores a 0,70.
![Page 64: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/64.jpg)
Exemplo: Aplicando Rotação Varimax
Desta forma temos 39,50% em lugar dos 41,89% para
o Fator 1; temos 31,40% em lugar dos 28,99% para
o Fator 2.
A rotação compensou a variância explicada por cada fator, distribuindo melhor os 70,9% de variabilidade explicada pelos dois fatores.
![Page 65: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/65.jpg)
Exemplo: Aplicando Rotação Varimax
Factor Loadings, Factor 1 vs. Factor 2R otation: U nrotatedEx trac tion: Pr inc ipal c omponents
X1
X2
X3
X4 X6
X7
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8
Fac tor 1
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
Factor 2
![Page 66: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/66.jpg)
Exemplo: Aplicando Rotação Varimax
Factor Loadings, Factor 1 vs. Factor 2
R otation: V arim ax norm alizedEx trac tion: Pr inc ipal c omponents
X1
X2
X3
X4X6
X7
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Fac tor 1
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
Factor 2
![Page 67: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/67.jpg)
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
![Page 68: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/68.jpg)
Definição
A análise discriminante envolve determinar uma variável estatística que é a combinação linear de duas ou mais variáveis independentes que discriminarão melhor entre grupos definidos a priori.
A discriminação é conseguida estabelecendo-se os pesos da variável estatística para cada variável para maximizar a variância entre grupos relativa à variância dentro dos grupos.
A B A B
Função Discriminante Função Discriminante
![Page 69: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/69.jpg)
A combinação linear para uma análise discriminante, também conhecida como a função discriminante, é determinada de uma equação que assume a seguinte forma:
onde
zjk = escore Z discriminante da função discriminante j para o objeto k
a = intercepto
wi = peso discriminante para a variável independente i
xik = objeto k na variável Xi.
Definição
nknkkjk xwxwxwaz 2211
![Page 70: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/70.jpg)
Exemplo
Uma empresa está interessada em investigar se um de seus novos produtos será comercialmente bem-sucedido. Isso conduz a uma pesquisa com consumidores que comprariam ou não o novo produto. Estudamos, então, as 3 características descritas no quadro abaixo:
Note que a característica Durabilidade discrimina
bem os dois grupos.
Já a característica Estilo tem uma diferença entre médias de grupo igual a
0,2. No entanto, isso não caracteriza uma má
discriminação. É preciso avaliar a dispersão e os escores discriminantes.
![Page 71: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/71.jpg)
Exemplo
10
9 7
8
5 26 1
1 2 3 4 5 6 7 8 9 10
4 3X1
Durabilidade
10
9
7
8 52
6
1
1 2 3 4 5 6 7 8 9 10
4 3X2
Desempenho
10
97 8
5 2 61
1 2 3 4 5 6 7 8 9 10
43X3
Estilo
![Page 72: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/72.jpg)
Exemplo
Usando apenas a variável X1 obtemos um percentual de classificação correta de 90%, visto que o item 5 não foi alocado corretamente. Quando inserimos a variável X2, obtemos 100% de acerto na Função 2. Mas com a análise discriminante, estamos interessados não só em agrupar, como também maximizar variabilidade entre grupos.
![Page 73: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/73.jpg)
Exemplo
![Page 74: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/74.jpg)
Exemplo
Faremos um procedimento passo a passo. O método é o Forward stepwise.
![Page 75: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/75.jpg)
Exemplo
DesempenhodeDurabilidaZ .3588,0.4756,053,4
O função discriminante:
![Page 76: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/76.jpg)
Exemplo
A Matriz de Classificação e a Classificação dos
Casos estão demonstradas nas
tabelas a seguir.
![Page 77: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/77.jpg)
Estágios do Processo de Análise Discriminante
À medida que conceituamos os
procedimentos da análise faremos um
exemplo para nos familiarizarmos com o
STATISTICA.
Abra o arquivo Hatco.sta.
Em Vars, opte por clicar em All Specs.
Veja o significado de cada variável.
![Page 78: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/78.jpg)
Estágios do Processo de Análise Discriminante
Objetivo da Pesquisa:
Determinar se existem diferenças estatisticamente significantes entre os perfis de escore médio em um conjunto de variáveis para dois (ou mais) grupos definidos a priori;
Determinar quais das variáveis independentes explicam o máximo de diferenças nos perfis de escore médio dos dois ou mais grupos;
Estabelecer procedimentos para classificar objetos em grupos, com base em seus escores em um conjunto de variáveis independentes;
Estabelecer o número e a composição das dimensões de discriminação entre grupos formados a partir do conjunto de variáveis independentes.
![Page 79: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/79.jpg)
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante:
Seleção de Variáveis Dependente e Independentes:
O pesquisador deve se concentrar na variável dependente primeiro. O número de grupos pode ser dois ou mais, mas devem ser mutuamente excludentes e cobrir todos os casos.
Tamanho da amostra:
A Análise Discriminante é muito sensível ao tamanho da amostra e o número de variáveis preditoras Alguns estudos sugerem um número de 20 observações para cada preditora.
Divisão da Amostra:
É muito comum um estudo de validação do modelo, usando recursos de divisão da amostra (crossvalidation); este procedimento consiste em dividir a amostra em duas partes: 1. Modelagem (não menos que 60%) e 2. Teste (não mais que 40%).
![Page 80: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/80.jpg)
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
Vamos observar os dados em termos de média e desvio-padrão, considerando o tamanho amostral.
![Page 81: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/81.jpg)
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
Crie uma nova variável na tabela em que o valor geral é 1 para todos os casos.
Ela aparece ao lado como NewVar e será uma variável auxiliar
para contagem de casos.
![Page 82: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/82.jpg)
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
A variável X11 avalia duas abordagens quanto à compra de produtos e serviços:
1 – Análise de Valor Total: avalia cada aspecto de compra, incluindo cada tanto o produto quanto o serviço que é comprado;
0 – Especificação de Compra: define-se todas as características de produto e serviço desejados e o vendedor, então, faz uma oferta para preencher as especificações.
Já a variável Grupo define uma parte das observações que será usado para análise (assume valor 0) e a parte das observações que será usada para validar (assume valor 1) o modelo discriminante. Usamos 60 observações para análise e 40 para validação.
![Page 83: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/83.jpg)
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
![Page 84: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/84.jpg)
Estágios do Processo de Análise Discriminante
Suposições da Análise Discriminante:
Uma suposição chave é a de normalidade multivariada para as variáveis independentes. Existem evidências da sensibilidade da análise discriminante a violações dessas suposições;
Outra questão é a matriz de covariância que é desconhecida, no entanto deve ser igual para todo grupo; matrizes desiguais afetam negativamente o processo de classificação;
Também é preciso ter cuidado com a Multicolinearidade.
![Page 85: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/85.jpg)
Estágios do Processo de Análise DiscriminanteEstimação do Modelo Discriminante:
Método Computacional
Estimação Simultânea: envolve a computação da função discriminante, de modo que todas as variáveis independentes são consideradas juntas;
Estimação Stepwise: envolve a inclusão das variáveis independentes na função discriminante, uma por vez, com base em seu poder discriminatório.
Significância Estatística
As medidas de lambda de Wilks, traço de Hotelling e critério de Pillai avaliam a significância estatística do poder discriminatório da função discriminante;
A maior raiz característica de Roy avalia apenas a primeira função discriminante;
Se um método stepwise é empregado para estimar a função discriminante, as medidas D2 de Mahalanobis são mais adequadas
![Page 86: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/86.jpg)
Exemplo no STATISTICA
![Page 87: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/87.jpg)
Escolha as variáveis para análise em
Variables:
X11 é Dependente e de X1 a X7, são as
Independentes.
Escolha a opção Tradicional discriminant analysis. A outra opção é usada quando temos variáveis independentes categóricas.
Exemplo no STATISTICA
![Page 88: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/88.jpg)
Vamos usar a opção Cross validation para
avaliar a função discriminante para
esses dados.
Habilite a opção Foward stepwise para o procedimento computacional
Exemplo no STATISTICA
![Page 89: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/89.jpg)
Exemplo no STATISTICA
![Page 90: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/90.jpg)
Esta tabela nos dá o entendimento das variáveis que entram na Análise Discriminante.
Exemplo no STATISTICA
![Page 91: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/91.jpg)
Exemplo no STATISTICA
Note que a variável X7 é a que apresenta maior poder discriminante e foi escolhida primeiro. Em seguida aparece X3 e depois X1 disputa com X5 com valores muito próximos.
Após a seleção das 3 variáveis, as 4 restantes não contribuem para discriminar os grupos.
![Page 92: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/92.jpg)
Avaliação do Ajuste Geral:
Cálculo de Escores Z discriminantes
Avaliação de Diferenças de Grupos
Um caminho para avaliar o ajuste geral do modelo é determinar a magnitude de diferenças entre membros de cada grupo em termos dos escores Z discriminantes. Podemos fazer isso usando a comparação dos centróides dos grupos, o escore Z discriminante média para todos os membros dos grupos.
Avaliação da Precisão Preditiva de Pertinência de Grupo
O uso de matriz de classificação nos informa o valor razão de sucesso (um percentual de classificação correta);
O escore de corte que é o critério em relação ao qual o escore discriminante de cada objeto é comparado para determinar em qual grupo o objeto deve ser classificado.
nknkkjk xwxwxwaz 2211
Exemplo no STATISTICA
![Page 93: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/93.jpg)
Exemplo no STATISTICA
O que desejamos, desde o início, é
maximizar a distância entre as médias populacionais e
minimizar a variância.
Uma medida de distância usada é o D2
de Mahalanobis.
Clique nas opções Class squared
Mahalanobis distances, Class means for
canonical variables e Tests of significance of
distances.
![Page 94: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/94.jpg)
Exemplo no STATISTICA
773,0
2238063,1.22836,1.38
CorteZ
Observações com escores discriminantes menores que ZCorte se classificam no grupo de Análise de Valor Total ( 1 ). E os escores com valores maiores, se classificam no grupo Especificação de Compra ( 0 ).
![Page 95: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/95.jpg)
Exemplo no STATISTICA
![Page 96: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/96.jpg)
Exemplo no STATISTICA
![Page 97: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/97.jpg)
Interpretação dos Resultados:
Pesos Discriminantes
A interpretação de pesos discriminantes é análoga à interpretação de pesos beta em análise de regressão e está, portanto, sujeita às mesmas críticas.
Exemplo no STATISTICA
731 .659,0.472,0.447,0 XXXZ
É a função discriminante com pesos padronizados.
![Page 98: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/98.jpg)
Interpretação dos Resultados:
Cargas Discriminantes
As cargas discriminantes medem a correlação linear simples entre cada variável independente e a função discriminante.
Exemplo no STATISTICA
As cargas são consideradas mais
válidas do que os pesos como um
meio de interpretação do
poder discriminatório de
variáveis independentes por
causa de sua natureza
correlacional.
![Page 99: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/99.jpg)
Interpretação dos Resultados:
A Diferença entre os Grupos
Associado a cada função discriminante encontramos um raiz característica (autovalor);
O teste Lambda de Wilk avalia a diferença entre os grupos (0 e 1);
A estatística Qui-Quadrado revela se a diferença entre os grupos é significante;
O R canônico pode ser interpretado elevando-se o seu valor ao quadrado, então dizemos que o modelo discriminante
Exemplo no STATISTICA
explica certa porcentagem (66,9%) da variância na variável dependente.
![Page 100: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/100.jpg)
Coeficientes da Função de Classificação
Resultados da Classificação
Exemplo no STATISTICA
![Page 101: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/101.jpg)
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
![Page 102: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/102.jpg)
LSC para Diâmetro Interno de Pistão
LIC para Diâmetro Interno de Pistão
LSC para Diâmetro Externo de Pistão
LIC para Diâmetro Externo de Pistão
Usando MSPC:
- Avaliamos cada variável no tempo;
- Avaliamos o conjunto de variáveis, dado que a relação entre elas existe;
- Avaliamos cada lote para determinar sucesso na detecção de um processo irregular.
![Page 103: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/103.jpg)
Controle Estatístico do Processo Multivariado
1 2 . . . k
2..
.
j
i
.
.
.
Variáveis
Lote
sTempo
![Page 104: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/104.jpg)
Time-wise Mult-way Principal Components Analysis
Vamos usar um exemplo do Help do STATISTICA para ilustrar o uso desta técnica multivariada. Os dados vem de um processo industrial que mede a polimerização de um reator por lote.
![Page 105: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/105.jpg)
Time-wise Mult-way Principal Components Analysis
Descrição do problema:
• Para cada batelada tomamos 100 leituras de 10 variáveis observadas;
• Tomamos 55 bateladas:
• 47 bateladas alcançaram sucesso, ou seja, a qualidade do polímero é aceitável: 1-37, 39, 41, 43, 44, 47 e 49;
• 4 bateladas estão próximas do limite de tolerância: 38, 45, 46 e 49;
• 8 bateladas não obtiveram sucesso: 40, 42 e 50-55;
• Dividimos essas bateladas em 2 arquivos: 30 com sucesso estão em NormalBatches.sta e 25 (com sucesso, sem sucesso e próximo dos limites) foram misturadas em BatchesForDeployment.sta.
![Page 106: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/106.jpg)
Time-wise Mult-way Principal Components Analysis
Objetivos da análise:
• Aplicar TMPCA em NormalBatches.sta para construir um modelo de referência que descreva a evolução de bons lotes;
• Usar este modelo para identificar bateladas futuras como lotes com Sucesso ou sem Sucesso usando os dados de BatchesForDeployment.sta.
![Page 107: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/107.jpg)
Time-wise Mult-way Principal Components Analysis
![Page 108: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/108.jpg)
Time-wise Mult-way Principal Components Analysis
Este módulo suporta a entrada tanto de variáveis
contínuas como de variáveis discretas que assumam um comportamento dicotômico
(variável dummy), assumindo valores 0 e 1.
Podemos explorar o comportamento do Processo com PCA e modelar com PLS, usando o tempo ou os lotes.
![Page 109: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/109.jpg)
Time-wise Mult-way Principal Components Analysis
Escolha as variáveis como no quadro a seguir.
![Page 110: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/110.jpg)
Time-wise Mult-way Principal Components Analysis
Nonlinear Iterative Partial Least Squares, NIPALS é o algoritmo responsável por encontrar o conjunto mais adequado de Componentes Principais e também por descrever um modelo de estrutura latente nos dados (PLS).
Nesta janela, selecionamos o método para determinar o
número de componentes. O método de Cross Validation é
indicado, visto que fará uma busca iterativa do melhor número de componentes.
![Page 111: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/111.jpg)
Time-wise Mult-way Principal Components Analysis
Uma importante característica do STATISTICA TMPCA é sua funcionalidade de pré-processamento que nos habilita a a padronizar os dados para construir um modelo melhor.
A opção default é Unit standard deviations, ela calcular um único desvio padrão para padronizar todos os lotes. Esse procedimento é requerido sempre que executamos uma PCA.
Podemos criar um procedimento de substituição de Missing Data. E quando trabalhamos com grandes bases de dados, podemos informar ao STATISTICA que a base é de certa ordem em MB.
![Page 112: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/112.jpg)
Time-wise Mult-way Principal Components Analysis
![Page 113: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/113.jpg)
Uma avaliação primária é concernente às componentes geradas pela iteração. Na opção Summary na aba Quick, vemos uma tabela que avalia o R2 das componentes com os casos selecionados aleatoriamente para treinamento do modelo por Cross Validation.
A parte dos casos que não foi usada no modelo tem o seu índice em Q2.
Foram geradas 14 componentes, visto que 10 componentes foram avaliadas com casos para treinamento e 10 com casos para teste.
Time-wise Mult-way Principal Components Analysis
![Page 114: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/114.jpg)
Time-wise Mult-way Principal Components Analysis
![Page 115: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/115.jpg)
Time-wise Mult-way Principal Components Analysis
Time-w is e Multi-w ay Pr inc ipal Components A naly s is Summary Ov erv iew
Number of c omponents is 14
R²X(Cumul.) Q²(Cumul.)
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Component
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
![Page 116: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/116.jpg)
Time-wise Mult-way Principal Components Analysis
![Page 117: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/117.jpg)
Time-wise Mult-way Principal Components Analysis
Variable im portance
0,931 0,927 0,926
0,8910,884
0,8470,841
0,824 0,820
0,799
T 2 DR T 3 DR T 1 DR T F M 2 T F M 1 PR ES 2 T 1 R M T 2 R M PR ES 3 PR ES 1
Variab le
0,78
0,80
0,82
0,84
0,86
0,88
0,90
0,92
0,94
0,96
0,98
1,00
Power
![Page 118: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/118.jpg)
Time-wise Mult-way Principal Components Analysis
![Page 119: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/119.jpg)
Time-wise Mult-way Principal Components Analysis
Hotelling T² Control Chart
Number of c omponents is 14
99,000%
B 1B 2
B 3B 4
B 5B 6
B 7B 8
B 9B 10
B 11B 12
B 13B 14
B 15B 16
B 17B 18
B 19B 20
B 21B 22
B 23B 24
B 25B 26
B 27B 28
B 29B 30
Batc h
0
10
20
30
40
50
60
70
80
90
100
T²
90,478
Agora o alvo é encontrar possíveis outliers. Podemos detectar outliers a partir de seus x-scores, visto que o uso de Componentes Principais transformou os valores originais em outra escala. Usamos, então, a distribuição amostral multivariada T2-Hotelling. Para ao i-ésima observação temos:
C
k ik
iki s
tT
12
22
tik é o escore da i-ésima observação para o k-ésimo componente;
sik é o desvio padrão estimado de tk;
C é o número de componentes.
![Page 120: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/120.jpg)
Time-wise Mult-way Principal Components Analysis
Outras medidas para diagnóstico:
O T2-Hotelling não é suficiente para predizer outliers, especialmente se inserimos observações que não foram usadas para treinar o modelo. Uma quantidade melhor é o Erro Quadrático da Predição (SPE – Square of the predictions error). Para o i-ésimo elemento temos o SPE definido ao lado.
Podemos usar ainda os resíduos para detectar outliers com a técnica distância do modelo (D-To-Model). Tome a i-ésima observação e veja ao lado.
M
jijiji xxQ
1
2ˆ
CM
xx
ModelToD
M
jijij
1
2ˆ
xij é um elemento da matriz X_Barra;
xij é um elemento da matriz de escores das Componentes Principais
^
M é o número de variáveis originais;
xij é o número de componentes
![Page 121: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/121.jpg)
Time-wise Mult-way Principal Components Analysis
SPE(Q ) ChartN umber o f components is 14
99,000%0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 81 84 87 90 93 96 99
Time
0
1
2
3
4
5
6
7
8
9
10
11
12
Q
![Page 122: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/122.jpg)
Time-wise Mult-way Principal Components Analysis
![Page 123: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/123.jpg)
Time-wise Mult-way Principal Components Analysis
Distance to m odelN u mb er o f co mp o n en ts is 14
T he normalized d istance to the model is 0,496
B1B2
B3B4
B5B6
B7B8
B9B10
B11B12
B13B14
B15B16
B17B18
B19B20
B21B22
B23B24
B25B26
B27B28
B29B30
Batc h
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
Dis
tance
Os valores são considerados outliers se excedem o limite calculado de 0,496 calculado pela solução.
![Page 124: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/124.jpg)
Time-wise Mult-way Principal Components Analysis
![Page 125: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/125.jpg)
Score scatterplot (t1 vs. t2)S tan d ard d eviatio n o f t1: 19,470
S tan d ard d eviatio n o f t2: 10,948
B 1B 2
B 3
B 4
B 5B 6
B 7B 8B 9
B 10
B 11B 12
B 13
B 14
B 15
B 16
B 17B 18
B 19B 20
B 21B 22
B 23B 24
B 25
B 26 B 27B 28
B 29
B 30
-80 -60 -40 -20 0 20 40 60 80
t1
-80
-60
-40
-20
0
20
40
60
80
t2 + /-3,000*S td.Dev
Time-wise Mult-way Principal Components Analysis
O gráfico abaixo exprime o fato de que as bateladas não sofrem desvios da normalidade quando avaliamos as 10 variáveis juntas. A elipse representa o limite correlacionado para esta variáveis.
![Page 126: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/126.jpg)
Time-wise Mult-way Principal Components Analysis
![Page 127: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/127.jpg)
Time-wise Mult-way Principal Components Analysis
Score contribution plot (t1, 0)
0,039
0,008
0,036
0,016
0,026
0,0040,000 0,000
0,018
0,011
T 1 DR T 2 DR T 3 DR PR ES 1 T F M 1 T 1 R M T 2 R M PR ES 2 PR ES 3 T F M 2
Variab le
-0,05
-0,04
-0,03
-0,02
-0,01
0,00
0,01
0,02
0,03
0,04
0,05
Score contribution (B1 - A
verage)
Podemos ainda avaliar a importância de cada variável para algum componente. O gráfico abaixo, por exemplo, se refere ao primeiro componente e, note, a primeira variável é a que mais influencia.
![Page 128: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/128.jpg)
Time-wise Mult-way Principal Components Analysis
![Page 129: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/129.jpg)
Time-wise Mult-way Principal Components Analysis
Para avaliar a trajetória dos pontos ao longo do tempo, usamos a opção Trajectory.
Trajectory plot of variable: T 1DR
N umber o f ba tches: 30
0 7 14 21 28 35 42 49 56 63 70 77 84 91 98
Time
0,5
0,6
0,7
0,8
0,9
1,0
Trajectory
+/-3 ,000*Std .D ev +/-2 ,000*Std .D ev M ean
![Page 130: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/130.jpg)
Time-wise Mult-way Principal Components Analysis
Agora vamos avaliar uma nova batelada contida no arquivo Batches For Deployment, no Help do STATISTICA, usando o procedimento de MSPC Deployment. Gere o PMML script do como ao lado.
![Page 131: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/131.jpg)
Time-wise Mult-way Principal Components Analysis
![Page 132: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/132.jpg)
Time-wise Mult-way Principal Components Analysis
Cancele a janela ao lado até retornar à janela inicial. Abra o arquivo que será avaliado (use Open Data) e siga os passos.
![Page 133: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/133.jpg)
Time-wise Mult-way Principal Components Analysis
Busque o script do PMML salvo em lugar conhecido e seguro. Use a opção Load models do STATISTICA MSPC.
Assim que inserir o script, as opções na aba Results estarão habilitadas para uso. Clique em Summary.
![Page 134: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/134.jpg)
Time-wise Mult-way Principal Components Analysis
Avalie novamente os resultados anteriores para esse novo conjunto de bateladas. Observe que essas bateladas estão fora de especificação e, portanto, a qualidade dos polímeros não é satisfatória.
![Page 135: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/135.jpg)
Time-wise Mult-way Principal Components Analysis
Hotelling T² Control ChartN umber o f components is 14
19.516,728
10.337,292
20.433,084
10.184,001
20.904,183
7.842,383
B31B32
B33B34
B35B36
B37B38
B39B40
B41B42
B43B44
B45B46
B47B48
B49B50
B51B52
B53B54
B55
B atch
0
5000
10000
15000
20000
25000
T²
90,478 99 ,000%
![Page 136: estatistica experimental 3](https://reader036.vdocuments.site/reader036/viewer/2022081417/563dbbb3550346aa9aaf7f59/html5/thumbnails/136.jpg)
StatSoft South AmericaDeptº. de Projetos e Consultoria
Josias Jônatas – Consultor Data MinerDeptº. de Treinamentos e Suporte
Andréia Santiago – Gerente de TreinamentosFone: 55 11 3422 4250
Fax: 55 11 3422 4255