análise estrutural - ..:: gepeq - grupo de estudo e pesquisa … · ppt file · web...
Post on 11-Nov-2018
224 Views
Preview:
TRANSCRIPT
djoi@power.ufscar.br 1
Seminário DEs/DEP
Algumas Técnicas Estatísticas Multivariadas
Parte IIJorge Oishi
djoi@power.ufscar.br 2
Técnicas Multivariadas
Tópicos abrangidos:
Análise Discriminante Análise de Cluster Análise de Correspondência
djoi@power.ufscar.br 3
Análise Discriminante Objetivo
Construir um modelo preditivo para prognosticar o grupo a qual pertence uma observação a partir de determinadas características observadas.
Permite classificar novos indivíduos em grupos previamente estabelecidos a partir das informações das variáveis observadas.
Fundamentalmente, se deseja construir uma regra ou esquema de classificação que possibilite ao investigador predizer a população que é mais provável que um indivíduo pertença.
Este é o caso onde temos uma variável dependente não métrica (que define os grupos) e várias variáveis independentes métricas.
djoi@power.ufscar.br 4
Análise Discriminante
Curiosidade: teve início com a “certeza” que um diretor de penitenciária americana tinha em ser capaz de reconhecer um criminoso andando na rua, somente através das medidas morfométricas da pessoa;
Hitler criou as medidas perfeitas de um ariano puro;
Ainda hoje existem “teorias” sobre a relação entre medidas morfométricas e estruturas psíquicas.
djoi@power.ufscar.br 5
Análise Discriminante
Exemplos: Área de crédito: dado o cadastro de clientes, estabelecer
um critério para empréstimo. (Credit Score); Área de negócios: criar uma regra, a partir de um banco de
dados sobre a previsão de insolvência de empresas; Área de negócios: regra para prever a troca de
fornecedores por parte dos clientes; Policial: através das imagens de satélite ser capaz de
reconhecer se uma plantação é de maconha. Policial: construir um critério para ajudar a PM de nossa
cidade a identificar os locais de maior risco em relação à criminalidade.
djoi@power.ufscar.br 6
Análise Discriminante
Grupos Casos X1 X2 ... Xp
1 1 X111 X112 ... X11p
1 2 X211 X212 ... X21p
... ... ... ... ... ...
1 n1 Xn1,11 Xn1,12 ... Xn1,1p
2 1 X121 X222 ... X12p
... ... ... ... ... ...
2 n2 Xn221 Xn2,22 ... Xn2,2p
... ... ... ... ... ...
m 1 X1m1 X1m2 ... X1mp
... ... ... .... ... ...
m nm Xnm,m1 Xnm,m2 ... Xnm,mp
djoi@power.ufscar.br 7
Análise Discriminante
Avaliação de um novo produto
Grupo Sujeito Durabilidade Desempenho Estilo
1 1 8 9 6
1 2 6 7 5
1 3 10 6 3
1 4 9 4 4
1 5 4 8 2
2 6 5 4 7
2 7 3 7 2
2 8 4 5 5
2 9 2 4 3
2 10 2 2 2
djoi@power.ufscar.br 8
Análise Discriminante
Curso de Multivariada\NOVPRODU.STA
djoi@power.ufscar.br 9
Análise de Cluster
Objetivo Dado um conjunto de n objetos observados através de p
variáveis, agregá-los em grupos “similares” segundo o conjunto de características avaliadas.
O que diferencia esta técnica da anterior é que nesta o número de grupos não é conhecido de antemão.
Os agrupamentos resultantes devem ter a propriedade de serem bastante homogêneos internamente ao grupo, mas bastante heterogêneos em relação aos elementos de outros grupos.
djoi@power.ufscar.br 10
Análise de Cluster A forma de agir da Análise de Cluster difere das demais técnicas
por trabalhar unicamente com o conceito de distância entre os sujeitos.
A “semelhança” utilizada é dada por proximidade dos casos segundo uma medida de distância, que em muitos casos é a distância euclidiana e em outros a distância estatística.
Ela pode ser usada também para agrupar variáveis ao invés de casos, porém a distância utilizada é a correlação entre elas. Este tipo de distância oferece alguns desafios que precisa ser entendido dentro do contexto do estudo.
Basicamente existem 3 tipos de medidas de similaridade entre os sujeitos:distância, correlação e associação.
djoi@power.ufscar.br 11
Análise de Cluster
Algorítmos de agrupamento: Como fazer para colocar no mesmo grupos os
casos? Método Hierárquico
Método aglomerativo – começa só com ele Método divisivo – começa com todos os casos Dendrograma – árvore que mostra os casos se
agrupando Algorítmos:
single linkage, average linkage e complete linkage Ward
djoi@power.ufscar.br 12
Análise de Cluster
Método Não hierárquico: não usa o processo de árvore mas partem de agrupamentos feitos a priori e corrigem o os agrupamentos reajustando as distâncias entre os elementos ao centro de cada grupo.Também são chamados de K-means. Método de Referencia Seqüencial Método da Referencia Paralela Método da Otimização
djoi@power.ufscar.br 13
Análise de Cluster
Número de Agrupamentos: quantos grupos formar? Não existem regras que possam ser recomendadas
para todos os casos. Existe a regra estatística, que a distância entre os
agrupamentos são claramente determinados a partir de um teste de hipóteses;
Existe a regra do “bom senso” onde os grupos são construídos a partir do dendrograma.
djoi@power.ufscar.br 14
Análise de Cluster
STATISTICA.lnk
djoi@power.ufscar.br 15
Análise de Correspondências
Objetivo Analisar tabelas de dupla-entrada ou de múltiplas
entradas levando-se em consideração alguma medida de correspondência entre linhas e colunas;
Ela converte uma matriz de dados não negativos em um tipo de representação gráfica em que linhas e colunas são representadas em dimensões reduzidas, isto é, por pontos num gráfico.
djoi@power.ufscar.br 16
Análise de Correspondências
Exemplo: Consideremos as vendas de três produtos A, B e C para
pessoas de três faixas etárias.
Venda de produtoFaixa etária A B C Total
18 – 35 20 20 20 60
36 – 55 40 10 40 90
56 ou + 20 10 40 70
Total 80 40 100 220
djoi@power.ufscar.br 17
Análise de Correspondências
Queremos encontrar um padrão para estabelecer que os jovens compram mais do produto X ou os idosos compram do produto Y;
Para isso precisamos de uma medida padronizada de vendas que leve em conta simultaneamente as diferenças em vendas para uma combinação específica de produto-faixa etária;
Se um grupo compra mais unidades de um produto do que o esperado, podemos associar essa faixa etária ao produto comprado.
djoi@power.ufscar.br 18
Análise de Correspondências
Em uma representação gráfica, grupos de idade seriam colocados mais proximamente de produtos com os quais eles estão mais altamente associados e mais afastados de produtos com menores associações.
Isso se faz através do cálculo dos valores observados menos os valores esperados sob a suposição de não haver qualquer associação entre produtos e consumidores.
Os valores esperados são calculados através do produto cruzado entre os totais de linhas e colunas correspondentes, dividido pelo total de vendas.
djoi@power.ufscar.br 19
Análise de Correspondências
Após a determinação dos valores esperados, encontra-se o Qui-quadrado de cada cruzamento através da seguinte fórmula:
esperadovalor esperado) valor - observadovalor (χ
22
djoi@power.ufscar.br 20
Análise de Correspondências
Venda de produtoFaixa etária A B C Total
18 – 35 21,80,15-0,15
10,97,587,58
27,31,94-1,94
609,67
36 – 55 32,71,621,62
6,42,47-2,47
40,90,02-0,02
904,11
56 ou + 25,41,17-1,17
12,70,58-0,58
31,82,102,10
703,85
Total 802,94
4010,63
1004,06
22017,63
2χ
djoi@power.ufscar.br 21
Análise de Correspondências
Row.CoordsCol.Coords
2D Plot of Row and Column Coordinates; Dimension: 1 x 2Input Table (Rows x Columns): 3 x 3
Standardization: Row and column profiles
Dimension 1; Eigenvalue: .06047 (75.44% of Inertia)
Dim
ensi
on 2
; Eig
enva
lue:
.019
69 (2
4.56
% o
f Ine
rtia)
Jovens
Adultos
Idosos
A
B
C
-0.25
-0.20
-0.15
-0.10
-0.05
0.00
0.05
0.10
0.15
0.20
0.25
-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6
djoi@power.ufscar.br 22
Análise de Correspondências A partir da construção de uma estrutura de
relacionamento, determinam-se dimensões através da decomposição espectral (autovalores e autovetores) cujo gráfico das variáveis e casos são representados por pontos e cujas proximidades refletem a semelhança entre comportamentos.
A construção dessas dimensões é realizada através dos softwares estatísticos e fica muito difícil a sua obtenção através de outros meios.
A grande contribuição da AC está nesses gráficos que permitem a avaliação visual do comportamentos das linhas e colunas num único gráfico.
djoi@power.ufscar.br 23
Bibliografia
Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C. Análise Multivariada de Dados. 5a. Edição, Bookman, 2005
Johnson, R.A.; Wichern, D.W. Applied Multivariate Statistical Analysis. 4a. Edição, Prentice Hall, 1998.
Manly, B.F.J. Multivariate Statistical Analysis: A primer. 2a. Edição, Chapman & Hall, 1997.
Manual do Statistica, Vol III: Statistics II. StatSoft, 1999. Lopez, C.P. Métodos Estadísticos Avanzados com
SPSS. Thomson, 2005.
djoi@power.ufscar.br 24
Muito obrigado a todos vocês que conseguiram me agüentar nesses dois dias.
Que Deus os abençoe e os gratifiquem contribuindo com um mãozinha na
MegaSena (mas se ganharem não se esqueçam da minha comissão)
top related