tema 6 anÁlisis de conglomerados - usc.es · centroide: centro de simetría del cluster, calculado...
TRANSCRIPT
Facultade de Psicoloxía. Campus Sur, s/n. 15782 Santiago de Compostela www.usc.es/psicom
Dr. Jesús Varela Mallou
Dr. Antonio Rial Boubeta
Dr. Eduardo Picón Prado
Análisis Multivariante
Santiago de Compostela, 2018
TEMA 6 ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE
Lecturas obligatorias
Picón, E. Varela, J. y Real, E. (2003):
Clasificación y Segmentación Post Hoc
mediante el Análisis de Conglomerados.
En J.P. Lévy y J. Varela (Dirs.): Análisis
Multivariante para las Ciencias Sociales.
Madrid: Pearson Educación.
2
TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN
ANÁLISE MULTIVARIANTE
3
Métodos de Dependencia: Se asume que una variable (Y) depende de (es
causada o determinada por) otras variables (X1, X2 etc.)
Ejemplos: Regresión, ANOVA, Análisis Discriminante
Métodos de Independencia: No se asume que ninguna variable sea causada o
determinada por otras. Básicamente tenemos X1, X2 ….Xn (pero no Y)
Ejemplos: Análisis de Conglomerados, Análisis Factorial, etc.
Contextualización
INTRODUCCIÓN
Cuándo se usan métodos de independencia se deja que los datos
hablen por ellos mismos. No hay modelización previa.
TEMA 7 - ANÁLISIS DE CONGLOMERADOS
Análisis Factorial: Cuando lo que interesa son agrupar variables.
Análisis Clúster: Cuando lo que interesa son agrupar observaciones.
ANÁLISE MULTIVARIANTE
Contextualización
Principio rector: Maximización de la homogeneidad intra grupos (conglomerados,
segmentos) y simultáneamente Maximización de la heterogeneidad inter grupos.
INTRODUCCIÓN TEMA 7 - ANÁLISIS DE CONGLOMERADOS
X1 X2 X3 X4 Cluster
Obs1
Obs2
Obs3
Obs4
Obs5
Obs6
Obs7
Obs8
Obs9
Obs10
5
3
2
5
.
.
.
.
.
.
2
3
4
3
.
.
.
.
.
.
1
4
3
2
.
.
.
.
.
.
3
2
5
4
.
.
.
.
.
.
1
2
3
1
2
3
3
1
3
2
Cluster 1
Cluster 2
Cluster 3
Resultado final: En el fichero de datos, una nueva variable que asigna
cada observación a un conglomerado específico.
ANÁLISE MULTIVARIANTE
Dos fases fundamentales. 1ª: Obtención de segmentos
INTRODUCCIÓN TEMA 7 - ANÁLISIS DE CONGLOMERADOS
5
Resultado final: Una tabla de contingencia entre la variable de agrupamiento y una
serie de variables sociodemográficas o de otro tipo (distintas de las utilizadas para
establecer los conglomerados).
Cluster 1 Cluster 2 Cluster 3
Edad
% Mujeres
Tamaño de la familia
Opinión 1
Opinión 2
Opinión 3
32
31
1.4
3.2
2.1
2.2
44
54
2.9
4.0
3.4
3.3
56
46
2.1
2.6
3.2
3.0
“Jóvenes solteros”
“Familia tradicional”
“Maduros felices”
Dos fases fundamentales. 2ª: Perfilado de segmentos
ANÁLISE MULTIVARIANTE INTRODUCCIÓN TEMA 7 - ANÁLISIS DE CONGLOMERADOS
6
El análisis estadístico necesita:
1. Una MEDIDA para calcular la distancia entre dos sujetos, lo distintos
que son.
2. Un criterio, una regla, un MÉTODO PARA AGRUPARLOS y asignarlos a
cada conglomerado.
¿Cómo se construyen los conglomerados?
ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
Otras distancias disponibles en SPSS: City-Block (usa de distancias absolutas en
vez de la distancia al cuadrado de las coordenadas), Minkowski, Coseno,
Chebychev, Correlación de Pearson.
El tipo de medida seleccionada influye poco en los resultados finales.
*
A
B
X
Y
(x1, y1)
(x2, y2)
y2-y1
x2-x1
*
d = (x2-x1)2 + (y2-y1)
2
ANÁLISE MULTIVARIANTE
¿La medida? Distancia Euclídea (por defecto en SPSS)
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
8
ANÁLISE MULTIVARIANTE
¿El método de agrupamiento? Hay muchos y muy diferentes
Nombre en SPSS
1
2
3
4
5
6
7
8
9
Vinculación entre-grupos
Vinculación intra-grupos
Vecino más próximo
Vecino más lejano
Agrupación de centroides
Agrupación de medianas
Método de Ward
Conglomerado de K-medias
Análisis Factorial
Jerárquicos Iterativos
Aglomerativos Divisivos
- Umbral secuencial
- Umbral paralelo
- Redes Neuronales - Partición óptima (8)
Métodos sin solapamiento Métodos con solapamiento
- k-centroides con solapamiento
- k-medias con solapamiento
- Análisis de Clases Latentes
- AC Borroso
- Factorial Tipo-Q (9)
Métodos de
vinculación
Métodos de
centroide
Métodos de
varianza
- Centroide (5) - Mediana (6)
- Promedio - Entre grupos (1) - Intra grupos (2) - Ponderado
- Único - Ordinario (3) - Densidad
- Dos fases
- Completo (4)
- Ward (7)
Nota: Los métodos en cursiva están
disponibles en SPSS. Redes Neuronales
requiere de la herramienta de data
mining Clementine.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE
Principales tipologías de agrupamiento
Vinculación única:
Mínima distancia * *
Vinculación completa:
Máxima distancia * *
Vinculación media
(inter-grupos):
Distancia media *
*
*
*
Método de Ward:
Minimización de la varianza intragrupos
* *
*
* *
¤ *
* *
* ¤
Método de centroide:
Distancia entre centros
* *
*
* *
* * *
* * ¤ ¤
Sin solapamiento Con solapamiento
Jerárquico No jerárquico
1a 1b
1c
1a 1b
1b1 1b2 2
Aglomerativo Divisivo
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
* A * B
* H
* G
* D
* E
* C
¿CÓMO FUNCIONAN LOS PROCEDIMIENTOS JERÁRQUICOS (AGLOMERATIVOS)?
¿Qué par de elementos se unirán primero?
ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
11
* A * B
* H
* G
* D
* E
* C
ANÁLISE MULTIVARIANTE
Depende de la medida de distancia que utilicemos, pero supongamos
que A-B y D-E. Surgen así dos conglomerados.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
12
* A * B
* C
* H
* G
* D
* E
ANÁLISE MULTIVARIANTE
El siguiente punto más próximo a estos dos conglomerados es C. ¿A
dónde será adscrito?
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
13
* A * B
* C
* H
* G
* D
* E
ANÁLISE MULTIVARIANTE
A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN
VARIAS POSIBILIDADES (métodos de agrupamiento).
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
14
7,0 10,5
9,0
8,5
8,5
9,5
12,0
11,0
* A * B
* C
* H
* G
* D
* E
ANÁLISE MULTIVARIANTE
A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN
VARIAS POSIBILIDADES (métodos de agrupamiento):
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
15
10,5
9,5
* A * B
* C
* H
* G
* D
* E
ANÁLISE MULTIVARIANTE
VECINO MÁS LEJANO (COMPLETE LINKAGE): Adscribe C al conglomerado
cuya distancia el caso más alejado de ese conglomerado es menor.
d(C;AB)=max(dCA;dCB)
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
16
7,0
8,5
* A * B
* C
* H
* G
* D
* E
ANÁLISE MULTIVARIANTE
VECINO MÁS PRÓXIMO (SINGLE LINKAGE): Adscribe C al conglomerado
cuyo distancia al caso más cercano de ese conglomerado es menor.
d(C;AB)=min(dCA;dCB)
Inconvenientes: Encadenamiento
Ventajas: Detecta muy bien “outliers”.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
17
9,0
8,5
* A * B
* C
* H
* G
* D
* E
ANÁLISE MULTIVARIANTE
MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al
conglomerado cuya promedio de distancias es menor.
• Vinculación Intragrupos • Vinculación intergrupos
• Mediana • Centroide • Ward Tienden a obtener conglomerados de
tamaño similar. Preferibles al resto de jerárquicos, especialmente WARD y VINCULACIÓN INTERGRUPOS.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
18
ANÁLISE MULTIVARIANTE
MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al
conglomerado cuya distancia es menor a...
Vinculación INTERgrupos: Media de todas las distancias entre C y cada uno de los elementos del conglomerado.
Vinculación INTRAgrupos: Incluye además las distancias dentro de cada conglomerado, es decir, todas las posibles.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE
MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al
conglomerado cuya distancia es menor a...
Centroide: Centro de simetría del cluster, calculado como la media de las
distancias de todos sus elementos:
Mediana: Centroides calculados sólo con valores centrales.
Ward: Proporciona la menor suma de cuadrados intragrupos. En vez de utilizar las distancias entre casos utiliza esta medida de variabilidad.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
20
ANÁLISE MULTIVARIANTE
Todos estos métodos JERÁRQUICOS...
... como resultado de su proceso
aglomerativo, ofrecen un
DENDROGRAMA, una representación
gráfica en forma de árbol que
muestra:
1. Qué elementos se han ido
uniendo en cada paso.
2. Cómo se organizan los casos.
3. Cuántos conglomerados
podemos distinguir en los datos.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
21
Paso 0:
Cada observación
Es considerada
como un
conglomerado
independiente
Medida de Distancia
OBS 1
OBS 2
OBS 3
OBS 4
OBS 5
OBS 6
0,2 0,4 0,6 0,8 1,0
*
*
*
*
*
*
ANÁLISE MULTIVARIANTE
¿CÓMO SE CREA EL DENDROGRAMA?
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
22
Paso 1:
Se agrupan los dos
casos más próximos
entre sí.
Cluster 1 OBS 1
OBS 2
OBS 3
OBS 4
OBS 5
OBS 6
0,2 0,4 0,6 0,8 1,0
*
*
*
*
*
*
ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
23
Paso 2:
Se agrupan los
siguientes casos con
menores distancias
entre ellos.
Cluster 1
Cluster 2
OBS 1
OBS 2
OBS 3
OBS 4
OBS 5
OBS 6
*
*
*
*
*
*
0,2 0,4 0,6 0,8 1,0
ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
24
Cluster 1
Cluster 2
Paso 3:
El caso 3 se une al
clúster 1
OBS 1
OBS 2
OBS 3
OBS 4
OBS 5
OBS 6
*
*
*
*
*
*
0,2 0,4 0,6 0,8 1,0
ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
25
OBS 1
OBS 2
OBS 3
OBS 4
OBS 5
OBS 6
*
*
*
*
*
*
Cluster 1-2
Paso 4:
Se juntan los dos
clusters 1 y 2,
quedando un sólo
caso desparejado:
un outlier. 0,2 0,4 0,6 0,8 1,0
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS
26
¿CÓMO ANALIZA?
ANÁLISE MULTIVARIANTE
Ejemplos de dendrogramas
Un buen resultado:
2 conglomerados
claros
Un mal resultado:
No hay
conglomerados
claros
Un mal resultado:
Tenemos un outlier (caso 1017)
y el dendrograma muestra
encadenamiento
Dendrograma típico al emplear
Vecino Más Próximo
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
27
ANÁLISE MULTIVARIANTE
Ejemplos de dendrogramas
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE
¿Y QUÉ HAY DE LOS MÉTODOS ITERATIVOS?
No agrupan los datos por similaridad entre ellos No crean un dendrograma.
Son métodos que van ajustando iterativamente los centroides de un número
fijo de conglomerados k a los datos.
• Cada paso de un método jerárquico va agrupando casos similares en un
mismo cluster.
• Cada paso de un método iterativo va recolocando los centroides para que
estén óptimamente posicionados en el centro real del conglomerado.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
29
ANÁLISE MULTIVARIANTE
¿CÓMO FUNCIONA K-MEDIAS?
Supongamos que el
número de grupos
k = 3.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
30
ANÁLISE MULTIVARIANTE
¿CÓMO FUNCIONA K-MEDIAS?
Iteración 0
Se comienza con una
posición aleatoria de los
centroides.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
31
ANÁLISE MULTIVARIANTE
¿CÓMO FUNCIONA K-MEDIAS?
Iteración 1
Se asigna cada caso
al centroide más
próximo.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
32
ANÁLISE MULTIVARIANTE
¿CÓMO FUNCIONA K-MEDIAS?
Iteración 2
Se recoloca el centroide
en el centro de los puntos
asignados.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
33
ANÁLISE MULTIVARIANTE
¿CÓMO FUNCIONA K-MEDIAS?
Iteración 3
Se continúa iterativamente
hasta que:
1. La distancia entre
centroides es máxima.
2. La distancia caso-
centroide es mínima.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
34
ANÁLISE MULTIVARIANTE
¿QUÉ MÉTODO ES PREFERIBLE?
VENTAJAS DE LOS JERÁRQUICOS
- Proporcionan una fotografía de cómo estan organizados los datos El investigador
puede ver cuántos conglomerados “existen” en los datos.
- Pueden calcularse los centros de esos conglomerados: centroides (medias).
- Vecino Más Próximo es especialmente bueno para localizar outliers.
- Ward y Vinculación INTERgrupos son los preferidos de entre los jerárquicos: estudios
de simulación han comprobado que adscriben cada elemento a su conglomerado
verdadero mejor que el resto (especialmente WARD). Tienden a ofrecer
conglomerados similares en tamaño y dispersión de sus elementos, de forma
redondeada.
DESVENTAJAS DE LOS JERÁRQUICOS
- Cualquiera de los métodos jerárquicos por separado funciona peor que k-medias.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
35
ANÁLISE MULTIVARIANTE
¿QUÉ MÉTODO ES PREFERIBLE?
VENTAJAS DE LOS ITERATIVOS
- K medias es el método más robusto respecto a presencia de outliers y errores en
las medidas de distancia.
DESVENTAJAS DE LOS ITERATIVOS
- Requiere que el investigador especifique previamente tanto el número de
conglomerados como sus centros iniciales.
¿SOLUCIÓN? Combinar ambos procedimientos, utilizando:
1. Jerárquico para eliminar outliers, determinar el numero de clusters y sus
centros iniciales.
2. K-medias para obtener la solución conglomerativa final.
¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS
36
ANÁLISE MULTIVARIANTE
Descripción de los segmentos
Obtención de los segmentos
Etapas preliminares
1ª
FA
SE
: M
ÉT
OD
OS
J
ER
AR
QU
ICO
S
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS CONGLOMERADOS
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
Fases a la hora de ejecutar un Análisis de Conglomerados
37
FASES DEL ANÁLISS TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE 1
ª F
AS
E:
MÉ
TO
DO
S
JE
RA
RQ
UIC
OS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS
CONGLOMERADOS
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
ETAPAS PRELIMINARES
38
FASES DEL ANÁLISS
CUESTIONES PREVIAS
¿Cuál es el objetivo de mi estudio?
¿Busco explorar datos o confirmar hipótesis?
¿Quiero encontrar segmentos o grupos?
SELECCIÓN DE VARIABLES
Las variables deben ser independientes, no
correlacionadas. Si son ítems de un test
mejor hacer un análisis factorial antes.
Debe tener sentido agruparlas
Rubbish in, rubbish out.
El número de variables a introducir en el
análisis no es importante (Md = 15).
Sí debe mantenerse un número suficiente de
casos por variable, idealmente 2m (m = nº
variables).
Por lo tanto, mejor muestras grandes y
representativas.
TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE 1
ª F
AS
E:
MÉ
TO
DO
S
JE
RA
RQ
UIC
OS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS
CONGLOMERADOS
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
39
FASES DEL ANÁLISS
Posibles outliers. El número indica la posición que ocupan en el fichero. Se ocultan de los análisis y se vuelve a ejecutar este método para
comprobar el efecto sobre el dendrograma.
TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE 1
ª F
AS
E:
MÉ
TO
DO
S
JE
RA
RQ
UIC
OS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA FIABILIDAD
ACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS
CONGLOMERADOS
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
40
FASES DEL ANÁLISS
Para determinar el número de
conglomerados “natural” existen criterios
numéricos y gráficos.
SPSS no ofrece numéricos y de los gráficos
sólo el dendrograma.
El dendrograma nos muestra 3 grupos
claros:
Para validar esta solución, se recomienda utilizar, además, otro procedimiento
TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE 1
ª F
AS
E:
MÉ
TO
DO
S
JE
RA
RQ
UIC
OS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS
CONGLOMERADOS
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
41
FASES DEL ANÁLISS
El análisis del CAMBIO EN EL COEFICIENTE DE CONGLOMERACIÓN
indica que 3 conglomerados es además la opción mejor desde un
punto de vista estadístico.
TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE 1
ª F
AS
E:
MÉ
TO
DO
S
JE
RA
RQ
UIC
OS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS
CONGLOMERADOS
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
42
FASES DEL ANÁLISS
TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE 1
ª F
AS
E:
MÉ
TO
DO
S
JE
RA
RQ
UIC
OS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS
CONGLOMERADOS
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
43
FASES DEL ANÁLISS
PASOS
Se calculan las medias de cada variable para cada uno de los 3 conglomerados.
Se copian los datos en un fichero de datos, nombrando a las variables exactamente igual e incluyendo una variable que se debe llamar
necesariamente cluster_
TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE 1
ª F
AS
E:
MÉ
TO
DO
S
JE
RA
RQ
UIC
OS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS
CONGLOMERADOS
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
OBTENCIÓN DE LOS SEGMENTOS
44
FASES DEL ANÁLISS
En esta última fase final especificamos:
1. 3 como número de conglomerados.
2. El fichero de medias recién creado como centros iniciales.
La variable que se crea en el archivo de datos tras un k medias se reconoce bien respecto de un método jerárquico.
Importante informar del % de casos reasignados a otro conglomerado.
TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE 1
ª F
AS
E:
MÉ
TO
DO
S
JE
RA
RQ
UIC
OS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS
CONGLOMERADOS
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
PERFILADO DE LOS SEGMENTOS
45
FASES DEL ANÁLISS
IMPORTANTÍSIMA FASE
Tenemos ya los conglomerados formados…
pero ahora qué hacemos con ellos??
Debemos cruzarlos con otras variables del
cuestionario (no utilizadas para crear los
grupos) con el fin de perfilarlos, saber un
poco más de ellos.
Para ello se utilizan:
- Contrastes F si se cruza la variable de
conglomerados con una variable métrica.
- Contrastes X2 si se cruzan con una variable
categórica.
TEMA 7 - ANÁLISIS DE CONGLOMERADOS
ANÁLISE MULTIVARIANTE 1
ª F
AS
E:
MÉ
TO
DO
S
JE
RA
RQ
UIC
OS
PLANTEAMIENTO DEL PROBLEMA
VECINO MÁS PRÓXIMO:
DETECCIÓN Y ELIMINACIÓN DE
OUTLIERS
SELECCIÓN DE VARIABLES
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
PERFILADO DE LOS
CONGLOMERADOS
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
PERFILADO DE LOS SEGMENTOS
46
FASES DEL ANÁLISS
TEMA 7 - ANÁLISIS DE CONGLOMERADOS