análisis de datos 2

15
Modelos Reductivos (interdependencia) Análisis Factorial y Componentes Principales Denominación genérica para serie de procedimientos de análisis multivariables que analizan la relación mutua (interdependencia) entre variables. Técnica que reúne a una serie de procedimientos analíticos que tienen como objetivo común sintetizar información de variables empíricas en un número inferior de variables latentes. - objetivo principal: agrupar información (variables) en función de la variabilidad que cada variable comparte con otras. (1, exploratorio) Conocer la estructura de relaciones de un conjunto de variables; (2, confirmatorio) contrastar hipótesis sobre dimensiones subyacentes a una matriz de datos, Validez de Constructo; (3, descriptivo) describir el patrón de relaciones de un conjunto de variables; (4, parsimonia) reducir información. - objetivos específicos: (1) analizar correlación existente en una serie de variables, con el propósito de descubrir si comparten alguna estructura latente (no directamente observable); (2) obtención de puntuaciones factoriales a partir de los factores o componentes para ser usadas en análisis posteriores. - Análisis de Factor Común (AFC): considera sólo la comunalidad entre las variables –varianza común–, la información que es común a todas ellas. Se restringe a la búsqueda de un número reducido de factores que expresen lo que es común al conjunto de variables observadas. - Análisis de Componentes Principales (ACP): analiza la varianza total del conjunto de variables observadas, incluyendo comunalidad y especificidad. Se diferencian principalmente con el tipo de varianza que consideran para efectuar el procedimiento de extracción de dimensiones (factores, componentes); se confunden como parte de lo mismo porque utilizan algoritmos de cálculo parecidos, y los paquetes de procesamiento computacional ejecutan estas dos modalidades en el mismo programa (FACTOr en spss). - Varianza total: (1) Comunalidad, hace referencia a la variación que tienen en común las variables; (2) Especificidad –varianza específica–, a la variación específica de cada una de las variables, puede descomponerse en unicidad (varianza no compartida por variables) y error (parte de la unicidad que es aleatoria); (3)

Upload: carlos-mackenney-bertran

Post on 12-Jul-2016

2 views

Category:

Documents


0 download

DESCRIPTION

Resumen análisis de datos

TRANSCRIPT

Page 1: Análisis de datos 2

Modelos Reductivos (interdependencia)

Análisis Factorial y Componentes Principales

Denominación genérica para serie de procedimientos de análisis multivariables que analizan la relación mutua (interdependencia) entre variables. Técnica que reúne a una serie de procedimientos analíticos que tienen como objetivo común sintetizar información de variables empíricas en un número inferior de variables latentes.

- objetivo principal: agrupar información (variables) en función de la variabilidad que cada variable comparte con otras. (1, exploratorio) Conocer la estructura de relaciones de un conjunto de variables; (2, confirmatorio) contrastar hipótesis sobre dimensiones subyacentes a una matriz de datos, Validez de Constructo; (3, descriptivo) describir el patrón de relaciones de un conjunto de variables; (4, parsimonia) reducir información.- objetivos específicos: (1) analizar correlación existente en una serie de variables, con el propósito de descubrir si comparten alguna estructura latente (no directamente observable); (2) obtención de puntuaciones factoriales a partir de los factores o componentes para ser usadas en análisis posteriores.

- Análisis de Factor Común (AFC): considera sólo la comunalidad entre las variables –varianza común–, la información que es común a todas ellas. Se restringe a la búsqueda de un número reducido de factores que expresen lo que es común al conjunto de variables observadas.- Análisis de Componentes Principales (ACP): analiza la varianza total del conjunto de variables observadas, incluyendo comunalidad y especificidad.

Se diferencian principalmente con el tipo de varianza que consideran para efectuar el procedimiento de extracción de dimensiones (factores, componentes); se confunden como parte de lo mismo porque utilizan algoritmos de cálculo parecidos, y los paquetes de procesamiento computacional ejecutan estas dos modalidades en el mismo programa (FACTOr en spss).

- Varianza total: (1) Comunalidad, hace referencia a la variación que tienen en común las variables; (2) Especificidad –varianza específica–, a la variación específica de cada una de las variables, puede descomponerse en unicidad (varianza no compartida por variables) y error (parte de la unicidad que es aleatoria); (3) varianza de error, variabilidad que proviene de la poca fiabilidad en el proceso de recolección de datos, error de medición.

Análisis de componentes principales

- Técnica de análisis multivariable de interdependencia cuyo objetivo es la búsqueda de combinaciones lineales de las variables observadas, en un numero sustancialmente menor de variables latentes (no observadas). - Extrae tantos componentes como variables observadas. Carácter jerárquico, los primeros componentes se caracterizan por extraer la mayor proporción de varianza de las variables originales; los últimos apenas explican variabilidad.- Los componentes extractados son ortogonales (independientes o no correlacionados entre sí), lo que permite que efectivamente den cuenta de dimensiones diferentes en los datos.- Investigador decide cuántos componentes se seleccionarán para dar cuenta de la varianza total existente en la matriz de datos; se trata de “explicar la mayor proporción de varianza total de las variables observadas con el menor número de componentes posibles”; búsqueda de parsimonia.

Page 2: Análisis de datos 2

Modelos Reductivos (interdependencia)

- Fases: (1) análisis previo de los datos, comprobación de la pertinencia; (2) selección procedimiento de extracción de factores; (3) selección número de factores; (4) interpretación matriz factorial.

- tamaño muestral: al menos 200 casos; al menos 5 casos por variable incluida en el análisis. 100=pobre, 200=justo, 300=bueno, 500=muy bueno (Comrey).- nivel de medida: intervalares o de razón; pueden utilizarse ordinales (de más de 5 categorías). - normalidad multivariable: variables y sus combinaciones deben estar distribuidas normalmente. Supuesto no es un requisito básico para ACP, aunque la asimetría severa puede distorsionar los resultados.- linealidad: las relaciones entre los pares de variables deben ser lineales.- correlación entre las variables: multicolinealidad no es un problema; se demanda la existencia de alta correlación entre variables (superior a 0,3), la búsqueda de estructuras latentes sólo tiene sentido en la medida que existen variables relacionadas entre sí que puedan agruparse para dar cuenta de dimensiones del concepto que se está midiendo.

Interpretación de tablas y coeficientes

Condiciones de aplicación: evaluar correlación existente, pertinencia realizar ACP.1) Matriz de Correlaciones: permite evaluar la condición de aplicación de suficiente relación entre variables. Se espera importante cantidad de variables correlacionadas (=>0,3). Estadístico determinante resume información, se espera que sea cercano a 0 para dar cuenta de una alta correlación entre las variables.2) KMO: compara correlación observada con parciales (asociaciones entre pares de variables sin considerar influencia del resto de las involucradas en modelo). Mientras más cercano a 1 (ambos tipos de correlaciones sean similares) existe asociación entre variables; 0,5= aceptables, 0,7=adecuadas. Esfericidad Bartlett: contrasta hipótesis nula (matriz de correlaciones=matriz de identidad, variables no están correlacionadas entre sí y sólo correlacionan con ellas mismas); significación<0,05 se acepta hipótesis alternativa, ambas matrices difieren significativamente y que matriz de correlaciones no es una matriz de identidad, existen relaciones entre las variables.3) Comunalidades: valores columna extracción evidencian la proporción de la varianza de cada variable que es explicada por el modelo. Se esperan valores> 0,5, o al menos 0,4. Bajo esos valores es indicio de posibilidad de eliminarlas y volver a generar el modelo sin esas variables.

Interpretación del modelo.4) Varianza total explicada: componentes que poseen autovalor (cantidad de varianza explicada por cada factor) superior a 1 (corte) son los que se esperan analizar, ya que deben explicar la varianza de más de una variable. Última columna (rotación) varianza explicada en %; sumatoria ideal sea superior a 60.

5) Matriz de Componentes Rotados: saturación de cada variable en los tres componentes extraídos. Al solicitar rotación se analiza esa tabla. Coeficientes se interpretan como estadísticos de correlación, pudiendo determinar en qué factores saturan las variables. Principal ejercicio de interpretación sustantiva del modelo, el investigador otorga un nombre a cada uno de los componentes, el que debe ser lo más autoexplicativo posible. Componentes con valores significativamente altos, por lo menos superiores a 0,3. Componentes positivos (relación directa), negativos (relación inversa), bipolares (ambos).Es posible completar la decisión pendiente de las comunalidades (eliminación de una variable). Si existe una variable que dificulta el ejercicio interpretativo, ya sea porque es la única que satura en

Page 3: Análisis de datos 2

Modelos Reductivos (interdependencia)

un factor, posee un coeficiente de saturación menor a 0,3 o conceptualmente no es posible incluirla como integrante de una variable latente, entonces es posible eliminar la variable del modelo.

Page 4: Análisis de datos 2

Modelos Reductivos (interdependencia)

Análisis de Correspondencias

Técnica de reducción de dimensiones en el contexto de tablas de contingencia. Representación gráfica de la estructura de relaciones de dos (Simple) o más (múltiple) variables cualitativas mediante mapas de posicionamiento. - AC representa una superación de los estadísticos tradicionales porque, además de entregar información respecto de la relación entre variables, permite conocer la relación entre categorías. En la interpretación de los mapas de posicionamiento se señala que dos categorías de variables están relacionadas cuando éstas se encuentran más cerca que el resto de las categorías.

- chi cuadrado, coeficientes de correlación no paramétrico; entregan información respecto del grado y dirección en que se encuentran asociadas ciertas variables; no permiten conocer de qué manera se encuentran relacionadas las distintas categorías de las variables entre sí.

- objetivos: (1) profundizar en el análisis de la asociación entre variables; (2) simplificar información de una tabla de contingencia; (3) generar ejes, o factores, de carácter explicativo que resumen la información del conjunto de categorías; (4) analizar la estructura de relación entre categorías; (5) posicionar las categorías de las variables en un mapa perceptual que da cuenta de la inercia entre éstas –distancia–; (6) identificar dimensiones que representen esquemas conceptuales de análisis; (7) corroborar la relación de dependencia entre dos o más variables cualitativas.

Representación gráfica de tabla de contingencia en mapa de posicionamiento implica resolver dos operaciones fundamentales: (1) cuantificar las categorías de las variables de modo que puedan traducirse en coordenadas; (2) establecer el origen de los ejes donde se posicionarán las coordenadas de las categorías de las variables.

- (1) se logra a partir de los perfiles fila y perfiles columna; son frecuencias relativas de las filas y columnas que entregan coordenadas iniciales para las categorías de las variables. A partir de su posicionamiento en un espacio baricéntrico de coordenadas se puede establecer una media ponderada de cada grupo de perfiles (fila, columnas): los centroides. Se habla de que se tratan de medias ponderadas puesto que no está equidistante de todas las categorías de las variables, sino que se encuentra más cerca de aquellos perfiles con mayor frecuencia; para esta ponderación se utiliza la masa. Desviación de los perfiles fila y columna en relación a su centroide da cuenta de la dispersión de los datos y en análisis de correspondencia se denomina inercia.- inercia: la media ponderada de los cuadrados de las distancias chi cuadrado entre los perfiles (filas, columnas) y su perfil (fila, columna) medio; será alta cuando los perfiles presenten grandes desviaciones en relación a su media, y será baja cuando se hallen cerca de la media. Entrega información acerca de la dispersión de las categorías de las variables en el mapa de posicionamiento; mayores niveles de inercia dan cuenta de mayor asociación entre las categorías de las variables fila y columna. Más concentrado al centro de gravedad (perfil medio) no existe asociación/inercia débil.

- (2) centroide se establece como punto de origen de los ejes de las abscisas y de las ordenadas; ejes se obtienen bajo criterio de que maximicen la explicación de la inercia (dispersión de los puntos). Se obtienen de forma jerárquica, en función de la proporción de inercia que logran explicar. Ejes ortogonales entre sí, cada uno se obtiene con el propósito de explicar la inercia que no es explicada por los demás. Número de ejes a obtener es igual al mínimo de categorías menos 1; mapa se construye a partir de los 2 primeros ejes más explicados.

Page 5: Análisis de datos 2

Modelos Reductivos (interdependencia)

- normalización: mecanismo para maximizar la inercia de los datos representados, funciona redistribuyéndola entre las filas y columnas. No cambia la cantidad de inercia total ni la inercia asociada a cada eje; afecta a las puntuaciones fila y columna pues opera maximizando las distancias de las categorías filas y/o columnas, según la selección realizada.

- tamaño muestral: pequeños o grandes, elevado. Carácter descriptivo y no inferencial, no hay tamaño mínimo para la técnica. Se debe respetar condiciones de chi-cuadrado de no existir casillas sin ningún caso (idealmente frecuencias superiores a 5 casos). Si se busca posicionar objetos en la muestra (variables que tienen una frecuencia 1: casos) se recomienda bases pequeñas.- nivel de medida: cualitativas, nominales u ordinales. Intervalares recodificadas en nominales u ordinales. Toda variable con un mínimo de 3 categorías de respuestas.- existencia de asociación entre variables: variables graficadas en el mapa de posicionamiento deben estar relacionadas entre sí, se mide mediante estadístico de chi-cuadrado.

Interpretación de tablas y coeficientes

1) Resumen del procesamiento de los casos: da cuenta cantidad de casos con los que el modelo trabará, permite evaluar tamaño muestral para análisis. Evaluar en virtud de variables incluidas, que tabla de contingencia en sus cruces tenga más de cinco casos, idealmente, en las casillas.-frecuencias para cada variables, aporta información descriptiva para efectos de interpretación.-iteraciones: cantidad que efectuó el programa para lograr modelo adecuado, finaliza cuando no es capaz de incrementar la inercia explicada.

Importantes para responder problema de investigación.2) Resumen del Modelo: muestra capacidad explicativa de cada dimensión; presenta autovalores de cada dimensión. Relevante es la inercia, que da cuenta de dispersión de las categorías de las variables explicada por cada eje o dimensión; se considera como suficiente que cada eje explica al menos un 20% (0,2) de la inercia del modelo.

3) Tablas de puntos de coordenadas (de cada categoría en el mapa de correspondencias): con esto se construye el mapa de correspondencias, posicionando a la categoría en los valores presentados para cada eje.

4) Medidas de discriminación: permiten denominar a los ejes en virtud de las variables incluidas en el modelo. En el caso de que las variables presenten valores altos o bajos en un eje, mientras que en el otro tengan un comportamiento opuesto, es posible caracterizar a los ejes. Esto no se puede hacer si valores son similares.

5) Mapa de Correspondencias múltiple (diagrama conjunto de puntos de categorías): con esto es posible interpretar la asociación entre categorías de las variables observadas. En la medida que las categorías se encuentren cercanas al centroide implica que tienen un comportamiento homogéneo respecto del resto de las incluidas; en el caso de que dos o más puntos del mapa (categorías) se posicionen cercanamente entonces es posible afirmar que están asociadas.

Page 6: Análisis de datos 2

Modelos Reductivos (interdependencia)

Análisis de Tipologías (Cluster, Conglomerados)

Grupo de técnicas multivariables cuyo principal propósito es agrupar casos basándose en las características que poseen. Busca reducir información a partir de la clasificación de los casos en tipologías que permitan presentar la información existente en la matriz de datos de una manera resumida, generando tipologías o conglomerados altamente homogéneos dentro de sí, y altamente heterogéneos entre ellos, que buscan basarse en el patrón subyacente de agrupamiento de los casos. - Críticas a la técnica: meramente descriptiva, sin capacidades de inferencia estadística; excesiva importancia del investigador.

- tipología/conglomerado: grupo de casos con alta similaridad en su comportamiento en relación a un conjunto de variables; nube de puntos en un plano de coordenadas en que la distancia entre dos puntos de la tipología es menor que con cualquier punto ajeno a la tipología; se caracterizan por tener alta densidad, baja varianza intragrupal, alta varianza intergrupal, y un radio pequeño.

- objetivos: (0, principal) clasificación; (1, exploratorio) descubrir tipologías; (2, confirmatorio) contrastar hipótesis acerca de la existencia de tipologías; (3, reducir información) simplificar presentación de los datos; (4) búsqueda de nuevas relaciones entre variables a partir de la forma en que se agrupan los casos.

- muestra: grandes o pequeñas. Se recomienda que se aplique sobre muestras que puedan ser representativas de la población, porque debido a su carácter no inferencial se podría otorgar resultados difícilmente generalizables.- multicolinealidad: debe intentarse trabajar con variables con poca colinealidad entre sí; de existir multicolinealidad esas variables ponderan con mayor relevancia para la definición de conglomerados.

- fases de aplicación: (1) selección de variables que favorezcan la agrupación de datos; (2) elección del procedimiento de conglomeración (jerárquico o no-jerárquico) y algoritmo para creación de los conglomerados; (3) seleccionar el número de conglomerados y caracterización; (4) validación.

Análisis de Tipologías con Procedimientos Jerárquicos.

Procedimientos que generan un proceso de clasificación de casos por etapas donde los conglomerados se van uniendo o separando de otros conglomerados. - Ventaja: permiten observar la matriz de distancias caso a caso y los gráficos que muestran el proceso de conglomeración.- tamaños muestrales pequeños, inferiores a 200 casos.- variables: en rigor intervalares o de razón, aunque se puede trabajar con ordinales y dicotómicas.

(1) método jerárquico Los aglomerativos: los más utilizados, también se les conoce como métodos jerárquicos ascendentes porque la agrupación de objetos procede de forma ascendente o aglomerativa. Primero se parte con tantos conglomerados como objetos a clasificar; segunda etapa, dos de los objetos e combinan en un único conglomerado; tercer paso, surge un nuevo conglomerado bien de la fusión de otros casos en un nuevo conglomerado, bien de la fusión con otro conglomerado, o por un tercer caso que se une al conglomerado previamente formado. Se van formando conglomerados de manera gradual. Proceso de conglomeración concluye cuando se llega a un único conglomerado que reúne a todos los objetos. El gráfico dendograma permite la visualización de cómo se han ido formando los conglomerados en las distintas etapas del análisis.

Page 7: Análisis de datos 2

Modelos Reductivos (interdependencia)

Característica distintiva es que la conformación de conglomerados es definitiva, una vez que un conglomerado se ha constituido no puede dividirse en etapas posteriores.

(2) método jerárquico Los divisivos: también conocidos como descendentes o de partición utilizan la misma lógica, pero funcionan de manera inversa; comienzan con un único conglomerado que incluye a todos los casos y de forma gradual se procede a la disgregación de ese conglomerado hasta que existan tantos conglomerados como casos a clasificar.

-algoritmos: distintas fórmulas de cálculo con que se dispone objetos similares en conglomerados; dependiendo de algoritmo varía número y composición de los conglomerados.-distancias mínimas (simple link): agrupan los objetos con menor distancia entre ellos, semejantes.-distancias máximas (complete-link): considera distancia entre los dos objetos más alejados.-promedio entre grupos: considera distancia promedio entre integrantes de un conglomerado respecto de otro conglomerado; se prefiere este porque no considera sólo casos extremos.

Interpretación de tablas y coeficientes (tipología jerárquico)

1) Resumen del procesamiento de los casos: permite evaluar el tamaño muestral con el que trabajará el modelo. 2) Matriz de distancias: da cuenta de la disimilaridad entre los casos, considerando las variables incluidas.

3) Historial de Conglomeración: da cuenta de los pasos utilizados por el programa para generar la solución de tipologías. Debido a que se trata de un método por aglomeración, cada caso inicia el proceso en su propio conglomerado. Segunda y tercera columna dan cuenta de los casos que se reúnen en una misa tipología en la etapa correspondiente; última columna próxima etapa permite identificar en qué fase posterior esta tipología volverá a participar de una nueva aglomeración. Los pasos finalizan en la conjunción de las variables en un solo conglomerado.

4) Conglomerado de Pertenencia: da cuenta de la tipología a la cual cada caso pertenece (de acuerdo al rango de soluciones solicitadas a spss). Debido a que se trabaja con la hipótesis de que es posible identificar tres grupos, se requiere comparar tanto esta cantidad como una mayor y una menor. La razón reside en que el análisis de tipologías no cuenta con estadísticos que permitan aseverar que un modelo es más adecuado que otro.Se interpreta verticalmente. Cada numero asociado a los casos evidencian a qué conglomerado pertenecen. Primera aproximación a la determinación de la calidad del modelo, en la medida que es posible interpretar (lo buscado en la investigación) en virtud de su pertenencia a una tipología.

5) Dendograma (…): representación gráfica del historial de conglomeración, permite visualizar cómo se van agrupando los casos hasta generar un único grupo. Es necesario recurrir a gráficos adicionales para efectos de caracterizar a los conglomerados y determinar cuál solución es la más adecuada. Solicitar un gráfico por cada una de las tipologías, respecto de las variables utilizadas, es posible visualizar si las soluciones arrojadas por spss poseen un comportamiento diferenciado.

6) tabla de contingencia: es necesario validar externamente la tipología generada.

Page 8: Análisis de datos 2

Modelos Reductivos (interdependencia)

Análisis de Tipologías con Procedimientos No Jerárquicos.

También llamados métodos de optimización, que da cuenta de cómo se produce la asignación de casos a conglomerados buscando optimizar el criterio de selección. Múltiples métodos no jerárquicos, pero más utilizado es la variante K-medias de los métodos de reasignación. Diversos procedimientos: métodos de reasignación (k-medias); métodos de búsqueda de densidad; métodos directos. -muestras superiores a 200 casos.

- K-medias permite que los casos asignados a un conglomerado en una fase del proceso sean reasignados a otro conglomerado en otra fase posterior. La condición es que la reasignación consiga optimizar el criterio de selección. La formación de conglomerados concluye cuando no queda ningún objeto cuya reasignación logra optimizar el resultado.- Investigador especifica número de conglomerados que deben formarse con los datos (valor K expresa dicho número); se calculan centroides iniciales de los conglomerados a partir de un procedimiento iterativo; se van asignando objetos a los centroides más próximos (se usa distancia euclídea para definir cercanía); tras cada reasignación se recalculan los centroides (valores promedio para las variables que caracterizan al conglomerado); nuevos centroides pueden provocar una nueva reasignación de objetos a conglomerados cuyo centroide se encuentre más próximo; el procedimiento finaliza cuando un nuevo recálculo de los centroides no provoca ninguna alteración en la composición de los conglomerados, o cuando han finalizado el número de iteraciones posibles.- Cada proceso de reasignación genera una re-estimación del centroide del conglomerado. Cuando el proceso concluye coincide con que la asignación de nuevo casos a los conglomerados ya no modifica el valor de sus centroides.

Exige que quien investiga decida el número de conglomerados a crear. Lo que suele realizarse con esta técnica es que se lleva a cabo un análisis con el número de conglomerados hipotetizados por quien investiga y otro con un conglomerado más y otro con un conglomerado menos. Luego se interpretan los conglomerados en cada uno de los tres casos y se ve qué cantidad de conglomerados propuesta tiene más sentido a nivel interpretativo.

Interpretación de tablas y coeficientes (tipología no jerárquico-método de optimización)

1) Centros iniciales de los conglomerados: corresponde a la asignación de centroides con los cuales el modelo comienza a iterar, para hallar la mejor solución posteriormente. En general se atribuyen los centroides de manera tal que sean lo más heterogéneos entre los conglomerados.2) Historial de conglomeración: evidencia en cuántos pasos el modelo dejó de mejorar, respecto de los cambios gnerados en los centroides de las tipologías.Estas dos primeras tablas no aportan información sustantiva para efectos de responder la pregunta.

3) Centros de conglomerados finales: una vez que el modelo estimó los conglomerados, se presentan sus centroides. En esta tabla es posible caracterizar a cada tipología, en virtud de los promedios respecto de cada variable. Indica la media de cada conglomerado en cada variable una vez que ha finalizad el proceso de clasificación; a partir de ella se puede tener una idea de qué tan distintos son los conglomerados en las variables de clasificación.

Page 9: Análisis de datos 2

Modelos Reductivos (interdependencia)

4) Anova: es necesario realizar una aproximación a la significatividad de cada variable en la solución generada por el programa. Anova permite jerarquizar qué variables son las que más aportan en la solución; debe observarse los valores de la prueba F, sin embargo en la medida que los niveles críticos no han sido corregidos, no puede interpretarse la significación en los términos de aporte significativo al modelo por parte de las variables. Si se requiere corroborar esta información, un procedimiento sugerido es el análisis discriminante.Variable con valor F más alto es la más relevante en la construcción de las tipologías.

5) número de casos en cada conglomerado: observar ponderado. Esta tabla indica la cantidad de casos clasificados en cada uno de los grupos. No es necesario un número similar de casos en cada uno de los grupos generados.

6) tabla de contingencia: es necesario validar la solución hallada (igual que método jerárquico); cruce mediante tablas de contingencia con otra variable.

-----------------------------------------------------------------------------------------------------------------------------------Diferencias métodos jerárquicos y no-jerarquicos

Jerárquico No-jerárquicoEl programa genera diversa cantidad de conglomerados según etapas.Quien investiga decide a posteriori la cantidad de conglomerados a considerar.

El investigador decide el número máximo de conglomerados que debe haber en la matriz de datos.

La asignación de un objeto a un conglomerado es definitiva.

Existe una valoración continua de la composición de los conglomerados.Sin embargo, los errores pueden provocarse por una mala decisión respecto del número total de conglomerados a tener en cuenta.

Muestras pequeñas, inferiores a 200 casos.Con muestras superiores la representación gráfica se hace muy difícil de interpretar.

Muestras superiores a 200 casos.

Últimas fases de aplicación(3) seleccionar número de conglomerados y caracterizar clasificación: proponer número de conglomerados que puedan estar amparados en alguna reflexión teórica o lógica; se suelen comparar distintos números de conglomerados, mirando su caracterización para elegir.-para interpretación: se establecen perfiles de los conglomerados a partir de las variables de clasificación; se puede cruzar los conglomerados con variables no presentes en la clasificación y que permitan caracterizar a los conglomerados.

(4) validación: evaluar cuánto difieren en los conglomerados variables que no han sido utilizadas en la clasificación; aplica el mismo análisis a muestras distintas para ver si la estructura encontrada es consistente (reaplicación); analizar cuánto difieren realmente las variables al interior de los conglomerados, para esto puede utilizarse el análisis discriminante, tomando como variable de agrupación las tipologías formadas por el análisis de tipologías.