análisis de datos 2

9
Modelos predictivos Predecir valor desconocido que tomará variable-dependiente (explicadas), a partir del valor conocido de variables- independientes (explicativas). Regresión lineal múltiple - Objetivo principal: predecir los valores que adoptará la variable dependiente a partir de los valores de las variables independientes. Recta que mejor representa relación lineal entre variables incluidas en el modelo-análisis. - Procedimiento del método de los mínimos cuadrados (MMC) lo más usado; se estima una recta que hace mínima la distancia vertical entre valores pronosticados por ecuación y valores reales, minimizando los residuos. - Relación depe-indepe como función lineal (y=a+bx+bnxn): (y) valor pronosticado para dependiente; (a) constante o intercepto donde se intercepta eje y, denota valor promedio de y cuando independientes=0; (b) coeficientes de regresión parcial, cambio de promedio en la variable dependiente cuando cambia en 1 unidad variable independiente con las otras constantes –control de multicolinealidad– - Nivel de medida dependiente/independientes: cuantitativa/cuantitativa-dummy-ordinales. Idealmente continuas, las ordinales se ocupan a veces igual en dependiente e independiente con orden lógico de menor a mayor. - Selección de variables: (1) modelo de inclusión forzosa (introducir), investigaciones confirmatorias por lo general corroborando modelo concreto obtenido en indagaciones precedentes; (2) procesos secuenciales (hacia adelante, hacia atrás, paso a paso), conseguir modelos parsimoniosos y fáciles de interpretar, dejando variables de contribución significativa. Interpretación de tablas y coeficientes 1) Variables introducidas-eliminadas. Cantidad de pasos implicados para modelo final, con variables introducidas en cada paso.

Upload: carlos-mackenney-bertran

Post on 12-Jul-2016

213 views

Category:

Documents


0 download

DESCRIPTION

Resumen Análisis de datos 2

TRANSCRIPT

Page 1: análisis de datos 2

Modelos predictivos

Predecir valor desconocido que tomará variable-dependiente (explicadas), a partir del valor conocido de variables-independientes (explicativas).

Regresión lineal múltiple

- Objetivo principal: predecir los valores que adoptará la variable dependiente a partir de los valores de las variables independientes. Recta que mejor representa relación lineal entre variables incluidas en el modelo-análisis.

- Procedimiento del método de los mínimos cuadrados (MMC) lo más usado; se estima una recta que hace mínima la distancia vertical entre valores pronosticados por ecuación y valores reales, minimizando los residuos.

- Relación depe-indepe como función lineal (y=a+bx+bnxn): (y) valor pronosticado para dependiente; (a) constante o intercepto donde se intercepta eje y, denota valor promedio de y cuando independientes=0; (b) coeficientes de regresión parcial, cambio de promedio en la variable dependiente cuando cambia en 1 unidad variable independiente con las otras constantes –control de multicolinealidad–

- Nivel de medida dependiente/independientes: cuantitativa/cuantitativa-dummy-ordinales. Idealmente continuas, las ordinales se ocupan a veces igual en dependiente e independiente con orden lógico de menor a mayor.

- Selección de variables: (1) modelo de inclusión forzosa (introducir), investigaciones confirmatorias por lo general corroborando modelo concreto obtenido en indagaciones precedentes; (2) procesos secuenciales (hacia adelante, hacia atrás, paso a paso), conseguir modelos parsimoniosos y fáciles de interpretar, dejando variables de contribución significativa.

Interpretación de tablas y coeficientes

1) Variables introducidas-eliminadas. Cantidad de pasos implicados para modelo final, con variables introducidas en cada paso. Criterio estadístico de inclusión cumplir valores mínimos de F para entrar-salir.

2) Resumen del modelo. Cambios coeficientes de correlación múltiple (R), coeficiente de determinación (R cuadrado) y estadístico F y significación en cada paso hasta llegar al modelo final. Cada paso como modelo en sí mismo; estadístico F contrasta hipótesis de que el cambio en R cuadrado=0 en la población. Con un 95% de nivel de confianza el cambio en r cuadrado es significativo si F<0.05.- coeficiente de correlación múltiple (R) informa grado de relación conjunta entre variables indepes-depe.- coeficiente de determinación (r cuadrado) evalúa bondad de ajuste del modelo; informa proporción variación total de la variable dependiente que es explicada por variables independientes, expresa fuerza no dirección, *100 se interpreta en porcentajes. Modelo final explica en un % la varianza de la variable dependiente, o bien reduce en un % el error en la

Page 2: análisis de datos 2

predicción de la variable dependiente, en comparación a la predicción realizada sólo en base a su media.3) Anova. Evalúa significatividad del modelo en su globalidad. En cada paso contrasta h0 de coeficiente de determinación de ese modelo=0; observar significatividad de F de Snedecor; F<0.05 permite afirmar con un 95% de confianza que la relación observada en los datos muestrales es extrapolable a la población.

4) Coeficientes. Composición modelo en cada paso, analizar último paso exhaustivamente en referencia a los coeficientes de pasos anteriores. Primer paso regresión simple Beta estandarizado coincide con coeficiente de correlación con la dependiente, en regresión multiple no pasa. - Coeficientes Beta (B no estandarizado) coeficientes de regresión parcial para construir ecuación de regresión (estimación de caso o perfiles), informan variación en la variable dependiente cuando varía en 1 unidad la variable independiente, con el resto constante; coeficientes afectados por nivel de medida de cada variable, no sirven para dar cuenta de influencia relativa de cada una de las variables en la predicción de la dependiente. “el incremento de una unidad en –variable indepe– genera un aumento de –B– en –variable depe–, controlando el efecto de las otras variables.”- Coeficientes estandarizados sirve para influencia relativa de cada variable, medidos en unidades de desviación estándar permiten comparar las diferentes variables entre sí; expresan cambio en unidades estándar que se produce en la variable dependiente por el aumento de 1 unidad de desviación estándar en cada una de las independientes, con las demás constantes; mayor importancia relativa en la predicción de la variable dependiente. Para saber si son estimables se observa significatividad prueba t de Student para aceptar h1 de que coeficientes de regresión son significativamente distintos de 0 en la población.

5) Variables excluidas. Beta dentro es el coeficiente de regresión estandarizado si se hubiese metido al modelo, t informa significatividad de coeficientes, coeficiente parcial expresa correlación de cada variable independiente con la dependiente cuando se controla el efecto del resto, tolerancia informa acerca de colinealidad entre variables (tolerancia<0.2 informa colinealidad importante).

Page 3: análisis de datos 2

Regresión logística binaria

- Predicción en términos de probabilidad; busca predecir la probabilidad de ocurrencia de un determinado evento a partir de los valores que adopten las variables independientes.

- Objetivos: Permite determinar existencia-ausencia de relación entre independientes y dependiente; medir magnitud de la relación; estimar probabilidad de que se produzca un suceso a partir de los valores que asuman las variables independientes, y con esa estimación clasificar casos en grupos.

- P(y=1)=1/1+e^-(a+bx+bnxn). (e) inverso logaritmo natural, (a) constante o intercepto expresa probabilidad de la variable dependiente cuando las variables indepes=0, (b) informa de cuánto varía probabilidad de ocurrencia de variable dependiente ante cambio en 1 unidad en la independiente con el resto constante. Curva sigmoidea (0-1)

- Nivel de medida: dependiente dummy (0-1), independientes cuantitativas (intervalares) o categóricas (nominales) como dummy, también ordinales en orden lógico y spss interpreta como intervalares (2 doble que 1).

- Selección de variables. (1) inclusión forzosa (introducir), (2) procedimiento secuenciales, más utilizado secuencial ‘hacia adelante (Wald)’.

Interpretación de tablas-coeficientes.

1) Historial de iteraciones/tabla de clasificación/variables en la ecuación/variables que no están en la ecuación. Bloque 0 no incluye ninguna variable salvo la dependiente.- tabla clasificación muestra porcentaje de casos correctamente clasificados, comparar con modelo con todas las variables.

2) Historial de iteraciones (con todas las variables, bloque 1). Se van incluyendo las variables en etapas sucesivas (pasos), intenta reducir valor de -2verosimilitud en cada caso.- última iteración de último paso contiene información necesaria para construir perfiles, y coincide con los coeficientes de la tabla ‘variables en la ecuación’.

3) Prueba ominbus. Significatividad del cambio de los logaritmos de verosimilitud en cada paso por chi cuadrado; cambio en la predicción entre un modelo con ninguna variable independiente y un modelo con todas las variables independientes. Comprueba h0 todos coeficientes, excepto la constante, son cero en el modelo; se busca h1 al menos un coeficiente es distinto de 0.

4) Tabla resumen del modelo. Incluye r cuadrado de cox y Snell, y r cuadrado de nagelkerke (similares coeficiente de determinación de regresión lineal), no se interpretan en términos de varianza explicada. - Nagelkerke va de 0 a 1 (precisión en la probabilidad de la dependiente es perfecta). Expresa reducción proporcional en el valor del log de verosimilitud; cercano a 1 implica modelo predice de mejor manera la probabilidad de Y, “el modelo tiene una efectividad predictiva de la probabilidad de –variable dependiente–.”

Page 4: análisis de datos 2

5) Hosmer y lemeshow. Divide recorrido de probabilidad en deciles y calcula distribución de valores pronosticados con los valores realmente observados. Se busca hipótesis nula (h0, sig>0.05) de que valores observados son iguales a los pronosticados.

6) Tabla de clasificación. Muestra cómo mejora clasificación en cada una de las etapas del modelo; observar porcentaje global último paso de casos bien clasificados, y comparar con el primero obtenido; diferencia entre esos es coherente con valor de R de nagelkerke.

7) Variables en la ecuación. Proporciona coeficientes de la ecuación de regresión logística. - Coeficiente de pendiente (B) indica incrementos (positivo) o disminuciones (negativo) en el logit Y (cambios en el logaritmo natural de la razón de verosimilitud respecto a la probabilidad de no ocurrencia), se interpreta sólo signo como “a medida que aumenta –x– aumenta la probabilidad de –y–”.- estadístico de Wald y su significación contrasta h0 de coeficiente de pendiente=0, se busca que sean significativamente distintos de 0; comprueba significatividad estadística de coeficientes individuales, h1: b distinto de 0, la variable independiente tiene efectos en la predicción de la probabilidad de la dependiente.- odd ratio– exp (B) permite ver intensidad de relación, va de 0 al infinito con valor base el 1, superior a 1 aumenta probabilidad de ocurrencia de la dependiente, inferiores asociados a disminución de probabilidad de ocurrencia de la variable dependiente, se resta 1 y se multiplica por 100 y se habla en términos de porcentaje; “para cada incremento en una unidad de la variable, manteniendo las demás variables predictoras constante, la chance de probabilidad de –variable independiente (p(y=1)) disminuye/aumenta en –diferencia respecto de 1–&.”; –variable independiente- genera un aumento en –porcentaje- en la chance de probabilidad de –variable dependiente-, o el aumento de 1 unidad en –variable indepe- disminuye en –porcentaje- la probabilidad de –dependiente-.

Page 5: análisis de datos 2

Análisis discriminante

- Informa acerca de la pertenencia a distintos grupos; estimar variable dependiente a partir de una combinación lineal de las variables. Análisis multivariable que pretende encontrar combinación lineal de variables independientes/función discriminante que mejor permita diferenciar pertenencia a distintos grupos.

- Pertenencia a los grupos como variable dependiente; las que supone se diferencian los grupos como independientes, discriminantes o de clasificación. Análisis discriminante de dos grupos o múltiple.

- Operaciones de discriminar y clasificar, dos objetivos: (1) determinar las variables que mejor explican la pertenencia a diferentes grupos, (2) clasificar en grupos según las características que presentan en las variables que se han establecido como discriminantes.

- Objetivo 1 estimación de funciones discriminantes, que son combinaciones lineales de las variables independientes que maximicen varianza entre grupos y minimicen varianza al interior del grupo. Cantidad de funciones discriminantes = cantidad de grupos -1.

- Nivel de medida: dependiente categórica (2 o más categorías), independientes intervalares y de razón, dummy y ordinales igual, pero se procesan como variables cuantitativas.

- Métodos de selección de variables. (1) estimación simultánea, método de inclusión forzosa no importa capacidad discriminante. (2) estimación por etapas, incluye independientes dentro de la función discriminante de una en una según capacidad discriminatoria, genera modelo más parsimonioso.

Interpretación de tablas-coeficientes

1) Resumen del procesamiento para el análisis de casos. Indica número de casos con que se hace el análisis, también los excluidos y el porqué.

2) Estadísticos de grupo. Muestra comportamiento de cada variable independiente en cada uno de los grupos y en la muestra total, informa sobre media y desviación estándar de cada variable. Meramente descriptiva, permite observar características.

3) Pruebas de igualdad de las medias de los grupos. Observar si las medias de los grupos son significativamente distintas entre sí para cada una de las variables del análisis. - Estadístico F permite contrastar h0 de igualdad de media entre los grupos en cada independiente, si tienen significaciones menor al alfa estipulado 0.05 se puede determinar que las variables generan diferencias entre los grupos, discriminan; - lambda de wilks indicativo de existencia de grandes diferencias, proporciona variabilidad no explicada por la pertenencia a distintos grupos, cercano a 1 implican no existencia de diferencia de medias entre grupos, cercano a 0 grupos distintos entre sí.

4) Prueba M de box: logaritmo de los determinantes/resultados de la prueba. Contraste de h0 igualdad de matrices de varianzas-covarianzas poblaciones, supuesto del análisis discriminante es

Page 6: análisis de datos 2

que matrices de varianzas de los grupos son iguales entre sí, se busca aceptar h0>0.05; significación menor a 0.05 informa matrices no son similares, uno de los grupos tiene mayor variabilidad que el otro.

5) Autovalores (% de varianza). Comparar % de varianza explicada por cada función discriminante, sólo 1 función explica el 100% de las diferencias existentes entre los sujetos de los grupos. Correlación canónica es combinación entre función discriminante y pertenencia a los grupos (0.3 no es muy alta, por ejemplo).

6) Lambda de wilks. Contrastar h0 medias mutivariantes de los grupos (centroides) son iguales. (0.8 es alto) si es alto implica solapamiento entre los grupos, significación de chi cuadrado permite rechazar h0 de que grupos tienen centroides iguales.

7) Coeficientes estandarizados. Permiten valorar contribución neta de cada variable a la función discriminante; interpretación análoga a coeficientes beta regresión lineal. Valor es contribución relativa de la variable a la función en unidades de desviación estándar, “por cada cambio en 1 unidad de desviación estándar de la independiente, cuánto varía la función discriminante canónica”. Signo denota si contribución de variable es positiva-negativa.

8) Matriz de estructura. Coeficientes de estructura muestran relación bruta entre cada variable y función discriminante; valor no se encuentra afectado por colinealidad entre variables, como coeficientes estandarizados. Mientras más cercano a 1 mayor relación del coeficiente con la función. Coeficientes estandarizados y matriz de estructura son formas diferentes de señalar variables que discriminan.

9) Objetivo clasificatorio de la técnica:-(1) resumen del proceso de clasificación. Informa casos con que se trabajó para hacer clasificación.-(2) probabilidades previas para los grupos. Informa probabilidades de pertenecer a cada uno de los grupos de acuerdo a la distribución original de la muestra.-(3) resultados de la clasificación. Informa resultados de clasificación; columnas grupos predichos, filas grupos originales. Si modelo realmente discrimina debería haber gran concordancia entre predicho-observado. Se compara la clasificación original con la nota al pie de la tabla –última clasificación–, se espera en un buen modelo un aumento mínimo de 25%.