pruebas de bondad de ajuste vfinal

39
C A JA M A RC A 2 0 11 2 8 ,2 9 ,3 0 SETIEM BRE 0 1 O C TU BRE

Upload: manuel-garcia-naranjo-b

Post on 26-Jun-2015

22.310 views

Category:

Education


13 download

DESCRIPTION

Se resalta la importancia de las pruebas de bondad de ajuste en la selección de la distirbución que mejor representa la serie histórica de datos, de modo de seleccionarla para la estimación de valores extremos. Se revisa en detalle las pruebas de Chi-Cuadrado y Kolmogorov-Smirnov

TRANSCRIPT

Page 1: Pruebas de bondad de ajuste vfinal

CA J A M A RCA2011

28,29,30 SETIEM BRE01 O C TU BRE

Page 2: Pruebas de bondad de ajuste vfinal

XVII CONIC 2009Congreso Nacional de Ingeniería Civil

Capítulo de Ingeniería CivilConsejo Departamental

De LambayequeColegio de Ingenieros del Perú

Capítulo de Ingeniería CivilConsejo Departamental

De LambayequeColegio de Ingenieros del Perú

LA IMPORTANCIA DE LAS PRUEBAS DE

BONDAD DE AJUSTE

Manuel E. García-Naranjo B.Septiembre 2011

Page 3: Pruebas de bondad de ajuste vfinal

INTRODUCCIÓN

En la determinación de valores extremos (caudales máximos o mínimos, niveles máximos o mínimos, etc.) necesarios para el análisis y solución de muchos problemas relacionados con la ingeniería hidráulica, resulta común emplear las distribuciones probabílisticas más usuales para el estudio de problemas hidrológicos. Así, a partir de un registro histórico de valores extremos, se infiere aquellos valores máximos o mínimos asociados a un cierto período de retorno de diseño.

Page 4: Pruebas de bondad de ajuste vfinal

INTRODUCCIÓN

Es relativamente común apreciar estudios en los cuales, a partir de una data histórica de valores extremos, se haya hecho uso de distribuciones tales como: Gumbel, Normal o Log Pearson tipo III, para estimar los valores extremos asociados a un periodo de retorno seleccionado. En menor medida se observará el empleo de distribuciones tales como: log normal de 2 parámetros, log normal de 3 parámetros o la distribución gamma de 2 ó de 3 parámetros.

Page 5: Pruebas de bondad de ajuste vfinal

INTRODUCCIÓN

En este sentido cabría preguntarse: ¿qué ha llevado al especialista a seleccionar una determinada distribución probabilística para el análisis efectuado? ¿se ha verificado que la distribución escogida sea la que efectivamente mejor se ajusta o representa a la serie histórica de datos? ¿cuál de las distribuciones disponibles debió haberse empleado en verdad en la estimación requerida de valores extremos?Estas preguntas nos conducen a la necesidad de revisar los temas relacionados con las pruebas de bondad de ajuste.

Page 6: Pruebas de bondad de ajuste vfinal

DEFINICIONES

Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos disponibles se ajustan a una determinada distribución. Se entiende por bondad de ajuste a la asimilación de los datos observados de una variable a una función matemática previamente establecida y reconocida. A través de ésta es posible entonces predecir el comportamiento de la variable en estudio (Pizarro, 1986)

Page 7: Pruebas de bondad de ajuste vfinal

DEFINICIONES

Entre las pruebas de bondad de ajuste más conocidas, cabe mencionar las siguientes:•Prueba de Chi Cuadrado•Prueba de Kolmogorov Smirnov•Prueba de Anderson Darling

Page 8: Pruebas de bondad de ajuste vfinal

PRUEBA DE CHI CUADRADO

La prueba de Chi Cuadrado se basa en la comparación entre la frecuencia observada en un intervalo de clase y la frecuencia esperada en dicho intervalo, calculada de acuerdo con la distribución teórica considerada. Es decir, se trata de determinar si las frecuencias observadas en la muestra están lo suficientemente cerca de las frecuencias esperadas bajo la hipótesis nula formulada.Para aplicar esta prueba se debe agrupar las observaciones de la muestra en intervalos de clase, preferiblemente del mismo tamaño.

Page 9: Pruebas de bondad de ajuste vfinal

PRUEBA DE CHI CUADRADOValor del estadístico Chi-cuadrado calculadoEl estadístico de prueba, 2

C queda definido por la expresión: donde:•Oi: frecuencia observada en el intervalo i, de acuerdo a la muestra considerada•Ei: frecuencia esperada en el intervalo i, de acuerdo a la distribución seleccionada•k: número de intervalos de clase en que se han agrupado las observaciones

Page 10: Pruebas de bondad de ajuste vfinal

PRUEBA DE CHI CUADRADOValor tabular de Chi-cuadradoEl valor tabular del estadístico Chi-cuadrado, 2

t ,

se determina a partir del cuadro siguiente, en función de los grados de libertad y del nivel de significación elegido, esto es, la probabilidad de exceder el valor extremo.

Page 11: Pruebas de bondad de ajuste vfinal

PRUEBA DE CHI CUADRADO

Page 12: Pruebas de bondad de ajuste vfinal

PRUEBA DE CHI CUADRADOLos grados de libertad se determinan con la expresión: g.l. = k – 1 – p grados de libertad, donde k es el número de intervalos de clase y p es el número de parámetros que definen completamente a la distribución seleccionada.El nivel de significación, , usualmente es 5% o 1%

Page 13: Pruebas de bondad de ajuste vfinal

PRUEBA DE CHI CUADRADOLos grados de libertad se determinan con la expresión: g.l. = k – 1 – p grados de libertad, donde k es el número de intervalos de clase y p es el número de parámetros que definen completamente a la distribución seleccionada.El nivel de significación, , usualmente es 5% o 1%

Page 14: Pruebas de bondad de ajuste vfinal

PRUEBA DE CHI CUADRADOCriterio de DecisiónEl criterio de decisión se fundamenta en la comparación del valor calculado de Chi-cuadrado con el valor tabular encontrado, esto es:Si el estadístico Chi-cuadrado calculado es menor o igual que el valor tabular, es decir: 2

C 2t

entonces, se acepta la hipótesis nula, que establece que los valores observados se ajustan a la distribución considerada, al nivel de significación seleccionado (usualmente = 5% o 1%)

Page 15: Pruebas de bondad de ajuste vfinal

PRUEBA DE CHI CUADRADOSi el estadístico Chi-cuadrado calculado es mayor que el valor tabular, es decir: 2

C > 2t

entonces, se rechaza la hipótesis nula y se acepta la hipótesis alternativa, que establece que los valores observados no se ajustan a la distribución considerada, al nivel de significación seleccionado (usualmente = 5% o 1%); siendo necesario probar con otra distribución teórica.

Page 16: Pruebas de bondad de ajuste vfinal

PRUEBA DE CHI CUADRADOComentariosAlgunas consideraciones que hay que tener en cuenta con respecto a la aplicación de esta prueba son las siguientes:•El análisis debe efectuarse con datos agrupados en intervalos de clase.•El número de intervalos de clase debe ser por lo menos 5. Se recomienda también que, para facilidad de los cálculos, el número de intervalos de clase no sea mayor a 20.•El número de observaciones esperado (frecuencia observada) en cada intervalo de clase debe ser por lo menos 5. Si esta condición no se cumple, es necesario agrupar en uno los resultados de varios intervalos de clase.

Page 17: Pruebas de bondad de ajuste vfinal

PRUEBA DE CHI CUADRADO• Al efectuar los cálculos de las frecuencias esperadas,

debe considerarse los intervalos extremos como casos especiales. Así:En el primer intervalo, que incluye aquellos valores

observados entre x0 y x1, la probabilidad a considerar debe ser la correspondiente a que la variable aleatoria sea menor o igual que x1 (no solo comprendida entre x0 y x1)

En el último intervalo, que incluye aquellos valores observados entre xk-1 y xk, la probabilidad a considerar debe ser la correspondiente a que la variable aleatoria sea mayor que xk-1 (no solo comprendida entre xk-1 y xk)

Page 18: Pruebas de bondad de ajuste vfinal

APLICACIÓN DE LA PRUEBA DE CHI CUADRADO

Operativamente, para aplicar en un caso práctico la prueba de chi-cuadrado debe seguirse el siguiente procedimiento:•Determinar el Número de Intervalos de Clase

El número de intervalos de clase se calcula con la fórmula propuesta por Yevjevich:

NC = 1 + 1.33 ln(N)donde:NC - número de intervalos de claseN - número de datos

Page 19: Pruebas de bondad de ajuste vfinal

APLICACIÓN DE LA PRUEBA DE CHI CUADRADO

• Calcular la Amplitud de cada IntervaloLa amplitud de cada intervalo se determina con la ecuación:

El límite inferior del primer intervalo de clase se determina con la relación:

Límite inferior = Xmin - X/2

Page 20: Pruebas de bondad de ajuste vfinal

APLICACIÓN DE LA PRUEBA DE CHI CUADRADO

• Calcular los Intervalos de Clase, Marcas de Clase, Frecuencias Absoluta y Relativa Observadas y Frecuencia AcumuladaLa frecuencia absoluta observada corresponde al número de valores comprendido en el intervalo de clase. La suma de todas las frecuencias absolutas debe ser igual al total de datos, N.La frecuencia relativa se obtiene de dividir la frecuencia absoluta entre el número de datos, NLa frecuencia acumulada resulta de acumular los valores correspondientes a la frecuencia relativa. La frecuencia acumulada en el último intervalo de clase debe dar 1.

Page 21: Pruebas de bondad de ajuste vfinal

APLICACIÓN DE LA PRUEBA DE CHI CUADRADO

• Calcular la Media y Desviación Estándar para los Datos AgrupadosLa media y la desviación estándar de los datos agrupados se determina mediante las siguientes relaciones: 

Page 22: Pruebas de bondad de ajuste vfinal

APLICACIÓN DE LA PRUEBA DE CHI CUADRADO

donde:• fi – frecuencia absoluta• xi – marca de clase• k – número de intervalos de clase• N – número total de datos

• Adoptar alguna distribución probabilística y determinar la frecuencia esperada para cada intervalo de clase

Page 23: Pruebas de bondad de ajuste vfinal

APLICACIÓN DE LA PRUEBA DE CHI CUADRADO• Calcular los estadísticos Chi Cuadrado y aplicar el criterio

de decisión• El estadístico de prueba, 2

C se calcula con la expresión:

• El estadístico tabular 2t se determina en la tabla de Chi

Cuadrado en función de los grados de libertad y del nivel de significancia seleccionado

• Finalmente, si 2C 2

t se acepta la hipótesis nula que afirma que la serie de datos se ajusta a la distribución seleccionadaSi 2

C 2t se rechaza la hipótesis nula y se afirma que la

serie de datos no se ajusta a la distribución seleccionada

Page 24: Pruebas de bondad de ajuste vfinal

CASO PRACTICO DE CHI CUADRADO

Page 25: Pruebas de bondad de ajuste vfinal

CASO PRACTICO DE CHI CUADRADO

Page 26: Pruebas de bondad de ajuste vfinal

CASO PRACTICO DE CHI CUADRADO

Page 27: Pruebas de bondad de ajuste vfinal

CASO PRACTICO DE CHI CUADRADO

Page 28: Pruebas de bondad de ajuste vfinal

PRUEBA DE KOLMOGOROV SMIRNOV

Este procedimiento es un test no paramétrico que permite establecer si dos muestras se ajustan al mismo modelo probabilístico (Varas y Bois, 1998). Es un test válido para distribuciones continuas y sirve tanto para muestras grandes como para muestras pequeñas (Pizarro et al, 1986).Así mismo, Pizarro (1988), hace referencia a que, como parte de la aplicación de este test, es necesario determinar la frecuencia observada acumulada y la frecuencia teórica acumulada; una vez determinadas ambas frecuencias, se obtiene el máximo de las diferencias entre ambas.

Page 29: Pruebas de bondad de ajuste vfinal

PRUEBA DE KOLMOGOROV SMIRNOV

El estadístico Kolmogorov-Smirnov, D, considera la desviación de la función de distribución de probabilidades de la muestra P(x) de la función de probabilidades teórica, escogida Po(x) tal que:

Dn = max P(x) – Po(x)

La prueba requiere que el valor Dn calculado con la expresión anterior sea menor que el valor tabulado Dα para un nivel de significancia (o nivel de probabilidad) requerido. El valor crítico D de la prueba se obtiene de la tabla mostrada, en función del nivel de significancia y el tamaño de la muestra n.

Page 30: Pruebas de bondad de ajuste vfinal

PRUEBA DE KOLMOGOROV SMIRNOV

Tabla de valores de D en función del nivel de significancia y del tamaño de la muestra

Page 31: Pruebas de bondad de ajuste vfinal

PRUEBA DE KOLMOGOROV SMIRNOV

El procedimiento a seguir en la aplicación práctica de la prueba de Kolmogorov-Smirnov es el siguiente:•Determinar la frecuencia observada acumulada y la frecuencia téorica acumulada, Po(x) y P(x).•En cada caso, calcular: Dn = max P(x) – Po(x)

Así, Dn es la máxima diferencia entre la función de distribución acumulada de la muestra y la función de distribución acumulada teórica escogida•Fijar un nivel de probabilidad o de significancia . Los valores de 0.05 y 0.01 son los más usuales.

Page 32: Pruebas de bondad de ajuste vfinal

PRUEBA DE KOLMOGOROV SMIRNOV

• Determinar el valor crítico D en la tabla correspondiente.

• Aplica el criterio de decisión:Si el valor calculado Dn es menor que el D, se

acepta la hipótesis nula (Ho) que establece que la serie de datos se ajusta a la distribución teórica escogida.

Si el valor calculado Dn es mayor que el D, se rechaza la hipótesis nula (Ho) y se acepta la hipótesis alternativa (Ha) que establece que la serie de datos no se ajusta a la distribución teórica escogida.

Page 33: Pruebas de bondad de ajuste vfinal

EJEMPLO PRUEBA DE KOLMOGOROV SMIRNOV

Page 34: Pruebas de bondad de ajuste vfinal

EJEMPLO PRUEBA DE KOLMOGOROV SMIRNOV

Page 35: Pruebas de bondad de ajuste vfinal

PRUEBA DE ANDERSON-DARLING

Esta prueba no paramétrica es una modificación del test de Kolmogorov- Smirnov, donde se le da más peso a las colas de la distribución que la prueba de K-S. Fórmula: A2= − N− SEl estadístico para la prueba de Anderson-Darling es:

Page 36: Pruebas de bondad de ajuste vfinal

PRUEBA DE ANDERSON-DARLING

donde:•n - es el número de datos•F(x) - es la función e distribución de probabilidad teórica•Fn(x) - es la función de distribución empíricaPara definir la regla de rechazo para esta prueba es necesario obtener el estadístico ajustado para luego compararlo con los valores críticos de la tabla de Anderson-Darling. La tabla siguiente muestra los valores críticos para distintas distribuciones con parámetros conocidos.

Page 37: Pruebas de bondad de ajuste vfinal

PRUEBA DE ANDERSON-DARLING

Page 38: Pruebas de bondad de ajuste vfinal

PRUEBA DE ANDERSON-DARLING

Una vez obtenido el estadístico ajustado, la regla de rechazo se realiza de manera análoga a la prueba de Kolmogorov-Smirnov.Si An

2 es mayor o igual que ao, se acepta la hipótesis nula; siendo ao el valor asociado al estadístico de prueba An

2

Page 39: Pruebas de bondad de ajuste vfinal

BREVES CONCLUSIONES

¿En que casos es recomendable cada estadístico?•Chi-Cuadrado: es recomendable para distribuciones discretas o continuas cuando existe gran cantidad de datos. Se recomienda trabajar con datos agrupados.•Kolmogorov-Smirnov (K-S): es recomendable para distribuciones continuas y muestras de cualquier tamaño. No requiere hacer uso de datos agrupados.•Anderson-Darling: es recomendable para distribuciones con colas pronunciadas. No requiere hacer uso de datos agrupados.