the fisher assumptions and how to check them

41
THE FISHER ASSUMPTIONS AND HOW TO CHECK THEM Alexander Hernández Hernández Estadísticas Avanzadas Prof. Balbino García

Upload: alex

Post on 30-Nov-2014

1.133 views

Category:

Documents


0 download

DESCRIPTION

Fisher Assumtions, Suposiciones de Fisher

TRANSCRIPT

Page 1: The fisher assumptions and how to check them

THE FISHER ASSUMPTIONS AND HOW TO CHECK THEM

Alexander Hernández HernándezEstadísticas Avanzadas Prof. Balbino García

Page 2: The fisher assumptions and how to check them

Las 5 Suposiciones

1- Igual desviación estándar

2- Probabilidad de error independiente

3- Suposición de Normalidad

4- Efectos Aditivos y Constantes

5- Efectos constantes de los niveles de los factores

Page 3: The fisher assumptions and how to check them

I-Igual desviación estándarRazones por las cuales las DE deben

ser iguales:

1- Cuando las DE no son iguales, las observaciones con la mayor DE tienden a dominar el promedio.

2- El método formal estima un tamaño típico de error casual, o en algunos casos un tamaño para cada fuente de probabilidad de error.

Page 4: The fisher assumptions and how to check them

Como verificar la suposición Existen dos formas para verificar cuan bien las

suposiciones son representativas de la data.

1- Para muchos conjuntos podemos dividir la data en grupos, luego calculamos la DE para cada grupo y las comparamos.

2- Para cualquier conjunto podemos crear diagramas de dispersión para comparar residuos vs. valores ajustados, para luego identificar patrones.

Page 5: The fisher assumptions and how to check them

Como verificar la suposición para DE iguales1- Escoge un factor que divida tu data en algunos

grupos.

2- Calcule DE separadas para cada grupo

3- Encontrar la proporción entre la DE mayor y la DE menor, ( DE max/DE min ).

4- De forma general, si la proporción es mayor que 3, no asuma que las verdaderas DE son iguales. Trate de transformarlas a una nueva escala.

Page 6: The fisher assumptions and how to check them

Ejemplo: Walking Babies

Ejercicios Especiales 1.45 meses

Control 1 ( Ejercicios ) 1.90 meses = DE max

Control 2 ( Reporte Semanal)

1.55 meses

Control 3 ( Reporte al final)

0.96 meses = DE min

Los números presentados en esta tabla nos muestran el número de meses que le tomo a los bebes caminar. Verifique utilizando la suposición para DE iguales.

La proporción seria la siguiente: DE max / DE min = 1.90/0.96 = 1.98, como es resultado es menor que 3 : la suposición es razonable.

Page 7: The fisher assumptions and how to check them

Diagramas de dispersión,residuos vs. valores ajustados Un análisis de datos cuidadoso

siempre debe incluir un diagrama de dispersión de residuos vs. valores ajustados, la misma nos sirve para verificar si hay valores extremos y/o patrones en la gráfica.

Luego de hecho el diagrama se decidirá y hay que realizar ajustes o transformaciones en la data.

Page 8: The fisher assumptions and how to check them

Ejemplo: Puzzled Childrens

En este estudio se les mostro a un grupo de niños, como resolver rompecabezas de bloques, y luego se les digo que realizaran la mayor cantidad que pudieran en un periodo de tiempo. La respuesta obtenida seria, el numero de rompecabezas resueltos.

Age Age Age Age Age

Sex 3 4 5 6 7

Male 24 19

30 19

18 16

29 41

31 53

Female 20 8

68 32

48 35

58 21

54 66Si observamos la tabla, la data nos muestra un

patrón, excepto por la celda inferior derecha.

Page 9: The fisher assumptions and how to check them

Diagramas de dispersión,residuos vs. valores ajustados

Page 10: The fisher assumptions and how to check them

II-Probabilidad de error independiente Por ejemplo, si sacamos los errores

de probabilidad de una caja con boletos enumerados y remplazamos cada boleto y mezclamos antes de sacar uno nuevamente, las probabilidades de error van a ser independientes. Conociendo el valor de alguno de ellos no obtenemos información suficiente sobre los demás.

Page 11: The fisher assumptions and how to check them

II-Probabilidad de error independiente Esta suposición refleja una actitud básica de la

estadística.

La misma nos dice que cualquier patrón sistemático observado entre los elementos, debe ser parte del modelo.

Si podemos hacer dichos patrones partes del modelo, y restarle valores observados que correspondan a esos patrones, entonces tendríamos los valores residuales libres de relaciones sistemáticas. De esta forma la probabilidad de error independiente seria mas apropiada.

Page 12: The fisher assumptions and how to check them

II-Probabilidad de error independiente A continuación observaremos un

ejemplo fallido de identificación de patrones sistemáticos y como esta puede afectar el análisis.

Page 13: The fisher assumptions and how to check them

II-Probabilidad de error independiente

Si observamos los valores obtenidos en el modelo fallido principalmente el SS y el MS son sustancialmente mas grandes que los del modelo correcto. En el modelo correcto le fue removido el patrón sistemático y por consiguiente los resultados son los correctos.

Page 14: The fisher assumptions and how to check them

II-Probabilidad de error independiente Como regla general, podemos verificar la

suposición de independencia revisando patrones que no son parte del modelo.

Existen herramientas muy útiles dependiendo del tipo de datos que tengamos, una de estas podrían ser los diagramas de dispersión.

A continuación mostraremos algunos de ellos.

Page 15: The fisher assumptions and how to check them

Diagrama de dispersión Ad-hoc A continuación observaremos un

estudio realizado para identificar si existe relación entre el número de las habitaciones de un hospital y la localización de alfombras.

Page 16: The fisher assumptions and how to check them

Diagrama de dispersión Ad-hoc

Si observamos el diagrama podemos identificar que los residuos positivos tienden a ir con los números mas altos de habitaciones.

Page 17: The fisher assumptions and how to check them

Diagramas de dispersión en bloques

En los diagramas de dispersión en bloques podemos graficar los datos utilizando los factores de un nivel vs el de otro.

Si el modelo y la suposición de Fisher concuerdan, la gráfica que obtenemos debe ser una línea paralela a la línea de identidad

y = x .

Page 18: The fisher assumptions and how to check them

Diagramas de dispersión en bloques

Observando los siguiente diagramas podemos ver que efectivamente concuerdan con la suposición de Fisher ya que la línea que obtenemos queda paralela a la línea identidad y = x.

Page 19: The fisher assumptions and how to check them

Remedios para casos no relacionados

¿Que podríamos hacer si los patrones obtenidos y la línea y = x no concuerdan?

1- Para algunos casos la pobre correspondencia es debido a valores extremos. De ser así podemos estimar un valor que reemplace a este, para luego re analizar la data. Sin embargo debemos prever conclusiones que dependan del cambio de estos valores.

Page 20: The fisher assumptions and how to check them

Remedios para casos no relacionados

2- Para otros casos los patrones dependen de la escala escogida. Transformar la escala puede ayudar pero sino se realiza adecuadamente puede deshacerse de los patrones.

3- Para otros casos es mejor simplemente cambiar el diseño del modelo.

Page 21: The fisher assumptions and how to check them

III-Suposición de normalidad

ANOVA se basa fuertemente en los conceptos de promedios y DE cómo resúmenes de sus datos. Estos dos resúmenes funcionan muy bien para datos cuyos residuos siguen una curva normal, pero a menudo no funcionan para datos que no siguen este patrón.

Por esta razón debemos graficar los datos para tener una idea de que tipo de residuos son los que tenemos. Este procedimiento debe ser parte de cualquier ANOVA.

Page 22: The fisher assumptions and how to check them

III-Suposición de normalidad

Características de curvas no normal

1- Valores Extremos

2- Bultos y lagunas

3- Asimetría y sesgos

4- Colas largas o cortas

Page 23: The fisher assumptions and how to check them

III-Suposición de normalidad

Regularmente es fácil observar los valores extremos en una gráfica de puntos. Pero sin embargo en la mayoría de los casos, las características antes mencionadas son un poco difíciles de observar en este tipo de grafica.

Para esto mostraremos dos tipos de gráficas, el histograma y las gráficas regulares con el propósito de visualizar mejor estas características.

Page 24: The fisher assumptions and how to check them

HistogramaPasos a seguir:

1- Construye una gráfica de puntos

2- Divide su rango de 7 a 15 intervalos iguales

3- Construye un rectángulo sobre cada intervalo, con una altura proporcional al numero de puntos presentes en el intervalo.

Si el histograma tiene forma simétrica como de campana, la suposición de normalidad es razonable.

Page 25: The fisher assumptions and how to check them

Histograma

Page 26: The fisher assumptions and how to check them

Histograma

Page 27: The fisher assumptions and how to check them

Graficas regulares

A pesar de que los histogramas cubren una gran parte de las características , estos no son muy buenos para representar algunas otras características tales como las colas. Para esto utilizaremos las llamadas gráficas regulares.

Las graficas regulares son diagramas de dispersión especializados donde comparamos valores observados o valores residuales vs. valores esperados.

Page 28: The fisher assumptions and how to check them

Graficas regulares

Los valores esperados son escogidos para que estén lo mas cercano posible a una curva normal.

Los puntos deben quedar lo mas alineado posible.

Page 29: The fisher assumptions and how to check them

Gráficas regulares

Page 30: The fisher assumptions and how to check them

IV-Efectos Aditivos y ConstantesPor que es importante esta suposición… El modelo ANOVA asume que valores

observados se comportan como si fueran sido creados añadiendo números asociados a los factores del diseño. Existe una pieza constante para cada nivel de cada factor.

Ambas suposiciones son necesarias para justificar una descomposición lineal.

Page 31: The fisher assumptions and how to check them

Efectos Aditivos y Constantes A menos que podamos asumir que

los efectos de las condiciones son aditivos, no tendría sentido estimar estos efectos como lo hacemos, sumando para obtener promedios y restando para obtener el resto.

Page 32: The fisher assumptions and how to check them

Alternativa al modelo ANOVA

Es importante señalar que existen grupos de datos cualitativos y cuantitativos.

Es importante tener en cuenta que en ocasiones lo que parece ser cuantitativo no es sino cualitativo, y lo que parece ser cualitativo no es sino cuantitativo.

En algunas ocasiones la suposición falla ya que ANOVA no es el mejor enfoque.

Page 33: The fisher assumptions and how to check them

Si obtenemos una respuesta numérica , y los datos son categóricos, entonces deberíamos ser mas cuidadosos sobre los procesos y los efectos constantes que realizamos.

Por esta causa principalmente es que falla la suposición.

Efectos Aditivos y Constantes

Page 34: The fisher assumptions and how to check them

Para este tipo de grupos de datos, las dos suposiciones van de la mano, si una falla la otra también lo hará.

Existe dos tipos de gráficas que pueden ser usadas para verificar las suposiciones. Una de ellas es la gráfica de bloques y los diagramas de dispersión, residuales vs. valores ajustados antes mencionada.

Efectos Aditivos y Constantes

Page 35: The fisher assumptions and how to check them

Si la suposición no encaja, existen dos tipos de remedios:

1- Transformar la escala de igual forma que se realizo para las DE iguales, para hacer la suposición razonable

2- Si esta primera no diera resultado, lo mas favorable seria realizar un nuevo que permita relacionar mas fácilmente los términos de interacción.

Efectos Aditivos y Constantes

Page 36: The fisher assumptions and how to check them

Como se comento en secciones anteriores, muy a menudo, cuando una o mas de las suposiciones de Fisher fallan, esa falla es debida a observaciones externas.

Estadísticos han inventado algunas soluciones para manejar valores extremos, algunas de ellas muy elaboradas.

Sin embargo el acercamiento presentado a continuación tiene la ventaja de ser uno sencillo y muy cercano al sentido común.

V-Como reemplazar valores extremos

Page 37: The fisher assumptions and how to check them

De acuerdo a este acercamiento, siempre que encontremos un valor desviado, debemos realizar dos análisis.

En el primero de ellos debemos analizar toda la data incluyendo los valores extremos.

Luego realizaremos un segundo análisis. Para este, primero removemos los valores extremos , luego teniendo en cuenta que estos son observaciones perdidas, debemos estimar remplazos para estos valores. Para finalmente analizar la data arreglada.

V-Como reemplazar valores extremos

Page 38: The fisher assumptions and how to check them

V-Como reemplazar valores extremos

Page 39: The fisher assumptions and how to check them

Comparando estos dos análisis podremos ver los efectos de los valores extremos en un conjunto de datos.

Si los resultados observados son relativamente similares no tendremos muchos cambios en las conclusiones. Pero si al contrario, tenemos cambios significativos entre los análisis, debemos ser un poco mas cuidadosos a la hora de llegar a conclusiones.

V-Como reemplazar valores extremos

Page 40: The fisher assumptions and how to check them

Si inicialmente notamos que los valores extremos son relativamente moderados, la conclusión mas segura es no realizar la prueba.

Si por el contrario los residuales de las observaciones son 3 o mas deviaciones estándar lejos de cero, y los demás residuales son de forma normal, entonces el análisis antes descrito es la alternativa mas confiable.

V-Como reemplazar valores extremos

Page 41: The fisher assumptions and how to check them

Referencias

George W. Cobb (1998) Introducction to Design and Analysis of Experiments. Cap 12