diagrama de caja

12
Diagrama de caja Es una representación gráfica que permite establecer simetría o asimetría de una distribución se necesita valor máximo, valor mínimo, Q1, Q2, Me y Q3 representación grafica basada en cuartiles que ayuda a ilustrar un conjunto de datos para elaborarlo Elaboración: Es una representación gráfica formada por una caja rectangular en la cual los lados más largos nos muestran el recorrido intercuartílico, esta caja rectangular se divide por un segmento vertical en la cual nos da a conocer la posición de la mediana y su relación con el primer y tercer cuartil ya que el segundo cuartil coincide con el valor de la mediana En la gráfica rectangular se ubican en una escala sobre un segmento en la cual sus extremos están los valores máximos y mínimos de la variable cuyas líneas que sobresalen son denominadas bigotes y tienen un límite de prolongación de tal manera que si un valor no se encuentre en el rango determinado es identificado y marcado individualmente. Ejemplo: Ingresos de 60 ejecutivos de Marketing V. máx. : 90 Q1: 51,31 Q3: 74.3 V. min. : 31 Me: 65,7 Q1 Me Q3 V. min------------------------------------------------------------- --------------- v. máx.

Upload: juanpi-aviles

Post on 10-Apr-2016

9 views

Category:

Documents


0 download

DESCRIPTION

estadística

TRANSCRIPT

Page 1: Diagrama de Caja

Diagrama de caja

Es una representación gráfica que permite establecer simetría o asimetría de una distribución se necesita valor máximo, valor mínimo, Q1, Q2, Me y Q3 representación grafica basada en cuartiles que ayuda a ilustrar un conjunto de datos para elaborarlo

Elaboración:

Es una representación gráfica formada por una caja rectangular en la cual los lados más largos nos muestran el recorrido intercuartílico, esta caja rectangular se divide por un segmento vertical en la cual nos da a conocer la posición de la mediana y su relación con el primer y tercer cuartil ya que el segundo cuartil coincide con el valor de la mediana

En la gráfica rectangular se ubican en una escala sobre un segmento en la cual sus extremos están los valores máximos y mínimos de la variable cuyas líneas que sobresalen son denominadas bigotes y tienen un límite de prolongación de tal manera que si un valor no se encuentre en el rango determinado es identificado y marcado individualmente.

Ejemplo:

Ingresos de 60 ejecutivos de Marketing

V. máx. : 90 Q1: 51,31 Q3: 74.3

V. min. : 31 Me: 65,7

Q1 Me Q3

V. min---------------------------------------------------------------------------- v. máx. 30 35 40 45 50 55 60 65 70 75 80 85 90

Interpretación:

El diagrama anterior nos muestra que el 50 % central de ejecutivos percibe ingresos entre 51,31 y 74,3 miles de dólares, la diferencia entre los ingresos de es 22,9 miles de dólares, equivalente a la Q3-Q1 que corresponden al rango interctuartílico. Esta distribución representa una asimetría negativa representada de dos formas en distribución.

1. De acuerdo con la línea punteada, será asimetría negativa puesto que la distancia entre Q1 y el Valor minino es mayor que la distancia entre Q3 y el valor máximo es mayor a la distancia entre Q3, dicho de otra forma, el 25% de los datos menores a Q1 se encuentran más dispersos que el 25% de los datos mayores a Q3

Page 2: Diagrama de Caja

2. Desde otro punto de vista, la distribución será también asimétricas negativa puesto que la distancia de Me a Q1 están más dispersos que los de Me a Q3, de igual forma podemos establecer que el número de ejecutivos que tienen ingresos entre 51,31 y 65,7 miles de dólares, es igual al número de ejecutivos que tienen entre 65,7 y 74,3 miles de dólares.

Rango intercuartílico

Se dice que es una estimación estadística de la dispersión de una distribución de datos y busca la diferencia entre el tercer y el primer cuartil. Además se puede decir que esta medida busca eliminar valores que están muy alejados y es muy recomendable cuando la medida de tendencia central que se utiliza es la mediana ya que es poco tolerable a irregularidades que se presenta en los extremos.

El rango intercuartílico no se indica la dispersión en el sin cuento porciento central de la distribución y su cálculo es diferente tanto para datos originales como para datos agrupados

Rango Intercuartilico

Q1 Q2 Q3 25% 25% 25% 25%

P25 P50 P75

Para datos originales:

Fórmula del Rango intercuartílico: IQR= Q3-Q1

Edades:

Q1 = 1/ 4n = 0,25 *12 = 3 Q3 =3/4n =0,75*12=9

2 = 3 Q3 =3/4n =0,75*12=9

20, 49, 59, 18, 32, 32, 63, 24, 20, 32, 53, 48

Page 3: Diagrama de Caja

18, 20, 20, 24, 32, 32, 32, 48, 49, 53, 59, 63

Q1 Q3 Q1=(20+24)/2= 22 años Q3=(49+53)/2= 51 años

R=51-22=29 años

Interpretación:

A partir desde los 22 años hasta los 51 años se ubica el 50% central de la distribución. 29 años de edad es la distancia existente en el 50% central de la distribución.

Para datos agrupado:

Q 1=lim , I+( N

4– Fi−1)

fi x Ai

Lim,I: límite inferior del intervalo que contiene al primer cuartil (Fr% supera al 25%)

N: total de casos

Fi-1: frecuencia acumulada absoluta de la clase anterior a la que contiene el primer cuartil

Fi: frecuencia absoluta simple de la clase que contiene al primer cuartil

Ai: amplitud el intervalo que contiene al primer cuartil

Distribución de países según porcentaje de la población de 15 y más años de edad analfabeta, América Latina y el Caribe. Año 2 0 1 0

Li - Ls xm fi fr(%) FI Fr(%) Ai0-5 2,5 14 50 14 50 55-10 7,5 8 28 22 78 510-20 15 3 11 25 89 1020-42 31 3 11 28 100 22

28 100

Q 1=0+( 1

4∗28−0)

14∗5=25

Q 3=5+( 3

4∗28−14)

14∗5=9,4

Page 4: Diagrama de Caja

RI = 9,4 − 2,5 = 6,9

Rango o recorrido:

Su ventaja es que es fácil de calcular, además posee una interpretación intuitiva y su desventaja es que es muy general y solo nos da una leve idea de la amplitud de variación en puntajes extremos y descarta los valores intermedios de la distribución.

Rango intercuartílico:

Tiene la ventaja de un cálculo fácil y no sufre la influencia de sus valores extremos y su desventaja es que solo mide la dispersión en el centro de distribución y también mide sólo la distancia entre Q3 y Q1 y no la forma en la que están distribuidos los datos.

Diagrama de dispersión

El diagrama de dispersión nos permite analizar si existe alguna relación entre dos variables, es una herramienta gráfica para facilitar una mejor visión de los datos de interpretarlos, además simplificada el análisis complejo en situaciones cómicas y da una mejor comunicación también nos brinda mayor información que una análisis matemático de correlación y nos da la oportunidad de posibilidades y alternativas para un estudio.

Para realizar un diagrama de dispersión es necesario seguir una serie de pasos:

1. Se debe elaborar una teoría válida con una relación entre dos variables.2. Se debe obtener los pares de datos que correspondan a las dos variables.3. Se deben determinar los valores máximo y mínimo para cada una de las variables.4. Ubicar en que eje irán cada una de las variables.5. Graficar en el eje horizontal y vertical.6. Se debe marcar en el diagrama de dispersión los ares de datos.7. Se debe incluir la información relevante en el gráfico.8. Interpretar los resultados.

El diagrama de dispersión es muy importante para estudiar las relaciones de causa y efecto que vienen de una causa que no se posee información y es muy difícil de medir por lo tanto no sirve para actuar de una manera más simple en los procesos que son complejos. Pero hay que tener en cuenta que las relaciones que existen no son causa de otra.

Análisis de un diagrama de dispersión

1. Elaborar una teoría válida con la relación entre dos variables.2. Levantamiento de datos y construcción del diagrama.3. Identificar y clasificar la correlación4. Realizar un análisis y buscar explicaciones.

La utilización del diagrama de dispersión es muy ocupada para ensayar teorías y buscar sus causas, buscar soluciones y obtener resultados de su calidad.

Page 5: Diagrama de Caja

Ejemplo:

Errores en las facturas

Un equipo busca analizar las causas de los frecuentes errores en las facturas. El número de datos a rellenar variaba según el tipo de factura. Un miembro dio la idea de simplificar las facturas que son muy complicadas, lo que según el criterio genera la mayoría de errores. El equipo investigara en primer lugar la teoría en la que el número de errores en una factura dependía de la cantidad de datos a incluir en la misma. El equipo tomo los datos relativos a los meses últimos y los representó en un Diagrama de Dispersión.

Numero de datos de la factura

Numero de errores en factura

81515121025201718 2327 818201815262010109132023202320132413132315222419

3254723934106 1071523539 1012 12890 01 66986

Page 6: Diagrama de Caja

12271217

12124

Errores de facturas

15

13

11

9

7

5

3

0 5 10 15 20 25 30

El diagrama de dispersión no parecía confirmar la teoría en la relación del número de días respecto a la cantidad de errores.

Tabla de contingencias:

Es una manera muy útil que sirve para clasificar los autos mediante un recuento traspasando los valores a una tabla de contingencia, dicha tabla se divide en celdas en las cuales figuran probabilidades y es una de las formas de manera más común para resumir datos categóricos cuyo interés se basa en que si existe alguna relación entre una variable (fila) y otra variable(columna) para calcular la intensidad de esa asociación sea así X y Y dos variables categóricas e I y J respectivamente y se pueden clasificar como categorías

Se le conoce con el nombre de tabla de contingencia gracias al autor Pearson que dio su nombre 1904, también se le conoce como una tabla de clasificación cruzada.

Ejemplo

Se va a sortear un viaje a Italia entre los 120 mejores usuarios de una agencia de autos.los cuales 65 son mujeres, 80 están casados y 45 son mujeres casadas. Se pide:

. . .

. .

. . ...

. . .. …

. . .

. . . . . . . …. Nro

. de

erro

res d

e fa

ctur

a

Page 7: Diagrama de Caja

1. ¿Cuál es la probabilidad de que le toque el viaje a un hombre soltero?

2. Si del ganador se sabe que es casado, ¿cuál será la probabilidad de que sea una mujer?

Hombres MujeresCasados 45 80Solteros 65 120

Hombres Mujeres TotalCasados 35 45 80Solteros 20 20 40Total 505 65 120

P(hombre soltero)= 20/120 = 1/6

P(mujer/ casada)=45/80= 0,5625

Bibliografía:

http://www.estadisticaparatodos.es/taller/graficas/cajas.html

http://www.fder.edu.uy/contenido/rrii/contenido/curricular/estadistica/010102.pdf

http://www.universoformulas.com/estadistica/descriptiva/rango-intercuartilico/

http://www.fundibeq.org/opencms/export/sites/default/PWF/downloads/gallery/methodology/tools/diagrama_de_dispersion.pdf

http://www.vitutor.com/pro/2/a_14.html

Page 8: Diagrama de Caja

UNIVERSIDAD DE CUENCA

FACULTAD DE CIENCIAS ECONOMICAS

CARRERA MARKETING

Trabajo de:

Estadística

Profesor:

Javier Ávila

Temas:

Diagrama de caja

Rango Intercuartilico

Diagrama de dispersión

Tabla de contingencias

Realizado por:

Juan Pablo Avilés

Byron Campoverde

José Vinueza

Page 9: Diagrama de Caja

UNIVERSIDAD DE CUENCA

FACULTAD DE CIENCIAS ECONOMICAS

CARRERA MARKETING

Trabajo de:

Estadística

Profesor:

Javier Ávila

Temas:

Diagrama de caja

Rango Intercuartilico

Diagrama de dispersión

Tabla de contingencias

Realizado por:

Juan Pablo Avilés