capítulo 1. estadística descriptiva (versión para imprimir)

98
Cap´ ıtulo 1. Estad´ ıstica descriptiva Cap´ ıtulo 1. Estad´ ıstica descriptiva Probabilidad y Estad´ ıstica Facultad de Ingenier´ ıa Universidad de Talca Mg. Eduardo Alarc ´ on Bustamante [email protected] Curic ´ o, segundo semestre 2012

Upload: fernando-diaz

Post on 08-Apr-2016

52 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Capıtulo 1. Estadıstica descriptiva

Probabilidad y EstadısticaFacultad de IngenierıaUniversidad de Talca

Mg. Eduardo Alarcon [email protected]

Curico, segundo semestre 2012

Page 2: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Indice I1 Conceptos basicos

2 VariablesTipos de variableNiveles de medicionNiveles de medicion de una variable cualitativaNiveles de medicion de una variable cuantitativaEsquema de variables estadısticas

3 Organizacion de datos mediante distribuciones de frecuenciaPartes de una tabla de distribucion de frecuenciasOrganizacion de datos mediante distribucion de frecuencias (Variablescualitativas nominales)Organizacion de datos mediante distribucion de frecuencias (Variablescualitativas ordinales)Organizacion de datos mediante distribucion de frecuencias (Variablescuantitativas discretas)Organizacion de datos mediante distribucion de frecuencias (Variablescuantitativas continuas)

4 Organizacion de datos mediante graficosRepresentacion grafica para variables cualitativasRepresentacion grafica para variables cuantitativas

Page 3: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Indice II5 Ejercicio 1

6 Medidas de ResumenMedidas de posicion

Medidas de centralidadCuantiles

Medidas de Dispersion o de variabilidadRango (R) y Rango intercuartılico (RI)Varianza (s2) y desviacion estandar muestral (s)Coeficiente de Variacion (CV )

Medidas de formaAsimetrıaCurtosisRelacion entre media, mediana y moda segun el sesgo de la distribucion

7 Deteccion de datos atıpicosRegla empırica y metodo de puntuacion ZMetodo de TukeyDiagrama de caja (Box-plot)

Construccion del diagrama de caja

8 Ejercicio 2

9 Ejercicio 3

Page 4: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Conceptos basicos

Unidad Experimental: es el ente que proporciona unainformacion. Tambien recibe el nombre de unidad de analisis.Poblacion: es el universo o conjunto total de unidadesexperimentales. Sobre este conjunto se obtendran lasconclusiones finales.Muestra: es cualquier subconjunto de la poblacion.Parametro: caracterıstica relacionada con la poblacion y que esde interes para el investigador.Estimadores: aproximaciones de los parametros basadas en lamuestra.

Page 5: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Variables

Para describir o inferir necesitamos datos, los cuales sonproporcionados por el ente de interes. Los datos son son aquellasmedidas obtenidas de cierta caracterıstica (altura, genero, edad,sueldo mensual, profesion, nivel socio economico, etc).

Aquellos datos que NO cambian en el tiempo o por individuo medidose denomina constante, mientras que aquellos datos que SIcambian en el tiempo o por individuo se denomina variable.

Definicion (Variable estadıstica)

Es cualquier caracterıstica o atributo que es deseable conoceracerca de las unidades experimentales y que se espera varıe en eltiempo o de una unidad a otra. El conjunto de todos los posiblesvalores de esta se denomina recorrido de la variable.

Page 6: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Variables

Tipos de variable

Existen dos tipos basicos de variables

1 Los obtenidos a partir de una poblacion cualitativa.2 Los obtenidos a partir de una poblacion cuantitativa.

Cuando la caracterıstica o variable en estudio es no numerica, estase denomina Variable cualitativa (genero, religion, estado civil, lugarde nacimiento, nivel socio economico, grado de gusto por ciertoproducto, nivel de riesgo, etc).Si la informacion estudiada es del tipo cualitativa, generalmenteinteresa saber cuantas o que proporcion entra en cada categorıa onivel.

Page 7: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Variables

Tipos de variable

Cuando la variable estudiada puede ser expresada de formanumerica, esta se denomina Variable cuantitativa (Saldo en lacuenta corriente, edad, velocidad, temperatura, cantidad de clientesque prefieren cierto producto, etc).

Page 8: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Variables

Niveles de medicion

Supongamos que tenemos una urna con 6 papeles de distintoscolores enumerados del 1 al 6, donde cada numero significa un colordiferente de la siguiente forma:

Supongamos que sumamos los valores asignados a los colores y lodividimos por la cantidad de colores, si realizamos este calculoobtenemos el promedio (3,5). ¿Que significa este 3,5?¿En promedio el color de los papeles es morado?

Page 9: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Variables

Niveles de medicion

Los niveles de medicion determinan el tipo de calculo que es posiblerealizar para resumir y presentar la informacion entregada por lavariable estudiada.

Page 10: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Variables

Niveles de medicion de una variable cualitativa

Variables Cualitativas - Nivel Nominal

La caracterıstica de este nivel es que las variables nonecesariamente tienen un orden especıfico entre las categorıas, enel ejemplo anterior podrıamos haber asignado cualquier numero acualquier color.Solo permite la clasificacion (etiquetar), y no se puede establecerningun tipo de orden.

Ejemplo (Estado civil de una persona)

1-Soltero/a2-Casado/a3-Divorciado/a4-Viudo/a5-Union libre6-Separado/a

Page 11: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Variables

Niveles de medicion de una variable cualitativa

Variables Cualitativas - Nivel Ordinal

Existe una clasificacion con cierto orden natural (no numerico).Ejemplos: Estrato socio-economico; Nivel educacional; Jerarquıa delempleado...

Page 12: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Variables

Niveles de medicion de una variable cuantitativa

Definicion (Variable Cuantitativa Discreta)

Si la variable cuantitativa toma valores en un conjunto contable(conjunto finito o infinito numerable) entonces se dice que es de tipo”discreta”.Ejemplos: Numero de artıculos defectuosos; numero de clientes quellegan a una estacion de servicio durante un dıa.

Definicion (Variable Cuantitativa Continua)

Si la variable cuantitativa toma valores en un conjunto no contable(conjunto infinito no numerable) entonces se dice que es de tipo”continua”.Ejemplos: Tiempo (en horas) en una fila de espera; Temperatura(C◦) de una reaccion quımica.

Page 13: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Variables

Esquema de variables estadısticas

Page 14: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Definicion (Distribucion de frecuencias)

Una distribucion de frecuencia es un resumen tabular de datos quemuestra el numero (frecuencia) de elementos en cada una de lasdiferentes clases disjuntas.

Se distinguen 3 tipos de frecuencia

Frecuencia AbsolutaFrecuencia RelativaFrecuencia Acumulada (Absoluta y Relativa)

Page 15: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Supongamos que se desea estudiar una variable que esta agrupadaen k clases excluyentes c1, c2, . . . , ck , entonces se define

Definicion (Frecuencia absoluta)

Corresponde al numero de unidades de analisis que pertenecen a laclase ci y se denota por ni , (i = 1, . . . , k ) donde:

k∑i=1

ni = n

Definicion (Frecuencia relativa)

Corresponde a la proporcion de unidades de analisis que pertenecena la clase ci y se denota por fi , i = 1, . . . , k (i = 1, . . . , k ) donde:

fi =ni

n;

k∑i=1

fi = 1

Page 16: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Observacion

En algunos casos, para un mejor entendimiento, las frecuenciasrelativas suelen transformarse en frecuencias porcentuales de lasiguiente forma:hi = fi · 100, donde

∑ki=1 hi = 100%

Definicion (Frecuencia Acumulada Absoluta)

Corresponde al numero acumulado de unidades de analisis quepertenecen a las clases c1, c2, . . . , ci y se denota porNi , (i = 1,2, . . . , k), donde

Ni =i∑

j=1

nj , i = 1,2, . . . , k

Ası N1 = n1 y Nk = n

Page 17: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Definicion (Frecuencia Acumulada Relativa)

Corresponde a la proporcion acumulada de unidades de analisis quepertenecen a las clases c1, c2, . . . , ci y se denota porFi , (i = 1,2, . . . , k), donde

Fi =i∑

j=1

fj o Fi =Ni

n, i = 1,2, . . . , k

Ası F1 = f1 y Fk = 1En forma analoga, es posible definir frecuencias acumuladasporcentuales por: Hi = Fi · 100, con H1 = h1 y Hk = 100%

Nota: La frecuencia acumulada para variables cualitativas tienesentido solo en el nivel ordinal.

Page 18: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Partes de una tabla de distribucion de frecuencias

El esquema de la tabla es el siguiente:

Tabla 1. Distribucion de frecuencias de...

Partes de una tabla de distribucion de frecuenciasTıtuloTabulaciones

Page 19: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Partes de una tabla de distribucion de frecuencias

(Tıtulo)

El tıtulo de la tabla de distribucion de frecuencias debe tener 3 partesfundamentales:

Variable en estudioEspacioTiempo

Ejemplo: DISTRIBUCION DE FRECUENCIAS del nivel socioeconomico (Variable en estudio) de las familias de la comuna deLas Condes (Espacio) a diciembre del ano 2011 (Tiempo).

Page 20: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Partes de una tabla de distribucion de frecuencias

(Tabulaciones)

Las tabulaciones se refieren al nombre que recibe cada una de lasfrecuencias en la tabla de distribucion de frecuencias.Del ejemplo anterior

Clases: Nivel socio economiconi : Numero de familias pertenecientes a cada nivel socioeconomico.fi : Proporcion de familias pertenecientes a cada nivel socioeconomico.Ni : Numero acumulado de familias pertenecientes a cada nivelsocio economico.Fi : Proporcion acumulada de familias pertenecientes a cadanivel socio economico.

Page 21: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Partes de una tabla de distribucion de frecuencias

Distribucion de frecuencias del nivel socio economicode las familias de la comuna de Las Condes a diciembre del ano 2011

N.S.E Nro. familias Prop. familias Nro. acum. familias Prop. acum. familiasABC1 64 0,64 64 0,64C2 22 0,22 86 0,86C3 13 0,13 99 0,99D 1 0,01 100 1E 0 0,00 100 1Total 100 1

Page 22: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Organizacion de datos mediante distribucion de frecuencias (Variables cualitativas nominales)

Distribucion de frecuencias del estado civilde los trabajadores del banco BANESE a fines del ano 2009

Estado Civil Nro. de trabajadores Prop. de trabajdores %. de trabajdoresSoltero 23 0,490 49,0%Casado 12 0,255 25,5%Divorciado 2 0,043 4,3%Viudo 3 0,064 6,4%Union libre 6 0,127 12,7%Separado 1 0,021 2,1%Total 47 1 100%

Page 23: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Organizacion de datos mediante distribucion de frecuencias (Variables cualitativas ordinales)

Para la organizacion de datos mediante distribucion de frecuenciaspara variables cualitativas ordinales vea el ejemplo de Partes de unatabla de distribucion de frecuencias

Page 24: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Organizacion de datos mediante distribucion de frecuencias (Variables cuantitativas discretas)

Existen dos tipos de datos de origen cuantitativo discreto:

1 Donde la variable tiene un bajo rango de variabilidad, porejemplo: Nro. de hermanos que tienen los alumnos de ingenierıa(0,1,2,3,4,5), Nro. de artıculos defectuosos en un pedido(0,1,2,3), Nro. de computadores por familia (0,1,2,3), etc...

2 Donde la variable tiene un recorrido de alta variabilidad, comopor ejemplo Nro. de pisos que tienen los edificios de Chile(2,3,6,7,8,10,...,33,34,35,etc...), Cantidad de dinero en la cuentacorriente de los alumnos de la Universidad de Talca(0,,10.000,11.000,11.100,12.000,12.100,51.100,51.110,etc...).

Page 25: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Organizacion de datos mediante distribucion de frecuencias (Variables cuantitativas discretas)

Para el primer caso, la tabla de distribucion de frecuencias tiene elmismo comportamiento que la tabla de distribucion de frecuenciaspara variables cualitativas ordinales.

Para el segundo caso la tabla de distribucion de frecuencias sufreuna leve modificacion que esta relacionada con la creacion de los”intervalos de clases”. Esta tabla tambien es utilizada para variablescuantitativas del tipo continuo, por lo que veremos en la siguienteseccion la creacion de estas tablas de frecuencia.

Page 26: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Organizacion de datos mediante distribucion de frecuencias (Variables cuantitativas continuas)

Si la variable bajo estudio es cuantitativa continua (o discreta con unalto rango de variabilidad), entonces el esquema de tabla anteriorsufre un leve modificacion que esta relacionada con la creacion delos ”intervalos de clases”. En este caso el esquema de la tabla es elsiguiente:

Donde la marca de clase i-esima (mi ) corresponde al promedio delintervalo i-esimo (i = 1, ..., k ).

Page 27: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Organizacion de datos mediante distribucion de frecuencias (Variables cuantitativas continuas)

Metodo para crear intervalos de claseSe supone que la amplitud de los intervalos es la misma, se puedeseguir los siguientes pasos para la construccion de tablas defrecuencias de variables continuas.

Paso 1: Contar el numero n de datos.Paso 2: Calcular el rango (R);

R = max −min

donde min y max corresponden a los valores mınimos ymaximos de los datos, respectivamente.Paso 3: Escoger el numero de clases (intervalos). Se sugiere ,elentero mas proximo de la Formula de Sturges, dada por

k = 1 + 3,3 log(n)

donde log(·) es el logaritmo en base 10. Tambien el investigadorpuede elegir el numero de clases segun especificacionespropias.

Page 28: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Organizacion de datos mediante distribucion de frecuencias (Variables cuantitativas continuas)

Metodo para crear intervalos de clase

Paso 4: Calcular la amplitud (A)

A =Rk

Paso 5: Para determinar los extremos de la primera clase(intervalo) se debe tomar como lımite inferior el valor min y comolımite superior el valor min + A: Este serıa c1

Paso 6: Para obtener las restantes clases (cj ), se sumasucesivamente A al lımite inferior, donde el lımite inferior de lassucesivas clases correspondera a lımite superior de la claseanterior.

Page 29: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Organizacion de datos mediante distribucion de frecuencias (Variables cuantitativas continuas)

Ejemplo

Considere los siguientes datos

cree una tabla de distribucion de frecuencias con la metodologıavista anteriormente.

Page 30: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante distribuciones de frecuencia

Organizacion de datos mediante distribucion de frecuencias (Variables cuantitativas continuas)

1 El valor del tamano de muestra es n = 30.2 El rango serıa R = 1,19− 0,36 = 0,83.3 El numero de clases a considerar es

k = 1 + 3,3 log(30) = 5,87 ≡ 6.4 La amplitud serıa A = 0,83

6 = 0,1383.5 La tabla quedarıa de la siguiente forma

Page 31: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Las grandes cantidades de datos estadısticos resultanincomodos de interpretar y si estos no estan ordenados dealguna manera.La principal ventaja de la construccion de graficos, los cualesson obtenidos a traves de las tablas de distribucion defrecuencia, es que nos permite visualizar mas claramente ladistribucion de estos, hacer una mejor comparacion deresultados y un analisis objetivo de estos ultimos.

Definicion (Grafico)

Es una representacion pictorica, mediante figuras geometricas uotros elementos, que proporciona un resumen de la informacion queinteresa destacar y, lo mas importante, recordar.

Page 32: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Al igual que en la organizacion de datos mediante distribuciones defrecuencia, la organizacion de datos mediante graficos esta separapara variables del tipo cualitativa y cuantitativa.

En el caso de las variables cualitativas veremos dos tipos degraficos: Grafico de barras y grafico circular.

En el caso de las variables cuantitativas veremos 3 tipos de grafico:Histograma, polıgono de frecuencias y grafico de ojivas.

Page 33: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Al igual que las tablas de distribucion de frecuencia, los graficosdeben llevar un tıtulo adecuado el cual cuenta con:

Variable en estudioEspacioTiempo

Page 34: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Por otro lado, en el caso de los graficos de barra, histograma,polıgono de frecuencias y grafico de ojivas, los ejes deben llevar elnombre adecuado:

Eje de las abscisas (Eje de categorıas): Debe llevar el nombrede la variable en estudio, ademas deber ir correctamente elrecorrido de la variable (ya sea clase o intervalo de clase).Eje de las ordenadas (Eje de valores): Debe llevar el nombrede la frecuencia utilizada en el grafico, ademas de los valoresconsiderados de cada frecuencia (Absoluta, relativa oporcentual), en el caso del grafico de ojiva se considera solo lafrecuencia acumulada.

Nota: En el caso del grafico circular cada color representa unacategorıa y en cada sector del grafico se encuentra el porcentajecorrespondiente a cada categorıa.

Page 35: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Representacion grafica para variables cualitativas

Definicion (Grafico de barras)

Representa distribuciones de frecuencias de variables cualitativas odiscretas con bajo rango de variabilidad. Es un conjunto derectangulos adyacentes (con un espacio entre ellos). En el ejehorizontal deben ir las clases y en el eje vertical las frecuenciasabsolutas, relativas o porcentajes.

Page 36: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Representacion grafica para variables cualitativas

Page 37: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Representacion grafica para variables cualitativas

Definicion (Grafico circular)

Tambien denominado grafico de tortas o grafico de sectores, esutilizado principalmente para representar la frecuencia relativaporcentual de la categorıa.La construccion del grafico circular se basa en el porcentaje querepresenta la frecuencia absoluta dentro de los 360◦ quecorresponden a los grados totales de una circunferencia.

Page 38: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Representacion grafica para variables cualitativas

Page 39: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Representacion grafica para variables cuantitativas

Definicion (Histograma)

Es una representacion grafica para variables cuantitativas continuas(o variables cuantitativas discretas con un recorrido de altavariabilidad), donde el area de las barras son proporcionales a lafrecuencia del intervalo.

Page 40: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Representacion grafica para variables cuantitativas

Page 41: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Representacion grafica para variables cuantitativas

Definicion (Polıgono de frecuencias)

Es una representacion grafica para variables cuantitativas continuas,donde se unen los puntos medios de las barras del histograma(marcas de clase). Este grafico muestra la forma poligonal de ladistribucion.

Page 42: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Representacion grafica para variables cuantitativas

Page 43: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Representacion grafica para variables cuantitativas

Definicion (Grafico de ojiva)

Es la grafica asociada a las frecuencias acumuladas. Se construyea partir de la frecuencia acumulada (generalmente porcentual) de lasmarcas de clase de los intervalos de clase.

Page 44: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Organizacion de datos mediante graficos

Representacion grafica para variables cuantitativas

Page 45: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Ejercicio 1

1 Construya la tabla de distribucion de frecuencias de la variableActivos circulantes de la tienda ABC Ltda. durante el ano 2005.

2 Construya la tabla de distribucion de frecuencias de la variableVolumen de facturacion (en millones de pesos) de una empresaa lo largo de 300 dıas laborales.

Page 46: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Estas medidas estadısticas resumen al conjunto de datos, tambiense les denomina estadısticos. Se clasifican en medidas de posicion,dispersion y forma.

Page 47: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Estas medidas de posicion entregan la posicion relativa que poseenlos individuos dentro de la distribucion y se subdividen en dos:

1 Las de centralidad, que tienden a ubicarse en el centro de ladistribucion, entre las cuales se encuentran:

El promedio o media aritmetica.La mediana o valor del centro.La moda, modo o valor mas frecuente.La media geometrica.

2 Los cuantiles, que tienden a ubicarse en distintas partes de ladistribucion de la variable, entre las que se encuentran:

Los cuartiles (dividen al conjunto en cuatro partes iguales).Los percentiles (dividen al conjunto en cien partes iguales).Entre otras.

Page 48: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media aritmetica o promedio

Dado el vector A = (a1,a2, . . . ,an), se define la media aritmetica de Acomo:

A =a1 + a2 + · · ·+ an

n=

n∑i=1

ai

n

Page 49: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media aritmetica o promedio (X )

Sea X una variable cuantitativa con n datos (x1, x2, . . . , xn), entoncesel calculo del promedio o media aritmetica de X esta dado por:

Para datos no tabulados:

X =n∑

i=1

xi

n

Para datos tabulados, el promedio tiene un valor aproximadodado por:

X ≈n∑

i=1

fi ·mi

n

→ El uso de la medida es exclusivamente para variablescuantitativas.

→ Su calculo puede ser afectado de manera desproporcionada porla existencia de datos atıpicos (fuera de lo comun).

Page 50: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Propiedades de la media

→ La sumatoria de la diferencia de los n valores de la variable X(x1, x2, . . . , xn) con respecto a la media de la variable X es nula:

n∑i=1

(xi − X ) = 0

→ La media aritmetica del producto entre una constante k y unavariable X es igual al producto de esta constante por la mediaaritmetica:

kX = kX

→ Linealidad de la media: La media aritmetica de la suma (odiferencia) entre k y la variable X es la suma (o diferencia) de ky la media aritmetica de la variable X :

k + X = k + X

Page 51: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Propiedades de la media

→ Variables con el mismo numero de observaciones, entonces lamedia aritmetica de la suma de estas variables es igual a lasuma de las medias respectivas, es decir:

X + Y = X + Y

Page 52: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Mediana (Me)

Corresponde al valor central cuando las n observaciones se ordenande menor a mayor. Es decir, considere las siguientes observacionesx1, x2, . . . , xn, ademas si ordenamos estas observaciones de menor amayor tenemos x(1), x(2), . . . , x(n), entonces la mediana (para datosno tabulados) serıa

Me =

{12

[x( n

2 ) + x( n2 +1)

]si n es par

x( n+12 ) si n es impar

→ El uso de esta medida es para variables cuantitativas ocualitativas ordinales

→ Su interpretacion no es afectada por la existencia de datosatıpicos.

El calculo para datos tabulados se dara mas adelante (en el calculode cuantiles).

Page 53: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Ejemplo

En una empresa se hizo un listado con los trabajadores que llegaronatrasados el dıa lunes y para cada uno se registro el tiempo deatraso en minutos. Existen dos turnos en la empresa (8.00-14.59 y15.00-22.00)

A continuacion se entrega el tiempo de atraso (en minutos) delprimer turno.

10,5 - 11,3 - 11,9 - 12,0 - 12,3 - 12,3 - 12,5 - 12,7 - 13,4 - 13,7 - 13,8 -14,2 - 14,8 - 15,1 - 15,3 - 16,7 - 16,8 - 18,8 - 20,8

Calcule e interprete la mediana de los tiempos de atraso de lostrabajadores de la empresa

Page 54: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Solucion:1 Numero de datos: 192 Me = x( 19+1

2 ) = x(10) = 13,7.

3 El 50% de los trabajadores de la empresa tiene un tiempo deatraso inferior (o superior) a 13,7 minutos

Page 55: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Moda (Mo)

Corresponde al valor o categorıa con mas alta frecuencia en losdatos.

El uso de esta medida es para cualquier tipo de variable.En el caso de variables cuantitativas, los datos pueden seragrupados en clases y la moda se define como la marca declase que tiene la mayor frecuencia.Si existe un unico valor que se repite mas hablamos de unadistribucion unimodal.

Page 56: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Moda (Mo)

Puede no ser un estadıgrafo unico, en una distribucion defrecuencias podrıa existir mas de una moda (bimodal, trimodal),tambien es posible que alguna distribucion no tenga moda.

Page 57: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Distribucion de frecuencias del estado civilde los trabajadores del banco BANESE a fines del ano 2009

Estado Civil Nro. de trabajadores Prop. de trabajdores %. de trabajdoresSoltero 23 0,490 49,0%Casado 12 0,255 25,5%Divorciado 2 0,043 4,3%Viudo 3 0,064 6,4%Union libre 6 0,127 12,7%Separado 1 0,021 2,1%Total 47 1 100%

Page 58: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Page 59: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media Geometrica

Definicion (Media Geometrica)

Sea una distribucion de frecuencias (xi ,ni ). La media geometrica Gse define como la raız N-esima del producto de los N valores de ladistribucion.

G = n√

xn11 xn2

2 xn33 · · · x

nnn = n

√√√√ n∏i=1

xnii

Page 60: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media Geometrica

Un ejemplo de utilizacion de la media geometrica es el calculo de lastasas de crecimiento dada por

r = n−1

√√√√n−1∏t=1

(1 + rt )− 1

Donde

1 + rt =Pt

Pt−1

Page 61: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media Geometrica

Los siguientes datos corresponden a las utilidades anuales de unaempresa en los perıodos 2006-2010.

Ano 2006 2007 2008 2009 2010Utilidad $36.880.900 $39.841.200 $40.250.821 $46.182.345 $45.817.324

Page 62: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media Geometrica

Page 63: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media Geometrica

Page 64: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media Geometrica

Se observa una tendencia a crecer las utilidades de la empresa amedida que pasa el tiempo, por lo que podrıamos ser capaces depredecir las utilidades en el futuro.

Para esto necesitamos la pendiente de la recta dada por la tasa decrecimiento r , la cual se calcula a traves de la media geometrica.

Page 65: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media Geometrica

Ano 2006 2007 2008 2009 2010Utilidad $36.880.900 $39.841.200 $40.250.821 $46.182.345 $45.817.324

Perıodo 2006-2007 2007-2008 2008-2009 2009-2010Tasa 1,08026 1,01028 1,14736 0,99209

Ası1 + r = 4

√(1 + r1)(1 + r2)(1 + r3)(1 + r4)

1 + r = 4√

1,08026 · 1,01028 · 1,14736 · 0,99209

1 + r = 1,05574

Page 66: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media GeometricaPor otro lado tenemos que

1 + r = 4√

(1 + r1)(1 + r2)(1 + r3)(1 + r4)

(1 + r)4 = (1 + r1)(1 + r2)(1 + r3)(1 + r4)

Donde:

P1

P0= (1 + r1);

P2

P1= (1 + r2);

P3

P2= (1 + r3);

P4

P3= (1 + r4)

P4 = (1 + r4)P3

P4 = (1 + r4)(1 + r3)P2

P4 = (1 + r4)(1 + r3)(1 + r2)P1

P4 = (1 + r4)(1 + r3)(1 + r2)(1 + r1)P0

P4 = (1 + r)4P0

Page 67: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media Geometrica

En general obtenemos una prediccion para el tiempo k-esimo de lasiguiente forma:

Pk = (1 + r)k P0

Ejemplo

Prediga la utilidad esperada para el ano 2012 de la empresa anterior.

Page 68: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Media Geometrica

Solucion:Se tiene como ano 0 (P0) el ano 2006, con utilidad de $36.880.900,ası k = 6, ademas se obtuvo que 1 + r = 1,05574, por lo que laprediccion de la utilidad para el ano 2012 esta dada por:

P6 = (1 + r)6P0

P6 = 1,055746 · 36.880.900

P6 = 51.067.355,58

Por lo que, el ano 2012 se espera tener una utilidad de$51.067.355,58

Page 69: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Cuantiles

Los cuantiles son medidas que dividen el 100% de los datos ensegmentos iguales, los mas usados son los siguientes:

CuartilesQuintilesDecilesPercentiles

Page 70: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Cuantiles

Definicion (Cuartiles)

Valores que particionan a una distribucion de frecuencias en cuatropartes iguales, mediante los puntos Q1,Q2,Q3, llamados primer,segundo y tercer cuartil.

Definicion (Quintiles)

Valores que particionan a una distribucion de frecuencias en cincopartes iguales mediante los puntos q1,q2,q3,q4, llamados primer,segundo,tercero y cuarto quintil

Definicion (Deciles)

Valores que particionan a una distribucion de frecuencias en diezpartes iguales mediante los puntos D1,D2, . . . ,D9, llamados primer,segundo, ..., noveno decil.

Page 71: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Cuantiles

Definicion (Percentiles)

Valores que particionan a una distribucion de frecuencias en cienpartes iguales mediante los puntos P1,P2, . . . ,P99, llamados primer,segundo , ..., 99avo percentil.

De la definicion de percentil se puede inferir que los cuartiles,quintiles y deciles son percentiles especiales.

→ Q1 = P25

→ Q2 = P50 = Me

→ Q3 = P75→ q1 = P20

→ q2 = P40

→ q3 = P60

→ q4 = P80→ D1 = P10

→ D2 = P20

→...

→ D9 = P90

Page 72: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Cuantiles

Pα, el percentil de orden α, corresponde al valor de la variable que esmenor o igual al α% de los datos y es mayor o igual que el(100− α)% de los datos (ordenados de menor a mayor).

Para datos no tablados, se realiza el calculo de la posicion en que seencuentra el percentil α mediante el calculo simple de un porcentaje

nα100

y luego se busca el percentil en la posicion calculada.

Si el calculo de la posicion da un numero no entero, entoncesaproxımelo al promedio de los datos pertenecientes a ambasposiciones.

Page 73: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Cuantiles

Para datos tabulados, una forma de obtener una aproximacion(lineal) del percentil es mediante la formula:

Pα = Lii +

( nα100 − Ni−1

niAi

)donde

α ∈ [0,100]

Lii = Lımite inferior del intervalo donde se encuentra PαNi−1 = Frecuencia absoluta acumulada del intervalo anterior donde

se encuentra Pαni = Frecuencia absoluta del intervalo donde se encuentra PαAi = Amplitud del intervalo donde se encuentra Pαn = Tamano de la muestra

Page 74: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Ejemplo

En una empresa se hizo un listado con los trabajadores que llegaronatrasados el dıa lunes y para cada uno se registro el tiempo deatraso en minutos. Existen dos turnos en la empresa (8.00-14.59 y15.00-22.00)

A continuacion se entrega el tiempo de atraso (en minutos) delprimer turno.

10,5 - 11,3 - 11,9 - 12,0 - 12,3 - 12,3 - 12,5 - 12,7 - 13,4 - 13,7 - 13,8 -14,2 - 14,8 - 15,1 - 15,3 - 16,7 - 16,8 - 18,8 - 20,8

Calcule e interprete Q1,Q3,q1.

Page 75: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de posicion

Ejemplo

De la siguiente distribucion de frecuencias,

Calcule e interprete Q1,Me,Q3,q1.

Page 76: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de Dispersion o de variabilidad

Indican, mediante un calculo, cuan dispersos se encuentran los datosrespecto de un valor central.Una dispersion pequena indica que es poco el alejamiento de losdatos con respecto al valor central.En este capıtulo se veran las siguientes medidas de dispersion

RangoRango intercuartılicoVarianza y desviacion estandar muestralCoeficiente de variacion

Page 77: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de Dispersion o de variabilidad

Rango (R): Corresponde a la diferencia entre el maximo y mınimo delos datos.

R = Max-Mın

→ Su interpretacion puede ser afectada por la existencia de datosatıpicos.

Rango Intercuartil (RI): Esta medida de variabilidad es resistente avalores atıpicos concentra en el 50% central de los datos centrales.

RI = Q3 −Q1

Page 78: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de Dispersion o de variabilidad

La varianza de las observaciones x1, x2, . . . , xn esta dada por

s2 =1

n − 1

n∑i=1

(xi − x)2

Por otro lado, si los datos se encuentran tabulados, la varianza seobtiene de la siguiente forma:

s2 ≈ nn − 1

n∑i=1

fi (mi − x)2

→ Esta medida no se puede interpretar, pues tiene unidades de medida alcuadrado.

→ El uso de esta medida es exclusivamente para variables cuantitativas.

→ Si los datos corresponden a los de una poblacion para calcular la varianzapoblacional (σ2) se reemplaza el factor 1

n−1 por 1n .

→ Se define la desviacion estandar muestral como s =√

s2. Su interpretacion esafectada por la existencia de datos atıpicos.

→ La desviacion estandar (s) se interpreta como la cantidad de desviacionespromedio de los datos con respecto a la media.

Page 79: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de Dispersion o de variabilidad

Propiedades lineales de la media y varianza

Sean x1, x2, . . . , xn un conjunto de n observaciones donde a cada unase le aplica la siguiente transformacion lineal:

yi = axi + b ∀i = 1,2, . . . ,n

donde a ∈ R (6= 0) y b ∈ R

Sean x y S2x el promedio y la varianza de las observaciones

x1, x2, . . . , xn. Luego el promedio y la varianza de los datostransformados y1, y2, . . . , yn estan dados por:

y = ax + b y s2y = a2s2

x

Page 80: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de Dispersion o de variabilidad

Coeficiente de variacion (CV )

Corresponde a una medida de dispersion relativa a la media. Estadada por

CV =sx

100%

→ No depende de la unidad de medida de los datos.→ Util para comparar variabilidad de grupos (con o sin la misma

unidad de medida).→ Mientras mas pequeno es el valor del CV mas homogeneos son

los datos.

Page 81: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de Dispersion o de variabilidad

Ejemplo

En una empresa se hizo un listado con los trabajadores que llegaronatrasados el dıa lunes y para cada uno se registro el tiempo de atraso enminutos. Existen dos turnos en la empresa (8.00-14.59 y 15.00-22.00)

Tiempos de atraso (en minutos) primer turno.

10,5 - 11,3 - 11,9 - 12,0 - 12,3 - 12,3 - 12,5 - 12,7 - 13,4 - 13,7 - 13,8 - 14,2 -14,8 - 15,1 - 15,3 - 16,7 - 16,8 - 18,8 - 20,8

Tiempos de atraso (en minutos) segundo turno.

10,0 - 10,4 - 10,7 - 11,8 - 12,0 - 12,1 - 12,7 - 12,7 - 12,9 - 13,1 - 13,4 - 14,1 -14,5 - 14,8 - 15,3 - 15,7 - 16,1 - 16,8 - 17,8

√Calcule e interprete el rango intercuartılico de ambos turnos.

√¿Que grupo tiene tiempos de atraso mas homogeneo?.

Page 82: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de forma

Definicion (Sesgo sk )

Indice que expresa el grado de asimetrıa de la distribucion de losdatos (histograma). La asimetrıa positiva indica que los valores masextremos se encuentran por encima de la media. La asimetrıanegativa indica que los valores mas extremos se encuentran pordebajo de la media.

sk =

[n

(n − 1)(n − 2)

] [∑ni=1(xi − x)3

s3

]

Si sk = 0; entonces la distribucion es simetrica.Si sk < 0; entonces la distribucion es asimetrica negativa.Si sk > 0; entonces la distribucion es asimetrica positiva.

Page 83: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de forma

Definicion (Error estandar del coeficiente de asimetrıa (esk ))

Es la desviacion tıpica de la distribucion muestral del ındice deasimetrıa, el cual permite estandarizar el valor del ındice deasimetrıa. Indices estandarizados mayores que 1,96 en valorabsoluto permiten afirmar que existe asimetrıa (positiva o negativa,dependiendo del signo del ındice).

esk =

√6n(n − 1)

(n − 2)(n + 1)(n + 3)

Si∣∣∣ sk

esk

∣∣∣ < 1,96, entonces la distribucion de los datos es simetrica, delo contrario, dependiendo del signo de sk se identifica si ladistribucion es asimetrica positiva o negativa.

Page 84: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de forma

Page 85: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de forma

Definicion (Curtosis (k ))

Su interpretacion esta sujeta a distribuciones simetricas, e indica elgrado de Apuntamiento de la distribucion.Para una distribucion con apuntamiento muy bajo (Distribucionaplanada), se puede inferir que la distribucion de los es muydispersa, por el contrario para una distribucion con apuntamientomuy pronunciado (Distribucion puntiaguda) se puede inferir que losdatos la distribucion de los es muy homogenea.

k =

[n(n + 1)

(n − 1)(n − 2)(n − 3)

] [∑ni=1(xi − x)4

s4

]−[

n(n + 1)2

(n − 1)(n − 2)

]

Si k > 0; entonces la distribucion es mas puntiagudas(Leptocurtica).Si k = 0; (proximos a cero) entonces indican semejanza con lacurva normal (Mesocurtica).Si k < 0; entonces la distribucion es mas aplanada (Platicurtica).

Page 86: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de forma

Definicion (Error estandar de la curtosis(ek ))

El error tıpico del ındice de curtosis, el cual puede utilizarse paraestandarizar el valor del ındice de curtosis. Indices estandarizadosmayores que 1,96 en valor absoluto permiten afirmar que ladistribucion se aleja de la distribucion normal.

ek =

√24n(n − 1)2

(n − 3)(n − 2)(n + 3)(n + 5)

Si,∣∣∣ k

ek

∣∣∣ < 1,96 entonces la distribucion de los datos es como lanormal, de lo contrario, dependiendo del signo de k se identifica si ladistribucion es platicurtica o leptocurtica.

Page 87: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de forma

Page 88: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de forma

Los siguientes estadısticos de forma (Asimetrıa y Curtosis)corresponden a la distribucion de datos de los gastos en combustiblede dos empresas (A y B).

sk esk k ekEmpresa A -0,986 0,330 0,778 0,650Empresa B 0,082 0,330 -0,217 0,650

√Comente acerca de la asimetrıa del gasto en combustible de lasdos empresas.

√Comente acerca de la curtosis del gasto en combustible de lasdos empresas.

Page 89: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Medidas de Resumen

Medidas de forma

Relacion entre media, mediana y moda segun elsesgo de la distribucion

Caso 1: Si la distribucion de los datos es simetrica (No sesgada)

x = Me = Mo

Caso 2: Si la distribucion de los datos es asimetrica hacia la derecha(Sesgo positivo)

Mo < Me < x

Caso 3: Si la distribucion de los datos es asimetrica hacia laizquierda (Sesgo negativo)

x < Me < Mo

Nota: La mediana (Me) siempre se hallara entre el promedio (x) y lamoda (Mo) ya que no es afectada por datos extremos.

Page 90: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Deteccion de datos atıpicos

Un dato atıpico (fuera de lo comun) puede deberse, por ejemplo, auna mala lectura, mal registro, causa fortuita, etc. Este tipo de datosno puede eliminarse inmediatamente sin un analisis preliminar de lascausas que lo originan.

La idea es buscar un metodo, tanto algebraico como geometrico,para detectar datos atıpicos.

Page 91: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Deteccion de datos atıpicos

Regla empırica y metodo de puntuacion Z

Regla empırica Para un conjunto de valores que tienen unhistograma en forma de campana, el intervalo:

x ∓ s → Contiene aproximadamente al 68% de los valoresx ∓ 2s → Contiene aproximadamente al 95% de los valoresx ∓ 3s → Contiene aproximadamente al 100% de los valores

Metodo de la puntuacion zSi consideramos la regla empırica, sabemos que aproximadamenteel 100% de los datos esta en el intervalo [x − 3s; x + 3s]. Es muyimprobable que un dato este fuera de este intervalo, y en caso quefuese, este se llamarıa un dato atıpico. Es decir, un dato es noatıpico si:

xi ∈ [x − 3s; x + 3s]⇔ xi − xs∈ [−3,3]⇔

∣∣∣∣xi − xs

∣∣∣∣ ≤ 3

.Ası, Si consideramos la transformacion zi = xi−x

s , entonces un datosxi se considera como atıpico si |zi | > 3

Page 92: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Deteccion de datos atıpicos

Metodo de Tukey

Metodo de Tukey: Considere las siguientes barrerasBarrera Interior Inferior: BII = Q1− 1,5RIBarrera Interior Superior: BIS = Q3 + 1,5RIBarrera Exterior Inferior: BEI = Q1− 3RIBarrera Exterior Superior: BES = Q3 + 3RI

Entonces√

Cualquier valor fuera de las barreras interiores es consideradocomo un posible valor atıpico .

√Cualquier valor fuera de las barreras exteriores es consideradocomo un potencial valor atıpico .

Page 93: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Deteccion de datos atıpicos

Diagrama de caja (Box-plot)

Un grafico-caja o box plot muestra las posiciones relativas de loscuartiles, medidas de posicion central y valores extremos de unadistribucion de frecuencias.

El interior de la caja encierra el 50% central de los casos. La longitudde la caja da una idea de la variabilidad de los datos.

Page 94: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Deteccion de datos atıpicos

Diagrama de caja (Box-plot)

Page 95: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Deteccion de datos atıpicos

Diagrama de caja (Box-plot)

EjemploRealice un diagrama de cajas con los datos de tiempo de atraso del primer turno.

10,5 - 11,3 - 11,9 - 12,0 - 12,3 - 12,3 - 12,5 - 12,7 - 13,4 - 13,7 - 13,8 - 14,2 - 14,8 -15,1 - 15,3 - 16,7 - 16,8 - 18,8 - 20,8

Paso 1: Se traza un rectangulo cuyos extremos se ubican en el primer y tercer cuartil.

Paso 2: En la caja se traza una recta horizontal en el lugar de la mediana.

Paso 3: En el centro horizontal y a la altura de la media se dibuja un punto.

Paso 4: Se calcula el rango intercuartılico (RI = Q3 − Q1).

Paso 5: Calcular las barreras internas

BII = Q1 − 1, 5RI BIS = Q3 + 1, 5RI

Paso 6: Calcular las barreras externas

BEI = Q1 − 3RI BES = Q3 + 3RI

Page 96: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Deteccion de datos atıpicos

Diagrama de caja (Box-plot)

Paso 7: Identifique los puntos adyacentes: Se llaman puntos adyacentes al mınimo ymaximo dato que se encuentran dentro de las barreras internas. Desde los extremosde la caja se trazan lıneas hasta los respectivos valores adyacentes. A estas lıneas seles llama ”antenas” o ”bigotes”.

Paso 8: Identificar los puntos atıpicos (Marquelos con ◦): Se llaman puntos atıpicos uoutliers a aquellos datos que se encuentran fuera de las barreras internas y dentro delas barreras externas.

Paso 9: Identificar los puntos extremos (Marquelos con ∗): Se llaman puntos extremosa aquellos puntos ubicados fuera de las barreras externas

Page 97: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Ejercicio 2

Considere los siguientes datos (considerelos como no tabulados)

1 Con todos los datos√

Calcule e interprete media, mediana, varianza, desviacion estandar, rangoy rango intercuartılico.√Compruebe la regla empırica√Mediante el metodo de la puntuacion z, identifique si existen datos atıpicosvalores atıpicos.√Cree un diagrama de caja.√Si los datos son multiplicados por 3 e incrementados en 1, calcule la mediay la desviacion estandar.

2 Separe el conjunto de datos en los 15 menores y 15 mayores.√

¿Que conjunto de datos es mas homogeneo?. Justifique su respuesta√Cree, en un mismo plano, un diagrama de caja para cada conjunto dedatos.

Page 98: Capítulo 1. Estadística Descriptiva (Versión Para Imprimir)

Capıtulo 1. Estadıstica descriptiva

Ejercicio 3

Considere los siguientes datos

√Calcule e interprete media, mediana, varianza, desviacionestandar, rango y rango intercuartılico.

√Separe la tabla de distribucion de frecuencias en dos partes: lostres primeros y los tres segundos intervalos. Cual de los dosgrupos es mas homogeneo?