departamento de matemáticas · pdf file-estadística inferencial aplica el...

21
1 DEPARTAMENTO DE MATEMÁTICAS 1. INTRODUCCIÓN En la sociedad de la información en la que vivimos resulta imprescindible disponer de técnicas y conceptos que permitan extraer, de manera fiable y sencilla, información relevante de diferentes conjuntos de datos: intención de voto ante unas elecciones, horas diarias trabajadas por la plantilla de una empresa, etc. La Estadística es la ciencia que utilizando herramientas matemáticas estudia las leyes de comportamiento de aquellos fenómenos que no estando sometidos a leyes rígidas dependen del azar y basándose en ella, se predicen resultados. La estadística tiene dos grandes ramas: Descriptiva e Inferencial. - Estadística Descriptiva trata de las técnicas de recogida de la información, organización de datos, de la representación gráfica de los mismos, del cálculo de algunos valores como la media, etc. - Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la estadística descriptiva para extraer conclusiones de los mismos. Basándose en los resultados obtenidos de una muestra induce o estima las leyes reales de comportamiento de la población de la que proviene dicha muestra. El nombre de Estadística alude al enorme interés de esta rama de las Matemáticas por los asuntos de Estado: empadronamiento, censos de poblaciones, índice de natalidad, de mortalidad, etc. Actualmente, la Estadística interviene en los campos más diversos y su introducción en el mundo científico se debe a la importancia indiscutible para el desarrollo de todas las ciencias (Psicología, Economía, Medicina, etc.) En este tema nos centraremos en la Estadística descriptiva.

Upload: duongthien

Post on 10-Feb-2018

217 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

1

DEPARTAMENTO DE MATEMÁTICAS

1. INTRODUCCIÓN En la sociedad de la información en la que vivimos resulta imprescindible disponer de técnicas y conceptos que permitan extraer, de manera fiable y sencilla, información relevante de diferentes conjuntos de datos: intención de voto ante unas elecciones, horas diarias trabajadas por la plantilla de una empresa, etc.

La Estadística es la ciencia que utilizando herramientas matemáticas estudia las leyes de comportamiento de aquellos fenómenos que no estando sometidos a leyes rígidas dependen del azar y basándose en ella, se predicen resultados. La estadística tiene dos grandes ramas: Descriptiva e Inferencial.

- Estadística Descriptiva trata de las técnicas de recogida de la información, organización de datos, de la representación gráfica de los mismos, del cálculo de algunos valores como la media, etc.

- Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la estadística descriptiva para extraer conclusiones de los mismos. Basándose en los resultados obtenidos de una muestra induce o estima las leyes reales de comportamiento de la población de la que proviene dicha muestra.

El nombre de Estadística alude al enorme interés de esta rama de las Matemáticas por los

asuntos de Estado: empadronamiento, censos de poblaciones, índice de natalidad, de mortalidad, etc. Actualmente, la Estadística interviene en los campos más diversos y su introducción en el mundo científico se debe a la importancia indiscutible para el desarrollo de todas las ciencias (Psicología, Economía, Medicina, etc.) En este tema nos centraremos en la Estadística descriptiva.

Page 2: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

2

DEPARTAMENTO DE MATEMÁTICAS

2. LA ESTADÍSTICA Y SUS MÉTODOS

CONCEPTOS BÁSICOS

• Población son todos y cada uno de los elementos que se quieren analizar. Puede ser finita o infinita (en realidad las poblaciones infinitas no existen, pero cuando se trata de un número grande se trata como si lo fuera).

• Individuo es cada una de las unidades elementales sobre las que se realiza el estudio.

• Muestra es un subconjunto de la población o parte de la población que se observa. El número de elementos de una muestra se denomina tamaño, y le llamaremos N.

• Carácter estadístico de una población es la propiedad que se estudia. Se distinguen dos

tipos: a) Caracteres cualitativos son aquellos que no se pueden medir numéricamente. A las

distintas posibilidades se les llama modalidades.

� Por ejemplo, estado civil, deporte practicado, aficiones en el tiempo libre, provincia de nacimiento, etc.

b) Caracteres cuantitativos son aquellos que se pueden medir numéricamente. A las

distintas posibilidades se les llama valores.

A su vez, debemos diferenciar entre:

� Discreto: toman un número finito de valores. Por ejemplo: el número de hijos de una familia, número de obreros de una fábrica, número de habitaciones de un hotel, etc.

� Continuo: puede tomar cualquier valor de un intervalo. Por ejemplo, peso,

altura, etc.

• Variable estadística es el conjunto de todos los valores que puede tomar un carácter

estadístico cuantitativo. Las variables se suelen denotar por letras mayúsculas: X, Y,... Si representamos por X a la variable, representaremos por xi cada dato diferente observado en la muestra, el subíndice i indica el lugar que ocupa si los ordenamos de menor a mayor.

Ejemplo 1: En una determinada Diputación se quiere estudiar el número de centros de primaria de los 2 537 pueblos que la componen. Para ello, toman los datos de 300 de ellos.

Población: los 2 537 pueblos Muestra: los 300 pueblos que se estudian (N=300) Individuo: Cada uno de los pueblos Variable cuantitativa discreta: número de centros de primaria. En este caso, la variable toma los valores 1, 2, 3, 4, ……

Page 3: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

3

DEPARTAMENTO DE MATEMÁTICAS

Ejemplo 2: En un instituto de secundaria de 800 alumnos se quiere realizar un estudio sobre las aficiones de los estudiantes. Para ello, preguntan a 150 de ellos.

Población: los 800 alumnos Muestra: los 150 alumnos encuestados (N=150) Individuo: Cada uno de los alumnos Carácter cualitativo: aficiones de los alumnos. Modalidades: lectura, música, deportes…..

FASES Y TAREAS DE UN ESTUDIO ESTADÍSTICO Para realizar un estudio estadístico conviene dar los siguientes pasos:

a) Selección de los caracteres que interesa estudiar. b) Análisis de cada carácter: diseño y realización de una encuesta o de un experimento y

recogida de datos. c) Clasificación y organización de los resultados en tablas de frecuencias. d) Elaboración de gráficos para mostrar los resultados más importantes de un solo vistazo. e) Obtención de los parámetros estadísticos que nos ayudan a resumir la información.

Page 4: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

4

DEPARTAMENTO DE MATEMÁTICAS

3. TABLAS DE FRECUENCIAS

Para poder obtener información acerca de un carácter estadístico es preciso organizar los datos recogidos de una muestra. Para ello es básico conocer el concepto de frecuencia.

a) FRECUENCIA ABSOLUTA (fi): es el número de veces que se repite un determinado valor (xi) de la variable o las diferentes modalidades. Propiedad: la suma de todas las frecuencias absolutas es igual al tamaño muestral (N).

b) FRECUENCIA RELATIVA (hi): es igual a la frecuencia absoluta dividida por el número total de datos, es decir por el tamaño muestral hi=fi/N.

Propiedad: la suma de todas las frecuencias relativas es igual a la unidad. c) FRECUENCIA ACUMULADA (Fi): Nos dice el número de datos que hay igual o inferiores a

uno determinado. Se calcula: ∑=

− +==i

j

iiji fFfF1

1

Propiedad: La última frecuencia acumulada absoluta es el tamaño muestral. d) FRECUENCIA RELATIVA ACUMULADA (Hi): Es el resultado de dividir cada frecuencia

acumulada por el número total de datos ∑=

==i

j

j

i

i hN

FH

1

Propiedad: La última frecuencia relativa acumulada es la unidad. e) PORCENTAJES (Pi): el tanto por ciento de veces que aparece cada dato sería justamente

ii hP .100= .

Los datos de una muestra suelen organizarse de dos formas:

• Datos sin agrupar (Carácter cualitativo o cuantitativo discreto) En este caso, la característica que se estudia toma sólo unos pocos valores diferentes. En esta situación, los datos se agrupan en lo que se llama una tabla de frecuencias.

Ejemplo 3: En un centro de enseñanza, los alumnos de 1º Bachillerato han dado a conocer, a través de una encuesta, sus preferencias a la hora de practicar un deporte. Las modalidades que ha ofrecido el centro son: fútbol, baloncesto, yudo, gimnasia rítmica, voleibol y balonmano.

Los resultados de la encuesta aparecen resumidos en la siguiente tabla:

Page 5: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

5

DEPARTAMENTO DE MATEMÁTICAS

Modalidades fi hi Pi Fútbol 42 0,323 32,3 Baloncesto 28 0,215 21,5 Yudo 9 0,069 6,9 G. rítmica 11 0,085 8,5 Voleibol 16 0,123 12,3 Balonmano 24 0,185 18,5 N =130 1 100%

Ejemplo 4: Se ha preguntado a los alumnos de una clase por el número de hermanos que tienen. Los resultados se han recogido en la siguiente tabla:

xi fi Fi hi Hi Pi 0 4 4 0,118 0,118 11,8 1 14 18 0,412 0,53 41,2 2 7 25 0,206 0,736 20,6 3 5 30 0,147 0,883 14,7 4 3 33 0,088 0,971 8,8 5 1 34 0,029 1 2,9

N =34 1 100%

• Datos agrupados (Variable cuantitativa continua)

La solución es agrupar los diferentes valores de la variable en intervalos o intervalos de clase, teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en información, con lo que los resultados serán aproximados. Agrupar en intervalos de clase consiste en agrupar los datos en un número relativamente pequeño de intervalos que cumplan:

- No se superpongan entre sí, de forma que no exista ambigüedad con respecto a la clase a que pertenece una observación particular.

- Cubran todos los valores que tenemos en la muestra.

Llamaremos:

- A los extremos del intervalo, límites inferior y superior de la clase y los denotaremos por Li-1, Li.

- Marca de clase (ci) al punto medio del intervalo, es decir, a la media aritmética entre el límite

inferior y superior : 2

1−+= ii

i

LLc .Es el valor que tomamos como representativo.

- Amplitud (ai) a la diferencia entre el extremo superior e inferior: a i= Li - Li-1 .

Page 6: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

6

DEPARTAMENTO DE MATEMÁTICAS

COMO CONSTRUIR UNA DISTRIBUCIÓN DE FRECUENCIAS AGRUPADA EN INTERVALOS 1. Empezamos determinando el recorrido de la variable o rango de valores que tenemos en la muestra. Se define como la diferencia entre el mayor y el menor valor de la variable. Re=xmax-xmín

2 . Número de clases: depende del tamaño de la muestra. Para muestras de tamaño moderado,

N <50, se suele elegir un número de clases igual al número entero más cercano a N .

3. Determinamos la amplitud de los intervalos. Es más cómodo que la amplitud de todas las clases sea la misma (siempre que sea posible), teniendo en cuenta la fórmula

)intª

Re(1

ervalosdenEai +=

NOTA: - Tomaremos como regla, a no ser que se indique lo contrario, coger el intervalo cerrado

por la izquierda y abierto por la derecha.

- Los intervalos se deben construir de manera que el límite superior de una clase coincida con el límite inferior de la siguiente.

Ejemplo 5: Elabora una tabla de frecuencias con las estaturas de 40 adolescentes:

168 160 167 175 175

167 168 158 149 160

178 166 158 163 171

162 165 163 156 174

160 165 154 163 165

161 162 166 163 159

170 165 150 167 164

165 173 164 169 170

Page 7: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

7

DEPARTAMENTO DE MATEMÁTICAS

- Valores extremos: xmax =178 , xmin =149

- Recorrido o rango: Re= 178-149 =29

- Nº de intervalos: 32,640 =

- Amplitud del intervalo: a= 56

291 =

+ E

Intervalos ci fi Fi hi Hi Pi [ )154,149 151,5 2 2 0,118 0,118 11,8

[ )159,154 156,5 4 6 0,412 0,53 41,2

[ )164,159 161,5 11 17 0,206 0,736 20,6

[ )169,164 166,5 14 31 0,147 0,883 14,7

[ )174,169 171,5 5 36 0,088 0,971 8,8

[ )179,174 176,5 4 40 0,029 1 2,9

N =40 1 100%

Page 8: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

8

DEPARTAMENTO DE MATEMÁTICAS

4. REPRESENTACIONES GRÁFICAS CARACTERES CUALITATIVOS

Se pueden representar mediante un diagrama de barras. Este se construye dibujando sobre cada modalidad una barra, cuya altura representa la frecuencia absoluta. Ejemplo 6:

0

2

4

6

8

10

12

14

Baloncesto Natación Fútbol Sin deporte

También se pueden representar mediante un diagrama de sectores. Es un círculo en el que se representan tantos sectores como modalidades haya, de forma que el ángulo de cada sector es proporcional a la frecuencia de la modalidad correspondiente. Ejemplo 7:

Deporte fi

Baloncesto 12

Natación 3

Fútbol 9

Sin deporte 6

30

Deporte fi ángulo

Baloncesto 12 144º

Natación 3 36º

Fútbol 9 108º

Sin deporte 6 72º

30 360º

Page 9: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

9

DEPARTAMENTO DE MATEMÁTICAS

CARACTERES CUANTITATIVOS DISCRETOS

Las distribuciones de variables cuantitativas discretas se suelen representar mediante diagramas de barras. También tiene interés el polígono de frecuencias que se obtiene uniendo los extremos de las barras. Ejemplo 8:

nº de

hermanos fi Fi

0 hermanos 5 5

1 hermano 12 17

2 hermanos 8 25

3 hermanos 2 27

4 hermanos 1 28

28

CARACTERES CUANTITATIVOS CONTINUOS

Las distribuciones de variables cuantitativas continuas se suelen representar mediante histogramas. Para construir el histograma se representan sobre el eje de abscisas los límites de los intervalos. Sobre dicho eje se construyen unos rectángulos que tienen por base la amplitud del intervalo, y por altura, la frecuencia absoluta de cada intervalo, siempre que todos los intervalos tengan la misma amplitud; en caso contrario, las alturas de los rectángulos se calculan teniendo en cuenta que sus áreas deben ser proporcionales a las frecuencias de cada intervalo. También tiene interés el polígono de frecuencias. Ejemplo 9:

Alturas fi Fi

[1.50,1.60) 15 15

[1.60,1.70) 32 47

[1.70,1.80) 5 52

52

Page 10: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

10

DEPARTAMENTO DE MATEMÁTICAS

Ejemplo 10: ¡Ojo! Cuidado con uno de los errores más comunes a la hora de construir un histograma. A veces cometido por el desconocimiento de la persona que construye el gráfico y a veces cometido malintencionadamente para confundir a la persona a las que va dirigido.

En la siguiente tabla de frecuencias se muestra un conjunto de datos agrupados por intervalos. Observa que el último intervalo tiene una amplitud que es el doble que la del resto.

Clases fi

[0,2) 1320

[2,4) 3231

[4,6) 1282

[6,8) 900

[8,12) 1105

7838

En la siguiente gráfica se muestra un falso histograma, en el que la altura de cada columna corresponde a su frecuencia absoluta. La sensación que trasmite este gráfico es que el número de casos que corresponden al intervalo [8,12) es mucho mayor que los del intervalo [6,8).

Page 11: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

11

DEPARTAMENTO DE MATEMÁTICAS

En el siguiente gráfico, el histograma se ha dibujado correctamente. El hacer que el área del rectángulo sea lo que coincide con la frecuencia absoluta favorece que visualmente se aprecie la importancia del último intervalo en relación con los demás.

Para evitar este problema, en este curso nos centraremos en construir histogramas cuyos

intervalos tengan igual amplitud.

Page 12: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

12

DEPARTAMENTO DE MATEMÁTICAS

5. MEDIDAS DE CENTRALIZACIÓN La descripción gráfica es útil para entender los rasgos básicos de una distribución, pero no

resulta suficiente. En el caso de variables cuantitativas, se pueden resumir los datos mediante valores numéricos que expresen el centro de las observaciones y su dispersión alrededor de esta medida de posición central.

Se llaman medidas de centralización a los parámetros que indican el valor hacia el que

tienden a situarse los datos de la distribución. Las medidas de centralización más importantes son: de tamaño, la media aritmética, de

frecuencia, la moda, y de posición, la mediana.

NOTA: Es conveniente para lo que sigue conocer el símbolo ∑ , que se utiliza para

representar brevemente una suma de muchos números. Por ejemplo, 2222 100.......321 ++++ se

puede escribir ∑100

1

2n .

a) MEDIA La media aritmética de un conjunto de N valores x1, x2, x3, ..., xN es el cociente entre la suma de todos los valores observados (valores de la variable) y el número total de observaciones

(tamaño poblacional); se representa por x y su expresión aritmética es:

Si tenemos la tabla de frecuencias absolutas, la media se calcularía así: Cuando tenemos datos agrupados en intervalos, consideraremos como valor de variable xi al punto medio de cada intervalo, es decir, la marca de clase. El valor calculado, evidentemente no es el valor real de la media, pero compensa con la reducción de operaciones que hay que realizar. Además si los datos dentro del intervalo están distribuidos de un modo más o menos uniforme la media calculada se aproxima mucho a la real.

Ventajas: - La media es el valor medio o promedio de las observaciones. - La media es el parámetro de centralización más utilizado - Es un valor situado entre los valores extremos de la variable. - Su cálculo sólo tiene sentido cuando la variable es cuantitativa. - Presenta rigor matemático - Es sensible a cualquier cambio en los datos

N

x

N

x...xxx

N

1ii

N21∑

==+++

=

N

fx

f

fx

f....ff

fx....fxfxx

n

1iii

n

1ii

n

1iii

n21

nn2211∑

∑=

=

= ==++++++

=

Page 13: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

13

DEPARTAMENTO DE MATEMÁTICAS

- Tiene en cuenta todos los valores de la muestra.

Desventajas:

- No siempre es posible calcular la media e incluso a veces ésta carece de significado. En estos casos se utilizan otras medidas de centralización.

- Es sensible a los valores extremos. En efecto, si la muestra tiene algún valor exageradamente grande o pequeño, la media no es representativa como valor central del conjunto de datos.

Ejemplo 11. En un I.E.S., existen dos grupos de 1º Bachillerato. Las notas de Matemáticas en la 1º evaluación para una muestra de 10 alumnos de cada grupo fueron las siguientes:

Grupo A

Notas 0 1 3 5 6 8 9 6,4=Ax

if 1 2 1 2 1 2 1

Grupo B

Notas 2 4 5 6 8 6,4=Bx

if 2 3 2 2 1

Aunque las dos medias coinciden, la media del grupo B es más representativa que la media del grupo A.

Ejercicio 1: Pensar algún caso en el que no pueda calcularse la media, o en el que el valor de ésta carezca de sentido

Ejercicio 2. Calcular la media para las siguientes distribuciones de datos:

a) Caso 1: Pocos datos

Notas de los alumnos de 1º Bachillerato: 6, 4, 3, 2, 8, 6, 5, 6, 7, 3, 2, 1, 7, 3, 9, 2, 1, 6, 7, 5, 4, 5, 3, 4, 5

b) Caso 2: Pocos valores de la variable y muchos datos

Notas de Matemáticas

1 2 3 4 5 6 7 8 9

Nº de alumnos 30 40 20 50 70 30 40 50 20

Page 14: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

14

DEPARTAMENTO DE MATEMÁTICAS

c) Caso 3: Muchos valores de la variable y muchos datos (es el caso de variable continua)

Notas de Matemáticas

[0,5) [5,6) [6,7) [7,9) [9,10)

Nº de alumnos 90 70 60 50 30

Page 15: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

15

DEPARTAMENTO DE MATEMÁTICAS

b) MEDIANA

La mediana de una distribución es un valor Me que divide a la distribución en dos partes iguales; es decir, deja tantas observaciones a la izquierda como a la derecha. - Para calcular la mediana en caso de pocos datos y sin agrupar se colocan estos en orden creciente de magnitud.

• Si el número de datos es impar la mediana coincide con el valor central.

• Si el número de datos es par, cualquier valor comprendido entre los dos valores centrales es una mediana, pero se suele tomar el valor medio de los dos valores centrales.

- Si tenemos muchos datos y sin agrupar, se construye la tabla de frecuencias acumuladas Fi, y

se toma la mediana como aquel valor de la variable xi para el cual Fi supere 2

N.

- En caso de datos agrupados en intervalos primero buscaremos el intervalo mediano, que es el primer intervalo de clase cuya frecuencia acumulada es superior a la mitad del número de

observaciones, 2

N .

Como primera aproximación puede tomarse la mediana como la marca de clase de dicho intervalo; sin embargo podemos calcularla de forma más exacta con el siguiente razonamiento: si suponemos que los datos dentro de cada intervalo están distribuidos uniformemente, y llamamos

[ )1i ,L +iL al intervalo mediano; fi a la frecuencia absoluta de dicho intervalo y Fi-1 a la frecuencia

absoluta acumulada en el intervalo anterior al mediano, el cálculo de la mediana es: Al igual que sucedía con la media, el valor calculado no es el valor real de la mediana, pero compensa con la reducción de operaciones que hay que realizar. Además si los datos dentro del intervalo están distribuidos de un modo más o menos uniforme el valor obtenido se aproxima mucho al real.

Observaciones sobre la mediana:

- En realidad la mediana no utiliza los valores de la muestra, sino que depende esencialmente de la colocación de los datos en la misma.

- Es útil cuando algún dato d la muestra es exageradamente grande o pequeño, o cuando los datos están agrupados en intervalos y uno de ellos no tiene límite definido.

Ejercicio: 3.- Calcular la mediana para las siguientes distribuciones de datos:

a) Caso1: Notas de los alumnos de 1º Bachillerato: 6, 4, 3, 2, 8, 6, 5, 6, 7, 3, 2, 1, 7, 3, 9, 2, 1, 6, 7, 5, 4, 5, 3, 4, 5

)L·(Lf

F2

N

LM i1i

i

1i

ie −−

+= +

Page 16: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

16

DEPARTAMENTO DE MATEMÁTICAS

b) Caso 2:

Notas de Matemáticas

1 2 3 4 5 6 7 8 9

Nº de alumnos 30 40 20 50 70 30 40 50 20

c) Caso 3:

Notas de Matemáticas

[0,5) [5,6) [6,7) [7,9) [9,10)

Nº de alumnos 90 70 60 50 30

Page 17: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

17

DEPARTAMENTO DE MATEMÁTICAS

c) MODA

La moda Mo es el dato que más se repite, es decir el valor de la variable con mayor frecuencia absoluta. Es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa la realización de ningún cálculo. La moda no tiene por qué ser única, sino que puede haber distribuciones multimodales.

Si los datos están agrupados en intervalos elegimos el intervalo modal, que es aquel con mayor frecuencia absoluta. Aunque hay una fórmula para un cálculo más ajustado del valor de la moda, tomaremos como valor aproximado de dicho parámetro la marca de clase correspondiente. Ejercicio 4 Se ha preguntado a un grupo de alumnos de 1º de Bachillerato sus pesos y los resultados obtenidos se han colocado en la siguiente tabla. Calcula la media, mediana y moda de la distribución de datos:

Peso [45,50) [50,55) [55,60) [60,65) [65,70) [70,75] Nº de personas (fi) 5 9 12 8 7 4

Page 18: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

18

DEPARTAMENTO DE MATEMÁTICAS

6. MEDIDAS DE DISPERSIÓN Las medidas de centralización representan bien a un conjunto de datos cuando están agrupados en torno a ellas, pero no cuando hay bastantes observaciones alejadas de ellas. Las medidas de dispersión miden, por tanto, el grado de alejamiento de los datos respecto a las medidas de centralización, fundamentalmente respecto de la media. Esas medidas son:

A) RANGO O RECORRIDO

El recorrido de una distribución es la diferencia entre el dato mayor y el dato menor obtenidos al observar los valores de la variable.

Cuando más pequeño es el rango más concentrado están los datos. El problema está en que haya algún dato muy extremo. Si la variable es agrupada, se calcula la diferencia entre el límite superior del último intervalo y el límite inferior del primer intervalo.

B) VARIANZA Se llama varianza de una serie de datos x1, x2, x3, ..., xn, que tienen frecuencias f1, f2, f3, ..., fn

respectivamente, y se representa por s2, a la media aritmética de los cuadrados de las desviaciones respecto de la media, esto es:

Observaciones sobre la varianza:

- La varianza depende de todos los valores de la muestra. - La varianza nunca puede ser negativa. Vale cero únicamente cuando todos los datos son

iguales, y cuanto mayor sea más dispersos estarán los datos. - La varianza se mide usando el cuadrado de la unidad de medida de la variable. Si x son

litros, s2 se medirá en litros al cuadrado.

N

)x(xfn

1i

2

ii2

∑=

−=s

La varianza también puede calcularse como

la media de los cuadrados menos el

cuadrado de la media.

s2 = ( )22 xx −

s2 =

2n

ni

ii

n

1i

i

2

i

N

f·x

N

·fx

−∑∑==

Page 19: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

19

DEPARTAMENTO DE MATEMÁTICAS

C) DESVIACIÓN TÍPICA Es la raíz cuadrada positiva de la varianza y se denota por s.

D) COEFICIENTE DE VARIACIÓN Se llama coeficiente de variación y se representa por C.V. al cociente entre la desviación

típica y el valor absoluto de la media. x

.V.Cσ=

Consideraciones:

- Tanto la varianza como la desviación típica miden la dispersión de los datos respecto de la media. La varianza tiene el inconveniente que la unidad de medida en la que viene expresada es el cuadrado de la unidad en que se expresan los datos; sin embargo, la desviación típica viene expresada en las mismas unidades que los datos, por eso es más utilizada.

- El CV es un número real positivo que no tiene dimensiones, es decir, no depende de las escalas usadas al medir, y se utiliza para comparar dispersiones de dos variables estadísticas. En ocasiones se suele expresar en tanto por ciento.

- El CV mide la dispersión relativa de los datos en relación con la media. Cuanto más pequeño sea más concentrados estarán los datos alrededor de la media, siendo por tanto la media más representativa.

- Si X e Y son dos variables de medias yex y desviaciones típicas sx y sy :

a) Si yx = , σx < σy ⇒ x es más representativa.

b) Si yx ≠ , yx

yxσ

⇒ x es más representativa. Es decir, si las medias son

distintas será más representativa la que tenga menor CV

En ambos casos la serie de datos X está más concentrada que la serie Y.

N

)x(xfn

1i

2

ii∑=

−=s

Page 20: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

20

DEPARTAMENTO DE MATEMÁTICAS

Ejercicio 5.- Calcular recorrido, varianza, desviación típica y CV para los datos:

Notas de Matemáticas

1 2 3 4 5 6 7 8 9

Nº de alumnos 3 4 2 5 7 3 4 5 2

b) Notas de Matemáticas

[0,5) [5,6) [6,7) [7,9) [9,10)

Nº de alumnos 9 7 6 5 3

a)

Page 21: DEPARTAMENTO DE MATEMÁTICAS · PDF file-Estadística Inferencial aplica el cálculo de probabilidades a los datos que aporta la ... aficiones en el tiempo libre, provincia de nacimiento,

21

DEPARTAMENTO DE MATEMÁTICAS

7. MEDIDAS DE POSICIÓN PERCENTILES

Se llaman percentiles a los 99 valores que dividen la serie de datos en 100 partes iguales. Se representan por P1, P2, …, P99. El percentil Pn, indica que el n% de los datos está por debajo de este valor.

Para calcular el percentil Pn, utilizaremos la fórmula: (n/100)·N

siendo N el tamaño de la muestra. Una vez calculada esta cantidad, elegiremos el primer valor de la variable cuya frecuencia absoluta acumulada lo exceda Ejemplo 1: La siguiente tabla representa las calificaciones de los alumnos de una clase en matemáticas. Calcula el percentil 30.

Como (30/100)·40=12, el percentil P30=4. Ya que F4=13 y es el primer valor de la frecuencia absoluta acumulada que excede a 12.

CUARTILES

Se llaman cuartiles a los valores que dividen la serie de datos en cuatro partes iguales. Se representan por Q1, Q2 y Q3. Para calcularlos basta tener en cuenta que Q1=P25, Q2=P50=Me y Q3=P75. En ocasiones se utiliza el rango intercuartílico como medida de dispersión, para evitar los problemas de los valores extremos. RI = Q3-Q1 DECILES

Se llaman deciles a los nueve valores que dividen a la serie de datos en 10 partes iguales. Se designan por D1,D2,…,D9. Para calcularlos basta tener en cuenta que D1=P10, D2=P20,… D9=P90.

xi fi Fi

1 2 2

2 2 4

3 4 8

4 5 13

5 8 21

6 9 30

7 3 33

8 4 37

9 3 40

40