procesos estadisticos con datos agrupados

16
APUNTES IMPORTANTES EN LA APLICACIÓN DE LA ESTADISTICA DESCRIPTIVA Modelo de Organización de datos. De los 350 estudiantes de la Facultad de Educación, de la Universidad Rural de Guatemala, se tomó una muestra de 60 estudiantes a quienes se aplicó un Test de Lectura. 1. Ordenación de los datos crudos en forma Creciente y decreciente. Forma Creciente. 30 35 35 37 37 39 40 40 40 41 41 43 45 50 50 53 55 55 55 56 58 60 60 60 65 65 66 70 70 72 73 75 75 75 75 78 80 80 81 82 82 83 83 83 85 85 90 90 90 90 90 91 91 91 91 93 95 100 100 100 Forma Decreciente. 100 100 100 95 93 91 91 91 91 90 90 90 90 90 85 85 83 83 83 82 82 81 80 80 78 75 75 75 75 73 72 70 70 66 65 65 60 60 60 58 56 55 55 55 53 50 50 45 43 41 41 40 40 40 39 37 37 35 35 30 2. Cálculo de Amplitud total.

Upload: feliciano-perez

Post on 08-Jul-2016

221 views

Category:

Documents


0 download

DESCRIPTION

El procesamiento de datos obtenidos a través de la técnica de datos agrupados en Estadística

TRANSCRIPT

Page 1: Procesos Estadisticos Con Datos Agrupados

APUNTES IMPORTANTES EN LA APLICACIÓN DE LA ESTADISTICA DESCRIPTIVA

Modelo de Organización de datos.

De los 350 estudiantes de la Facultad de Educación, de la Universidad Rural de Guatemala, se tomó una muestra de 60 estudiantes a quienes se aplicó un Test de Lectura.

1. Ordenación de los datos crudos en forma Creciente y decreciente.

Forma Creciente.

303535373739404040414143

455050535555555658606060

656566707072737575757578

808081828283838385859090

909090919191919395100100100

Forma Decreciente.100100100959391919191909090

909085858383838282818080

787575757573727070666565

606060585655555553505045

434141404040393737353530

2. Cálculo de Amplitud total.

A = Xs – Xi + 1 = A= 100 – 30 + 1 = 71 Este es la Amplitud total. La otra fórmula es A=Xmax – Xmin +1.

3. Cálculo de Intervalo.

I = A = 71 = 7.1 I = 7.1 I= 710 10

Page 2: Procesos Estadisticos Con Datos Agrupados

4. Registro o Recuento de datos.Se Agrupan los datos de acuerdo al intervalo, precediendo un grupo antes del dato más pequeña existente en la base de datos. Y agregar un grupo posterior totalmente al margen de donde se extiende la última agrupación de acuerdo al dato más mayor de la base de datos.El intervalo cuenta el dato inicial y el dato final de cada grupo, es decir entra en el valor del intervalo cada límite o extremo.

La tarja es la varita vertical que ayuda a contar el número de datos existentes en cada rango o clase. Y el proceso directo para realizar esta actividad estadístico se le llama “Tarjado” también se conoce como “Tabulación” o “Recuento”. Este proceso se efectúa para la distribución de Frecuencias.

Para esto se elabora una tabla llamada “Tabla de Frecuencias”, aunque solo se debería llamar Tabla de sistematización de datos, ya que se organizarán más datos, aunque es básica la frecuencia en todo ello.

Parte de la tabla se puede incluir una columna para el Tarjado, pero si se trabaja con programas computacionales puede no ser necesario. Lo mismo que la Frecuencia relativa 360 grados.

Intervalo, puntuaciones o Límites. (I)-(X)

Tabulación o Tarjado

23 - 29 030 - 36 III37 - 43 IIII IIII44 - 50 III51 - 57 IIII58 - 64 IIII65 - 71 IIII72 - 78 IIII II79 - 85 IIII IIII86 - 92 IIII IIII93 - 99 III

100 - 106 II107 - 113 0

Es posible realizar únicamente el tarjado, previo a la elaboración de la tabla completa, todo esto varía también si se hace desde la forma manual.

Page 3: Procesos Estadisticos Con Datos Agrupados

5. Procesamiento lógico y matemático de datos en la tabla, aplicación de formulas y técnicas de cálculo.

MATRIZ DE ORGANIZACIÓN DE DATOS

Intervalo(I)

Frecuencia (f)

Frecuencia Acumulada

(fa)

Puntos Medios o Marcas de clase

(Xm)

Límite Real

Inferior (Li)

Límite Real

Superior (Ls)

Porcentaje (%)

Proporcionalidad (P)

Frecuencia Relativa

360 grados (fr.

360ª)

Frecuencia a Suavizar

(fs)

23 - 29 0 0 26 22,5 29,5 0 0.0000 0 0.7530 - 36 3 3 33 29,5 36,5 5 0.0500 18 3.7537 - 43 9 12 40 36,5 43,5 15 0.1500 54 6.0044 - 50 3 15 47 43,5 50,5 5 0.0500 18 5.0051 - 57 5 20 54 50,5 57,5 8,33 0.0833 30 4.2558 - 64 4 24 61 57,5 64,5 6,67 0.0667 24 4.565 - 71 5 29 68 64,5 71,5 8,33 0.0833 30 5.2572 - 78 7 36 75 71,5 78,5 11,67 0.1167 42 7.7579 - 85 10 46 82 78,5 85,5 16,67 0.1667 60 9.0086 - 92 9 55 89 85,5 92,5 15 0.1500 54 7.7593 - 99 3 58 96 92,5 99,5 5 0.0500 18 4.25

100 - 106 2 60 103 99,5 106,5 3,33 0.0333 12 1.75107 - 113 0 60 110 106,5 113,5 0 0.0000 0 0.5

=60 = 100 = 1 = 360

Puntos claves:a. La sumatoria de las frecuencias debe dar el total de datos o número de casos que se estudian.b. El último dato de la columna Frecuencia Acumulada debe dar y cuadrar con la sumatoria de la columna Frecuencia.c. La columna intervalos, también se le puede asignar el nombre de “Puntuaciones” el cual se simboliza con la X o simplemente denominarlo como “Límites”.d. Note en esta tabla, que se ubicaron grupos en los extremos superior e inferior de la columna Intervalo los cuales están fuera de la existencia de datos en la base

de datos.e. La sumatoria de la columna porcentaje debe ser 100, ya que se opera con relación al 100% de datos que se procesa. Si se dieran casos en que no resulta exacta,

pase o falte; el criterio a seguir es esta. Si pasa, se busca el dato más mayor contenida en la misma columna y se le resta 1, en este caso con datos agrupados, con datos no agrupados se le resta lo que falte. Si no llega a 100, se busca el dato más menor y se le suma 1.

f. La sumatoria de la columna Proporcionalidad debe dar 1.g. La sumatoria de la columna Frecuencia Relativa 360 grados, debe dar 360 aproximando a entero todos los datos fraccionados.h. A cada grupo ordenado según la amplitud del intervalo, se le llama Intervalos. En este caso tenemos 13 intervalos.

Page 4: Procesos Estadisticos Con Datos Agrupados

6. Fórmulas y Mecanismos para operar cada secuencia de datos, es decir cada columna.

COLUMNA INTERVALO.Agrupar los datos de acuerdo al intervalo, tomando en cuenta el primer dato. Ejemplo: 23 a 29, luego 30 a 36.COLUMNA FRECUENCIA.Contar el número de datos pertenecientes a la clase y existentes en la base de datos, tomando en cuenta los extremos y las veces repetidas cada dato. Hacer esto para cada clase o grupo.COLUMNA FRECUENCIA ACUMULADA.Copiar la primera frecuencia hacia y pegarla en esta columna en la misma posición. Sumar este dato a la segunda frecuencia, y dará el segundo dato acumulativo y sucesivamente ir haciendo lo mismo para generar datos en esta columna.COLUMNA PUNTOS MEDIOS.Fórmula: xm = Xmin + Xmax o Li + Ls

2 2No hay que confundir esto con el cálculo de la Amplitud, acá, el mínimo y el máximo, el límite o puntuación inferior y superior no son de la totalidad de datos, sino de cada grupo. Para no complicarse, es más adecuado entonces el segundo tipo de fórmula. La columna en que debemos basarnos para operar la columna de Puntos Medios es la columna de Intervalo.

Una técnica para automatizar manual y mentalmente la operación en esta columna, es operar según la fórmula únicamente el primer dato, y para obtener el segundo y siguientes datos, simplemente hay que sumarle el intervalo. Ejemplo. 23 + 29 / 2 = 26, entonces 26 + 7 que es el intervalo en nuestro ejemplo, resulta 33, este será el segundo dato de la columna, y así sucesivamente.COLUMNA LÍMITE INFERIOR.Fórmula: Li – 0.5Esto consiste restarle 0.5 a la puntuación inferior de cada clase, es decir cada dato con que comienza cada clase de la columna Intervalo.COLUMNA LÍMITE SUPERIOR.Fórmula: Ls + 0.5Esto consiste en sumarle 0.5 al Límite superior de cada Clase agrupado dentro de la columna Intervalo.COLUMNA PORCENTÁJE.Fórmula: Regla de Tres.

Total 100% = 60 100%(f) x (3) x

Esta consiste en multiplicar cada frecuencia por 100 y dividir el Resultado entre el Total de datos en estudio. En este caso 60.

Page 5: Procesos Estadisticos Con Datos Agrupados

COLUMNA PROPORCIONALIDAD.Fórmula: % .

100

Esto significa que hay que dividir cada porcentaje, o cada dato de la columna porcentaje entre 100.

La técnica más fácil es siguiendo los siguientes criterios o reglas:

Si los datos de porcentaje son enteros de dos digitos o cifras decimales de dos dígitos con Centésimos, simplemente se convierte en una cifra de base (0.) y copiar de corrido la cifra inmediatamente después del punto. Cada dato de la Columna Proporcionalidad por regla debe ser un cifra con 4 digititos después del punto. Cuando los datos son enteros de una o dos dígitos, se debe agregar ceros para ajustar los 4 dígitos. Ejemplo:

% P15 0.150011.67 0.1167

Si los datos son enteros de un solo dígito, o cifras decimales de un digito con centésimos, se convierte automáticamente en una proporción de base (0.0) copiando seguidamente la cifra de corrido. Ejemplo.

% P5 0.05008.33 0.0833

COLUMNA FRECUENCIA RELATIVA.Fórmula: % * 360 .

100

Esto consiste en multiplicar cada dato de porcentaje por 360 grados, y dividir el resultado entre 100. Cuando se trabaja con datos no agrupados, otra forma es Multiplicar cada frecuencia por 360 y dividirlo entre el total de datos, en este caso tendría que ser entre 60.COLUMNA FRECUANCIA A SUAVIZAR.

Fórmula: fs (x) = fa + 2 (fs) + fp . 4

Interpretando esta fórmula, equivale a una vez la frecuencia Anterior, mas dos veces la frecuencia a Suavizar, mas una vez la frecuencia Posterior. La sumatoria dividirlo entre 4

Page 6: Procesos Estadisticos Con Datos Agrupados

por regla estadística. Es recomendable operar primero lo que está entre paréntesis, es decir multiplicarlo por 2.Ejemplos: Tomaremos dos ejemplos de nuestra tabla.

Fs(0) = 0 + 2 (0) + 3 . = 0 + 2 * (0) + 3 = 0 + 0 + 3 = 3/4 = 0.754

Fs(3) = 0 + 2 (3) + 9 . = 0 + 2 * (3) + 9 = 0 + 6 + 9 = 15/4 = 3.754

Fs(9) = 3 + 2 (9) + 3 . = 3 + 2 * (9) + 3 = 3 + 18 + 3 = 24/4 = 6.004

OTRAS TECNICAS.

Para agrupar los datos de acuerdo al intervalo, basta con sumarle cada (Li) el valor del Intervalo menos 1. Por ejemplo el intervalo fuera 5, y los datos comienzan con 21 + 4 = 25, luego de 26 a 30.

Una técnica para ordenar una población de datos de forma Ascendente, es hallar el valor más pequeño, y escribir en forma de lista la secuencia sin interrupción de los datos, luego entonces ir identificando y registrando que se encuentren en la población de datos dados, marcándolos con una varita.

Page 7: Procesos Estadisticos Con Datos Agrupados

7. Representaciones Gráficas.

26 33 40 47 54 61 68 75 82 89 96 103 1100

2

4

6

8

10

12

Polígono de Frecuencias

Marcas de Clase

Frec

uenc

ias

26 33 40 47 54 61 68 75 82 89 96 103 1100

1

2

3

4

5

6

7

8

9

10

Pulimiento del Poligono

Puntos Medios o Marcas de Clase

Frec

uenc

ias

Page 8: Procesos Estadisticos Con Datos Agrupados

22.5 29.5 36.5 43.5 50.5 57.5 64.5 71.5 78.5 85.5 92.5 99.5 106.50

2

4

6

8

10

12

Histograma de Pearson

Límites Reales Inferiores

Frec

uenc

ias

0

2

4

6

8

10

12

Diagrama de Barras

Intervalos o Límites No Reales

Frec

uenc

ias

Page 9: Procesos Estadisticos Con Datos Agrupados

5%

15%

5%

8%

7%

8%12%

17%

15%

5%3%

Diagrama de Pie1 2 3 4 5 6 7 8 9 10 11

Los puntos de división y ubicación de datos del Eje Horizontal se les llama Abscisas, y los puntos de División del eje Vertical se les llama Ordenadas.

El título de cada gráfica, y los rótulos de los ejes deben convertirse en otras expresiones de acuerdo la procedencia de datos, y al tipo de resultados que representan. En este ejemplo están en estado Teórico de la estadística.

En el eje Vertical siempre deben ir las Frecuencias o los porcentajes ya que son datos Indicadores, categorizadores o medidores. Y en el eje horizontal los datos originados directamente de los datos crudos o datos en estudio. La orientación de la gráfica variaría la ubicación de los ejes, cuando se desea personalizar.

Para Generar cualquier gráfica desde la vía computacional, la base serán los datos medidores. En este caso, se seleccionó la columna de Frecuencias, frecuencias suavizadas, lo mismo que la columna de Porcentajes para obtener las gráficas que aparecen. Posteriormente podemos agregar los datos complementarios de la gráfica, simplemente seleccionando la diagrama con un clic, para luego dar un clic Menú, en donde elegiremos la opción [Seleccionar datos], clic en Editar y seleccionamos los datos que necesitamos agregar, y listo; se finaliza dando clic en [Aceptar]

La gráfica de Suavización o pulimiento del polígono, simplemente modifica al polígono de frecuencias, surta efecto en bajar o quitar las puntas (picos) Poligonales. La base de esta grafica son los datos de la Frecuencia Suavizada. Compare las dos graficas para notar su relación.

Page 10: Procesos Estadisticos Con Datos Agrupados

8. Recomendaciones Técnicas para Graficar desde la vía Manual.

Primer paso.Se restan 2 cm a cada lado, tanto horizontal como vertical de la hoja milimetrada.

Por ejemplo:En este caso, una hoja milimetrada de 260 mm ó 26 cm de ancho y de altura 200 mm ó 20 cm.

Segundo paso.Se resta o se marcan márgenes de 2 cm o 20 mm a cada lado.

Tercer paso.En el caso de las abscisas; después de haber restado los 40 milímetros o sea 20 en cada lado, nos quedan 220 mm, el cual se divide entre los intervalos. En este ejemplo, tenemos 13 intervalos y quedaría la operación de esta manera: 220 mm / 13 = 16.92 = 16.

Cuarto paso.El resultado obtenido o sea 16, se multiplica por los intervalos que son 13 y nos da 208 mm, si nos damos cuenta es menor a 220 mm, por lo que se acepta.

Quinto paso. En el caso de las Ordenadas, después de haber restado los 40 mm, nos quedan 160 mm, el cual se divide entre 10 que es la frecuencia más alta de nuestro ejemplo, y la operación quedaría así:160 mm / 10 = 16.

Sexto paso.Para verificar si es Procedente; la grafica tiene que ubicarse entre el 75% y 60%. Haciendo esta comprobación en nuestro ejemplo sería:208 mm * 75% = 156 mm.208 mm * 60% = 125 mm.Entonces, 156 dividido entre la frecuencia más alta (10) es igual a 15.6, aproximado al decimo inmediato no da 16, ello no importa aproximar porque está dentro del margen de los porcentajes de 75% a 60%.

En las Graficas.

Polígono de frecuencias.En las abscisas se escriben las marcas de clase o puntos medios y en las ordenadas; las frecuencias.

Pulimiento o suavización del Polígono.Se escriben en las abscisas y en las ordenadas los mismos datos del polígono de frecuencias; pero se utilizan las frecuencias suavizadas para ubicar los puntos poligonales.

Histograma de Pearson. (o solamente Histograma)En las abscisas se escriben los límites reales Inferiores y en las ordenadas las frecuencias, a manera que se hagan rectángulos en cada frecuencia marcada.

Page 11: Procesos Estadisticos Con Datos Agrupados

Diagrama de Barras.En las abscisas se escriben los intervalos o límites no Reales, y en las ordenadas las frecuencias; a manera que se hagan rectángulos en cada frecuencia marcada, pero con la condición de no ser consecutivas, sino con un espacio de por medio. Y para calcular se haría de la siguiente manera:

En nuestro ejemplo, se divide 16 mm entre la amplitud del intervalo que es 7, es decir en el caso de 23 a 29 hay 7 valores, entonces 16 mm / 7 = 2.285714286 = 2.Ello significa, que en donde se ubica cada 16 mm, se restan 2 mm hacia la izquierda y 2 mm hacia la derecha, formando un espacio de 5 mm.

Diagrama de Pie.Se hace un circulo, mediante un transportador, luego tomando las frecuencias relativas, se empieza a marcar cada valor, de 0 hacia la izquierda en contra de las agujas del reloj, se trazan las líneas direccionales hacia el centro. Y se escriben los porcentajes correspondientes.

En la parte superior de la grafica, se escribe el titulo Real, en la parte inferior la Fuente, en la izquierda la base de datos y el la derecha la referencia.

26 33 40 47 54 61 68 75 82 89 96 103 1100

2

4

6

8

10

12

Nivel de Lectura de Estudiantes URURAL 2012

Series1

Ponderaciones

Canti

dad

de E

stud

iant

es p

or e

scal

a

Referen-cias

Fuente: Test de Lectura, Universidad Rural de Guatemala Octubre 2012

Los Polígonos, están compuesto por líneas poligonales y puntos poligonales. La Grafica anterior es la presentación final de una gráfica.

Page 12: Procesos Estadisticos Con Datos Agrupados

INQUIETUDES.

¿Es la primera frecuencia o es la última que se copia para armar los datos de la Frecuencia Acumulada?

Una respuesta posible es, que para datos agrupados se toma la primera, y para datos sin agrupar se toma la última.

¿Siempre se debe anteponer un grupo o clase de datos del primer grupo a formar tomando el dato más menor existente identificado en nuestra población de datos. Lo mismo que otro grupo posterior a la extensión de nuestro último grupo con el dato más mayor existente?

¿Para la Columna de 360 Grados, son los porcentajes se multiplican o son las frecuencias, el resultado se divide entre 100 o entre el total directo de Datos o casos?

¿Cuál es la diferencia entre Tabla Estadístico y Tabla de distribución de Frecuencias?

9. Vocabularios, sinónimos y reglas.

Datos crudos se le llama a los datos no transformados en nada, no implicados en una medida, base de datos. También se les conoce como datos primos.

Si los datos son menores de 40, se procesan sin agrupar, y si son de 40 a mas, se procesan de manera agrupado.