355tulo ii trabajando con los datos personalizado.doc) · trabajando con los datos distribuciones...

38
Lidia C. Diblasi CAPÍTULO II TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como resultado de una investigación aparecen generalmente desordenados motivo por el cual el primer paso para el procesamiento de los datos consiste en ordenarlos. Para Ambrosi los datos tienen una parte cuantitativa y una cualitativa, la cuantitativa es el número, pero éste por si solo no dice nada, para entender el dato se requiere saber qué es medido y cómo. Los datos son un puente entre lo real y lo abstracto. Por ello para entender los datos necesitamos conocer su “biografía” (Ambrosi, 2008; 134) Estos datos tienen sentido dentro de un contexto; de un lugar, de un tiempo, nos permitirán conocer al grupo, comparar a éste con otros grupos, etc. Veamos un ejemplo: Los siguientes datos representan la estatura expresada en centímetros de una muestra al azar de 50 niños del ciclo básico de una escuela suburbana de Mendoza. Datos tomados del cuadernillo distribución de frecuencias. Representaciones gráficas. Diblasi, L Romagnoli, E; 2001. Tabla I Estatura de un grupo de 50 niños. 95 111 110 99 108 95 111 110 100 104 105 111 120 115 97 101 97 100 100 104 105 105 117 101 1O3 102 113 113 117 107 109 102 104 104 112 114 109 112 115 106 114 116 108 107 103 109 116 107 106 100 Cuando trabajamos con una sola variable para ordenar o sistematizar los datos podemos elaborar una tabla en la cual se coloca en la primera columna (denominada columna matriz) cada uno de los valores de la variable partiendo desde el valor más pequeño y, en la columna siguiente, fila por fila, se indica el número de veces que

Upload: others

Post on 08-Aug-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

CAPÍTULO II

TRABAJANDO CON LOS DATOS

Distribuciones de Frecuencias – Representaciones Gráficas

El Conjunto de valores obtenidos como resultado de una investigación

aparecen generalmente desordenados motivo por el cual el primer paso para el

procesamiento de los datos consiste en ordenarlos.

Para Ambrosi los datos tienen una parte cuantitativa y una cualitativa, la

cuantitativa es el número, pero éste por si solo no dice nada, para entender el dato

se requiere saber qué es medido y cómo. Los datos son un puente entre lo real y lo

abstracto. Por ello para entender los datos necesitamos conocer su “biografía”

(Ambrosi, 2008; 134) Estos datos tienen sentido dentro de un contexto; de un lugar,

de un tiempo, nos permitirán conocer al grupo, comparar a éste con otros grupos,

etc.

Veamos un ejemplo: Los siguientes datos representan la estatura expresada en

centímetros de una muestra al azar de 50 niños del ciclo básico de una escuela

suburbana de Mendoza. Datos tomados del cuadernillo distribución de frecuencias.

Representaciones gráficas. Diblasi, L Romagnoli, E; 2001.

Tabla I

Estatura de un grupo de 50 niños.

95 111 110 99 108 95 111 110 100 104

105 111 120 115 97 101 97 100 100 104

105 105 117 101 1O3 102 113 113 117 107

109 102 104 104 112 114 109 112 115 106

114 116 108 107 103 109 116 107 106 100

Cuando trabajamos con una sola variable para ordenar o sistematizar los

datos podemos elaborar una tabla en la cual se coloca en la primera columna

(denominada columna matriz) cada uno de los valores de la variable partiendo

desde el valor más pequeño y, en la columna siguiente, fila por fila, se indica el

número de veces que

Page 2: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

ocurrió cada valor de la variable. Con esta tabla hemos construido una distribución

de frecuencia. Hemos contado la cantidad de casos que se encuentran de cada

valor de la variable.

Podemos llamar a la distribución de frecuencias como una función, la función

de frecuencias, que podemos definir de la siguiente forma: Si un universo de

tamaño N está formado por k valores numéricamente diferentes, X1, X2, X3 . . .

Xk (donde k < N ) con frecuencias correspondientes f1, f2, f3 , ... fk, es posible

introducir una función f (x) que para cada X = Xj es igual a la frecuencia relativa

correspondiente fj, y es igual a 0 para cualquier número X que no aparece en el

universo. Esta función se denomina función de frecuencias.

En la tabla II se presentan los datos ordenados, sin repetición, con sus

correspondientes frecuencias.

Tabla II

Estatura en cm de 50 niños

Estatura (cm) Nº de niños (fi) 95 1 96 0 97 2 98 1 99 1

100 3 101 2 102 3 103 2 104 4 105 3 106 2 107 3 108 3 109 2 110 2 111 3 112 2 113 2 114 2 115 2 116 2 117 2 118 0 119 0 120 1

Page 3: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

“Las tablas surgen de la necesidad de organizar los datos de una

forma que facilite destilar la información que ellos contienen. Es el

alambique que permite obtener la esencia de la masa de

datos”.Ambrosi, Hugo

El primer análisis de los datos es de suma importancia porque nos permite

detectar rápidamente aspectos: como la extensión de la variable, dónde se encuentran

los valores más repetidos a lo largo de todo su recorrido, si hay algún/os valores de la

variable con frecuencia 0, etc. Además cuando trabajamos con una gran cantidad de

datos cargados en algún ordenador, las tablas de frecuencias, son fundamentales para

detectar rápidamente errores de carga. Lo ideal es que estas tablas se acompañen con

gráficos para una mejor interpretación de los datos. Al final del capítulo analizamos los

gráficos apropiados según los distintos niveles de medición de las variables.

Además de las frecuencias absolutas podemos calcular otra clase de frecuencias,

como las frecuencias relativas (fr) dividiendo la frecuencia absoluta (fi) de cada valor

de la variable por N, donde N es el tamaño del universo, es decir el número total de

unidades de análisis o casos a estudiar.

Ejemplo

Así si realizamos la operación para la estatura del niño de 95 cm, como su frecuencia

absoluta es 1, quiere decir que ese valor aparece una sola vez, su frecuencia relativa al

grupo de referencia, es: 1/50 = 0,02 (ver tabla Nº II); para la estatura 100 cm, como

aparece 3 veces, su frecuencia relativa es 3/50 = 0,06. Si a cualquier frecuencia relativa

la multiplicamos por 100, tenemos un porcentaje y podríamos decir que el 6% de los

niños de ese grupo mide 100cm.

Volvamos a la tabla número I. Si ningún niño de los 50 tiene una altura de 96 cm,

la frecuencia absoluta de ése valor de la variable, será cero y su frecuencia relativa

también. Por otro lado, si todas las unidades de análisis asumen el mismo valor de la

variable, en nuestro ejemplo: si todos los niños del grupo midieran 110cm, entonces ese

valor (110 en nuestro ejemplo) tendrían por frecuencia N (50), y por lo tanto su frecuencia

relativa será: N / N = 50/50 = 1

Page 4: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Por ello podemos decir que la frecuencia relativa puede tener como valor mínimo

0 y como valor máximo 1, o que la frecuencia relativa varía entre 0 y 1

0 = fr =1

Si para cierto valor x de una variable, se suman todas las frecuencias absolutas

correspondientes a los valores de ese conjunto que son menores o iguales que ese valor

x, se obtienen las frecuencias acumuladas (Fa) hasta x (un determinado valor de la

variable). Se puede definir entonces la función de frecuencias acumuladas como F(x) o

Fa:

Fa = F(x) = Σ f(x ≤ xi)

Ejemplo:

Si sumamos las frecuencias absolutas de las estaturas de los niños que miden hasta

100cm, tenemos el valor 8, que nos indica que hay 8 niños que miden hasta 100cm en

ese grupo, lo que representa su frecuencia acumulada Fa

Si dividimos a la frecuencia acumulada de cada valor de la variable por el tamaño

del universo (N) o si sumamos las frecuencias relativas hasta ese valor de la variable,

obtenemos la Frecuencia relativa acumulada (Fra).

Ejemplo:

Sí sumamos todas las frecuencias relativas de las estaturas de los niños del grupo

menores o iguales a 100: obtenemos la:

Fra = 0,16 que resulta de sumar: 0,02+0,04+0,02+0,02+0,06 = 0,16

Si a los valores de las frecuencias relativas acumuladas los multiplicamos por 100,

obtenemos porcentajes, y entonces podríamos decir que el 16 % de los niños de éste

grupo mide hasta 100cm; que el 54 % mide hasta 107 cm, etc.

Page 5: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

En éste caso podemos llamar a esta distribución como la distribución de las frecuencias

relativas acumuladas porcentuales.

En la tabla III se presentan las frecuencias absolutas, frecuencias acumuladas, relativas y

frecuencias relativas acumuladas con los datos de la tabla I

Tabla III

Estatura (cm)

Nº de niños (fi)

Frec. Acumulada

(Fa)

Frec. Relativa (fr)

Frec. Relat. Acum. (Fra)

95 1 1 0,02 0.02 96 0 1 0,00 0,02 97 2 3 0,04 0,06 98 1 4 0,02 0,08 99 1 5 0,02 0,10 100 3 8 0,06 0,16 101 2 10 0,04 0,20 102 3 13 0,06 0,26 103 2 15 0,04 0,30 104 4 19 0,08 0,38 105 3 22 0,06 0,44 106 2 24 0,04 0,48 107 3 27 0,06 0,54 108 3 30 0,06 0,60 109 2 32 0,04 0,64 110 2 34 0,04 0,68 111 3 37 0,06 0,74 112 2 39 0,04 0,78 113 2 41 0,04 0,82 114 2 43 0,04 0,86 115 2 45 0,04 0,90 116 2 47 0,04 0,94 117 2 49 0,04 0,98 118 0 49 0,00 0,98 119 0 49 0,00 0,98 120 1 50 0,02 1,00

Serie de datos agrupados

Cuando se presentan determinados valores numéricamente diferentes y no es

posible procesar la información por medios informáticos, o cuando la información

Page 6: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

disponible es muy numerosa, se procede a reunir valores sucesivos de la variable,

formando lo que llamamos intervalos de clase. El número de veces que se repiten los

valores de esa clase se lo denomina frecuencia de clase. La frecuencia de cada clase

está compuesta por la suma de las frecuencias de cada uno de los valores que forman la

clase:

Ejemplo: si una clase está compuesta por las siguientes edades 20 a 23 años, y las

frecuencias de cada uno de esos valores son:

Xi fi

20 3

21 4

22 5

23 2

Ello significa que la frecuencia de la clase 20 – 23 es 14, que resulta de la (Σfi) sumatoria

de las frecuencias individuales (absolutas) de cada valor que conforma esa clase.

Si bien con el proceso de agrupación se puede perder algo de la información que

tienen los datos originales, se tiene la ventaja de presentar todos los datos de forma

sencilla y resumida.

Es importante que si la variable es continua, al construir los intervalos debemos

tener en cuenta que todos los valores asignados a una clase puedan ser considerados,

sin grave error, como iguales al valor medio del intervalo respectivo.

Para no hacer demasiado extensa la serie se recomienda que el número de

intervalos varíe aproximadamente entre 5 y 25. La cantidad de intervalos no depende

solamente del tamaño de la población sino también de su heterogeneidad y de los

objetivos de la investigación.

Cómo construir las clases o intervalos de clases

Hay una regla que nos permite orientarnos respecto al número de intervalos a

construir y a la amplitud que deben tener esos intervalos. Para organizar los datos en una

serie de frecuencias agrupadas seguimos los siguientes pasos 1- calcular el Rango

(Rango es una medida de dispersión que nos indica la longitud del recorrido de la

Page 7: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

variable y se calcula restando al valor mayor de la variable, el valor menor. En nuestro

ejemplo de la altura de los niños el valor mayor es 120 y el menor 95, por lo que el rango

de la variable es 25). 2- Determinar el ancho del intervalo o módulo que se simboliza con

la letra griega ω. La raíz cuadrada de N (√√√√ N ), el número de datos con que se está

trabajando, nos da una idea de la cantidad de intervalos, y el Rango de la variable en

estudio dividido la raíz cuadrada de N nos permite orientarnos sobre la amplitud de los

intervalos, el módulo (ω):

R

Amplitud del intervalo de clase ( ω) =

√√√√ N

3- Especificar los límites del intervalo y 4- Contar las frecuencias que corresponden a

cada intervalo.

El punto donde comienza cada intervalo de clase se denomina límite inferior (Li) y

el punto donde termina, limite superior (Ls). Estos límites deben estar bien definidos

sobre todo para las variables continuas, de modo que sepamos bien a qué intervalo

pertenece una observación individual.

Siempre que sea posible conviene que la amplitud de los intervalos de clase sea la

misma. Sin embargo, resulta conveniente presentar intervalos desiguales cuando la

naturaleza de la variable lo exija. Así, se presentarán intervalos más pequeños cuando

en alguna parte del campo de variación de la variable, la frecuencia varíe con mucha

rapidez.

Por ejemplo, tratándose de problemas de morbidez y mortalidad, son a menudo

preferibles intervalos de clase de extensión no uniforme, pues hay enfermedades que

afectan a edades diferentes en forma diferente. Así, no tendría sentido clasificar un

grupo de pacientes atacados de sarampión en intervalos de 10 años, puesto que

prácticamente todos los casos caerían en el intervalo 0 –9 o en el de 10 – 19 años. Lo

mismo ocurriría para un grupo de pacientes con distintos tipos de cáncer.

Page 8: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Por razones de secreto profesional a veces resulta obligatorio presentar intervalos

abiertos, es decir intervalos para los cuales no se precisa ya el límite superior, el límite

inferior, o ambos.

Cuando se trabaja con intervalos abiertos se hace difícil, cuando no imposible, la

aplicación de muchos métodos estadísticos.

Variables continuas:

Cuando trabajamos con variables continuas debemos distinguir los límites reales,

que corresponden a los extremos verdaderos o exactos de los cortes de la variable que

hemos realizado, de los límites aparentes, que son los valores de los extremos de los

intervalos que figuran en la tabla de distribución de frecuencias.

En la tabla IV se presenta la distribución de frecuencias, con los límites reales de

los intervalos de clase, según los datos correspondientes a la tabla I.

Límites aparentes Límites reales

Li – 0,5 Ls + 0,5

95 – 97 94,5 – 97,5

98 – 100 97,5–100,

Tabla IV: Intervalos de clase con los datos de la tabla I: estatura de 50 niños

a- límites aparentes

Estatura en cm Nº de niños

95 - 97 3

98 - 100 5

101 - 103 7

104 - 106 9

107 - 109 8

110 - 112 7

113 - 115 6

116 - 118 4

117 - 121 1

Page 9: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Si observamos los límites aparentes de los intervalos de una variable continua,

vemos que, entre el límite superior, del primer intervalo y, el inferior del segundo se

produce un salto, lo cual no da idea de continuidad. Se debe entonces sumar y restar

media unidad a los límites aparentes del intervalo para obtener los límites reales. De esta

manera el límite superior del primer intervalo coincidirá con el límite inferior del segundo.

Tabla V

b- límites reales

Estatura en cm Nº de niños

94,5 - 97,5 3

97,5 - 100,5 5

100,5 - 103,5 7

103,5 - 106,5 9

106,5 - 109,5 8

109,5 - 112,5 7

112,5 - 115,5 6

115,5 - 118,5 4

118,5 - 121,5 1

Punto medio del intervalo de clase:

Se obtiene sumando el límite inferior y el superior y dividiendo el resultado por dos.

El punto medio es el valor representativo de todos los valores que comprende el intervalo.

Se realiza tanto con los límites reales como con los aparentes.

Li + Ls

Punto medio ( pm) =

2

Page 10: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

A los fines de evitar una mayor complejidad, es importante que, el punto medio de

los intervalos de clase sea un número par, para lo cual la amplitud de los intervalos se

recomienda que sea impar.

Veamos un ejemplo: con amplitud impar (a) y con amplitud par (b)

a- impar Xi pm b- par Xi pm

3 - 5 4 3 – 6 4,5

6 – 8 7 7 – 10 8,5

Distribuciones de Frecuencias para datos agrupados

Una vez formados los intervalos de clase, con su correspondiente frecuencia

absoluta podemos obtener las frecuencias relativas, relativas porcentuales, acumuladas,

relativas acumuladas y relativas acumuladas porcentuales de cada clase, las cuales nos

permitirán graficar la variable de acuerdo a nuestro interés o el objeto de estudio.

Siempre que sea posible es importante acompañar la distribución de frecuencias

absolutas con las relativas porcentuales y las relativas porcentuales acumuladas. Las

distribuciones porcentuales son de más fácil interpretación ya que estamos

acostumbrados, en el lenguaje diario, a usar, casi sin darnos cuenta, los porcentajes.

Además, este tipo de distribución permite la comparación entre grupos, uno de los

objetivos del uso de la Estadística en las Ciencias Sociales.

Tabla VI

Distribución de frecuencias absolutas, porcentuales y porcentuales

acumuladas

Xi fi % %

acumulado

94,5 - 97,5 3 6 6

97,5 - 100,5 5 10 16

100,5 - 103,5 7 14 30

103,5 - 106,5 9 18 48

106,5 - 109,5 8 16 64

109,5 - 112,5 7 14 78

112,5 - 115,5 6 12 90

115,5 - 118,5 4 8 98

118,5 - 121,5 1 2 100

Page 11: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Observando la tabla Nº VI, podemos decir, que hay 9 niños de éste grupo que

mide entre 103 y 106 centímetros (frecuencia absoluta), o que el 18 % tiene una estatura

entre 103 y 106 cm (distribución porcentual) o que el 48 % del grupo de niños en estudio

mide hasta 106 cm (distribución porcentual acumulada).

Elementos de una tabla

La tabla tiene una estructura compuesta por el título, el cuerpo y las notas. El

título nos dice a qué se refieren los datos contenidos en la tabla, en nuestro ejemplo a la

estatura de 50 niños, dónde se obtuvieron los datos, en una escuela suburbana de la

Provincia de Mendoza y cuándo se obtuvieron, por ejemplo en marzo de 2009. También

suele agregarse la unidad de medida de los datos, en nuestro ejemplo: estatura medida

en cm.

El cuerpo es la cuadrícula que contiene los datos de la estatura de los 50 niños,

donde en la primera columna van las categorías o valores de la variable que estudiamos,

en nuestro caso 95cm; 96 cm, etc; en la segunda van las frecuencias con que ocurren

esas categorías o valores de la variable, en nuestro ejemplo, variable numérica, con el

valor 95, hay 1 sólo niño; con 100, hay 3 niños, etc. Su ocurrencia se va anotando fila por

fila, según cuántas veces se presenta cada valor de la variable.

Las notas son observaciones que pueden ser de mucha utilidad para interpretar

algunos datos y fundamentalmente la fuente, que se refiere al origen de los datos, que

pueden ser instituciones como la Dirección de Estadísticas Económicas de la Provincia

de Mendoza (DEIE), el Instituto Nacional de Estadísticas y Censos (INDEC), equipos de

investigación, etc.

Veamos en un ejemplo: título, cuerpo y notas

Page 12: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Tabla Nº VII

Título: Cantidad de ingresantes a la Facultad de Ciencias Políticas

y Sociales de la UNCuyo, desde 2000 a 2008, Mendoza.

Nota: *Falta agregar ingresantes que ingresaron el año anterior y los que vienen por pase.

Fuente: datos suministrados por Dirección de Alumnos, FCPyS, UNCuyo, Mendoza, 2008

Cuando tenemos una tabla con todos sus componentes podemos hacer un

informe, una lectura de los datos.

Algo más sobre porcentajes

Los pasos más elementales, pero no por ello menos importante, para el trabajo

con los datos, son la clasificación y la comparación. La forma más común de

comparación es mediante porcentajes.

Los porcentajes pueden ser calculados respecto al total de una tabla, o al total de

una fila o al de una columna e igualarla a 100, de manera que sus datos guarden las

proporciones existentes entre los números originales.

Veamos un ejemplo

Los siguientes datos representan los aspirantes e ingresantes a las distintas carreras que

se dictan en la Facultad de Ciencias Políticas y Sociales de la UNCuyo en el año 2008

para el inicio de las mismas en el ciclo lectivo 2009.

Año Ingresantes 2000 1097

2001 808

2002 822

2003 914

2004 857

2005 608

2006 531

2007 456

2008 415*

Page 13: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Tabla Nº VIII

Carrera Aspirantes Ingresantes Sociología 81 50 Cs. Políticas y Adm. Pública 169 106 Trabajo Social 264 143 Comunicación Social 242 153 TOTAL 753 452

Fuente: datos suministrados por el Coordinador del ingreso 2008-09, Fac. Ciencias Políticas y Sociales, UNCuyo, 2009 Si queremos comparar cuántos se inscribieron e ingresaron por carrera,

calculamos los porcentajes por columnas y obtenemos la siguiente tabla:

Tabla Nº IX

En cambio si lo que nos interesa es saber cuántos de los que se inscribieron ingresaron por

De la tabla IX podemos decir que de los aspirantes a la Facultad de Ciencias Políticas y

Sociales, el 35 % se inscribió en Trabajo Social y el 32% en Comunicación Social. De la

misma forma con los ingresantes

En cambio si queremos analizar cuántos de los inscriptos a cada carrera de la

facultad, ingresaron, calculamos los porcentajes por filas.

Tabla Nº X

Carrera Ingresan % No ingresan % % Sociología 62 38 100

Cs. Políticas y Adm. Pública 63 37 100

Trabajo Social 54 46 100

Comunicación Social 63 37 100

TOTAL 60 40 100

Carrera Aspirantes

% Ingresantes

% Sociología 11 11 Cia. Política y Adm. Pública 22 23 Trabajo Social 35 32 Comunicación Social 32 34 TOTAL 100 100

Page 14: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

De la tabla X podemos decir que el 62 % de los inscriptos a Sociología ingresó y que el

38 % no; que el 63 % de los inscriptos a Ciencia Política y Administración Pública ingresó

y no el 37 %; etc.

Comparando las tablas VIII y IX podemos observar que la carrera de Trabajo

Social es la que más aspirantes ha tenido en la inscripción para el ingreso 2009, sin

embargo, la tabla X nos permite ver claramente, que en ése año en particular, esta

carrera es la que menos ingresantes ha tenido, respecto a la cantidad de aspirantes. El

resto de las carreras ha mantenido entre si porcentajes semejante de aspirantes e

ingresantes.

La hipótesis que surge de éste análisis de los datos es: esta carrera tiene siempre mayor

porcentaje de aspirantes que ingresantes, respecto a las otras carreras de la Facultad, o

esto se debe sólo al azar y, esta relación varía de un año a otro.

“Una tabla, dice Ambrosi, es un mapa conceptual, que organiza los datos en

forma gráfica, y nos facilita el acceso, la consulta y la comparación” (Ambrosi; 2008, 140)1

Podemos “navegar” por ella y nos va revelando lo que los datos nos dicen de la realidad

con un lenguaje distinto y complementario al del texto continuo.

Volviendo a los porcentajes, García Ferrando dice al respecto, “resulta

conveniente señalar que, para calcular porcentajes, el valor de N ha de ser

suficientemente elevado; y cita a Blalock (1960; 28) que señala al número 50 como el

mínimo aproximado de casos que ha de contar una distribución para poder calcular los

porcentajes. Si el número de casos es bastante inferior a 50, resulta más adecuado

ofrecer el número real de casos en cada categoría en lugar de los porcentajes” (García

Ferrando, 1992; 58).

Números índices

Otra forma de transformar los datos de una distribución de frecuencias son los

números índices. Hay más de una forma de construir un índice. En éste capítulo vamos a

ver una y en el de análisis multivariado, otra que nos permite una síntesis de un conjunto

Page 15: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

de variables o indicadores, en una sola variable. Este tipo de índices son muy útiles para

un estudio más complejo de los datos.

El que vemos ahora es un tipo especial de proporciones o de las frecuencias

relativas. Está asociado con las series cronológicas ya que se calculan a partir de un

valor de la variable en un momento determinado que se toma como base, que

generalmente se equipara a 100. Todos los demás valores de la variable hacen

referencia a él.

Veamos un ejemplo:

Tabla Nº XI

Alumnos ingresantes a la facultad de Ciencias Políticas y Sociales,

UNCUyo, durante el período 1993 - 2009 (año base 1993)

Año Ingresantes Nº índice

1993 351 100

1994 513 146.15

1995 624 177.77

1996 906 258.12

1997 852 242.73

1998 1040 296.3

1999 937 266.95

2000 1097 312.53

2001 808 230.2

2002 822 235.04

2003 914 260.4

2004 857 244.16

2005 608 173.22

2006 531 151.28

2007 456 129.91

2008 415 118.23

2009 452 128.77

Para calcular qué porcentaje de ingresantes, respecto al año base, hay en 1994 hacemos

la siguiente operación: 513/351 *100 = 146,15. Podemos decir que en el año 1994 hubo

un 46,15 % más ingresantes que en el año 1993 o que en el año 2009 hubo un 28,77 %

más que en el año 1993. Cuando la diferencia es más del 200 o el 300 % conviene decir

que se duplicó o triplicó la cantidad de ingresantes, como en los años 1998 o 2000.

1 Para mayor detalle del cálculo de porcentajes ver Ambrosi, Hugo Oscar, ob. Cit pág. 161 y siguientes.

Page 16: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

REPRESENTACIONES GRÁFICAS

Una representación gráfica es otra forma, a semejanza de las tablas, de visualizar

los datos. Nos permite, cuando ha sido correctamente hecho, obtener en forma rápida

una impresión de conjunto de la concentración o dispersión de los datos en estudio. La

relación entre valores numéricos correspondiente a diversas magnitudes, puede ser a

menudo mejor, y más rápidamente comprendida mediante una representación gráfica

que sólo con una tabla. Hay muchas clases. Los más comunes son los diagramas de

barras, los gráficos de sectores, los histogramas, los polígonos de frecuencias, las ojivas,

los de cajas,etc. Otro interesante es el diagrama de tallo y hojas de Tuckey, el cual es

una combinación entre tabla y gráfico ya que su representación está conformada por los

números de la distribución.

Elegir una u otra representación gráfica depende de las características de la

variable con que estamos trabajando y de las preferencias personales o del objetivo del

análisis que realizamos.

Existen ciertas reglas generales que comúnmente son aceptadas, como por

ejemplo:

- Aquel tipo de gráfico que alcance su objetivo con la máxima sencillez será el

más efectivo. No debe contener más líneas o símbolos que los que el ojo pueda

cómodamente seguir.

- Toda representación gráfica debe explicarse absolutamente por sí misma, por lo

tanto, deben estar correctamente indicados el título, origen, escalas, claves

explicativas o leyendas y fuente.

- Las líneas que corresponden al gráfico mismo deben ser más gruesas que los

ejes.

- Por lo general la variable se representa en el en el eje horizontal y la frecuencia

eje vertical.

- Las divisiones de la escala deben ser claramente indicadas.

- La escala que representa las frecuencias debe comenzar con cero. Si esto no

es posible, la posición de cero debe indicarse mediante una interrupción del eje

correspondiente.

Page 17: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Algunas representaciones gráficas: las más usadas

VARIABLES CUALITATIVAS

La representación mediante barras es el gráfico más simple y es muy útil cuando se

trata de datos pertenecientes a una variable cuyo nivel de medición es una escala

nominal u ordinal.

Es conveniente hacer las barras más anchas que los espacios entre ellas; y el eje

que representa la escala, separado de las mismas. Las barras se pueden construir con

frecuencias absolutas, relativas o bien con porcentajes que son mejores para la

comparación

Gráfico Nº 1

Cantidad de alumnos presentados a las mesas examinadoras en un turno

especial según carreras, Fac. Cs. Pol. y Sociales, UNCuyo, 2000

Fuente: elaboración propia con los datos suministrados por Dirección de Alumnos, año 2005

MESAS

Carreras

Can

tidad

de

alum

nos

26

28

30

32

34

36

38

40

42

Cs. Políticas Sociología Com. Social Trabajo Soc.

Page 18: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Barras combinadas.

Mediante la utilización de barras dobles o triples se pueden representar subgrupos

dentro de un mismo grupo. Cuando se usan estas barras múltiples se puede proceder de

dos formas: o bien las barras que representan los subgrupos se dibujan contiguas, o van

separadas por un pequeño espacio, en este último caso, el espacio entre las barras en

un mismo grupo debe ser más estrecho que el espacio entre grupos de barras.

Gráfico Nº 2

“Distribución de frecuencias del sexo de los alumnos que ingresaron a la FCPyS, UNCuyo, en 2008 según Carrera”

Sexo

VaronMujer

Por

cent

aje

100

80

60

40

20

0

Carrera

Sociología

Ciencias Políticas

Comunicación Social

Trabajo Social8

92

39

61

35

65

31

69

Fuente: Datos de encuesta realizada para proyecto de investigación de la Secretaría de Ciencia,

Técnica y Posgrado, bajo mi dirección, sobre Perfil del alumno ingresante a la Facultad de

Ciencias Políticas y Sociales, UNCuyo 2008, Gráfico del informe de beca de la Lic. Lucía Bagini,

integrante del Proyecto.

Page 19: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Barras Apiladas

Este tipo de diagrama es especialmente útil cuando se trata de comparar datos

que, tabulados, originan dos o más distribuciones con un número de grupos

relativamente pequeño. Cada barra, que representa a un grupo, tiene apilados una serie

de rectángulos dónde cada uno representa la cantidad de casos de la segunda variable

en estudio.

Veamos un ejemplo: en el siguiente gráfico hay dos grupos conformados por el nivel de

ingreso del jefe de hogar y a su vez estos están clasificados por su nivel educativo. El

primer grupo representa a todos los jefes de hogar que tienen un ingreso menor o igual a

la mediana (valor medio de los ingresos) y a su vez cada división de la barra representa a

los jefes de hogar de ése nivel de ingreso con los distintos niveles educativos (señalando

con distinto color la cantidad de casos).

Gráfico Nº 3

Nivel educativo del jefe de hogar según su nivel de ingreso

Nivel de ingreso

mayor Mehasta Me

Fre

cuen

cia

30

20

10

0

Nivel educativo

h/unv. compl.

h/univ. incompl.

h/terc.incomp.

h/secund. compl.

h/prim. incomp.

Fuente: elaboración propia según una pequeña muestra aleatoria de una comunidad, obtenida por el equipo

de la cátedra, Mendoza, 2004

Page 20: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Representación sectorial

En este caso se analizan los datos comparando sectores de un círculo en vez de

longitudes de rectángulos.

Este tipo de gráfico es eficaz mientras el número de sectores sea pequeño y cada

sector tenga un tamaño que permita designarlo fácilmente y la comparación resulte

sencilla.

Veamos un ejemplo:

Los siguientes gráficos de sectores circulares nos permiten comparar la distribución por

sexo de los alumnos cursantes del primer año de dos carreras. Cada sector representa la

frecuencia correspondiente a cada modalidad de la variable sexo.

Gráfico Nº 4

Distribución por SEXO de los alumnos de primer año de COMUNICACIÓN SOCIAL y TRABAJO SOCIAL de la Facultad de Ciencias Políticas y Sociales, Universidad

Nacional de Cuyo, año 2008 COMUNICACIÓN SOCIAL TRABAJO SOCIAL

Sexo

37.5%

59.4%

3.1%

Varon

Mujer

Omitido

Sexo

7.7%

92.3%

Varon

Mujer

Fuente: Encuestas realizadas por la Cátedra Técnicas Estadísticas para la Investigación Social a los alumnos de primer año de las Carreras de Comunicación Social, Trabajo Social, Sociología y Ciencias Políticas de la Facultad de Ciencias Políticas y Sociales de la Universidad Nacional de Cuyo en el año 2008. Gráficos elaborados por las alumnas Romina Benitez y Paula Ferreyra en su informe final de cátedra.

Page 21: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Esta representación permite visualizar rápidamente la diferencia, que hay, entre las dos

carreras respecto a la distribución del sexo. La suma de las frecuencias de cada carrera

corresponde al 100% de los casos lo que equivale a los 360 grados de la circunferencia. Cada 1

% le corresponde 3,6 grados (360/100= 3,6). Si los varones en Trabajo Social representan el 7,7

% el sector circular correspondiente en la circunferencia es de 27,7 grados y al 92,3 % de las

mujeres, le corresponden un sector circular de 332,3 grados.

VARIABLES CUANTITATIVAS

Gráfico de bastones

Cuando la variable es discreta conviene representar los datos mediante un

gráfico de bastones o “barras” una para cada categoría o valor de la variable. El alto del

bastón corresponde a la frecuencia de cada valor de la variable.

Gráfico Nº 5

Cantidad de personas por hogar de 14 a 65 años correspondiente a una muestra

aleatoria de familias del Gran Mendoza, Mendoza, 2006

Personas por hogar

10987654321

Fre

cuen

cia

12

10

8

6

4

2

0

Fuente: elaboración propia basada en datos obtenidos de un estudio realizado por un equipo de

investigadores de la composición familiar, Mendoza, 2005.

Page 22: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Al ser un gráfico para variables discretas debe quedar claro que entre dos valores no

existen valores intermedios. En nuestro ejemplo hay familias con 1 ó 2 ó 3…etc.

personas. En caso de trabajar con intervalos de clase cada bastón se dibuja en el

punto medio de la clase.

VARIABLES CONTIMUAS

Histogramas

Cuando la variable es continua conviene usar rectángulos o barras unidas, en

lugar de líneas o barras separadas, para representar las frecuencias o la función de

frecuencias. Este gráfico se denomina histograma y se usa para variables medidas en

escalas de intervalos y de razón o proporción.

Para poder realizar este gráfico previamente debemos agrupar los valores de la

variable en clases o intervalos de clase. Si los intervalos tienen todos la misma

amplitud se puede realizar directamente la representación por histograma. Cuando los

intervalos de clase no tengan el mismo tamaño resulta necesario previamente

homogeneizar las frecuencias, esto significa que las frecuencias absolutas

correspondientes a cada intervalo de clase deben ser divididas por la amplitud del

intervalo de clase.

En el eje horizontal del gráfico se colocan los intervalos y en el vertical las

frecuencias absolutas o relativas porcentuales. Los límites de las clases deben estar

perfectamente definidos para evitar duplicar datos. Debemos tomar un criterio y

seguirlo en todos los intervalos.

La altura de cada barra corresponde a la frecuencia de cada clase o intervalo de

clase. Este gráfico es muy útil para representar una gran cantidad de datos y muy

importante para detectar valores típicos o atípicos o extremos en una distribución. Los

valores atípicos deben verificarse. Si existen realmente en la distribución, nos

informan de la dispersión de la variable. Puede que no existan y sean errores

involuntarios que han ocurrido: al registrar el dato cuando se efectúa la medición o bien

cuando se realiza la carga para armar la base de datos.

Veamos un ejemplo

Page 23: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Gráfico Nº 6

Promedio sin aplazo de los alumnos de una cohorte de las cuatro carreras de la

Facultad de Ciencias Políticas y Sociales, UNCuyo, Mendoza, 2004

Promedios sin aplazos

9.50

9.00

8.50

8.00

7.50

7.00

6.50

6.00

5.50

5.00

4.50

4.00

30

20

10

0

Fuente: elaboración propia con datos suministrados por Dirección de Alumnos para la investigación

“Perspectivas de egreso de los estudiantes de la Facultad de Cs. Políticas y Sociales, UNCuyo” de Lidia

Diblasi, en Mendoza, entre los años 2002-2004.

En este histograma se pueden detectar perfectamente valores extremos que

fueron revisados, son reales y corresponden a un estudiante con muy pocas materias

aprobadas y con la nota mínima. También se puede detectar que el intervalo cuyo

punto medio es 7.50, es el que tiene mayor cantidad de casos.

Polígono de frecuencias

Otra forma de representar la distribución de frecuencias resulta de unir con

segmentos de recta los puntos medios de los lados superiores de los rectángulos

presentados en el histograma. Esta última representación se denomina polígono de

frecuencias.

Page 24: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Veamos un ejemplo:

Gráfico Nº 7

El gráfico representa la estatura de los 50 niños que vimos en la tabla Nº 5 de

éste capítulo con los datos agrupados en clases de amplitud 3cm, en el podemos

observar la forma de la distribución y el intervalo donde se encuentra la mayor cantidad

de frecuencias: 103.5 a 106.5 cm.

Gráfico Nº 8

Estatura de 50 niños, en cm, Mendoza, 2001

0

1

2

3

4

5

6

7

8

9

10

91,5 -94,5

94,5 -97,5

97,5 -100,5

100,5 -103,5

103,5 -106,5

106,5 -109,5

109,5 -112,5

112,5 -115,5

115,5 -118,5

118,5 -121,5

121,5 -124,5

Estatura en cm de dos grupos de niños de la misma edad de distintos Dptos de Mza, 2001

0

2

4

6

8

10

12

91,5 -94,5

94,5 -97,5

97,5 -100,5

100,5 -103,5

103,5 -106,5

106,5 -109,5

109,5 -112,5

112,5 -115,5

115,5 -118,5

118,5 -121,5

121,5 -124,5

Serie2 Serie3

Page 25: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

En el gráfico número ocho se han dibujado dos polígonos superpuestos lo que

nos permite comparar dos grupos de unidades de análisis en los cuales se está

estudiando la misma variable.

Rápidamente se pueden observar las diferencias y similitudes entre los

conjuntos que se están comparando. La ventaja del polígono de frecuencias respecto

al histograma es que el polígono, al ser una línea, permite la superposición.

Ojivas

Este es un gráfico específico para representar las frecuencias acumuladas o la

función de frecuencias relativas acumulada porcentuales.

Al igual que el histograma y el polígono de frecuencias se utilizan para

representar las variables cuantitativas continuas medidas en escala de intervalos o de

razón. En el eje horizontal se representa los límites reales de los intervalos de clase y

en el eje vertical las frecuencias acumuladas o las acumuladas porcentuales que

permiten una más rápida comprensión del tema. Sirve para leer la cantidad de casos

que están por debajo de un determinado valor. En nuestro ejemplo podríamos decir

Estatura, en cm, de un grupo de niños, frecuencias acumuladas, Mendoza 2001

0

10

20

30

40

50

60

91,5 -94,5

94,5 -97,5

97,5 -100,5

100,5 -103,5

103,5 -106,5

106,5 -109,5

109,5 -112,5

112,5 -115,5

115,5 -118,5

118,5 -121,5

Page 26: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

que hay 30 niños que miden hasta 108cm aproximadamente.

También la ojiva nos sirve para comparar dos o más grupos en un mismo

gráfico al igual que el polígono.

Veamos un ejemplo

Gráfico Nº 8

Ojiva de frecuencias acumuladas de la variable Edad de los alumnos de primer año, de las carreras de Trabajo Social y Sociología, Fac. Ciencias Políticas y Sociales, UNCuyo

Mendoza, 2008

Edad

50

44

43

42

40

36

33

28

27

24

23

22

21

20

19

18

17

Por

centa

je a

cum

ula

do

120

100

80

60

40

20

0

Carrera

Sociología

Trabajo Social

Fuente: Datos suministrados por la cátedra “Técnicas Estadísticas para la Investigación Social”, Facultad de Ciencias Políticas y Sociales, UNCuyo, Mendoza, 2008. Gráfico elaborado por los alumnos Juan Ignacio Román y Octavio Stacchiola en su informe final.

Al superponerse ambas curvas nos resulta más fácil detectar dónde están las

mayores diferencias entre las edades de los dos grupos analizados. Los Alumnos de

Trabajo Social tienen en su mayoría entre 18 y 22 años. Mientras que los de Sociología

tienen mayor dispersión y la curva “sube” constantemente hacia las edades mayores.

Page 27: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Diagrama de tallos y hojas de Tukey

El diagrama de tallos y hojas es una representación muy útil para variables

cuantitativas discretas, aunque también es posible realizarlo con las variables

continuas cuando están registradas como discretas.

En la columna de la izquierda (tallo) se coloca la primera o la primera y la

segunda, etc. y en las de la derecha el último dígito. Veamos un ejemplo con los datos

de la estatura de los 50 niños. Como el valor menor es 95 cm y el máximo o valor

mayor es 120, en el tallo ponemos en la primera columna: 09; 10; 11; 12 y en las filas

correspondiente al 09 todas las estaturas que comienzan en 90 como 5; 7; 7; 8; 9, y así

con las que comienzan con 10; 11 y 12:

Estatura de 50 niños.

95 111 110 99 108 95 111 110 100 104

105 111 120 115 97 101 97 100 100 104

105 105 117 101 1O3 102 113 113 117 107

109 102 104 104 112 114 109 112 115 106

114 116 108 107 103 109 116 107 106 100

El diagrama resultante es: del valor 95, el número 9, se coloca en el tallo y el cinco en

la hoja; del valor 100: el número diez se coloca en el tallo y el segundo 0 en las hojas y

se repite tantas veces como aparezca el número 100. En el ejemplo el 100 aparece 3

veces por eso en la hoja correspondiente al tallo 10 hay tres 0.

Una vez terminado el diagrama podemos observar cuáles son los valores más

repetidos y cuáles los menos.

9 5 7 7 8 9

10 0 0 0 1 1 2 2 2 4 4 4 5 5 5 6 6 7 7 7 8 8 8 9 9

11 0 1 1 1 2 2 3 3 4 4 5 5 6 6 7 7

12 0

Page 28: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Cajas y patillas

El gráfico de cajas y patillas, llamados así por su forma, son útiles para

interpretar los puntajes en cada variable. Los límites de la caja marcan el primer 25 %

de la distribución de los datos y el límite superior de la caja, el 75 % de los datos

ordenados de menor a mayor. Por su parte la caja representa el 50 % central de la

distribución, o dicho de otra forma, los valores medios incluyendo al promedio. Los

extremos de las patillas representan el valor mínimo y el valor máximo del recorrido de

la variable. Si la caja está en el centro del recorrido de la patilla y también lo está la

marca o línea trazada dentro de la caja (que representa el valor de la mediana) nos

indica que la distribución de la variable es simétrica. Estos gráfico son muy importantes

cuando queremos comparar una variable en distintos grupos o bien más de una

variable en un mismo grupo. El gráfico siguiente es un ejemplo de los puntajes

obtenidos en las distintas áreas del nivel medio de una muestra de 547 alumnos, de

los colegios de jurisdicción de la UNCuyo, Mendoza, 1999.

Gráfico Nº 10

Puntajes de las distintas variables de 8º y 9º año de alumnos de colegios

de jurisdicción provincial, Mendoza, 2001.

Min-Max

25%-75%

Median value

Box & Whisker Plot

-20

0

20

40

60

80

100

120

MATEMCNAT

LINGPLÁSTICA

MUSICATECNOL

CSOCINFOR

CSNATUHUMAN

EYGBYS

CAD

Page 29: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Fuente: elaboración propia sobre la base de encuestas realizadas para el proyecto: “Cómo orientar la elección de una modalidad”. Morchio, Ida Lucía y Diblasi, Lidia, Publicado por AIQUE grupo editor S.A., Bs. As.,1999.

En el gráfico Nº 10 se han representado una serie de áreas del nivel medio de

educación mediante los puntajes obtenidos como resultados de la aplicación de un test

el IEP (inventario de Experiencias y Proyectos). Si observamos las distintas cajas

podemos apreciar que la mayoría de las variables tienen una distribución simétrica.

Salvo Matemática y Música que presentan una leve asimetría en la posición de la

mediana. En éste caso se han comparado 13 variables de un mismo grupo.

Veamos otro ejemplo: donde una misma variable se analiza en varios grupos

Gráfico Nº 11

Proporción de materias rendidas aprobadas sobre el total de materias de cada carrera y sexo, de la

Facultad de Ciencias Políticas y Sociales, UNCuyo, 2004

Fuente: elaboración propia con los datos suministrados por Dirección de Alumnos para el

Proyecto: “Perspectivas de egreso de los estudiantes de las cuatro carreras de la facultad de

Ciencias Políticas y Sociales, UNCuyo” tesis de maestría de Lidia Diblasi, FLACSO, 2004

4331218 55532221N =

Carrera

Trab. SocialCom. SocialCs.PolíticasSociología

Mat

eria

s ap

roba

das

sobr

e m

ater

ias

carr

era

1,2

1,0

,8

,6

,4

,2

0,0

-,2

sexo

mujer

varon

Page 30: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Para la confección de este gráfico se realizó un indicador, para medir el

rendimiento académico, teniendo en cuenta la cantidad de materias aprobadas por

cada alumno sobre el total de materias de cada carrera. En cada grupo que representa

una carrera se subdividió a su vez en dos subgrupos según el sexo.

Esta forma de representar los datos cuantitativos es muy buena para la

comparación porque permite visualizar muy rápidamente las diferencias o semejanzas

entre los grupos.

En ellos suelen aparecer por debajo o por arriba de las patillas asteriscos o

círculos que nos están diciendo de la existencia de valores extremos (“autliers”) que

son aquellos que debemos revisar ya que suelen ser errores de medición o de carga

de datos.

OTRAS REPRESENTACIONES GRÁFICAS

Gráfico de líneas o curvas

Generalmente se utilizan cuando se quiere mostrar las variaciones que

experimenta una variable con el transcurso del tiempo. Se las suele denominar gráficas

de series de tiempo. No está implicado el concepto de área. Esta es una gráfica en la

que la línea base (eje X) representa el tiempo. Este puede ser medido en años,

meses, semanas, días, etcétera. Nos muestra la tendencia de una variable en un

período de tiempo dado.

Proporcionan información relacionada con los cambios que se han producido en

dicho período. Son muy usados para mostrar las variaciones de los índices de precios,

de empleo y desempleo, de producción de determinados productos, etcétera.

En el gráfico siguiente, Nº 12 podemos ver los movimientos que han tenido, a lo

largo de los años, la cantidad de ingresantes a las cuatro carreras de la Facultad de

Ciencias Políticas y Sociales. Observamos que las líneas de las carreras de Ciencia

Política y Sociología tienen movimientos ascendentes y descendentes suaves.

Mientras que las de Comunicación Social y Trabajo Social tienen movimientos más

abruptos y son muy semejantes entre sí.

Page 31: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Gráfico Nª 12

Alumnos ingresantes a la facultad de Ciencias Políticas y Sociales de la UNCuyo,

período 1993 – 2008, Mendoza, 2009

Fuente: Elaboración propia en base a los datos suministrados por Dirección Alumnos de la Fac. de Ciencias Políticas y Sociales; UNCuyo

FORMAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS

Los gráficos pueden ayudarnos a visualizar la variedad de formas que toman las

distribuciones de frecuencias. Algunas son simétricas: si doblamos la curva por el

centro creamos dos mitades idénticas. Tienen el mismo número de valores en ambas

direcciones. Otras distribuciones son sesgadas: tienen más casos extremos en una

dirección que en otra.

0

50

100

150

200

250

300

350

400

1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Año

Cantidad de ingresante

Cs.Política Sociologí Trab.Social Com. Social

Page 32: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Las distribuciones asimétricas o sesgadas tienen una “cola” pronunciada,

ya que los puntajes se apilan en una sola dirección. La posición de esta cola indica

dónde están localizados los relativamente pocos puntajes extremos y determinan la

dirección del sesgo.

Si la cola está a la derecha, decimos que la distribución está positivamente

sesgada. La mayoría tiene una puntuación baja y sólo unos pocos una puntuación

alta.

Si ambas colas son idénticas, existe casi el mismo número de puntaje en ambas

direcciones. La distribución es perfectamente simétrica

Una distribución está negativamente sesgada cuando tiene una cola mucho

más larga a la izquierda que a la derecha. Ello implica que la mayoría de los

entrevistados tienen una puntuación alta y sólo unos pocos tienen una puntuación

baja.

.

Dentro de las distribuciones simétricas existen algunas diferencias en cuanto al

grado de "agrupamiento" distribución (o curtosis) de los datos alrededor de un punto en

la distribución. Algunas son bastante puntiagudas, cuando el grado de concentración

de los casos es bastante alto (leptocúrticas); otras son bastante planas debido a que la

distribución es más uniforme (platicúrticas), y otras, no son ni muy puntiagudas ni muy

planas (mesocúrticas). Un ejemplo de distribución simétrica mesocúrtica de especial

importancia para la investigación social es la curva normal, tiene curvas más suaves y

forma de campana.

Veamos las siguientes figuras:

Page 33: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Figura Nª 1

. Figura Nº 2

Figura Nº 3

Podemos ver que en la figura 1 los datos están bastante concentrados alrededor

de algunos pocos valores centrales de la variable; mientras que en la 2 están muy

dispersos hacia ambos extremos de la distribución, y en la 3, la dispersión, es menor

que en la figura número dos pero mayor que en la uno.

Page 34: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

EJERCICIOS PROPUESTOS

1- Con la información que posee al final del ejercicio:

a- Diga cuál es el nivel de medición en el cuál está expresada esta variable. b- Haga dos tabla con los datos agrupados en intervalos de clase. Obtenga: frecuencias

absolutas y absolutas acumuladas c- Construya los histogramas correspondientes con los datos de los cuadro y diga qué

diferencia hay entre ambas distribuciones de acuerdo a su forma Puntajes del C.I. de 50 estudiantes en dos grupos de 25 Grupo A

85 119 93 99 106 91 91 89 120 106

104 106 124 101 97 113 120 96 108 104 125 129 105 118 105

Grupo B

102 108 109 114 108 127 100 104 106 114 121 108 113 105 125 116 114 118 115 121 100 102 110 108 122

2- Los datos que tiene a continuación representan las edades de dos grupos de niños que concurren a distintos comedores comunitarios de zonas periféricas (datos suministrados por personal municipal, institución responsable de los comedores, en diciembre de 1999). Construir:

a- Diga cuál es el nivel de medición en el cuál está expresada esta variable. b- Haga dos tabla con los datos agrupados en intervalos de clase. Obtenga: frecuencias

absolutas y absolutas acumuladas c- Construya los polígonos correspondientes con los datos de los cuadro y diga qué

diferencia hay entre ambas distribuciones de acuerdo a su forma. d- Póngales título y fuente a los gráficos.

Edades de dos grupos de niños que concurren a comedores comunitarios Grupo 1

3 5 6 3 2 4 6 7 3 6 4 5 4 5 6 2 6 8 6 7 4 5 3 4 7 2 9 10 8 2 6 7 1 2 3 4

Page 35: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Grupo 2

3 5 6 1 2 4 4 2 3 5 4 5 3 5 4 2 4 5 6 2 4 5 3 4 7 2 9 10 3 2 6 2 1 2 3 4

3- Los datos que tiene a continuación representan la cantidad de materias rendidas por un grupo de alumnos de tercer año de la carrera de Sociología (datos suministrados por los integrantes de un equipo de investigación de la facultad de Cs. Pol. y Sociales de la UNCuyo, Mza, 1999). Construir:

a- Un cuadro con los datos agrupados en intervalos con frecuencias absolutas y acumuladas

b- Decir que tipo de variable es en cuanto a su nivel de medición y construir un gráfico apropiado, ponerle título y fuente al gráfico (de considerarlo necesario puede agregar alguna información).

c- Hacer un diagrama de tallos y hojas d- Un gráfico transformando la variable en cualitativa. e- Una lectura con cada gráfico y decir qué forma tiene la distribución con la que está

trabajando.

3 5 6 1 12 4 3 5 6 1 2 4 4 5 3 6 4 5 4 5 13 6 4 5 4 5 11 2 6 7 4 11 4 2 6 7 6 7 4 5 3 4 6 7 4 5 3 4 7 2 9 10 3 2 7 2 9 10 3 12 6 7 1 2 3 4 6 7 1 2 3 4

4- Los datos que tiene a continuación representan las edades de dos grupos de alumnos de distintos años que han cursado tercer año de la carrera de Sociología (datos suministrados por personal de la cátedra Técnicas Estadísticas, de la Fac. de Cs. Pol. Y Sociales). Con ellos deberá:

a- Decir cuál es el nivel de medición en el cuál está expresada la variable. b- Hacer dos tabla con los datos agrupados en intervalos de clase. Obtener:

frecuencias absolutas y absolutas acumuladas porcentuales c- Construir los polígonos de frecuencias correspondientes y decir qué diferencia hay

entre ambas distribuciones de acuerdo a su forma. Edades de dos grupos de alumnos de 3º año de la carrera de Sociología

Page 36: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Grupo 1

19 20 22 31 20 40 20 20 21 27 23 20 20 19 26 21 24 20 22 22 24 19 25 20 22 22 29 20 52 20 53 37 37 20 31 19

Grupo 2

18 19 19 21 25 34 24 21 30 25 19 26 20 25 24 22 24 23 20 23 19 20 23 21 21 21 24 20 23 22 20 28 21 22 30 24

5- Los siguientes datos representan la cantidad de páginas que poseen los informes presentados por dos grupos de concejales de partidos opositores sobre una problemática de una zona periférica (datos suministrados por personal municipal, de la Comuna "XX" en Mza ). Construir: a- Diga cuál es el nivel de medición en el cuál está expresada esta variable b--Dos cuadros con los datos agrupados en intervalos con frecuencias absolutas y acumuladas porcentuales.(usar módulos iguales para ambos grupos) c- Construir un gráfico apropiado a la variable, para cada grupo y ponerle título y fuente (de considerarlo necesario puede agregar alguna información). Grupo A

13 15 16 11 22 14 15 13 16 14 10 20 24 12 16 16 27 14 15 13 17 12 19 9 23 16 17 11 12 13

Grupo B

14 13 15 16 11 15 14 15 13 16 17 14 25 14 12 14 16 17 14 15 22 17 12 19 10 14 16 17 11 12

6- Los datos siguientes representan la cantidad de personas asistentes a las reuniones del Consejo Directivo de una unidad académica durante un período de tiempo (datos suministrados por personal administrativo, de la Unidad Académica (2008), Mza ). Construir:

Page 37: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

a- Diga cuál es el nivel de medición en el cuál está expresada esta variable b- Realice un cuadro con los datos agrupados en intervalos con frecuencias absolutas y relativas c- Transformar la variable en cualitativa y construir un gráfico apropiado; ponerle título y fuente (de considerarlo necesario puede agregar alguna información).

10 15 16 11 22 14 13 15 16 11 14 15 13 16 14 15 14 15 13 26 10 20 24 12 16 17 14 25 14 12 16 27 14 15 13 14 16 17 30 15 17 12 29 9 23 22 17 12 19 10 16 17 11 12 13 14 16 17 11 12

7- Los datos que tiene a continuación representan las edades de un grupo de jóvenes que concurren a distintos eventos culturales (datos suministrados por el personal de la Institución organizadora, Mza,2009). a- Diga cuál es el nivel de medición en el cuál está expresada esta variable. b-Haga una tabla con los datos agrupados en intervalos de clase. Obtenga: frecuencias absolutas, relativas y acumuladas c-Construya una ojiva con los datos de los cuadro, póngale título y fuente, y realice dos lecturas apropiadas para este tipo de gráficos.

23 25 26 33 30 24 16 28 23 26 24 35 34 15 16 19 16 28 26 17 24 15 23 15 17 22 19 20 28 19 16 27 31 22 23 24

8-Diga cuáles son las clasificaciones de las distribuciones por su forma, grafíquelas y explique de qué dependen las diversas formas.

Page 38: 355tulo II Trabajando con los datos Personalizado.doc) · TRABAJANDO CON LOS DATOS Distribuciones de Frecuencias – Representaciones Gráficas El Conjunto de valores obtenidos como

Lidia C. Diblasi

Bibliografía:

Ambrosi, Hugo Oscar, “La verdad de las Estadísticas. Aprender con los datos”

Lumiere, Buenos. Aires, 2008

Bancroft, Huldah, "Introducción a la Bioestadística", EUDEBA.

Box, G.E.P.; Hunter, William; Stuart Hunter, J. “Estadística para investigadores.

Introducción al diseño de experimentos, análisis de datos y construcción de modelos”

Ed. Reverté, México, 2005.

Cea D`Ancona, María Ángeles, “Metodología Cuantitativa. Estrategias y Técnicas de

Investigación Social” Ed. Síntesis Sociología, Madrid, 2001.

Baranger, Denis, “Construcción y análisis de datos” Ed. Universitaria, UNM, Posadas,

1999.

Daniel, Wayne, “Estadística con aplicaciones a las Ciencias Sociales y de la

Conducta” Mc. Graw Hill, 1981

García Ferrando, Manuel; "Socioestadística. Introducción a la Estadística en

Sociología" Ed. Alianza, 1992.

Hernandez Sampieri, R.; Fernandez Collado, C.; Baptista Lucio, P. “Metodología de la

Investigación” Mc Graw Hill, Colombia 1994

Hokins, K; Hopkins, B.R.; Glass, G. “Estadística Básica para las Ciencias Sociales y del

Comportamiento”, Prentice Hall, 1997

Sentis,J.; Pardell,H.; Cobo,E., Canela,J. “Bioestadística” Masson.S.A. España, 1995.

Spiegel, Murray, "Teoría y Problemas de Estadística", Serie de Compendios Shaum,.

Instituto Nacional de Estadísticas y Censos, Encuesta Permanente de Hogares,

Ministerio de Economía, Gran Buenos Aires Octubre de 1997.

Diblasi, Lidia y Romagnoli, Ricardo, "Distribuciones de frecuencias y representaciones

gráficas", 1º edición 1991; 2º edición 2001.Apuntes de cátedras.

Mimeo.