6(correlación.variables.ordinales.dicotómicas)

14
1 6. TÉCNICAS PARA EL ESTUDIO DE LA RELACIÓN ENTRE VARIABLES (II) Correlación entre variables ordinales y nominales Introducción En el tema anterior vimos una correlación positiva entre dos variables, que se basaba en, a posiciones altas en una variable X le correspondían posiciones altas en una variable Y, y al contrario. En este tema nos ocuparemos de una correlación entre variables que no presentan este nivel de medida. Cuando nos encontramos ante niveles de medida ordinal o nominal, hablaremos de correlación entre dos variables si existe una vinculación entre cierta o ciertas modalidades de la primera variable y cierta o ciertas modalidades de la segunda. En este tema estudiaremos diferentes tipos de correlación entre variables. 1.EL COEFICIENTE DE CORRELACIÓN DE SPEARMAN. A modo de introducción explicaremos en primer lugar a qué nos referimos cuando hablamos de coeficiente de correlación: El análisis de las relaciones entre variables se realiza a través de coeficientes de correlación. Estos coeficientes, expresan cuantitativamente el grado en que dos o más variables tienden a variar conjuntamente, en el mismo sentido o en sentido opuesto. Dependiendo de la escala en que vengan medidas las variables, se pueden usar diferentes coeficientes de correlación. En esta unidad nos centraremos en el coeficiente de correlación de Spearman: qPar aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas al menos en escala ordinal, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas. qEste coeficiente puede aparecer denominado por la letra griega rs (rho). Aunque cuando nos situamos en el contexto de la Estadística Descriptiva se emplea rs. qPara la formula del calculo del coeficiente, bastaría con aplicar el coeficiente de correlación de Pearson a dos series de puntuaciones ordinales, compuesta cada una de ellas por los n

Upload: syn-prosthesis

Post on 01-Dec-2015

51 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 6(Correlación.Variables.Ordinales.Dicotómicas)

1

6. TÉCNICAS PARA EL ESTUDIO DE LA RELACIÓN ENTRE VARIABLES (II)

Correlación entre var iables ordinales y nominales

Introducción

En el tema anterior vimos una correlación positiva entre dos variables, que se basaba en, a posiciones altas en una variable X le correspondían posiciones altas en una variable Y, y al contrario. En este tema nos ocuparemos de una correlación entre variables que no presentan este nivel de medida. Cuando nos encontramos ante niveles de medida ordinal o nominal, hablaremos de correlación entre dos variables si existe una vinculación entre cierta o ciertas modalidades de la primera variable y cierta o ciertas modalidades de la segunda. En este tema estudiaremos diferentes tipos de correlación entre variables.

1.EL COEFICIENTE DE CORRELACIÓN DE SPEARMAN. A modo de introducción explicaremos en primer lugar a qué nos referimos cuando hablamos de coeficiente de correlación: El análisis de las relaciones entre variables se realiza a través de coeficientes de correlación. Estos coeficientes, expresan cuantitativamente el grado en que dos o más variables tienden a variar conjuntamente, en el mismo sentido o en sentido opuesto. Dependiendo de la escala en que vengan medidas las variables, se pueden usar diferentes coeficientes de correlación. En esta unidad nos centraremos en el coeficiente de correlación de Spearman:

qPar aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas al menos en escala ordinal, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas.

qEste coeficiente puede aparecer denominado por la letra griega rs (rho). Aunque cuando nos situamos en el contexto de la Estadística Descriptiva se emplea rs.

qPara la formula del calculo del coeficiente, bastaría con aplicar el coeficiente de correlación de Pearson a dos series de puntuaciones ordinales, compuesta cada una de ellas por los n

Page 2: 6(Correlación.Variables.Ordinales.Dicotómicas)

2

primeros números naturales. Este coeficiente de correlación nos resulta útil cuando estudiamos variables medidas en escala de intervalo.

qA partir de un conjunto de n puntuaciones, la formula que permite el cálculo de la correlación entre dos variables X e Y, medidas al menos en escala ordinal es la siguiente:

Aquí d es la distancia existente entre los puestos que ocupan las untuaciones correspondientesa un sujeto i cuando estas puntuaciones han sido ordenadas para X y para Y.

Propiedades 1.El coeficiente de correlación de Spearman se encuentra siempre

comprendido entre los valores ­1 y 1. 2.Cuando todos los sujetos se situan en el mismo puesto para la variable

X y par la variable Y, el valor de rs es 1. Si ocupan valores opuestos (al primer sujeto en X le corresponde el último lugar en Y, al segundo en X le corresponde el penúltimo en Y, etc... )entonces el valor de rs es ­1.

3.El coeficiente rs es un caso particular de rxy, puesto que se clacula a partir de este, por aplicación del coeficiente de Pearson a valores ordinales considerados como puntuaciones. Por ello, al aplicar la formula de rxy a los valores de dos series de rangos, obtendríamos el mismo resulatdoque con la formula de rs.

4.Si calculamos el coeficiente de correlación de Pearson entre dos variables X e Y, y el coeficiente de correlación de Spearman par las mismas puntuaciones pero transformadas en rangos, ambos coeficientes se aproximan en valor según aumenta el número de sujetos n.

n 6 S d i = 1

n ­ n

2 i

r = 1 ­ s 3

Page 3: 6(Correlación.Variables.Ordinales.Dicotómicas)

3

2. Coeficiente de contingencia.

Este se aplica para variables nominales. Cuando los valores de dos variables no pueden ser ordenados, sino que tienen que ser clasificados, para determinar la relación entre esas dos variables empleamos el coeficiente de contingencia.

El coeficiente de contingencia posee una serie de características, estas son:

5.No existe relación entre las variables, por tanto diremos que estas tendrán una proporción similar.

6.Se utiliza para evitar el efecto del tamaño de la muestra. 7.En una tabla de dos filas por columna es recomendable realizar la

corrección de Yates.

También este tipo de correlación posee una serie de propiedades que tenemos que tener en cuenta:

qEl coeficiente de contingencia C está comprendido entre 0 y 1. El coeficiente C presenta el valor cero cuando la relación entre las variables es nula, pero nunca alcanza el valor 1. El máximo dependerá del numero de filas y columnas.

qEl coeficiente C indica la intensidad de relación entre las variables que se estan midiendo.

qEl valor de C depende del número de filas y columnas de la tabla de contingencia construido para su calculo.

qEl coeficiente C no es comparable a otros coeficientes de correlación, valores similares indicaría diferentes grados de correlación.

Page 4: 6(Correlación.Variables.Ordinales.Dicotómicas)

4

Ejemplo

Queremos determinar si existe relación entre el sexo y la especialidad cursada para los alumnos que estudian Magisterio, a partir de los datos correspondientes a 349 alumnos de una escuela de Magisterio.

Distribución conjunta de frecuencias para sexo y especialidad. Ciencias Humanas Lengua Preescolar

Hombre 70 60 36 12 178 Mujer 40 54 39 38 171

110 114 75 50 349

En primer lugar calcularemos el valor de X . Partiendo del supuesto de que no hay relación entre las dos variables, es preciso calcular las frecuencias esperadas en cada celdilla de la tabla. Por ejemplo, la proporción de alumnos que estudian ciencias tiene que ser similar a las alumnas que estudian ciencias. Hombres 70/178=0,39, y alumnas 40/171=0,23.Por esto decimos que cuando las variables son independientes se pueden calcular con la siguiente fórmula.

Fe = ff ∙ fc n

fe = Frecuencias esperadas

ff = Frecuencia marginal de la fila

fc = Frecuencia marginal de la columna

Frecuencias observadas y esperadas para sexo y especialidad Ciencias Humanas Lengua Preescolar

Hombres 70(56,1) 60(58,1) 36(38,3) 12(25,5) 178 Mujer 40(53,9) 54(55,9) 39(36,7) 38(24,8) 171

110 114 75 50 349

Page 5: 6(Correlación.Variables.Ordinales.Dicotómicas)

5

También puede comprobarse que la proporción de hombres será ahora la misma en las especialidades de Ciencias, Humanas, Lenguas y preescolar. En efecto, 56,1/110=58,1/114=38,3/75=25,5/50=0,51.

A partir de las frecuencias observadas y esperadas podremos aplicar la fórmula de calculo para X y obtener un valor que puede ser tomado como medida de independencia entre las dos variables. Si las frecuencias empíricas resultan ser iguales que las frecuencias teóricas, diremos que no existe relación entre las variables sexo y especialidad. Cuanto más se alejen las frecuencias teóricas de las observadas, mayor será la relación entre las dos variables. El valor X se construye apartir de la distancia entre las frecuencias observadas y las frecuencias esperadas, es decir, indica en qué medida la distribución de frecuencia se aleja de los valores que cabría esperar en el caso de que no hubiera relación entre las dos variables.

El valor de X presenta problemas como medida de correlación, puesto que su cuantia depende del número de sujetos considerados. A medida que reincrementa n, crece también el valor de X . Si dispusiéramos del doble de alumnos en cada celda de la tabla de contingencia, el valor de X sería también el doble. En general, si multiplicamos las frecuencias observadas por K, el valor de X se verá incrementado también en un número de veces igual a K. Precisamente, para evitar el efecto del tamaño de la muestra, utilizamos como coeficiente de correlación el coeficiente de contingencia C:

3. Coeficiente de correlación biser ial puntual.

¿Cuándo lo utilizamos? El coeficiente de correlación biserial puntual se utiliza cuando queremos conocer la correlación existente entre dos variables, de las cuales una ha sido metida en escala de intervalos y la otra resulta ser una variable dicotómica.

¿Qué son las var iables dicotómicas?

Page 6: 6(Correlación.Variables.Ordinales.Dicotómicas)

6

Aquellas que presentan únicamente dos modalidades, tales como el sexo (varón­mujer). A estas modalidades les solemos atribuir los valores 0 y 1 aunque podemos atribuir cualquier otro par de valores.

¿Cómo se denota el coeficiente de cor relación biser ial puntual? Generalmente se denota mediante la expresión rbp

¿Cómo lo calculamos? Existen dos fórmulas, equivalentes, que permiten el cálculo del coeficiente de correlación biserial puntual entre una variable X, medida en escala de intervalos, y una variable dicotómica Y.

Donde: p: es la proporción de sujetos con una de las dos modalidades posibles de la variable Y q: es la proporción de sujetos con la otra modalidad Xp: es la media en X de los sujetos cuya proporción es p Xq: es la media en X de los sujetos cuya proporción es q X: es la media en X de todos los sujetos Sx: es la desviación típica en X de todos los sujetos

Ejemplo: Considerando que en un aula universitaria los resultados obtenidos en una prueba de evaluación (variable X) y el sexo de los alumnos (variable Y), son los que aparecen recogidos en la tabla 1, determinar la correlación existente entre ambas variables. El sexo de los individuos se ha codificado como 1 cuando se trata de alumnos.

Tabla 1:

X 18 12 14 16 14 9 20 16 17 14 12 10 15 16 13 12 19 20 15 16 14 Y 1 1 2 2 1 1 2 2 2 1 1 1 2 2 1 1 2 2 1 1 1

Para determinar la correlación existente entre ambas variables, utilizaríamos el coeficiente de correlación biserial puntual. En primer lugar calcularemos el valor de las proporciones de los alumnos (p) y alumnas (q), teniendo en cuenta que en el grupo de 21 alumnos 12 son hombres (modalidad 1) y 9 son mujeres (modalidad 2): p= 12/21= 0.5714 hombres ; q= 9/21=0.4285

Page 7: 6(Correlación.Variables.Ordinales.Dicotómicas)

7

A continuación calculamos los valores de la media de la variable X, la media de la variable X para los 12 sujetos de la modalidad 1 y la desviación típica de X. Sería:

A partir de estos valores calculamos el coeficiente de correlación biserial puntual, usando la fórmula de rbp

Por tanto, el valor de la correlación entre ambas variables es ­ 0.635, al tratarse de un coeficiente de signo negativo, a puntuaciones altas en la varible X corresponde pertenecer a la categoría cuya proporción es q. Es decir las puntuaciones altas en la prueba de evaluación se asocia a las alumnas, mientras que las puntuaciones bajas se asocia a los alumnos.

q Propiedades

­ El coeficiente rbp es resultado de aplicar el coeficiente de correlación de Pearson al caso en que una de las variables tiene carácter dicotómico. ­ El valor de rbp no puede ser mayor que 1 ni menor que –1. ­ Un coeficiente de correlación positivo indicará que a puntuaciones altas de X corresponde pertenecer a la categoría cuya proporción es p, mientras que a puntuaciones bajas de X corresponde pertenecer a la categoría cuya proporción es q. Un coeficiente negativo se interpretará en sentido contrario, es decir, a puntuaciones altas de X correspondería la categoría cuya proporción es q, y a puntuaciones bajas aquella cuya proporción es p.

Page 8: 6(Correlación.Variables.Ordinales.Dicotómicas)

8

4. Coeficiente de correlación biser ial. ¿Cuándo lo utilizamos? El coeficiente de correlación biserial se utiliza cuando queremos conocer la correlación existente entre dos variables, de las cuales una aparece medida al menos en una escala de intervalos, mientras que la otra ha sido dicotomizada artificialmente a partir de una variable que se distribuía originalmente de forma normal. ¿Qué son las var iables dicotomizadas? Aquellas variables que pueden presentar más de dos modalidades, pero han sido transformadas en variables dicotómicas. Por ejemplo, las variables de rendimiento académico (aprobado­suspenso), asistencia (alta­baja)..

¿Cómo se denota el coeficiente de cor relación biser ial? Generalmente el coeficiente de correlación biserial se expresa por rbp

¿Cómo lo calculamos? Existen dos expresiones equivalentes

Donde: p: es la proporción de sujetos con una de las dos modalidades posibles de la variable Y q: es la proporción de sujetos con la otra modalidad Xp: es la media en X de los sujetos cuya proporción es p Xq: es la media en X de los sujetos cuya proporción es q X: es la media en X de todos los sujetos Sx: es la desviación típica en X de todos los sujetos y: es la ordenada correspondiente a un valor de z que deja a derecha e izquierda, en una distribución normal, sendas proporciones del área bajo la curva iguales a p y q respectivamente.

Ordenada correspondiente a un valor de z en la curva normal

Page 9: 6(Correlación.Variables.Ordinales.Dicotómicas)

9

El valor de las expresiones de p/y o pq/y no es necesario calcularlo, ya que nos lo proporcionan tablas construidas para la curva normal (ejemplo: Amón, 1986:372­373 ó Glass y Stanley, 1980:511­517).

Ejemplo: Al analizar el contexto familiar en que se desarrolla el estudio de los alumnos de un aula de Educación Secundaria, se han recogido datos para una serie de variables, entre las que se encuentra la dedicación al estudio – variable X­ (número de horas semanales) y el tamaño de la familia – variable Y­ consignado si esta consta de más de cuatro miembros (modalidad 1) o de cuatro miembros o menos (modalidad 0). A partir de los datos obtenidos en la tabla 2, determinar la correlación existente entre ambas viables:

Tabla 2:

X 9 3 2 8 8 7 1 1 2 6 4 8 3 7 7 5 6 8 9 9 4 4 Y 1 0 0 1 1 1 0 0 0 1 0 1 0 1 1 0 0 1 1 1 0 0

Comenzamos calculando la proporción de individuos que proceden de familias con cuatro o menos miembros (p) y la de sujetos de familias con más de cuatro miembros (q): p= 11/22= 0.5 ; q= 11/22= 0.5 Necesitamos también calcular la media de la variable X, para los individuos de familias de tamaño pequeño y la desviación típica para X

Con estos valores y consultando una tabla de ordenadas para los valores z en la curva normal, tendremos:

El signo negativo indica que a puntuaciones altas en la variable X corresponde en la variable Y la modalidad cuya proporción es q. Por tanto los alumnos con elevada dedicación al estudio suelen ser los que proceden de familias con más de cuatro miembros.

oPropiedades

­ Si aplicamos a unos mismos datos los coeficientes rbp y rb , obtendremos en el segundo caso un valor en términos absolutos más elevado. Se cumple: rbp <rb.

Page 10: 6(Correlación.Variables.Ordinales.Dicotómicas)

10

­ El coeficiente rb no siempre está correspondido entre los valores –1 y 1, sino que puede ser mayor que 1 o menor que –1. ­ Un coeficiente de correlación positivo indicará que a puntuaciones altas de X corresponde pertenecer a la categoría cuya proporción es p, mientras que a puntuaciones bajas de X corresponde pertenecer a la categoría cuya proporción es q. Un coeficiente negativo se interpretará al contrario, a puntuaciones altas de X correspondería la categoría cuya proporción es q, y a puntuaciones bajas aquella cuya proporción es p.

5. El coeficiente de cor relación PHI. El coeficiente de correlación phi, se emplea cuando nos encontramos ante dos variables dicotómicas, es decir, para las cuales sólo es posible considerar dos modalidades. Es el resultado de aplicar rxy a los valores correspondientes a dos variables de este tipo.

Tabla en la que queda reflejada la distribución conjunta de frecuencias para las dos variables. Asignamos los valores 0 y 1 en cada una de las dos modalidades.

0 1 1 a b 0 c d

Las letras a, b, c y d, representan la frecuencia en cada una de las celdillas de la tabla. El coeficiente phi se calcula mediante la siguiente formula:

Propiedades:

q El coeficiente φ es un caso particular de rxy. q El coeficiente de correlación φ se encuentra comprendido entre

los valores ­1 y 1.

Page 11: 6(Correlación.Variables.Ordinales.Dicotómicas)

11

q El valor de φ será 1 cuando todos los sujetos que presentan la modalidad 1 en X presentan la modalidad 1 en Y, y todos los sujetos con 0 en X obtienen 0 en Y. el valor de φ será ­1 cuando los valores no coincidan.

­ si calculamos el valor de x 2 para una tabla de contingencia de dos filas por dos columnas, se cumple la equivalencia:

Ejemplo: De un grupo de 200 estudiantes universitarios que han pasado una prueba objetiva, se sabe que 140 han acertado el ítem 34.se sabe además que 30 varones han fallado, del grupo total de 80 varones. Determina el valor de la relación entre el sexo y le numero de aciertos al ítem 34.

Consideremos de una parte la variable sexo, con los valores 0 para los hombres y 1 para las mujeres, y de otra el resultado de la respuesta al ítem, con los valores 0 al error y 1 al acierto. La tabla puede completarse a partir de los datos del enunciado.

Conociendo todos los valores de las celdas, podemos aplicar la fórmula:

Page 12: 6(Correlación.Variables.Ordinales.Dicotómicas)

12

El valor resultante no es muy elevado. El signo de la correlación indicaría que la tendencia observada es la asociación entre las modalidades 0 de cada variable y entre las modalidades 1. Así, acertar el ítem se asociaría a las mujeres y errarlo a los hombres.

6. Coeficiente de correlación tetracór ica.

El coeficiente de correlación tetracórica, expresado por rt, se utiliza cuando las variables con las que trabajamos han sido dicotomizadas de manera artificial. Es más apropiado emplear el coeficiente ϕ cuando las variables son estrictamente dicotómicas, y recurrir a rt cuando las variables, siendo originalmente continuas, aparecen dicotomizadas. El coeficiente rt no es aplicación directa de r xy, sino una estimación del valor de éste en el caso en que las dos variables no hubieran sido dicotomizadas y la relación entre ellas fuera lineal. Se demuestra que el valor de rt viene dado por un complejo desarrollo en serie de potencias de rt, que eludiremos presentar aquí. Sin embargo, como vía alternativa, el calculo se ve enormemente facilitado por el uso de tablas que permiten encontrar el valor de rt en función de las frecuencias alcanzadas para cada par de modalidades posibles.

Veamos como se procede al calcular el valor de este coeficiente. Si la distribución conjunta de frecuencias correspondiente a las variables X e Y es la que aparece en la tabla 9, obtenemos en primer lugar los productos ad y cb comparándolos entre sí, y construimos un cociente en el que el mayor de estos productos aparezcan en el numerador:

Si ad > cb, calculamos el cociente ad/cb. Si ad < cb, calculamos el cociente cb/ad.

q q q q

qTabla 9: tabla para el cálculo de r t X

0 1 1 a b 0 c d

Y

Page 13: 6(Correlación.Variables.Ordinales.Dicotómicas)

13

El valor obtenido para este cociente puede ser trasladado a la tabla 11 para determinar el coeficiente de correlación tetracórica que le corresponde. Conocido el valor de rt, asignamos el signo con el siguiente criterio:

Si ad > cb, el coeficiente rt es negativo. Si ad < cb, el coeficiente rt es positivo.

Ejemplo: Las calificaciones obtenidas por los alumnos de un curso de Estadística ( variable X ) y su grado de cumplimiento con las tareas desarrolladas durante el curso ( variable Y ) han sido dicotomizadas del modo que muestra la tabla 10. Determinar la correlación existente entre ambas variables.

qTabla 10: datos correspondientes al ejemplo

Desarrollo de tarea (Y) Bajo (o) Alto(1)

Aprobado (1) 2 10 Suspenso (0) 7 4

Puesto que ad=8 y cb=70, se cumple que cb>ad, luego vamos a obtener un coeficiente de correlación positivo. Calculamos el cociente cb/ad:

c⋅b 7⋅10 70

= = = 8.75 a⋅d 2⋅4 8 Consultando la tabla 11, encontramos que 8075 se encuentra comprendido en el intervalo [8.500, 8.910], por lo que el coeficiente de correlación tetracórica valdrá en este caso rt = 0.70.

Un coeficiente positivo, como el que hemos obtenido, indica que a valores 1 de la variable X corresponden predominantemente valores 1 en la variable Y, y a valores 0 en X corresponden valores 0 en Y. Es decir, al aprobado

Page 14: 6(Correlación.Variables.Ordinales.Dicotómicas)

14

corresponde un desarrollo alto de tareas, mientras que el suspenso se asocia a un nivel bajo en el desarrollo de tareas.

§Propiedades

a) El coeficiente rt puede valer más que 1 o menos que –1. Este coeficiente de correlación será positivo cuando cb sea mayor que ad. En tal caso, existe una relación entre las dos variables en el sentido de que los sujetos que presentan el valor 0 en la variable X tienden a presentar el valor 0 también en Y, y sujetos que presentan el valor 1 en Y. Por el contrario, el coeficiente será negativo cuando cb sea menor que ad. En tal situación, predominan los sujetos situados en las casillas correspondientes a las frecuencias a y d. Es decir, existe relación entre presentar el valor 1 en X y el valor 0 en Y.

b) Si una de las cuatro frecuencias de la tabla de distribución conjunta es nula, el coeficiente de correlación tetracórica tendrá un valor rt = 1 ó rt = ­ 1. Si a ó d adoptan el valor 0, tendremos que en cb/ad, el denominador es 0, y por tanto el cociente tiende a infinito. La tabla 11 asigna, en este caso, un coeficiente rt = 1. Si b ó c adoptan el valor 0, tendremos que en ad/cb, el denominador se hace 0, y consecuentemente el cociente tiende a infinito. La tabla 11 asigna ahora un coeficiente rt = ­1.

c) Para un mismo conjunto de datos, se cumple que rt vale aproximadamente (3/2) ϕ. Esta aproximación es tanto mejor cuanto más próximos se encuentren a la mediana los puntos de dicotomización de ambas variables y cuando rt es menor o igual a 0.50.