regresiÓn y correlaciÓn · 2009-06-04 · recomiendo se siga el proceso descrito en la...

22
Regresión y correlación (F. Álvarez) - 1 REGRESIÓN Y CORRELACIÓN Métodos Estadísticos Aplicados a las Auditorías Sociolaborales Francisco Álvarez González http://www2.uca.es/serv/fag/fct/ [email protected] DISTRIBUCIONES BIVARIANTES El estudio de la relación existente entre dos variables X e Y conduce a la consideración simultánea de ambas variables estadísticas. Tal distribución de las dos variables se denomina bivariante. La presentación de los datos experimentalmente observados puede hacerse : a) Mediante los pares (X i , Y i ) : (X 1 , Y 1 ) , (X 2 , Y 2 ) , (X 3 , Y 3 ) , ... b) Tabla simple de frecuencias : c) Tabla de frecuencias de doble entrada : X Y n Y X 1 Y 1 n 1 Y 1 Y 2 .... .... Y m X 2 Y 2 n 2 X 1 n 11 n 12 .... .... n 1m .... .... .... X X 2 n 21 n 22 .... .... n 2m X n Y n n n .... .... .... .... .... .... X n n n1 n n2 .... .... n nm Distribuciones marginales : Son las obtenidas de la distribución bivariante, al considerar de forma independiente cada una de las dos variables. De ellas obtendremos los parámetros de centralización y dispersión característicos : media y desviación típica. X s s Y s s X X Y Y , , , , , 2 2 Covarianza : Este índice de variación conjunta de X e Y se define como : ( ) ( ) Y X N Y X n N Y Y X X n s i i i i i i i i XY . . . . . = = para tablas simples de frecuencias ( ) ( ) Y X N Y X n N Y Y X X n s i j j i ij i j j i ij XY . . . . . = = ∑∑ para tablas de frecuencias de doble entrada. Si s XY = 0 expresará que las variables X e Y son independientes. RECTAS DE REGRESIÓN Representando los pares de observaciones (X,Y) como puntos en un plano cartesiano, obtenemos el denominado diagrama de dispersión o nube de puntos. Por recta de regresión o de ajuste entendemos la recta que más se aproxima a los puntos representativos de las observaciones (X,Y). El método de los mínimos cuadrados proporciona un sistema de obtención de tales rectas, estableciendo que sea mínima la suma de los cuadrados de las separaciones existentes entre cada punto y la recta. Según se consideren estas separaciones en vertical (lo representado en la figura) o en horizontal, se obtienen, respectivamente, las rectas de regresión de Y sobre X y de X sobre Y.

Upload: trinhdang

Post on 30-Sep-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 1

REGRESIÓN Y CORRELACIÓN Métodos Estadísticos Aplicados a las Auditorías Sociolaborales

Francisco Álvarez González

http://www2.uca.es/serv/fag/fct/ [email protected]

DISTRIBUCIONES BIVARIANTES

El estudio de la relación existente entre dos variables X e Y conduce a la consideración simultánea de ambas variables estadísticas. Tal distribución de las dos variables se denomina bivariante. La presentación de los datos experimentalmente observados puede hacerse :

a) Mediante los pares (Xi , Yi) : (X1 , Y1) , (X2 , Y2) , (X3 , Y3) , ...

b) Tabla simple de frecuencias : c) Tabla de frecuencias de doble entrada :

X Y n Y X1 Y1 n1 Y1 Y2 .... .... Ym X2 Y2 n2 X1 n11 n12 .... .... n1m .... .... .... X X2 n21 n22 .... .... n2m Xn Yn nn .... .... .... .... .... .... Xn nn1 nn2 .... .... nnm

Distribuciones marginales : Son las obtenidas de la distribución bivariante, al considerar de forma independiente cada una de las dos variables. De ellas obtendremos los parámetros de centralización y dispersión característicos : media y desviación típica.

X s s Y s sX X Y Y, , , , ,2 2

Covarianza : Este índice de variación conjunta de X e Y se define como :

( )( )YX

N

YXn

N

YYXXns i

iiii

iii

XY .....

−=−−

=∑∑

para tablas simples de frecuencias

( )( )YX

N

YXn

N

YYXXns i j

jiiji j

jiij

XY .....

−=−−

=∑∑∑∑

para tablas de frecuencias de doble

entrada.

Si sXY = 0 expresará que las variables X e Y son independientes.

RECTAS DE REGRESIÓN

Representando los pares de observaciones (X,Y) como puntos en un plano cartesiano, obtenemos el denominado diagrama de dispersión o nube de puntos. Por recta de regresión o de ajuste entendemos la recta que más se aproxima a los puntos representativos de las observaciones (X,Y). El método de los mínimos cuadrados proporciona un sistema de obtención de tales rectas, estableciendo que sea mínima la suma de los cuadrados de las separaciones existentes entre cada punto y la recta.

Según se consideren estas separaciones en vertical (lo representado en la figura) o en horizontal, se obtienen, respectivamente, las rectas de regresión de Y sobre X y de X sobre Y.

Page 2: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

2 - Regresión y correlación (F. Álvarez)

RECTA DE REGRESIÓN DE Y SOBRE X

Y' = a + b.X a = ordenada en el origen b = coeficiente de regresión de Y sobre X = pendiente de la recta de regresión = tangente del ángulo que forma con el eje horizontal. Y' = predicciones de Y para el valor X observado.

Los coeficientes a y b de la recta de regresión de Y sobre X se obtienen resolviendo el sistema :

⎭⎬⎫

=+=+

∑∑∑∑∑

YXnXnbXfaYnXnbNa......

....2

el cuál tiene como solución : bss

a Y b XXY

X

= = −2 .

RECTA DE REGRESIÓN DE X SOBRE Y

X' = a' + b'.Y a' = ordenada en el origen b' = coeficiente de regresión de X sobre Y = pendiente de la recta de regresión. X' = predicciones de X para el valor Y observado.

Los coeficientes a' y b' de la recta de regresión de X sobre Y se obtienen igualmente al resolver :

⎭⎬⎫

=+=+

∑∑∑∑∑

YXnYnbYfaXnYnbNa...'..'.

..'.'.2

o directamente : bss

a X b YXY

Y

' ' ' .= = −2

Otro procedimiento de cálculo simplificado permite obtener los coeficientes de regresión del siguiente modo : ( )( )( )22.

...

∑∑∑∑∑

−=

XXN

YXYXNb

( )( )( )22.

...'

∑∑∑∑∑

−=

YYN

YXYXNb

Si utilizamos puntuaciones diferenciales : x X X= − y Y Y= − , las rectas de regresión pierden el término independiente (ordenadas en el origen a y a' ) al ser las medias nulas, siendo su expresión : y' = b.x x' = b'.y

COEFICIENTE DE CORRELACIÓN DE PEARSON

La recta de regresión es la que pasa más cerca de las observaciones, pero no nos indica si pasa muy cerca o no de ellas. Hemos de definir una medida del grado de asociación o relación entre ambas variables, lo cuál, en términos de recta de ajuste, indicará la bondad de la misma. Tal coeficiente se denomina coeficiente de correlación, definido por Pearson del siguiente modo :

r b bs

s sXY

X Y

= =. '.

ya que : r b bss

ss

ss s

ss s

XY

X

XY

Y

XY

X Y

XY

X Y

= = = =. ' .. .2 2

2

2 2

Según las expresiones finales obtenidas para b y b', podemos también calcularlo como : ( )( )

( )[ ] ( )[ ]2222 ...

...

∑∑∑∑∑∑∑

−−

−=

YYNXXN

YXYXNr

La expresión conduce a las siguientes relaciones (sin más que multiplicar y dividir por sX o por sY ) :

r bss

r bss

X

Y

Y

X

= =. ' .

De aquí resulta que, si se trabaja con puntuaciones tipificadas (las desviaciones típicas son iguales a 1) :

r = b = b' y las rectas de regresión son : z'Y = r.z'X ; z'X = r.z'Y

El coeficiente de correlación toma siempre valores comprendidos entre -1 y 1 : -1 ≤ r ≤ 1

Proporción de varianza explicada por X = r2 = Coeficiente de determinación ( R2 ) (Suele expresarse en %, lo cuál se obtendría: R2 = r2 x 100 )

Page 3: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 3

Interpretación :

r Asociación de las variables Bondad del ajuste próximo a 0 Variables independientes o no relacionadas

linealmente Mala recta de ajuste. No pasa cerca de las observaciones.

próximo a 1 Variables relacionadas directamente (cuando una aumenta la otra también)

Buena recta de ajuste. Creciente (pendientes b y b' positivas)

próximo a -1 Variables relacionadas inversamente (cuando una aumenta la otra disminuye)

Buena recta de ajuste. Decreciente (pendientes b y b' negativas)

OTROS PROCEDIMIENTOS DE CÁLCULO DEL COEFICIENTE DE CORRELACIÓN r

Coeficiente de correlación ϕ (phi) :

El siguiente procedimiento se puede utilizar cuando las dos variables X e Y son dicotómicas.

Y 1 0 Asignemos los valores 0 y 1 a ambas variables y realicemos el recuento

X 1 a b representado en la tabla de la izquierda. 0 c d El coeficiente de correlación ϕ toma el valor :

( )( )( )( )dbcadcbabcad

++++−

=...

ϕ

Coeficiente de correlación biserial puntual rbp :

El siguiente procedimiento se puede utilizar cuando una variable es continua y la otra dicotómica. Supuesta X continua :

rX X

sp qbp

X=

−1 0 . . Siendo : X1 la media de los valores de X que se corresponden con un 1 en Y.

X0 la media de los valores de X que se corresponden con un 0 en Y. sX la desviación típica de X (considerados sus valores globalmente). p la proporción de unos en Y. q=1-p la proporción de ceros en Y.

Coeficiente de correlación por rangos de Spearman ρ :

El siguiente procedimiento se puede utilizar cuando las dos variables son ordinales (reordenaciones de una serie de elementos).

( )1..6

1 2

2

−−= ∑

NNd

ρ Siendo d las diferencias entre los valores de X e Y.

Los coeficientes de correlación anteriores no son más que una adaptación del coeficiente de correlación de Pearson para tipos especiales de variables. En consecuencia, su valor coincide con el que habríamos obtenido siguiendo el procedimiento de Pearson (r); por ello, su interpretación es la establecida para r .

Page 4: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

4 - Regresión y correlación (F. Álvarez)

OBSERVACIÓN PRÁCTICA En el presente tema se sigue la metodología clásica y los procedimientos habituales de cálculo. No obstante, ante las dificultades que pueden observar algunos alumnos, RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS

Page 5: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 5

Page 6: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

6 - Regresión y correlación (F. Álvarez)

EJERCICIOS RESUELTOS

1 La tabla siguiente contiene los resultados de las calificaciones en Matemáticas (X) y Lengua (Y) de un grupo de 40 alumnos de Secundaria.

X Y n 3 4 3 a) Obtenga la recta de regresión de Y sobre X. 3 5 5 b) Obtenga la recta de regresión de X sobre Y. 5 5 12 c) Calcule e interprete el coeficiente de correlación lineal. 6 6 4 d) Calcule e interprete el coeficiente de determinación 6 7 5 6 8 3 7 7 6 8 8 2 Tabla de cálculos :

X Y n n.X n.Y n.X2 n.Y2 n.X.Y 3 4 3 9 12 27 48 36 3 5 5 15 25 45 125 75 5 5 12 60 60 300 300 300 6 6 4 24 24 144 144 144 6 7 5 30 35 180 245 210 6 8 3 18 24 108 192 144 7 7 6 42 42 294 294 294 8 8 2 16 16 128 128 128 40 214 238 1226 1476 1331

a) Recta de regresión de Y sobre X.

X Y= = = =21440

5 35 23840

5 95' '

( )( )( )

71'032442308

2141226.40238.2141331.40

.

...222

==−

−=

−=

∑∑∑∑∑

XXN

YXYXNb

a Y b X= − = − =. ' ' . ' '5 95 0 7115 5 35 2 1436

Recta de regresión de Y sobre X :

Y' = 2'1436 + 0'7115.X

b) Recta de regresión de X sobre Y.

( )( )( )

96'023962308

2381476.40238.2141331.40

.

...' 222

==−

−=

−=

∑∑∑∑∑

YYN

YXYXNb

a X b Y' ' . ' ' . ' '= − = − = −5 35 0 9633 5 95 0 3815

Recta de regresión de X sobre Y :

X' = -0'3815 + 0'9633.Y

c) Coeficiente de correlación de Pearson.

Conocidos los coeficientes de regresión puede calcularse como : r b b= = =. ' ' . ' '0 7115 0 9633 0 8279

Existe una elevada relación entre las calificaciones en Matemáticas y Lengua. Dicha relación es positiva (directa); es decir, alumnos con altas calificaciones en Matemáticas se corresponden con altas calificaciones en Lengua, y a la inversa.

Podemos afirmar que las rectas de regresión obtenidas son buenas rectas de ajuste. Es decir, expresan con una elevada aproximación la relación matemática (lineal) existente entre las calificaciones en Matemáticas y Lengua.

d) R2.

La proporciona : r2 = 0'82792 = 0'6854. Es decir el 68'54%.

Page 7: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 7

2 De la distribución bivariante siguiente :

Y 0 1 2 X 2 0 1 5 4 0 9 0 6 8 0 0

a) Obtenga la recta de regresión de Y sobre X. b) Obtenga la recta de regresión de X sobre Y. c) Calcule e interprete el coeficiente de correlación lineal. d) Calcule e interprete el coeficiente de determinación.

Obtenemos las distribuciones marginales de X y de Y totalizando las frecuencias en filas y columnas :

Y 0 1 2 Σ X 2 0 1 5 6 4 0 9 0 9 6 8 0 0 8 Σ 8 10 5 23

X n n.X n.X2 Y n n.Y n.Y2 2 6 12 24 0 8 0 0 4 9 36 144 1 10 10 10 6 8 48 288 2 5 10 20 23 96 456 23 20 30

La suma de los productos de X por Y hemos de obtenerla directamente de la tabla proporcionada : ==∑∑∑

i jjiij YXnYX ... 0.2.0 + 1.2.1 + 5.2.2 + 0.4.0 + 9.4.1 + 0.4.2 + 8.6.0 + 0.6.1 + 0.6.2 = 58

Como puede observarse, sólo realizamos los productos correspondientes a frecuencias y valores de variables no nulos. X Y.∑ = 1.2.1 + 5.2.2 + 9.4.1 = 58

Utilicemos las medias y varianzas de X e Y, así como la covarianza, en los cálculos solicitados.

X Y s sX Y= = = = = − = = − =9623

4 1739 2023

0 8696 45623

4 1739 2 4045 3023

0 8696 0 54822 2 2 2' ' ' ' ' '

Covarianza = 1078'18696'0.1739'42358.

..

..−=−=−=−= ∑∑∑

YXN

YXYX

N

YXns i j

jiij

XY

a) Recta de regresión de Y sobre X :

bss

a Y b XXY

X

= =−

= − = − = − − =2

1 10782 4045

0 4607 0 8696 0 4607 4 1739 2 7925''

' . ' ( ' ). ' '

Y' = 2'7925 - 0'4607 . X

b) Recta de regresión de X sobre Y : b

ss

a X b YXY

Y

' ''

' ' ' . ' ( ' ). ' '= =−

= − = − = − − =2

1 10780 5482

2 0207 4 1739 2 0207 0 8696 5 9310

X' = 5'9310 - 2'0207 . Y

c) Coeficiente de correlación : Utilizando la expresión ( )( ) 9648'00207'2.4607'0'. ±=−−== bbr podemos tener duda en cuanto al signo del coeficiente de correlación. Este signo es el de b y b', ya que es el que proporciona la covarianza.

Calculado como rs

s sXY

X Y

= =−

= −.

'' . '

'1 10782 4045 0 5486

0 9648 no se planteará tal dificultad.

Page 8: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

8 - Regresión y correlación (F. Álvarez)

d) Coeficiente de determinación :

Es el cuadrado del coeficiente de correlación, representando la proporción de varianza explicada por la variable X (en el ajuste de Y sobre X).

( ) 9309'09648'0 222 =−== rR La variable X explica el 93'09% de la varianza de Y. Sólo el 6'91% no es atribuible a X.

3 De la siguiente distribución bivariante :

Y [0,1) [1,2) [2,3] X 2 1 2 1 3 3 6 3 4 1 2 1

a) Calcule e interprete el valor de la covarianza. b) Obtenga la recta de regresión de Y sobre X. c) Obtenga la recta de regresión de X sobre Y. d) Calcule el coeficiente de correlación lineal y el de determinación.

Totalizando filas y columnas obtendremos las distribuciones marginales de X e Y :

Y 0'5 1'5 2'5 X 2 1 2 1 4 3 3 6 3 12 4 1 2 1 4 5 10 5 20

X n n.X n.X2 Y n n.Y n.Y2 2 4 8 16 0'5 5 2'5 1'25 3 12 36 108 1'5 10 15 22'5 4 4 16 64 2'5 5 12'5 31'25 20 60 188 20 30 55

==∑∑∑i j

jiij YXnYX ... 1.2.0'5 + 2.2.1'5 + 1.2.2'5 + 3.3.0'5 + 6.3.1'5 + 3.3.2'5 + 1.4.0'5 + 2.4.1'5 + 1.4.2'5 = 90

a) Covarianza : X Y= = = =

6020

3 3020

1 5'

Covarianza = 05'45'45'1.32090.

..

..=−=−=−=−= ∑∑∑

YXN

YXYX

N

YXns i j

jiij

XY

Interpretación : Las variables son independientes. Siendo nula la covarianza, también los serán los coeficientes de regresión, el coeficiente de correlación y el de determinación, dado que en sus cálculos interviene la covarianza en el numerador.

Al ser nulos los coeficientes de regresión, a coincidirá con la media de Y y a' con la de X.

b) Recta de regresión de Y sobre X : b

ss s

a Y b XXY

X X

= = = = − = − =2 2

0 0 1 5 0 3 1 5. ' . ' ⇒ Y' = 1'5

c) Recta de regresión de X sobre Y : b

ss s

a X b YXY

Y Y

' ' ' . . '= = = = − = − =2 2

0 0 3 0 1 5 3 ⇒ X' = 3

d) Coeficiente de correlación y de determinación :

Como se indicó en el apartado a), al ser nula la covarianza, ambos coeficientes también lo son :

Page 9: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 9

r b b= = =. ' .0 0 0 rs

s s s sXY

X Y X Y

= = =. .

0 0 R r2 2 0= =

4 Se desea estudiar la relación entre las calificaciones obtenidas en un test (puntuado de 0 a 5) y el sexo del alumno que lo realiza. Los resultados observados fueron :

Test Sexo Nº de alumnos 1 Varón 3 1 Hembra 1 2 Varón 2 2 Hembra 4 3 Varón 3 4 Hembra 5 4 Varón 1 5 Hembra 1 5 Varón 2

a) Mida el grado de asociación existente entre las dos variables mediante el coeficiente más adecuado. b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado anterior.

a) Siendo dicotómica la segunda variable, calcularemos el coeficiente de correlación biserial puntual :

Denominando Y a la variable sexo (asignamos : 1=Hombre ; 0=Mujer) y X a la variable puntuación en el test, procederemos a los cálculos necesarios para su obtención. Ello nos conduce a calcular las medias de los valores de X que se corresponden con un 1 y con un 0 en Y (X1 y X0) de forma separada, así como la desviación típica de X. Las siguientes tablas facilitan nuestras operaciones :

X Y n n.X n.X2 X1 n n.X1 X0 n n.X0 1 1 3 3 3 1 3 3 1 1 1 1 0 1 1 1 2 2 4 2 4 8 2 1 2 4 8 3 3 9 4 5 20 2 0 4 8 16 4 1 4 5 1 5 3 1 3 9 27 5 2 10 11 34 4 0 5 20 80 11 30 q 4 1 1 4 16 p 5 0 1 5 25 5 1 2 10 50 N= 22 64 226

X13011

2 7273= = ' X03411

3 0909= = ' p = =1122

0 5' q p= = = −1122

0 5 1'

X = =6422

2 9091' s sX X2 2226

222 9091 1 8099 1 8099 1 3453= − = ⇒ = =' ' ' '

Con esto : rX X

sp qbp

X

=−

=−

= −1 0 2 7273 3 09091 3453

0 5 0 5 0 1351. . ' ''

. ' . ' '

b) Coeficiente de correlación de Pearson :

El propósito de este apartado no es otro que comprobar que efectivamente coinciden los coeficientes de correlación de Pearson y biserial puntual. Calculemos la media y desviación típica de Y, así como la covarianza:

Page 10: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

10 - Regresión y correlación (F. Álvarez)

X Y n f.Y n.Y2 n.X.Y 1 1 3 3 3 3 1 0 1 0 0 0 2 1 2 2 2 4 2 0 4 0 0 0 3 1 3 3 3 9 4 0 5 0 0 0 4 1 1 1 1 4 5 0 1 0 0 0 5 1 2 2 2 10 22 11 11 30

Y = =1122

0 5' s sY Y2 211

220 5 0 25 0 25 0 5= − = ⇒ = =' ' ' '

s rXY = − = − ⇒ =−

= −3022

2 9091 0 5 0 0909 0 09091 3453 0 5

0 1351' . ' ' '' . '

'

5 La siguiente tabla nos muestra la distribución por sexo de un grupo de 167 personas, indicando si fuman o no.

Fuma No fuma Hombre 85 12 Mujer 10 60

a) Calcule el coeficiente de más adecuado para medir el grado de asociación existente entre el sexo y el ser o no fumador.

b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado anterior.

a) Las dos variables son dicotómicas. El coeficiente específico para esta situación es el coeficiente de correlación ϕ (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :

Y 1 (Fuma) 0 (No fuma) X 1 (Hombre) a = 85 b = 12 97 0 (Mujer) c = 10 d = 60 70 95 72

( )( )( )( )7307'0

72.95.70.9710.1260.85

...=

−=

++++−

=dbcadcba

bcadϕ

b) Coeficiente de correlación de Pearson :

X Y n n.X n.Y n.X2 n.Y2 n.X.Y 1 1 85 85 85 85 85 85 1 0 12 12 0 12 0 0 0 1 10 0 10 0 10 0 0 0 60 0 0 0 0 0 167 97 95 97 95 85

X = =97167

0 5808' s sX X2 297

1670 5808 0 2435 0 2435 0 4934= − = ⇒ = =' ' ' '

Y = =95167

0 5689' s sY Y2 295

1670 5689 0 2453 0 2453 0 4952= − = ⇒ = =' ' ' '

s rXY = − = ⇒ = =85167

0 5808 0 5689 0 1786 0 17860 4934 0 4952

0 7307' . ' ' '' . '

'

Coincidente con el calculado en el apartado anterior, como era de esperar.

Page 11: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 11

6 Doce atletas (A, B, C, ..., L) participan en una carrera de 100 metros y en otra de lanzamiento de peso. Las clasificaciones en dichas pruebas fueron :

100 metros : A , B , C , D , E , F , G , H , I , J , K , L Peso : K , I , J , L , G , H , F , D , E , B , C , A

a) Determine la relación existente entre las dos clasificaciones en las pruebas descritas, mediante el coeficiente más adecuado. b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado anterior.

Nos encontramos ante dos reordenaciones distintas de los 12 individuos. Calcularemos pues el coeficiente de correlación por el método de los rangos de Spearman.

a) Coeficiente de correlación ρ :

( ) ( ) 9301'0112.12

552.611.

.61 22

2

−=−

−=−

−= ∑NN

dρ (Ver tabla siguiente)

A continuación se ofrecen las tablas auxiliares de cálculos de ρ y r , calculados para comprobar que coinciden.

Para el cálculo de ρ Para el cálculo de r X Y d d2 X Y X2 Y2 X.Y 1 11 -10 100 1 11 1 121 11 2 9 -7 49 2 9 4 81 18 3 10 -7 49 3 10 9 100 30 4 12 -8 64 4 12 16 144 48 5 7 -2 4 5 7 25 49 35 6 8 -2 4 6 8 36 64 48 7 6 1 1 7 6 49 36 42 8 4 4 16 8 4 64 16 32 9 5 4 16 9 5 81 25 45 10 2 8 64 10 2 100 4 20 11 3 8 64 11 3 121 9 33 12 1 11 121 12 1 144 1 12 78 78 0 552 78 78 650 650 374

b) Coeficiente de correlación de Pearson :

X = =7812

6 5' s sX X2 2650

126 5 11 9167 11 9167 3 4521= − = ⇒ = =' ' ' '

Y = =7812

6 5' s sY Y2 2650

126 5 11 9167 11 9167 3 4521= − = ⇒ = =' ' ' '

s rXY = − = − ⇒ =−

= −37412

6 5 6 5 11 0833 11 08333 4521 3 4521

0 9301' . ' ' '' . '

'

En efecto coinciden los coeficientes de correlación obtenidos por los dos métodos.

Su alto valor negativo (próximo a -1) nos indica que existe una fuerte relación entre las dos clasificaciones en las pruebas atléticas, quedando mejor clasificados en una los peor clasificados en la otra.

7 De los archivos de la Dirección provincial de Tráfico se han seleccionado los expedientes de 64 conductores, realizando el siguiente recuento en función del sexo (M = mujer ; H = hombre) y el número de multas impuestas durante el último año.

Sexo M H Nº de multas 1 9 0 en el último año 2 7 0 3 6 2 4 1 9 5 1 11 6 0 18

¿ Qué conclusión puede deducirse acerca de la relación existente entre sexo y número de denuncias ?. Utilice para ello el índice de asociación más apropiado.

Al ser dicotómica la variable sexo, obtendremos el coeficiente de correlación biserial puntual :

Page 12: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

12 - Regresión y correlación (F. Álvarez)

Y Y=1 Y=0 M = 1 H = 0 n n.X n.X2 n.X1 n.X0

X 1 9 0 9 9 9 9 0 2 7 0 7 14 28 14 0 3 6 2 8 24 72 18 6 4 1 9 10 40 160 4 36 5 1 11 12 60 300 5 55 6 0 18 18 108 648 0 108 24 40 N=64 255 1217 50 205

X15024

2 0833= = ' X020540

5 125= = ' p = =2464

0 375' q p= = = −4064

0 625 1'

X = =25564

3 9844' s sX X2 21217

643 9844 3 1404 3 1404 1 7721= − = ⇒ = =' ' ' '

Con esto : rX X

sp qbp

X

=−

=−

= −1 0 2 0833 5 1251 7721

0 375 0 625 0 831. . ' ''

. ' . ' '

Es decir existe una fuerte relación, de sentido inverso, entre ambas variables. Algo que podía advertirse al analizar el recuento de las observaciones.

8 Para analizar si existe o no relación entre las calificaciones en materias científicas y las del área literaria, seleccionamos ocho alumnos a los que sometemos a dos pruebas (una de cada área). Clasificados por orden de puntuación resultó :

Alumno 1 2 3 4 5 6 7 8 P. Científica 3º 6º 7º 1º 2º 8º 5º 4º P. Literaria 3º 5º 7º 4º 1º 8º 2º 6º

Utilizando el índice adecuado establezca el grado de relación que existe entre las calificaciones de dichas áreas de conocimiento.

Calcularemos el coeficiente de correlación ρ (rangos de Spearman) al presentarse dos variables ordinales (dos reordenaciones de los 8 alumnos). Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en la prueba científica y en la literaria . Ordenadas las primeras, calculemos sus diferencias :

X Y d d2 1 4 -3 9 2 1 1 1 3 3 0 0 4 6 -2 4 5 2 3 9 6 5 1 1 7 7 0 0 8 8 0 0 24

Con ello : ( ) ( ) 7143'018.8

24.611.

.61 22

2

=−

−=−

−= ∑NN

Es decir, existe una alta relación entre las calificaciones. Generalmente un alumno con altas calificaciones en el área científica tendrá altas calificaciones en el área de conocimientos literarios.

Page 13: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 13

9 Un grupo de COU integran 17 alumnos de Ciencias y 14 de Letras. De ellos repiten curso 16 de Ciencias y sólo 2 de Letras. Calcule el coeficiente de correlación más adecuado para medir el grado de asociación existente entre las variables descritas.

Se trata de analizar la relación que puede existir entre la especialidad (Ciencias o Letras) y el ser repetidor o no serlo. Siendo las dos variables dicotómicas, calculamos el coeficiente de correlación ϕ (phi) .

Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :

Y 1 (Repite) 0 (No repite) X 1 (Ciencias) a = 16 b = 1 17 0 (Letras) c = 2 d = 12 14 18 13

( )( )( )( )⇒=

−=

++++−

= 8051'013.18.14.172.112.16

... dbcadcbabcadϕ alta relación entre las variables.

10 A partir de los seis pares de valores, correspondientes a una variable bidimensional (X,Y) ,

(1 , 4) , (2 , 5) , (3 , 5) , (4 , 6) , (5 , 7)

a) Calcule la ecuación de la recta de regresión de Y sobre X. b) Represente gráficamente el diagrama de dispersión y la recta de regresión. c) Calcule e interprete el coeficiente de correlación.

Cálculos necesarios (realizados en este ejemplo a partir de las medias y varianzas de X e Y y de la covarianza) :

X Y X2 Y2 X.Y 1 4 1 16 4 2 5 4 25 10 3 5 9 25 15 4 6 16 36 24 5 7 25 49 35 15 27 55 151 88

X s Y s sX Y XY= = = − = = = = − = = − =155

3 555

3 2 275

5 4 1515

5 4 1 04 885

3 5 4 1 42 2 2 2' ' ' . ' '

a) b a= = = − =1 42

0 7 5 4 0 7 3 3 3' ' ' ' . ' Y = 3'3 + 0'7 . X

b) Para X = 0 Y = 3'3 (0 , 3'3) Para X = 5 Y = 6'8 (5 , 6'8)

Enlazando los dos puntos anteriores obtenemos la gráfica de la recta. Observe que el punto que tiene por coordenadas las medias de X e Y (3 , 5'4) , es un punto contenido en la recta de regresión. Apreciamos la proximidad de los puntos a la recta de ajuste, así como que dicha recta es creciente (r > 0).

Page 14: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

14 - Regresión y correlación (F. Álvarez)

c) r = =1 4

2 1 040 9707'

. ''

Elevada relación entre las variables y de signo positivo. La recta de regresión es una buena función de ajuste, siendo creciente (r > 0).

Para representar gráficamente la recta de regresión, localizamos dos puntos cualesquiera de ella : Y = 3'3 + 0'7 . X

11 La recta de regresión de Y sobre X, calculada en el estudio de la relación existente entre dos variables, tiene por ecuación Y' = 5'4 - 0'9 . X , siendo la varianza de la variable dependiente Y igual a 1'84. Si la distribución de las predicciones de Y tiene como media 3'6 y varianza 1'619936, a) calcule la media y varianza de X b) determine la ecuación de la recta de regresión de X sobre Y c) obtenga el valor del coeficiente de correlación.

Iniciamos aquí una serie de ejemplos que requieren para su resolución el empleo de las diferentes relaciones funcionales (fórmulas para entendernos) tratadas en el tema.

Resulta de utilidad escribir las expresiones en las que intervienen los datos suministrados, sustituyendo sus valores conocidos. Tal vez así podamos obtener los que nos pida el problema.

1º.- ( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛−==+=−=−= 9'0.9'04'5..9'04'5' 2

X

XY

ssbXYXbYaXY

2º.- s sY Y2 1 84 1 84 1 3565= = =' ' '

3º.- Y'= Y = 3'6 s = 1'619936Y'2

Siendo 3'6 la media de Y, la expresión de a nos permite obtener la media de X :

5 4 0 9 5 4 3 6 0 9 5 4 3 60 9

2' ' . ' ' ' . ' ''

= + = + ⇒ =−

=Y X X X

La varianza de X no puede obtenerse de momento (para extraerla del valor del coeficiente de regresión b necesitamos conocer antes la covarianza o el coeficiente de correlación).

Partiendo, por ejemplo, de la proporción de varianza explicada (hace referencia a la varianza de las predicciones) :

rss

rY

Y

22

2

1 6199361 84

0 8804 0 8804 0 9383= = = ⇒ = = ±' ''

' ' '

El coeficiente de correlación será negativo, ya que lo es el coeficiente de regresión b (b = -0'9), luego : r = 0'9383 .

La expresión r bss

X

Y

= . nos permitirá calcular la desviación típica de X :

r bss

ss sX

Y

XX X= ⇒ − = − ⇒ =

−−

= ⇒ = =. ' ' .'

' . ''

' '0 9383 0 91 3565

0 9383 1 35650 9

1 4142 1 4142 22 2

Finalmente, calculemos la recta de ajuste de X sobre Y :

bss

rss

a X b YXY

Y

X

Y

' . ' . ''

' ' ' . ( ' ). ' '= = = − = − = − = − − =2 0 9383 1 41421 3565

0 9783 2 0 9783 3 6 5 5217

Su ecuación es : X' = 5'5217 - 0'9783 . Y

12 La recta de regresión de Y sobre X corta a los ejes coordenados en los puntos (0'5,0) y (0,-0'4), siendo la proporción de varianza no explicada por X del 25'58%. a) Calcule los coeficientes de correlación y de determinación. b) Siendo X = 5, ¿ qué pronóstico diferencial corresponde a una puntuación directa X = 4 ?.

a) Los coeficientes de correlación y de determinación se obtienen directamente de la proporción de varianza no explicada :

1 - r2 = 0'2558 ⇒ r2 = 1 - 0'2558 = 0'7442

Luego : Coeficiente de determinación : R2 = r2 = 0'7442 Coeficiente de correlación : r = = ±0 7442 0 8627' '

Para determinar si el coeficiente de correlación es positivo o negativo se pueden seguir distintos procedimientos. Uno podría consistir en dibujar la recta de regresión (enlazando los dos puntos

Page 15: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 15

conocidos) observando si es creciente (b > 0 y r > 0) o decreciente (b < 0 y r < 0). Así resulta que es creciente y, por tanto, r = 0'8627.

b) Determinemos la recta de regresión en puntuaciones directas y diferenciales :

Si la recta de regresión Y' = a + b.X pasa por (0'5,0) y (0,-0'4) , significa que : - para X = 0'5 Y' = 0 : 0 = a + b.0'5 - para X = 0 Y' = -0'4 : -0'4 = a + b.0 ⇒ -0'4 = a ⇒ 0 = -0'4 + b.0'5 ⇒ b = 0'4 / 0'5 = 0'8

La recta de regresión es : en puntuaciones directas : Y' = -0'4 + 0'8 . X en puntuaciones diferenciales : y' = 0'8 . x

A la puntuación directa X = 4 , le corresponde una puntuación diferencial : x X X= − = − = −4 5 1 luego el pronóstico diferencial correspondiente es :

y' = 0'8 . x = 0'8 . (-1) ⇒ y' = -0'8 NOTA : Calculado b = 0'8 > 0, concluiremos que el coeficiente de correlación es también positivo (r = 0'8627), tal como se dedujo en el apartado a).

13 En un grupo de 10 sujetos se han aplicado dos pruebas (X,Y). Las puntuaciones obtenidas en X fueron dicotomizadas por la Mediana formándose dos categorías: altos (A) y bajos (B). Los resultados son los siguientes :

Sujeto 1 2 3 4 5 6 7 8 9 10 X B A B A A B B A A B Y 5 3 3 0 1 3 2 0 1 2

Elija y calcule el índice de correlación adecuado para medir la relación existente entre X e Y.

X nA nA.X nB nB.X X n n.X n.X2 0 2 0 0 0 0 2 0 0 1 2 2 0 0 1 2 2 2 2 0 0 2 4 2 2 4 8 3 1 3 2 6 3 3 9 27 4 0 0 0 0 4 0 0 0 5 0 0 1 5 5 1 5 25 5 5 5 15 10 20 62

X X X SA B X= = = = = = = − =55

1155

32010

26210

2 14832; ; ; '

rX X

Sp qbp

A B

X=

−=

−= −. .

'. . '

1 31483

510

510

0 674

Cierta relación entre las variables, de signo inverso. A mayor puntuación en la prueba Y menor nivel en X.

14 Las puntuaciones directas obtenidas por 5 sujetos en la escala LKS (Escala de Lucas) y las obtenidas por esos mismos sujetos en el factor C (Control Social) del PSI son las que figura en la tabla final. a) Encuentre la puntuación pronosticada en LKS de un sujeto cuya puntuación directa en C es 15. b) Encuentre la parte de la varianza de LKS asociada a la variación de C. c) Interprete el resultado obtenido al calcular el estadístico que expresa la relación entre LKS y C.

Sujetos A B C D E LKS 49 40 43 31 37 C 8 16 14 20 12

Y = LKS X = C

X Y X2 Y2 X.Y 8 49 64 2401 392 16 40 256 1600 640 14 43 196 1849 602 20 31 400 961 620 12 37 144 1369 444 70 200 1060 8180 2698

Page 16: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

16 - Regresión y correlación (F. Álvarez)

X Y S S

S S S

X X

Y Y XY

= = = = = − = =

= − = = = − = −

705

142005

401060

514 16 4

81805

40 36 62698

514 40 20 4

2 2

2 2

; ; ;

; ; . '

b = -20’4 / 16 = -1’275 a = 40 - (.1’275).14 = 57’85 a)

Y’ = 57’85 - 1’275.X = 57’85 - 1’275 . 15 = 38’725

b) r = -20’4 / 4 . 6 = -0’85 ⇒ r2 = 0’7225 (72’25%)

a) Alta relación entre las dos pruebas (r=-0’85) y de signo inverso. Es decir, un sujeto con alta puntuación en LKS tendrá baja puntuación en C

15

La empresa de publicidad “VENDEBIEN” quiere saber si la aceptación o rechazo dependen del sexo. Para ello se encuesta a 200 personas de las cuáles el 50% son mujeres; 40 hombres rechazan el producto mientras que 30 mujeres lo aceptan. Elija y calcule el índice de correlación adecuado para interpretar estos datos.

ϕ =−

+ + + +=

−=

ad bca b c d a c b d( ).( ).( ).( )

. .

. . .'

60 70 30 4090110100100

0 3015

Escasa relación entre la aceptación y el sexo. De aceptarla, el mayor rechazo se produce en mujeres.

16 Estudiando la relación entre las variables X e Y se obtuvieron los siguientes datos :

X Y S S r nx Y xy= = = = = =119 130 10 055 0 70 10, ' , , ' , ' , a) Elena C. obtuvo una puntuación de 130 en X. Estime su puntuación en Y. b) Se estimó la puntuación 1’28 en la variable Y para Gonzalo S.. ¿ Cuál fue su puntuación en la

variable X ?. c) Determinar el valor de Sy.x y la desviación típica de las puntuaciones pronosticadas (Sy’).

a) b rss

a x Y X

Y

y

x= = = = − = − ⇒ = − + ⇒

⇒ = − + =

. ' .'

' ; ' ' ' ' ' ' .

' ' ' . '

0 70 5510

0 0385 130 0 0385 119 32815 32815 0 0385

32815 0 0385130 17235

b) 1’28 = -3’2815+0’0385.X ⇒ X = 118’48

c) S S r

S S S SY X Y

Y Y Y X Y

.

' . '

. ' . ' '

' ' ' '

= − = − =

= − = − = ⇒ =

1 055 1 0 7 0 3928

0 3025 01543 01482 0 385

2 2

2 2 2

17 El gabinete de estudios sobre “Malestar Social” desea conocer si existe relación entre la consumición de drogas y la comisión de delitos sobre la propiedad. Para ello se selecciona una muestra y se comprueba que 50 individuos han consumido algún tipo de droga y a la vez han estado implicados en delitos contra la propiedad. Teniendo en cuenta que un 20% de la muestra ha cometido delitos contra la propiedad, que 250 no consumen drogas ni han estado implicados en delitos contra la propiedad y que la muestra constaba de 500 individuos, ¿ qué conclusión obtendrá el gabinete de estudios ?. (Elija, calcule e interprete el coeficiente de correlación adecuado).

H M Aceptan a=60 b=30 Rechazan c=40 d=70

Page 17: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 17

ϕ=−

+ + + +=

−=

ad bca b c d a c b d( ).( ).( ).( )

. .. . .

'50 250 50150100 400 200 300

0144

Escasa relación entre consumo de drogas y comisión de delitos. De aceptarla, la mayor comisión de delitos se produce en consumidores de drogas.

18 Estudiando una muestra de 50 alumnos de BUP se observó que una proporción de 0’10 estaba compuesta por alumnos hijos únicos. De los 50 alumnos, una proporción de 0’6 comían en el Colegio. Si sabemos que una proporción de 0’04, con respecto al total, son hijos únicos que no comen en el Colegio. ¿ Existe una relación entre ser hijo único o no y comer o no en el Colegio ?. Halle el coeficiente de correlación que corresponda e interprete el resultado.

ϕ=−

+ + + +=

−=

ad bca b c d a c b d( ).( ).( ).( )

. .. . .

318 27 230 20545

0

Las variables son independientes. No existe ningún tipo de relación entre ser hijo único y comer en el colegio.

19 La desviación típica de un determinado grupo de personas en la variable ansiedad (X) es igual a 2. También conocemos para esta variable la media de los varones (10) y la de las mujeres (5). Sabiendo que el índice de asociación entre las variables ansiedad y sexo es igual a +1, y que el número de varones es superior al de mujeres : a) ¿ Qué coeficiente de correlación habrá sido utilizado ?. b) Interprete el valor del coeficiente de correlación. c) Calcule la proporción de varones que componen nuestra muestra.

a) Biserial puntual (rbp). Una cuantitativa y la otra dicotómica.

b) Relación perfecta. Los varones presentan altas puntuaciones en ansiedad y las mujeres bajas.

c) r

x xs

p q p q p q p q

p p p p p p ppp

bpv m

x=

−= =

−⇒ = = ⇒ =

− = ⇒ − = ⇒ − + = ⇒ =± −

===

⎧⎨⎩

. . . . . ' . '

.( ) ' ' '' ' '

'

110 5

225

0 4 016

1 016 016 016 01 1 0 64

21 0 6

2080 2

2 2

La solución es 0’8 al indicar que hay más varones que mujeres.

20 Con el fin de estudiar si existe o no relación entre las calificaciones en Matemáticas y en Filosofía de COU, seleccionamos seis alumnos. Clasificados por orden de puntuación final en cada materia resultó :

Alumno 1 2 3 4 5 6 Matemáticas 3º 6º 4º 1º 2º 5º Filosofía 3º 5º 6º 4º 1º 2º

Utilizando el índice adecuado, basado en el concepto de correlación de Pearson, establezca el grado de relación que existe entre las calificaciones de las dos asignaturas.

Calcularemos el coeficiente de correlación ρ (rangos de Spearman) al presentarse dos variables ordinales (dos reordenaciones de los 8 alumnos).

Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en Matemáticas y en Filosofía. Ordenando las primeras (X), calculamos sus diferencias con las segundas :

Droga SI Droga NO Delito SI a=50 b=50 Delito NO c=150 d=250

Único SI Único NO Comen SI a=3 b=27 Comen NO c=2 d=18

Page 18: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

18 - Regresión y correlación (F. Álvarez)

X Y d d2 1 4 -3 9 2 1 1 1 3 3 0 0 4 6 -2 4 5 2 3 9 6 5 1 1 24

Con ello : ( ) ( )ρ = −−

= −−

=∑

16

11

6 246 6 1

0 31432

2 2

..

..

'd

N N

Es decir, apenas existe relación entre las calificaciones.

Page 19: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 19

EJERCICIOS PROPUESTOS

1 X Y n De la presente distribución conjunta de las dos variables (X,Y) : 4 0 3 4 1 5 b) Obtener la recta de regresión de Y sobre X en puntuaciones diferenciales. 5 2 6 b) Obtener la recta de regresión de X sobre Y en puntuaciones típicas.. 6 2 2 c) Calcular e interpretar el coeficiente de determinación 6 3 8 6 4 1

2 Y De la presente distribución conjunta de las variables (X,Y) : 2 4 6 8 a) Obtener la recta de regresión de Y sobre X. 0 3 1 0 0 b) Calcular e interpretar el coeficiente de determinación. X 1 0 6 4 0 2 0 2 4 5

3

De los 10 pares de valores que se representan en el diagrama de dispersión de la izquierda, a) Calcular la recta de regresión de Y sobre X. b) Calcular e interpretar el coeficiente de correlación

lineal .

4 Edad Hermanos n De la distribución de edades y número de hermanos de 40 jóvenes : [10,15) 0 3 [10,15) 1 5 Calcular e interpretar el coeficiente de correlación lineal. [10,15) 2 9 [15,20) 1 5 [15,20) 2 10 [20,25] 1 3 [20,25] 2 5

5 Las siguientes distribuciones bivariantes pretenden estudiar el grado de relación existente entre las variables : a) Puntuación en un test de agresividad y sexo. b) Clasificación (de mayor a menor) según la nota media obtenida en las asignaturas del curso y en una

prueba tendente a determinar su coeficiente intelectual. c) Ser bebedor y ser fumador.

Determine y calcule en cada caso el índice adecuado que permite medir el grado de relación entre las variables descritas.

Page 20: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

20 - Regresión y correlación (F. Álvarez)

(I) Puntos Sexo (II) test Hombre Mujer Alumno 1 2 3 4 5 6 [ 0,10) 0 2 Nota media 2º 4º 5º 1º 6º 3º [10,20) 5 3 C.I. 3º 4º 6º 1º 5º 2º [20,30) 11 9 [30,40) 20 22 (III) Fuman [40,50) 14 9 Sí No [50,60) 6 6 Beben Sí 4 31 No 41 14

6 La proporción de varianza residual, en un ajuste de Y sobre X, es del 22'12%. a) Determine dicha recta de ajuste sabiendo que a una puntuación directa X=2 corresponde una predicción 2'1 y que dicha recta corta al eje de ordenadas en el punto (0,0'3). b) Calcule el coeficiente de correlación.

7 En el estudio de la relación lineal existente entre dos variables X e Y, sabemos que a las puntuaciones directas 0 y 2 de X le corresponden unos pronósticos respectivos 3’3243 y 7’7567. Sabiendo que el coeficiente de determinación es del 94’65% y que la variable dependiente tiene por media 8’2 y varianza 15’36, calcular : a) Ecuación de la recta de ajuste. b) Coeficiente de correlación. c) Media y varianza de la variable X.

8 Analizamos las edades de 8 personas que acuden a un examen para la obtención del carnet de conducir. Sabiendo que aprueban 5 con edades : 28, 24, 32, 45 y 30 y que los que suspenden tienen 23, 21 y 27 años, determine el coeficiente más adecuado para medir el grado de relación de la edad con la superación o no del examen.

9 Para los siguientes pares de valores de las variables X e Y :

(12 , 4) , (10 , 7) , (12 , 5) , ( 11 , 6’5) , (14 , 2) , (11, 8’5) , (12, 3) , (14 , 1’5) , (10, 9) , ( 11, 7) calcular la proporción de varianza que explica el ajuste de Y sobre X.

10 Determine la varianza de los errores y de las predicciones, correspondientes al ajuste de Y sobre X en la distribución anterior.

11 En un grupo de 10 alumnos se han obtenido las calificaciones en Anatomía, separando el ejercicio teórico del práctico. El profesor encargado ordenó tales calificaciones de mayor a menor puntuación, encontrando los resultados siguientes :

Alumno 1 2 3 4 5 6 7 8 9 10 Clasificación teoría 6 2 7 10 4 1 8 5 9 3 Clasificación práctica 6 10 4 3 9 7 2 5 1 8

Elija y calcule el índice de correlación adecuado para medir si existe relación o no entre las calificaciones en las dos partes del examen.

X 0 1 1 1 2 3 3 5 Y -6 -2 -1 1 3 8 9 12 f 3 6 11 16 3 1 4 2

Page 21: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

Regresión y correlación (F. Álvarez) - 21

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS

1

X =5'12 sX

2 = 0'7456

Y =1'96 sY

2 = 1'1584 sXY = 0'8448 a) b = 1'133 y' = 1'133 . x b) r = 0'909 zy' = 0'909 . zx c) r2 = 0'8263 La proporción de variabilidad explicada por X supone el 62'63% de la de Y.

2

X =1'28 sX

2 = 0'5216

Y =5'2 sY

2 = 3'52 sXY = 1'024 a) a = 2'6871 b = 1'9632 Y' = 2'6871 + 1'9632 . X b) R2 = r2 = 0'5711 Representa la proporción de varianza de Y explicada por X (el 57'11%)

3

X =5'5 sX

2 = 8'25

Y =4'05 sY

2 = 1'8225 sXY = 3'175 a) a = 1'9333 b = 0'3848 Y' = 1'9333 + 0'3848 . X b) r = 0'8188 Elevada relación entre las variables (de tipo directo)

4

X =16'375 sX

2 = 14'3594

Y =1'525 sY

2 = 0'3994 sXY = 0'4656 b) r = 0'1944 Las variables no están relacionadas linealmente (son independientes)

5 (I) Coeficiente biserial puntual rbp = 0'0389 (II) Coeficiente ρ de los rangos de Spearman ρ = 0'8857 (III) Coeficiente ϕ ϕ = - 0'6154

6 a) Y = 0'3 + 0'9 . X b) r = 0'8825

7 a) Y’ = 3’3243 + 2’2162.X b) 0’9729 c) 2’2, 2’96

8 rbp = 0’56

9 0’8331 (o bien el 83’31%)

10 1’9543 ; 15’5069

11 ρ = -0’8667

Page 22: REGRESIÓN Y CORRELACIÓN · 2009-06-04 · RECOMIENDO se siga el proceso descrito en la presentación REGRESION.PPS. Regresión y ... 6 - Regresión y correlación (F. Álvarez)

22 - Regresión y correlación (F. Álvarez)