anÁlisis de regresiÓn y correlaciÓn predicción y/o

54
11.1 Análisis de regresión. 11.1.1 Conceptos básicos: diagrama de dispersión, línea de regresión, pendiente y ordenada al origen. 11.1.2 Ecuación lineal de regresión por el método de mínimos cuadrados. 11.1.3 Error estándar de estimación. 11.1.4 Estimación en regresión. 11.2 Análisis de correlación. 11.2.1 Coeficiente de correlación. 11.2.2 Variaciones explicada y no explicada. 11.2.3 Coeficiente de determinación. 11.3 Inferencias en regresión y correlación 11.3.1 Inferencia de la pendiente poblacional en regresión 11.3.2 Inferencia del coeficiente de correlación poblacional Iniciaremos el contenido de este capítulo con una estrategia de aprendizaje, denominada mapa conceptual, para tener una visión global de lo que se presentará. Objetivo: El lector comparará dos variables cuantitativas de los tipos administrativo, económico o financiero para establecer predicción de una a partir de la otra. Asimismo, determinará el grado de asociación entre ambas para una mejor toma de decisiones. ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL CAPÍTULO 11 Figura 11.1 Predicción y/o asociación* * Fuente: http://www.google.com.mx/imgres?start5382&sa5X&biw51024&bih5596&tbm5isch&tbnid5g5yOXxegfqplyM%3A&imgrefurl5ht tp%3A%2F%2Fblog.pucp.edu.pe%2Fitem%2F66303%2Festadistica-descriptiva-bidimensional-diagramas-de-dispersion-con-winstats-parte- i&docid5PB1QYG3rPtE-RM&imgurl5http%3A%2F%2Fblog.pucp.edu.pe%2Fmedia%2F3105%2F20090806-nube_M_H.gif&w5428&h5260&ei52P4 HU9KmL8akyAHri4GYCw&zoom51&iact5rc&dur51657&page532&ndsp512&ved50CJoCEK0DMFw4rAI

Upload: others

Post on 04-Oct-2021

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

11.1 Análisis de regresión. 11.1.1 Conceptos básicos: diagrama de dispersión, línea

de regresión, pendiente y ordenada al origen. 11.1.2 Ecuación lineal de regresión por el método de

mínimos cuadrados. 11.1.3 Error estándar de estimación. 11.1.4 Estimación en regresión.11.2 Análisis de correlación. 11.2.1 Coeficientedecorrelación. 11.2.2 Variaciones explicada y no explicada. 11.2.3 Coeficientededeterminación.11.3 Inferencias en regresión y correlación 11.3.1 Inferencia de la pendiente poblacional en regresión 11.3.2 Inferenciadelcoeficientedecorrelación

poblacional

Iniciaremos el contenido de este capítulo con una estrategia de aprendizaje, denominada mapa conceptual, para tener una visión global de lo que se presentará.

Objetivo:

El lector comparará dos variables cuantitativas de los tipos administrativo,económicoofinancieroparaestablecerpredicciónde una a partir de la otra. Asimismo, determinará el grado de asociación entre ambas para una mejor toma de decisiones.

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

LINEAL

CAPÍTULO

11Figura 11.1 Predicción y/o asociación*

* Fuente: http://www.google.com.mx/imgres?start5382&sa5X&biw51024&bih5596&tbm5isch&tbnid5g5yOXxegfqplyM%3A&imgrefurl5http%3A%2F%2Fblog.pucp.edu.pe%2Fitem%2F66303%2Festadistica-descriptiva-bidimensional-diagramas-de-dispersion-con-winstats-parte-i&docid5PB1QYG3rPtE-RM&imgurl5http%3A%2F%2Fblog.pucp.edu.pe%2Fmedia%2F3105%2F20090806-nube_M_H.gif&w5428&h5260&ei52P4HU9KmL8akyAHri4GYCw&zoom51&iact5rc&dur51657&page532&ndsp512&ved50CJoCEK0DMFw4rAI

Page 2: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

464 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

Figura 11.2 Mapa conceptual de análisis de regresión y correlación lineal.

Introducción:

En muchas situaciones prácticas, una variable aleatoria está relacionada con una o más variables predictivas. Si lo anterior es cierto, habría que utilizar los valores de las variables predictivas para calcular con más precisión el valor medio de la variable aleatoria o para pronosticar algún valor futuro de ésta.

Hay un gran número de ejemplos prácticos de problemas de predicción en el área de ciencias sociales y administrativas.

Los análisis estadísticos utilizan frecuentemente datos cuantitativos de naturaleza bivariada, esto es, a cada elemento de la muestra le corresponde un par de medidas

Este capítulo tratará inicialmente con gráficas de datos bivariados, para medir la fuerza de una relación lineal y describir relaciones lineales entre dos variables.

Análisis de Regresión y Correlación Lineal

Error estándar de estimación

Estimación

Coeficiente de Correlación

Varianza explicada y no

explicada

Coeficiente de Determinación

Línea de regresión

Coeficientes de regresión

Pendienteordenada al

origen

Análisis de regresión Análisis de correlaciónInferencias en

regresión y correlación

Diagrama de Dispersión

Conceptos básicos

Ecuación de regresión

Se analizará principalmente el razonamiento necesario para deducir una ecuación de predicción que se base en una o más variables predictivas. Con lo anterior, limitaremos la atención al problema sencillo de predecir, como es el caso de datos bivariados para establecer una función lineal de una sola variable, y

Page 3: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.1 Análisis de regresión 465

Con este material teórico se resuelven problemas que consideran dos o más variables como medio para observar las relaciones entre ellas. Al respecto, se estudiarán dos técnicas muy conocidas llamadas regresión y correlación.

La regresión y la correlación son técnicas estrechamente relacionadas que comprenden una estimación, las cuales se trabajarán de igual forma que el material de unidades pasadas, es decir, a partir del análisis de datos muestrales, para saber si están relacionadas entre sí dos variables de una población y cómo es esa relación.

El análisis de regresión da lugar a un procedimiento para obtener una ecuación matemática que describe la relación referida de estimación o predicción. En el caso de dos variables, se desarrolla un modelo lineal que utiliza la variable independiente X para obtener una mejor predicción de la otra variable, es decir, para obtener la variable dependiente Y.

Recordemos del álgebra que una variable independiente es la que proporciona la información para obtener la variable que depende de ese valor, en tanto que en regresión es la base para la estimación. La variable dependiente es la obtenida bajo el comportamiento de la función y el valor de la variable independiente, en tanto que en regresión es la variable que da la estimación o predicción.

El término regresión fue utilizado como concepto estadístico por primera vez en 1877 por Sir Francis Galton.

Si únicamente están involucradas dos variables, se dice que la técnica es una regresión o una correlación simple. Cuando están involucradas tres o más variables en general, es decir, una independiente y varias dependientes, se trata de una regresión o una correlación múltiple.

11.1.1 Conceptos básicos: diagrama de dispersión, línea de regresión, pendiente y abscisa al origen

En un análisis de regresión, los valores de las variables independiente y dependiente se trazan en una gráfica bidimensional llamada diagrama de dispersión, es decir, se trata de un conjunto de puntos sobre el primer

observaremos que la solución para el problema de múltiples variables consistirá en una generalización de la técnica.

Asimismo se estudiarán la regresión (predicción) y correlación (fuerza de asocia-ción) desde el punto de vista de hacer inferencias usando la estadística descriptiva e inferencial vista en capítulos anteriores.

Mostraremos cómo ajustar un modelo lineal simple a un conjunto de datos y cómo utilizar éste para obtener la estimación y la inferencia.

La metodología para encontrar el predictor multivariable, denominado análisis de regresión múltiple, escapa al contenido de este material.

11.1 Análisis de regresión

Page 4: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

466 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

cuadrante del sistema coordenado cartesiano, donde las coordenadas abscisa y ordenada son los valores de la variable independiente X y la variable dependiente Y.

Ejemplo 11.1Con base en los datos muestrales hipotéticos siguientes, referentes al recorrido en kilometraje de automóviles y a su precio de venta, determinar el diagrama de dispersión correspondiente.

Observación

i

Recorrido(miles kms)

xi

Precio de venta(miles $)

yi

1 40 1000

2 30 1500

3 30 1200

4 25 1800

5 50 800

6 60 1000

7 65 500

8 10 3000

9 15 2500

10 20 2000

11 55 800

12 40 1500

13 35 2000

14 30 2000

Solución: Al considerar las coordenadas (x, y) extraídas de la información en la tabla y estableciendo un orden creciente en la variable independiente, se obtendría la siguiente tabla y en seguida la gráfica solicitada.

Page 5: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.1 Análisis de regresión 467

Recorrido(miles kms)

xi

Precio de venta(miles $)

yi

10 3000

15 2500

20 2000

25 1800

30 1200

30 1500

30 2000

35 2000

40 1000

40 1500

50 800

55 800

60 1000

65 500

Tabla 11.1 Coordenadas indicadas de menor a mayor con respecto a la variable independiente (abscisa)

65

500

1000

1500

2000

2500

3000

800

1200

1800

Preciomiles de pesos

Miles de kms.Recorrido

5 15 25 35 45 55

Figura 11.3 Diagrama de dispersión del ejemplo 11.1

Page 6: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

468 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

Línea de regresión es el trazado gráfico de un bosquejo con criterio, el cual para aplicarlo, debe ser una línea que pase por la mayoría de los puntos; un mayor acercamiento teórico es la línea a trazar por en medio de la nube de los puntos, es decir, que aproximadamente esta línea deje el mismo número de puntos por arriba (derecha) y por abajo (izquierda) de ella y todavía permita visualizar que las distancias de los puntos hacia la línea sean lo más pequeñas posibles. Se entiende que tal procedimiento es diferente en cada problema por la posición de los puntos (coordenadas) que corresponden a los datos de las dos variables.

Por lo anterior, se pensaría que no hay límite para el número de líneas rectas que se trazarían en un diagrama de dispersión o de puntos. Sin embargo, solo se necesita una recta y que ésta sea la que mejor ajuste a los datos. Para esto, no se usa un criterio, sino un procedimiento, y no visual, por el contrario analítico siendo el de mínimos cuadrados, el cual posteriormente se enunciará.

Tipos de modelos de regresión

La naturaleza de la relación llega a adoptar varias formas gráficas y analíticas que van desde líneas y funciones matemáticas muy sencillas hasta otras muy complicadas. La relación más simple consiste en una línea recta o una relación lineal.

Costo deConstrucción

Y

XTamaño del terreno

Índice decalificación

Y

XPromedio de NMS

Costo deMantenimiento

Y

XEdad de una máquina

Precio delproducto

Y

XCantidad de Ventas

Linea de regresion

Relación linealpositiva

ó lineal directa

Hay poca oninguna relación

Relación linealnegativa

ó lineal inversa

Relación curvilineapositiva

Figura 11.4 Diferentestiposderegresión,conlaejemplificacióndelasvariablesindependienteydependientedenotadas,respectivamente, por X y Y

Page 7: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.1 Análisis de regresión 469

En el comportamiento lineal enunciado y el concepto de línea de regresión es de considerar un conocimiento previo de geometría analítica, por los conceptos de abscisa y ordenada al origen, conjuntamente con el de ángulo de inclinación de la línea con el eje de las abscisas (horizontal) llamada pendiente.

En este sentido, tenemos que al proyectar la recta hacia ambos ejes coordenados estaremos determinando tanto la intersección con el eje Y, llamada ordenada al origen, como el valor de la pendiente, siendo esta última la razón de una variación o un incremento de la variable independiente (X) en el denominador y una variación de la variable dependiente (Y) en el numerador. En el caso de la variación de Y ocurren dos valores: de aumento o de decremento, lo que se refleja en la operacionalización como un valor positivo o uno negativo, respectivamente.

11.1.2 Ecuación lineal de regresión por el método de mínimos cuadrados

Como el procedimiento descrito en el párrafo anterior exige primero graficar la línea, con el mejor ajuste posible a la nube de puntos en el diagrama de dispersión, y después recabar el valor de los elementos principales: ordenada al origen y pendiente, para establecer de nuevo, por teoría de geometría analítica, la forma de la ecuación de una recta llamada punto pendiente, que es expresada como y 5 m x 1 b. Ahora, si se lleva todo esto a la información de la población en terrenos de la estadística, el modelo para la línea recta en regresión se representaría con la siguiente expresión:

Y Xi 0 1 i iβ β ε= + +

La nomenclatura es la siguiente:

b0 5 es la intersección real con el eje “Y” (el término real indica que la información es la que arroja la población)

b15 es la pendiente de la información poblacional (real)

bi 5 es el error aleatorio en Yi para la observación i

Recordemos que en gran número de problemas no es posible contar con toda la información, es decir, con todos los datos de la población, aunque ésta sea finita, o que sería muy costoso y laborioso trabajar todos los datos poblacionales si se contara con ellos, regresaremos luego al manejo de una muestra. Los conceptos enunciados en la ecuación de la recta pasarán a ser representados con letras latinas donde a y b, respectivamente, son constantes numéricas, dado que su valor no se altera cuando se trabaja una línea en particular, al margen de que son la ordenada al origen y la pendiente; por consiguiente, se establece como modelo matemático para la ecuación de la línea de regresión la siguiente expresión.

Figura 11.5 Los diferentes elementos de una ecuación de regresión lineal

Además, hay que indicar que los valores de la variable dependiente, por estarse trabajando una muestra, son estimados, lo que se indica en lenguaje simbólico con un gorrito.

Variable dependiente Variable independiente

Intersección al eje Y Ordenada al origen

Pendiente

Y a bXi i= +�

Page 8: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

470 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

Método de los mínimos cuadrados

Si ciertas suposiciones son válidas, la intersección con el eje “Y” de la muestra “a” y la pendiente de la muestra “b” se utilizarían como estimaciones puntuales de los respectivos parámetros ß0 y ß1 de la población. Entonces, Yi 5 a 1 b Xi es la ecuación de la recta de regresión donde Yi es el valor predicho de “Y” para la observación “i”.

Al análisis de regresión lineal simple le toca encontrar la recta que mejor “ajuste” con los datos. Ubicar el mejor ajuste significa que se desea encontrar la línea recta para la cual la diferencia entre el valor real de “Y”, en este caso Yi, y el valor que se predecirá con la línea de regresión ajustada, que es Yi , sea lo más pequeña posible.

Luego, se tiene que Y Yi i2∑( )− � debe ser mínima. En forma gráfica, estaríamos planteando que las distancias

verticales entre los puntos y la recta de regresión sean lo más pequeñas posibles.

En forma general, si hay n pares de observaciones en la muestra, el criterio de mínimos cuadrados exige que la suma de los cuadrados de las diferencias sea mínima; en lenguaje simbólico, esto sería: como tenemos que

Y a bXi i= +� se establecería que Y a bXi i

2∑ ( )− + debe ser mínima.

Para obtener las soluciones de las dos incógnitas, las constantes a y b denominadas en lo sucesivo

coeficientes de regresión, en la ecuación de la recta de regresión Y a bX= +� hay que considerar que las

Y ,Y , ,Y y X ,X ,X1 2 n 1 2 n…… ……… representan las variables Y y X, respectivamente, donde se establece por

consiguiente que Y a bX ,Y a bX1 1 2 2= + = + , ,…..

Al multiplicar cada una de las “n” ecuaciones de la forma Y 5 a 1 bX por el coeficiente de la primera incógnita de la ecuación y sumar las ecuaciones resultantes, tenemos lo siguiente:

( )

( )( )

= + = +

= + = +

= + = +

Y a bX 1 Y a bX

Y a bX 1 Y a bX

Y a bX 1 Y a bX

1 1 1 1

2 2 2 2

3 3 3 3

Y a bX a bXn n n n= +( ) = +1 Y

Y na b X∑ ∑= + ecuación normal 1

ya que la primera incógnita en cada una de las ecuaciones es a y su coeficiente es 1.

Ahora, al multiplicar cada una de las “n” ecuaciones de la forma Y 5 a 1 bX por el coeficiente de la segunda incógnita de cada una de las ecuaciones y al sumar las ecuaciones resultantes, tenemos lo siguiente.

( )

( )( )

= + = +

= + = +

= + = +

Y a bX X X Y aX bX

Y a bX X X Y aX bX

Y a bX X X Y aX bX

1 1 1 1 1 1 12

2 2 2 2 2 2 22

3 3 3 3 3 3 32

XY a X b X2∑∑∑( ) = + ecuación normal 2

Page 9: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.1 Análisis de regresión 471

ya que la segunda incógnita en cada una de las ecuaciones es b, mientras sus coeficientes son X1, X2, …......, Xn

Las ecuaciones resultantes, al resolverse, se ubican en la estadística como el método de mínimos cuadrados.

Las ecuaciones que se obtuvieron como ecuaciones normales 1 y 2 se muestran en seguida para su resolución.

Y na b X∑∑ = + … 1

XY a X b X2∑∑∑( ) = + … 2

Puesto que hay dos ecuaciones con dos incógnitas, el sistema se resuelve por cualquiera de los métodos de simultáneas. Así, al emplear el método de suma o resta, los pasos a desarrollar son los siguientes:

Multiplicando la ecuación normal 1 1por1n

− y la ecuación normal 2 por 1

X∑ obtenemos ecuaciones

equivalentes que operamos con una suma algebraica.

− = − −∑ ∑Y

na

b X

n … 3

XY

Xa

b X

X

2∑∑

∑∑

( )= + … 4

XY

X

Y

n

b X

X

b X

n

2∑∑

∑ ∑∑

∑( )− = − … 5

Para despejar la incógnita o el coeficiente de regresión “b” de esta última ecuación, la número 5 , se llevan a cabo los siguientes pasos:

n XY X Y

n X

bn X b X

n X

( ) −=

− ( )∑∑∑∑

∑ ∑∑

2 2

n XY X Y bn X b X2 2∑ ∑∑∑∑ ( )( ) − = −

Si se aplica la factorización de un monomio por un polinomio, se obtendrá el penúltimo paso para el despeje requerido.

n XY X Y b n X X( ) − = − ( )

∑ ∑∑∑∑ 2 2

bn XY X Y

n X x2 2

∑∑∑∑∑ ( )

( )=

−si se indizan las variables para reconocer que todas las operaciones indicadas son sobre

todos los valores a trabajar de las variables X y Y.

bn x y x y

n x x

i i i i

i2

i

2

∑ ∑∑∑ ∑

( )( )( ) ( )

=−

Otras expresiones equivalentes, obtenidas por simplificación algebraica, son las que se enuncian en seguida:

b

n x y x y

n

n x x

n

x y nx

n

y

n

x nx

n

i i i i

i2

i

2

i ii i

i2 i

2

∑ ∑∑

∑ ∑

∑ ∑∑

∑ ∑

( )( )

( ) ( ) ( )

−=

Page 10: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

472 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

donde, como xx

ni= ∑ y y

y

ni∑= , se tiene que al sustituir tales expresiones, el coeficiente queda establecido

de la siguiente manera:

bx y n x y

x n xi i

i2 2

∑∑( )

( )( )( )

=−

Ahora, si retomamos el sistema de ecuaciones simultáneas y el coeficiente de regresión ya determinado “b”, sustituiremos éste en la ecuación normal 1 para despejar al otro coeficiente de regresión, que es “a”, con lo que se establece lo siguiente:

Y nan XY X Y

n X XX na

n X XY X Y

n X X2 2

2

2 2∑ ∑ ∑∑∑∑

∑ ∑ ∑ ∑∑∑∑( ) ( ) ( )( )

( ) ( )= +

= +−

na Yn X XY X Y

n X X

Y= −

( )− ( )− ( )

=∑ ∑ ∑∑

∑∑∑

∑2

2 2

nn X X n X XY X Y

n X

2 2 2

2

− ( )

− ( ) − ( )

∑∑ ∑ ∑ ∑∑

−− ( )

=− ( ) − ( ) + ( )

∑∑∑ ∑ ∑ ∑ ∑ ∑∑∑

X

n X Y X Y n X XY X Y

n X

2

2 2 2

2 −− ( )=

− ( )− ( )

=−

∑∑∑ ∑ ∑∑

∑∑∑∑

X

n X Y n X XY

n X X

an X Y

2

2

2 2

2 nn X XY

n n X X

n X Y X XY( )− ( )

=− ( )∑∑

∑∑∑ ∑ ∑∑

2 2

2 − ( )

=− ( )− ( )∑∑

∑ ∑ ∑∑∑n n X X

X Y X XY

n X X2 2

2

2 2∑∑

aX Y X XY

n X X

2

2 2

∑ ∑ ∑∑∑∑ ( )

( )=

− si se indizan las variables para reconocer que todas las operaciones indicadas son

sobre todos los valores a trabajar de las variables X y Y.

ax y x x y

n x x

i2

i i i i

i

2

i

2

∑ ∑ ∑∑∑ ∑( )

( )( )( )

=−

De la ecuación normal 1 , despejamos al coeficiente de regresión “a”, sin sustituir la expresión correspondiente al coeficiente “b”, sino dejándolo solo para la sustitución de su valor calculado aparte, para obtener lo siguiente:

na Y b X

aY b X

n

Y

nb

X

n

= −

=−

= −

∑ ∑∑ ∑ ∑ ∑

aY

nb

X

n∑ ∑= − , si se indizan las variables para reconocer que todas las operaciones indicadas son sobre

todos los valores a trabajar de las variables X y Y.

ay

nb

x

ni i∑ ∑= −

Page 11: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.1 Análisis de regresión 473

donde, como xx

ni∑= y y

y

ni∑= , se tiene que al sustituir tales expresiones el coeficiente queda de la siguiente

manera:

a y bx= −

La ecuación de regresión que se ha ajustado a los datos se llega a utilizar para predecir el valor de Y para un

valor dado de X con Y a bX= +�

Ejemplo 11.2Con la información del ejemplo 11.1, es decir, con los datos muestrales hipotéticos del recorrido del automóvil en kilómetros y el precio de venta en pesos, determinar la ecuación de la recta de regresión que mejor ajuste a los datos.

Solución: Iniciaremos por elaborar una tabla con las operaciones pertinentes de las variables, sin ordenar bajo la variable independiente, para determinar los coeficientes de regresión y sustituirlos en la ecuación de regresión ya deducida por el método de mínimos cuadrados.

Recorrido en kilómetros

xi 103

Precio de venta en pesos

yi 103xi

2 106 xi yi106

40 1000 1600 40 000

30 1500 900 45 000

30 1200 900 36 000

25 1800 625 45 000

50 800 2500 40 000

60 1000 3600 60 000

65 500 4225 32 500

10 3000 100 30 000

15 2500 225 37 500

20 2000 400 40 000

55 800 3025 44 000

40 1500 1600 60 000

35 2000 1225 70 000

30 2000 900 60 000

x 505 10i3∑ ( )= y 21600 10i

3∑ ( )= x 21825 10i2 6∑ ( )= x y 640000 10i i

6∑ ( )=

Tabla 11.2 Concentrado de operaciones de las variables, con escala indicada en base 10

Page 12: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

474 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

Si sustituimos los valores respectivos de x , y , x y x yi i i2

i i∑∑∑∑ en las ecuaciones de los coeficientes de regresión a y b, obtenemos lo siguiente:

aX Y X XY

n X X=

− ( )− ( )

=( ) ∑∑∑∑

∑∑

2

2 2

621825 10 216000 10 505 10 640000 10

14 2

3 3 6( ) − ( ) ( ) 11825 10 505 10

148220000 10

6 32

9

( ) − ( ) =

( )550525 10

2933 597229 10 2 933 597 23

6

3

( )= ( ) ≅. . pesoss

bn XY X Y

n X X=

( )−− ( )

=( ) −∑∑∑

∑∑ 2 2

6146 640000 10 5505 21600 10

50525 10

1948000 10

505

6

6

6( )( )( ) =

− ( )225 10

38 566( )

= − . /pesos kmts

Al considerar tales valores de los coeficientes de regresión, se establece la ecuación de estimación de la siguiente manera:

Y X� = −2 933597 23 38 56. . con escala ya aplicada.

Comprobación de la ecuación de estimación obtenida

Un método o procedimiento analítico, no gráfico, de comprobar que no hemos cometido ningún error matemático serio al determinar la ecuación de regresión o estimación, proviene de una de las propiedades matemáticas de una línea ajustada por el método de mínimos cuadrados, siendo ésta que los errores individuales de todos los datos, tanto por arriba y como por debajo de la línea de regresión, su suma debe ser cero, es decir, en lenguaje

simbólico Y Y 0i∑ − =�

Así, si la suma de los errores es igual a cero y la línea de regresión bajo la ecuación de regresión parece encajar en los puntos del diagrama de dispersión proporcionados por la información de la muestra graficamente, tendremos certidumbre razonable de que hemos realizado bien todos los cálculos matemáticos.

Ejemplo 11.3En la siguiente tabla se presentan las notas del primero y segundo exámenes de estadística inferencial, respectivamente, las cuales serán las variables X y Y, que incluyen a 10 estudiantes elegidos al azar de entre todos lo que cursan en cierto semestre esa unidad de aprendizaje. Habrá que determinar la ecuación de estimación y comprobar lo establecido por medio de la suma de los errores de desviación entre datos originales, así como los predichos para la variable dependiente, la cual debe poseer valor de cero.

Calificaciones en elprimer examen X

6 5 8 8 7 6 10 4 9 7

Calificaciones en elsegundo examen Y

8 7 7 10 5 8 10 6 8 6

Solución: La comprobación se efectuará directamente en una tabla como recurso auxiliar por contener 10 datos la muestra,

Page 13: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.1 Análisis de regresión 475

la cual expondrá los errores, por lo que consecuentemente la suma de ellos deberá ser de cero, si está correcta la ecuación de estimación o regresión.

La ecuación de regresión determinada para el ejemplo respectivo, con la cual se obtendrán los valores estimados

o predichos, es Y 4 .5X= +�

Calificaciones en elprimer examen

X

Calificaciones en elsegundo examen

YY Y − Y

6 8 7 1

5 7 6.5 .5

8 7 8 −1

8 10 8 2

7 5 7.5 −2.5

6 8 7 1

10 10 9 1

4 6 6 0

9 8 8.5 −.5

7 6 7.5 −1.5

Y Y 0∑( )− =�

Tabla 11.3 Determinación de errores de Y hacia valores predichos Y

Aunque el método de los mínimos cuadrados da por resultado una línea que ajusta con los datos en una mínima cantidad de variación, hay que estar conscientes de que la ecuación de regresión no es perfecta para toda predicción, sobre todo porque se toman muestras de la población, excepto si todos los datos observados caen en la línea de regresión predicha.

Nota: En la práctica, los cálculos operativos relacionados con un análisis de regresión en una muestra mayor a 30 datos se efectúan por medio de programas de cómputo, existentes y diseñados ex profeso para este análisis.

11.1.3 Error estándar de estimación

En estos momentos, y para este tema, remarcaremos de nuevo que un gran número de conocimientos de la estadística no son otros totalmente diferentes; por el contrario, en esencia son los mismos, solo que sufren una transformación de acuerdo con el escenario donde nos encontremos. Así, la desviación estándar de regresión es uno de esos casos al que en estadística descriptiva se le llama desviación estándar, se identifica en un sistema unidimensional bajo la recta numérica o eje de las X y se interpreta como un intervalo; en cambio, para el caso

Page 14: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

476 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

de la desviación estándar de regresión o error estándar de estimación se identifica en un sistema bidimensional por trabajar dos variables y se interpreta en el plano como una o varias franjas paralelas a la línea de regresión. También este último concepto se entendería como una generalización del primero.

La determinación de la exactitud del grado de dispersión de la población, cuanto más dispersa esté menor será la exactitud de las estimaciones al considerar una muestra de toda la información, es decir, el grado de dispersión en la población se logra estimar a partir del grado de dispersión en las observaciones de la muestra con respecto a la línea de regresión calculada.

La desviación estándar de los valores muestrales Yi hacia la línea de regresión Y es llamada desviación estándar de regresión o error estándar de estimación, ya que suele ser usada para medir el error de las estimaciones de los valores individuales de Yi basados en la línea de regresión. La fórmula general para la desviación estándar de regresión de los valores de Y sobre X es:

SY Y

n 2YX

i i2∑( )

=−

Como en ella se requerirían los valores predichos de Y para cada valor X en la muestra, es decir, los Y, por ello se prefiere aplicar el modelo que se encuentra establecido a partir de los datos iniciales u originales, por lo que se expresa como sigue:

SY a Y b X Y

n 2YXi2

i I I∑∑∑=− −

Nota: Se utiliza como divisor n − 2, no n, porque se perdieron dos grados de libertad al estimar la línea de regresión.

El valor de SYX indica el recorrido del error de las estimaciones de valores individuales de Y.

La interpretación de SYX con respecto a la línea Y es similar a la de sx con respecto a la x, es decir, si los valores de Y están distribuidos normalmente, 68.26%, 95.44%, 99.74% y 99.98% de los valores estarán dentro de las distancias de ±1, ±2, ±3 y ±4 veces la desviación estándar de regresión, respectivamente; entonces se tiene el siguiente modelo:

Y ZSi YX±� , donde Z 5 1, 2, 3, 4

Las líneas de regresión llegan a ser determinadas calculando dos puntos cualesquiera para cada línea.

Mientras más alto sea el valor de la desviación estándar de regresión, más amplio será el esparcimiento de los puntos individuales con respecto a la línea de regresión y menor el grado de dependencia de la relación. Sin embargo, como esto es laborioso, es posible usar el concepto de correlación para medir tal grado de relación.

Para mostrar lo anterior, consideremos otra vez la información del ejemplo 11.3; con base en ello, determinemos el error estándar de estimación SYX y su graficación correspondiente.

Page 15: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.1 Análisis de regresión 477

Ejemplo 11.4En la siguiente tabla se presentan las notas del primero y segundo exámenes de estadística inferencial, donde, respectivamente, serán las variables X y Y de 10 estudiantes elegidos al azar de entre todos lo que cursan cierto semestre esa unidad de aprendizaje. Hay que determinar el error estándar de estimación SYX.

Calificaciones en elprimer examen X

6 5 8 8 7 6 10 4 9 7

Calificaciones en elsegundo examen Y

8 7 7 10 5 8 10 6 8 6

Solución: La obtención del SYX se efectuará directamente en una tabla como recurso auxiliar por contener 10 datos la muestra y por los dos modelos establecidos.

Calificaciones en el primer examen

X

Calificaciones en el segundo examen

Y Y Y Y2( )− � Y2 XY

6 8 7 1 64 48

5 7 6.5 .25 49 35

8 7 8 1 49 56

8 10 8 4 100 80

7 5 7.5 6.25 25 35

6 8 7 1 64 48

10 10 9 1 100 100

4 6 6 0 36 24

9 8 8.5 .25 64 72

7 6 7.5 2.25 36 42

Y 75∑ = Y Y 172∑( )− =� Y 5872∑ = XY 540∑ =

Tabla 11.4 Determinación de información complementaria del ejemplo 11.4

SY Y

npuntosYX =

−( )−

= ≅∑ � 2

2178

1 4577.

Por el otro modelo se tiene lo siguiente.

SY a Y b X Y

nYXi i i i=− −

−=

− ( )− ( )∑∑∑ 2

2

587 4 75 5 540

10

.

−−= ≅

2178

1 4577. puntos

Page 16: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

478 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

2 4 6 8 10

2

4

6

8

10

7

5

3

1

Cal

ific

ació

nes

en

el 2

do

exám

en Y − S YX∧

Calificaciónes del 1er exámen

Y − 2S YX∧

Y + S YX∧

Y + 2S YX∧

Y = 4 + .5X ∧

Figura 11.6 Representacióngráficadelerrorestándardeestimacióndelejemplo11.4

Ejemplo 11.5El gerente de marketing de una cadena de tiendas de autoservicio desea determinar el efecto del espacio en las estanterías sobre las ventas de alimentos para animales domésticos. Para ello, se seleccionó una muestra aleatoria de 12 tiendas de igual tamaño cuyos resultados se presentan en la siguiente tabla:

TiendaEspacio en

estantería (pies)X

Ventas semanales(cientos de dólares)

Y1 5 1.6

2 5 2.2

3 5 1.4

4 10 1.9

5 10 2.4

6 10 2.6

7 15 2.3

8 15 2.7

9 15 2.8

10 20 2.6

11 20 2.9

12 20 3.1

Page 17: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.1 Análisis de regresión 479

a) Grafique un diagrama de dispersión.

b) En el supuesto de una relación lineal, utilice el método de los mínimos cuadrados para calcular los coeficientes de regresión a y b.

c) Interprete el significado de la pendiente b en este problema.

d) Prediga las ventas semanales de alimentos para animales domésticos (en cientos de dólares) para una tienda con 8 pies de estantería para esos alimentos.

e) Calcule el error estándar de estimación.

Solución: Continuamos con el apoyo de una tabla que contenga los cálculos operativos de las variables para responder a lo solicitado.

a)

0 6 8 10 12 1415

16 18 205

1

2

3

2.22.3

Ventas00 de dlls

pies(ft)2 4

2.42.52.62.72.82.9

3.1

1.4

1.6

1.9

Figura 11.7 Diagrama de dispersión o de puntos del ejemplo 11.5

Page 18: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

480 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

Espacio en estantería

(pies) X

Ventassemanales

(dlls) YXY X2 Y2

Y Y Y2( )− �

5 160 800 25 25 600 182 484

5 220 1 100 25 48 400 182 1 444

5 140 700 25 19 600 182 1 764

10 190 1900 100 36 100 219 841

10 240 2400 100 57 600 219 441

10 260 2600 100 67 600 219 1681

15 230 3450 225 52 900 256 676

15 270 4050 225 72 900 256 196

15 280 4200 225 78 400 256 576

20 260 5200 400 67 600 293 1 089

20 290 5800 400 84 100 293 9

20 310 6200 400 96 100 293 289

X 150∑ = Y 2850∑ = XY 38400∑ = X 22502∑ = Y 7069002∑ = Y Y 94902∑( )− =�

Tabla 11.5 Determinación de información complementaria del ejemplo 11.5

b) Para calcular los coeficientes de regresión a y b se utilizan los modelos establecidos por el método de mínimos cuadrados; en tal caso, sustituyendo los valores pertinentes, se obtiene lo siguiente:

aX Y X XY

n X X=

− ( )− ( )

=( ) −∑ ∑ ∑∑

∑∑

2

2 2

2250 2850 150 384000

12 2250 150

6525004500

1452

( )( ) − ( )

= = dólares

bn XY X Y

n X X=

( )−− ( )

=( ) − ( )∑ ∑∑

∑∑ 2 2

12 38400 150 2850(( )= =

4500333004500

7 40. /dólares pie

En conclusión, se establece la ecuación de regresión por la siguiente expresión:

Y 145 7.4X= +�

c) La interpretación del significado de la pendiente b es que por cada aumento de un pie de espacio de estantería las ventas crecerán en 7.40 dólares por semana.

d) Para predecir las ventas semanales en una tienda con 8 pies de estantería, sólo hay que sustituir ese valor de 8 en la ecuación de predicción Y 145 7.4X= +� con lo que queda de la siguiente forma: Y 8 145 7.4 8 204.20( ) ( )= + =�dólares.

Page 19: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.1 Análisis de regresión 481

e) El error estándar de estimación también se obtiene de una sustitución de las operaciones de las variables respectivas, lo que resulta en:

SY Y

nYX =−( )−

= ≅∑ � 2

29490

1030 80. dólares

Ahora por el modelo desde los valores originales o iniciales se tiene lo siguiente.

SY a Y b XY

nYX =− −

−=

− ( )−∑∑∑ 2

2

706900 145 2850 7 4 384. 000

109490

1030 80

( )= ≅ . dólares

11.1.4 Estimación en regresión

Como por lo general se muestrea entre poblaciones grandes a menudo interesa hacer inferencias en cuanto a la relación entre las variables de la totalidad de la población con base en los resultados de una muestra.

Hasta el momento se ha utilizado la ecuación de regresión ajustada para hacer predicciones en relación con el valor de Y para una X dada. Sin embargo, tales estimaciones únicamente son estimaciones puntuales del valor promedio real, porque están basadas en los resultados de la muestra. Como consecuencia, se llega a desarrollar una estimación de intervalo de confianza para predecir YX . También para hacer inferencias en cuanto al valor predicho de Y.

La estimación por intervalo de confianza de la media, de Y para una X, está dada por el modelo siguiente, bajo un comportamiento de la distribución t de Student por ser la muestra seleccionada aleatoriamente casi siempre de tamaño menor a 30:

Y t Sn

x x

xx

n

i c YXi

ii

� ± +−( )

−( )∑∑

12

2

2

La nomenclatura del modelo es la siguiente:

Yi 5 valor predicho de Y bajo Y a bXi i= +�

SYX5 error estándar de estimación

n 5 tamaño de la muestra

Xi 5 valor dado de X, a partir del cual se determina el intervalo de confianza.

tc 5 valor crítico obtenido con las tablas respectivas y el nivel de confianza establecido.

Un examen de tal ecuación indica que el ancho del intervalo de confianza depende de lo siguiente:

a) El aumento en la variación alrededor de la recta de regresión, medida con el error estándar de estimación, da por resultado un intervalo más ancho.

b) El aumento del tamaño de la muestra reduce el ancho del intervalo.

c) Varía el ancho del intervalo con diferentes valores de X.

d) Cuando se predice Y para los valores de X cercanos a la media X– , el intervalo es mucho más estrecho que para las predicciones de valores de X más distantes de la media, lo cual se ve con la parte de la raíz cuadrada de la ecuación.

Page 20: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

482 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

El planteamiento gráfico de lo anterior es el siguiente.

Y

XΧ−

Υ =a+b Χi i

Figura 11.8 Estimación de regresión por intervalo

La estimación de intervalo de la media real de Y varía hiperbólicamente como función de la cercanía de X dado con X– .

Si se consideran el enunciado y los conceptos obtenidos para el ejemplo 11.5, se trabajará una estimación por intervalo.

Ejemplo 11.6El gerente de marketing de una cadena de tiendas de autoservicio desea determinar el efecto del espacio en las estanterías sobre las ventas de alimentos para animales domésticos. Para conocer tales datos, se seleccionó una muestra aleatoria de 12 tiendas de igual tamaño cuyos resultados se presentan en la siguiente tabla:

Tienda Espacio enestantería

(pies)X

Ventassemanales

(00 de dólares)Y

1 5 1.6

2 5 2.2

3 5 1.4

4 10 1.9

5 10 2.4

6 10 2.6

7 15 2.3

8 15 2.7

9 15 2.8

10 20 2.6

11 20 2.9

12 20 3.1

Page 21: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.1 Análisis de regresión 483

Encuentre una estimación de intervalo con 90% de confianza en las ventas semanales promedio de una tienda que tiene 8 pies de estantería.

Solución

Iniciaremos por recabar los datos necesarios para la estimación por intervalo, los cuales son los siguientes. Más aún, se establecerá parte de la tabla 11.5 de lo que se requiere y se utilizará para establecer cálculos nuevos.

n 5 12 datos

Xx

n15012

12.5i∑= = = pies

x 2250i

2∑ =

X 8i = pies, valor dado a partir del cual se determina el intervalo de confianza.

Y 8 145 7.4 8 204.20( ) ( )= + =� dólares.

S9490

1030.8058YX = ≅ dólares

Espacio en estantería

(pies) X

Ventassemanales

YX2 (X X– )2

5 160 25 56.25

5 220 25 56.25

5 140 25 56.25

10 190 100 6.25

10 240 100 6.25

10 260 100 6.25

15 230 225 6.25

15 270 225 6.25

15 280 225 6.25

20 260 400 56.25

20 290 400 56.25

20 310 400 56.25

X 150∑ = Y 2850∑ = X 22502∑ = X X 3752∑( )− =

Tabla 11.6 Determinación de información complementaria del ejemplo 11.6

Page 22: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

484 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

Coeficiente de confianza del 90% bajo la distribución t de Student y con n 2 grados de libertad nos da un valor crítico de t 1.812C = ±

Ya es momento de aplicar el modelo correspondiente establecido, que es el siguiente:

Y t Sn

x x

xx

n

i C YXi

ii

� ± +−( )

−( )∑∑

12

2

2

204 20 1 812 30 80581

12

8 12 5

225015

2

. . ..

± ( )( ) +−( )−

0012

2( )

204 20 1 812 30 80581

1220 25

2250150

2. . ..± ( )( ) +− ( )

112204 20 1 812 30 8058 3706

204 20 20

. . . .

. .

± ( )( )( )± 66861

183 51 224 89. .≤ ≤µYX

El análisis de correlación produce un número que resume el grado de relación entre las dos variables. Tal análisis resulta útil, además, para un trabajo de exploración cuando un investigador o un analista tratan de determinar qué variables son potencialmente importantes en lo estudiado y están fuertemente relacionadas o asociadas.

El análisis de correlación, en contraste con el análisis de regresión, se emplea para medir la fuerza de asociación entre las variables. El objetivo no es usar una variable para predecir la otra, sino sólo medir la fuerza de la asociación o “covarianza” entre las dos variables que intervienen en la ecuación de regresión.

Las siguientes gráficas representan los tres tipos más comunes de asociación entre dos variables: correlación negativa perfecta, correlación positiva perfecta y la no correlación.

11.2 Análisis de correlación

dólares, con redondeo a centavos.

Page 23: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.2 Análisis de correlAción 485

Y

XCorrelación negativa

perfecta ρ= -1(disminución)

Correlación positivaperfecta ρ = 1(aumento)

Y

X

Y

XNo hay correlaciónρ = 0

Figura 11.9 Diferentes tipos de correlación

Los estadísticos han creado dos conceptos y sus medidas para describir la asociación entre dos variables: el coeficiente de correlación y el coeficiente de determinación.

La fuerza de asociación de una relación entre dos variables se suele medir con el coeficiente de correlación poblacional cuyos valores van desde 1 para la correlación negativa perfecta, hasta 1 para la correlación positiva perfecta. Por lo anterior, se interpreta este concepto, bajo la cercanía a 1, como alta y, bajo su cercanía con cero, como muy baja o con poca asociación entre las variables.

11.2.1 Coeficiente de correlación

Para problemas orientados a la regresión, el coeficiente de correlación se obtiene a partir de la información de la muestra, por lo que pasa su notación de letra griega para el concepto en la población r a una letra latina en la muestra r.

Si sólo se lleva a cabo el análisis de correlación en un grupo de datos, el coeficiente de correlación r de la muestra se calcula directamente desde los datos originales o iniciales, bajo las desviaciones, hacia los promedios respectivos de las dos variables, con el uso del siguiente modelo.

rx x y y

x x y y

i i

i i

=−( ) −( )

−( ) −( )∑

∑ ∑2 2

Page 24: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

486 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

El modelo anterior del coeficiente de correlación puede ser reducido o equivalente al mostrado en seguida:

rn xy x y

n x x n y y=

− ( )

− ( )

∑ ∑ ∑∑∑ ∑∑2 2 2 2

O bien, si se cuenta con la información del valor de los coeficientes de regresión, el modelo quedaría así:

ra y b xy ny

y ny

2

2 2

∑ ∑∑

=+ −

Considerando el enunciado y los conceptos obtenidos para los ejemplos 11.5 y 11.6, se obtendrá el coeficiente de correlación por medio de los tres modelos ya establecidos.

Ejemplo 11.7El gerente de marketing de una cadena de tiendas de autoservicio desea determinar el efecto del espacio en las estanterías sobre las ventas de alimentos para animales domésticos. Para ello se seleccionó una muestra aleatoria de 12 tiendas de igual tamaño cuyos resultados se presentan en la siguiente tabla.

Tienda Espacio enestantería

(pies)X

Ventassemanales

(00 de dólares)Y

1 5 1.6

2 5 2.2

3 5 1.4

4 10 1.9

5 10 2.4

6 10 2.6

7 15 2.3

8 15 2.7

9 15 2.8

10 20 2.6

11 20 2.9

12 20 3.1

En este caso hay que determinar el valor del coeficiente de correlación o el grado de asociación de las variables “espacio en estantería” con “promedio de ventas semanales del producto.”

Page 25: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.2 Análisis de correlAción 487

Solución

Iniciaremos por recabar los datos necesarios para calcular el coeficiente de correlación del ejemplo anterior, que son mostrados en la siguiente tabla. Más aún, se establecerá parte de la tabla 11.6, lo que se requiere y utilizará para establecer cálculos nuevos.

n 5 12 datos

Xx

n15012

12.5i∑= = = pies

Yy

n285012

237.5i∑= = = dólares

x 22502∑ =

y 7069002∑ =

XY 38400∑ =

a6525004500

145= = dólares

b333004500

7.40= = dólares/pie

Espacio en estantería

(pies) X

VentasSemanales

Y (X X– ) (X X– )2 (Y Y– ) (Y Y– )2 (X X– ) (Y Y– )

5 160 7.5 56.25 77.5 6006.25 581.25

5 220 7.5 56.25 17.5 306.25 131.25

5 140 7.5 56.25 97.5 9506.25 731.25

10 190 2.5 6.25 47.5 2256.25 118.75

10 240 2.5 6.25 2.5 6.25 −6.25

10 260 2.5 6.25 22.5 506.25 −56.25

15 230 2.5 6.25 7.5 56.25 −18.75

15 270 2.5 6.25 32.5 1056.25 81.25

15 280 2.5 6.25 42.5 1806.25 106.25

20 260 7.5 56.25 22.5 506.25 168.75

20 290 7.5 56.25 52.5 2756.25 393.75

20 310 7.5 56.25 72.5 5256.25 543.75

X 150∑ = Y 2850∑ = X X 3752∑( )− = Y Y 30025

2∑( )− = X X Y Y 2775∑( )( )− − =

Tabla 11.7 Determinación de información complementaria del ejemplo 11.7

Page 26: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

488 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

Ahora es momento de aplicar los modelos correspondientes establecidos, que son los siguientes:

rx x y y

x x y y

2775

375 30025

27753355.499218

.8270i i

i

2

i

2

∑∑ ∑

( )( )( ) ( ) ( )( )

=− −

− −= = ≅

rn xy x y

n x x n y y=

− ( )

− ( )

∑ ∑∑∑∑ ∑∑2 2 2 2

==( )− ( )( )

( ) − ( )

12 38400 150 2850

12 2250 150 12

22 706900 2850

460800 427500

4502( ) − ( )

=( ) − ( )

00 360300

3330040265 99061

8270

( )

= ≅.

.

ra y b xy ny

y ny

145 2850 7.4 38400 12 237.5

706900 12 237.5

413250 284160 676875706900 676875

2053530025

.683930058 .8270

2

2 2

2

2

∑ ∑∑

( ) ( ) ( )( )

( )=

+ −−

=+ −

−=

+ −−

= = ≅

Interpretación: Correlación alta positiva

11.2.2 Variaciones explicada y no explicada

Los términos “explicada” y “no explicada” son usados aquí para indicar si o no la parte de la desviación total Y Y– es reducida por la introducción de los valores de X cuando se calculan los valores de Y. La desviación explicada Y Y– es afectada o reducida por el uso de la variable X. Por otro lado, la desviación no explicada Y Y es retenida o no reducida por la introducción de la línea de regresión, es decir, la media aritmética de

los valores de Y: yy

ni∑= es obtenida sin referencia de los valores de X. La Y,que representa la ecuación de

regresión de los valores de Y, es obtenida con la influencia de los valores de X. Luego, si los valores de Y están relacionados con los valores de X, en algún grado, las desviaciones de los valores de Y con respecto a Y– habrán de ser reducidos por una magnitud debida a la introducción de los valores de X al calcular los valores de Y. Es de indicar que una desviación estadísticamente es operación para un solo punto.

La magnitud de la reducción de las desviaciones aparece en lenguaje gráfico para el siguiente ejemplo:

Ejemplo 11.8En una compañía de seguros se desea determinar la relación entre la experiencia en ventas y el volumen de las mismas. Para ello, se selecciona una muestra aleatoria de un cierto número de vendedores y se encuentra que sus años de experiencia X, así como sus ventas anuales normales Y son los datos mostrados en la siguiente tabla:

X 1 2 3 4 5 6 7 8 9

Y (en $100 000) 2 1 3 3 4 5 6 5 7

Determínese un análisis de la relación. Desviación total 5 Desviación no explicada 1 Desviación explicada. O en lenguaje simbólico: Y Y Y Y Y Y( ) ( )( )− = − + −� �

Page 27: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.2 Análisis de correlAción 489

Solución

Comenzaremos por establecer la ecuación de regresión calculada previamente y solo concentrarnos en el análisis solicitado.

Y .65 .67x≅ +� en cientos de miles de pesos

yy

n369

4i∑= = = cientos de miles de pesos

El análisis se realizará en el punto cuyas coordenadas son (7, 6)Y 7 .65 .67 7 5.34( ) ( )≅ + ≅� cientos de miles de pesos

Ahora, como lo muestra la siguiente figura, se establece el cumplimiento solicitado puntualmente bajo un manejo gráfico.

Ventas cientos

de miles

1 2 3 5 6 74

1

2

3

5

6

5.34

Y

X

4

Y=6

Y=4

Y-Y=6-4=2

Y-Y=6-5.34=.66

Y-Y=5.34-4=1.34

Linea de regresión Y

años

−−

Figura 11.10 Análisis puntal de la relación: desviación total 5 desviación no explicada 1 desviación explicada

El coeficiente de determinación surge al medir el grado o la fuerza de la relación existentes entre dos variables, lo cual, en lenguaje simbólico, se denotará como el cuadrado del coeficiente de correlación, es decir, r2. Dicho coeficiente se obtiene de la relación que se da entre los valores originales y los valores de la línea de regresión, así como la que existe entre los valores originales con su media, ambos únicamente con respecto de la variable dependiente Y.

Ahora el término de variaciones, en ambos casos, se emplea en su acepción estadística habitual para todos los datos de la muestra dando “La suma de un grupo de cuadrados de desviaciones”. En consecuencia, es razonable expresar las variaciones de los valores de Y alrededor de la línea de regresión mediante la siguiente expresión:

Y Y2∑( )− � , y la segunda variación, la de los valores de Y alrededor de su media con la siguiente expresión:

Y Y−( )∑ 2Más aún, se generaliza la relación más completa, la cual se expresa de la siguiente forma.

Page 28: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

490 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

Variación total 5 Variación no explicada 1 Variación explicada

Y Y Y Y Y Y2 2 2∑ ∑∑( ) ( )( )− = − + −� �

El coeficiente de correlación llega a ser obtenido entonces desde el concepto mismo de variaciones de la siguiente manera:

rVariaciónexp licada

Variación total= ±

El inconveniente de tal opción para el coeficiente de correlación es que está supeditada a la obtención previa de los coeficientes de regresión, principalmente al de la pendiente, porque en correspondencia se elige el signo de más o el de menos para asignárselo al valor del coeficiente de correlación cuando se estén trabajando ambas situaciones, la de regresión y la de correlación, con los mismos datos e idéntico problema, es decir, cuando la pendiente de la ecuación de estimación es positiva, r es la raíz cuadrada positiva; pero si la pendiente es negativa, entonces r es la raíz cuadrada negativa. Como resultado, se tiene que el signo de r indica la dirección de la relación entre las dos variables X y Y.

Además, se establece que hay una relación inversa cuando Y disminuye al aumentar X, por lo que entonces r caerá entre 1 y 0; de manera análoga, se tiene que hay una relación directa cuando ambas variables aumentan, aunque no en la misma proporción forzosamente; en consecuencia, el valor de r estará dentro de 0 y 1.

11.2.3 Coeficiente de determinación

Basados en la expresión de variación referida, el coeficiente de determinación r2 es definido como la razón de la variación explicada a la variación total, lo que en lenguaje simbólico da el modelo siguiente:

rVariaciónexp licada

Variación total

Y Y

Y Y

2

2

2

∑∑

( )( )

= =−

Cuando los puntos Y caen sobre la línea de regresión, se tiene que Y 5 Y, entonces Y Y Y Y2 2∑ ∑( ) ( )− = −� ,

por lo tanto, r2 5 1, lo cual indica una correlación positiva perfecta. Por otra parte, cuando los puntos

Y están dispersos y bastante lejos de la línea de regresión Y, entonces Y Y2∑( )− � se vuelve muy

grande; además, y como la variación total es fija, se tiene que Y Y� −( )∑2

se vuelve muy pequeño,

lo que implica que la razón tiende a cero indicando que no hay correlación basada en la recta de regresión. Por lo tanto, el recorrido de los valores de r2 es de 0 a 1.

Si se enuncia de manera diferente, cuando r2 es cercano a 1, los valores de Y están muy cercanos a la línea de regresión. Sin embargo, como r2 es siempre un número positivo, no nos dice si la relación entre las dos variables es positiva o negativa. Por lo tanto, la raíz cuadrada de r2 es frecuentemente calculada para indicar, además del grado de relación, la dirección de la relación.

Page 29: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.2 Análisis de correlAción 491

Más aún, el coeficiente de determinación r2 llega a ser también expresado en términos de las varianzas, en vez de las variaciones, considerando que estas varianzas estadisticamente son el representante o promedio de las variaciones en todos los valores de la muestra.

Coeficiente de determinación = =

−( )−

∑Varianza licada

Varianzatotal

Y Y

nY

exp

� 2

YY

n( )∑ 2

Con base en los datos del ejemplo 11.7, se obtendrán el coeficiente de determinación y su interpretación.

Ejemplo 11.9El gerente de marketing de una cadena de tiendas de autoservicio desea determinar el efecto del espacio en las estanterías sobre las ventas de alimentos para animales domésticos. Para ello, se seleccionó una muestra aleatoria de 12 tiendas de igual tamaño cuyos resultados se presentan en la siguiente tabla:

Espacio enestantería

(pies)X

Ventassemanales

(00 de dólares)Y

5 1.6

5 2.2

5 1.4

10 1.9

10 2.4

10 2.6

15 2.3

15 2.7

15 2.8

20 2.6

20 2.9

20 3.1

En este caso, hay que determinar el valor del coeficiente de determinación de las variables “espacio en estantería” y “promedio de ventas semanales del producto”

Solución

Iniciaremos por recabar los datos necesarios para calcular el coeficiente de determinación, los cuales son mostrados en la siguiente tabla. Más aún, se establecerá parte de la tabla 11.7 de lo que se requiere y se utilizará para establecer cálculos nuevos.

Page 30: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

492 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

n 5 12 datos

Y 2850∑ =

XY 38400∑ =

Yy

n285012

237.5i∑= = = dólares

y 7069002∑ =

a6525004500

145= = dólares

b332300

45007.40= = dólares/pie

Y 145 7.4X= +�

Espacio en estantería

(pies) X

VentasSemanales

Y Y Y Y– (Y Y

– )2 (Y Y– )2

5 160 182 55.5 3 080.25 6006.25

5 220 182 55.5 3 080.25 306.25

5 140 182 55.5 3 080.25 9506.25

10 190 219 18.5 342.25 2256.25

10 240 219 18.5 342.25 6.25

10 260 219 18.5 342.25 506.25

15 230 256 18.5 342.25 56.25

15 270 256 18.5 342.25 1056.25

15 280 256 18.5 342.25 1806.25

20 260 293 55.5 3 080.25 506.25

20 290 293 55.5 3 080.25 2756.25

20 310 293 55.5 3 080.25 5256.25

X 5 150 Y 5 2 850 (Y Y– )2 5 20 535 (Y Y

– )2 5 30 025

Tabla 11.8 Determinación de información complementaria del ejemplo 11.9

Page 31: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.2 Análisis de correlAción 493

Ya es momento de indicar el valor obtenido del coeficiente de correlación; para así, al elevar este al cuadrado, se encontrará el valor del coeficiente de determinación.

ra y b xy ny

y ny

145 2850 7.4 38400 12 237.5

706900 12 237.5

413250 284160 676875706900 676875

2053530025

.683930058 .8270

2

2 2

2

2

∑ ∑∑

( ) ( ) ( )( )

( )=

+ −−

=+ −

−=

+ −−

= = ≅

r2 28270 683929 6839 68 39= ( ) = ≅ =. . . . %

Consideremos ahora otra alternativa para determinar lo solicitado qe es la de variaciones, es decir, en lenguaje simbólico se tiene:

rVariación licada

Variación total

Y Y2

2

= =−( )exp�∑∑

∑ −( )= = = =

Y Y2

2053530025

68393 6839 68 39. . . %

Si se determinara con varianzas, al estar el valor del tamaño de la muestra dividiendo a ambas variaciones operativamente se simplificara quedando la expresión de variaciones anterior.

Interpretación: 68.39% de las variaciones en el espacio de la estantería explican la variación en las ventas del producto.

Interpretación intuitiva del coeficiente de determinación r2

Consideremos las formas extremas en las que las variables X y Y llegan a estar relacionadas.

a) Correlación positiva perfecta.b) Ninguna correlación.c) Correlación negativa perfecta.

Un primer valor extremo inciso a) en el cual las variables X y Y se llegan a relacionar es aquél en el que todos los puntos de sus valores se encuentran sobre o pertenecen a la línea de regresión con pendiente positiva. Un ejemplo para obtener el valor del coeficiente de determinación en esta situación es el que se mostrará en seguida:

Ejemplo 11.10A partir de la siguiente información para dos variables, dada en una tabla, hay que calcular el coeficiente de determinación.

X 1 2 3 4 5 6 7 8

Y 8 12 16 20 24 28 32 36

Solución

Iniciaremos por recabar los datos necesarios para calcular el coeficiente de determinación, que son mostrados en la siguiente tabla:

Page 32: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

494 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

X Y XY X2Y (Y Y

– )2 (Y Y– )2

1 8 8 1 8 196 196

2 12 24 4 12 100 100

3 16 48 9 16 36 36

4 20 80 16 20 4 4

5 24 120 25 24 4 4

6 28 168 36 28 36 36

7 32 224 49 32 100 100

8 36 288 64 36 196 196

X 36∑ = Y =∑ 176 XY 960∑ = X 2042∑ = Y Y 6722∑( )− =� Y Y 672

2∑( )− =

Tabla 11.9 Determinación de información complementaria del ejemplo 11.10

Para calcular los coeficientes de regresión a y b se utilizan los modelos establecidos por el método de mínimos cuadrados, es decir, sustituyendo los valores pertinentes se obtiene lo siguiente:

aX Y X XY

n X X

204 176 36 960

8 204 36

1344336

42

2 2 2

∑ ∑ ∑ ∑∑∑ ( )

( )( ) ( )( )( ) ( )

( )=

−=

−−

= =

bn XY X Y

n X X=

− ( )=

( ) − ( )( )(

∑ ∑ ∑∑ ∑2 2

8 960 36 176

8 204)) − ( )= =

36

1344336

42

En conclusión, es posible establecer la ecuación de regresión por la siguiente expresión:

Y 4 4X= +�

En seguida se comprueba que Y Y 12∑( )− =� , lo cual nos indica que todos los puntos están sobre la línea de

regresión.

Y176

822= =

Por último, se obtiene lo solicitado, es decir, rY Y

Y Y

672672

12

2

2

∑∑

( )( )

=−

−= =

�, lo que indica una correlación positiva

perfecta, ya que tiene la línea de regresión pendiente positiva.

Un segundo valor extremo inciso b) en el cual las variables X y Y se relacionan, es aquél en el que los puntos de sus valores se encuentran a igual distancia en ambos lados de una línea horizontal de regresión. Un ejemplo para obtener el valor del coeficiente de determinación en esta situación es el que se mostrará en seguida:

Page 33: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.2 Análisis de correlAción 495

Ejemplo 11.11A partir del conjunto de valores para las variables de este caso, que son las indicadas en la siguiente tabla, determínese el coeficiente de determinación:

X 2 2 4 4 6 6 8 8

Y 4 8 4 8 4 8 4 8

Solución

Iniciaremos recabando los datos necesarios para calcular el coeficiente de determinación, los cuales son mostrados en la siguiente tabla:

X Y XY X2Y (Y Y

– )2 (Y Y– )2

2 4 8 4 6 0 4

2 8 16 4 6 0 4

4 4 16 16 6 0 4

4 8 32 16 6 0 4

6 4 24 36 6 0 4

6 8 48 36 6 0 4

8 4 32 64 6 0 4

8 8 64 64 6 0 4

X 40∑ = Y 48∑ = XY 240∑ = X 2402∑ = Y Y 02∑( )− =� Y Y 32

2∑( )− =

Tabla 11.10 Determinación de información complementaria del ejemplo 11.11

Para calcular los coeficientes de regresión a y b se utilizan los modelos establecidos por el método de mínimos cuadrados, donde, al sustituir los valores pertinentes, se obtiene lo siguiente:

aX Y X XY

n X X

240 48 40 240

8 240 40

1920320

62

2 2 2

∑ ∑∑∑∑∑ ( )

( )( ) ( )( )( ) ( )

( )=

−=

−−

= =

bn XY X Y

n X X

8 240 40 48

8 240 40

0320

02 2 2

∑ ∑∑∑∑ ( )

( ) ( )( )( ) ( )

( )=

−=

−−

= =

En conclusión, se establece la ecuación de regresión por la siguiente expresión:

Y 6

Y488

6

=

= =

Page 34: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

496 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

En seguida se comprueba que Y Y 02∑( )− =�

Por último, lo solicitado rY Y

Y Y

032

02

2

2

∑∑

( )( )

=−

−= =

�, lo que indica que no hay correlación.

Un tercer valor extremo inciso c) en el cual las variables X y Y llegan a relacionarse es aquél en el que todos los puntos de sus valores se encuentran sobre o pertenecen a la línea de regresión con pendiente negativa. Un ejemplo para obtener el valor del coeficiente de determinación en tal situación es el que se mostrará en seguida:

Ejemplo 11.12A partir de la siguiente información para dos variables, dada en una tabla, hay que determinar el coeficiente de determinación.

X 1 2 3 4 5 6 7

Y 28 24 20 16 12 8 4

Solución

Iniciaremos por recabar los datos necesarios para calcular el coeficiente de determinación, los cuales son mostrados en seguida.

Para calcular los coeficientes de regresión a y b se utilizan los modelos establecidos por el método de mínimos cuadrados, en el cual, al sustituir los valores pertinentes, se obtiene lo siguiente:

aX Y X XY

n X X=

− ( )− ( )

=( )( ) − ( )∑ ∑ ∑∑

∑∑

2

2 2

140 112 28 3366

7 140 28

6272196

322

( )( ) − ( )

= =

bn XY X Y

n X X=

( )−− ( )

=( ) − ( )( )∑ ∑∑

∑ ∑2 2

7 336 28 112

7 1400 28

784196

42( ) − ( )= − = −

En conclusión, es posible establecer la ecuación de regresión con la siguiente expresión:

Y 32 4X= −�

X Y XY X2Y (Y Y

– )2 (Y Y– )2

1 28 28 1 28 144 144

2 24 48 4 24 64 64

3 20 60 9 20 16 16

4 16 64 16 16 0 0

5 12 60 25 12 16 16

6 8 48 36 8 64 64

7 4 28 49 4 144 144

X 28∑ = Y 112∑ = XY 336∑ = X 1402∑ = Y Y 4482∑( )− =� Y Y 448

2∑( )− =

Tabla 11.11 Determinación de información complementaria del ejemplo 11.12

Page 35: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.3 inferenciAs en regresión y correlAción 497

En seguida se comprueba que Y Y−( ) =∑ � 2

0 , lo cual nos indica que todos los puntos están sobre la línea de regresión.

Y1127

16= =

Por último, lo solicitado: rY Y

Y Y

448448

12

2

2

∑∑

( )( )

=−

−= =

�, que indica una correlación negativa perfecta, por tener la

línea de regresión pendiente negativa.

11.3 Inferencias en regresión y correlación

Se utilizará la inferencia estadística para obtener conclusiones en cuanto a la pendiente de la población 1 y el coeficiente de correlación de la población r

11.3.1 Inferencia de la pendiente poblacional en regresión

Se logra determinar si hay o no una relación significativa entre las variables X y Y al probar si 1 (pendiente real) es o no igual a cero. Si se rechaza tal hipótesis, se llega a la conclusión de que hay prueba de una relación lineal.

Por consiguiente, las hipótesis nula y alternativa se expresarían de la siguiente forma:

H : 0

H : 00 1

1 1

ββ

=

No hay relación lineal

Hay relación lineal

El estadístico de prueba para determinar si hay relación es el enunciado enseguida:

tbSp

b

= donde SS

xx

n

byx=

−( )∑ ∑2

2 con datos de una muestra, y b la pendiente de la ecuación de regresión.

Page 36: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

498 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

Hay que destacar que los pasos para llevar a cabo la prueba de hipótesis son los mismos que se vienen trabajando desde capítulos anteriores, sin importar que en este contexto se consideren dos variables.

Una segunda opción para probar la existencia de una relación lineal entre las variables es establecer una estimación por intervalo de confianza para 1

y determinar si el valor hipotético 1 5 0 está

incluido en el intervalo. La estimación por intervalo de confianza para la pendiente se obtendrá con el uso de b tSb± , con datos de una muestra.

Hay que destacar que el planteamiento para determinar un intervalo de confianza es análogo al trabajado en capítulos anteriores y en la sección 11.1.4 de este capítulo, solo que ahora hay que considerar nuevos valores como son el error de estimación, el cual se obtiene de acuerdo con el contexto de regresión con respecto a la pendiente y no a un punto X, además de que casi siempre didácticamente se trabaja con muestras con menos de 30 elementos, por lo que entonces el comportamiento conveniente de la distribución debe ser la distribución t de Student con n 2 grados de libertad, por desconocer dos parámetros.

Ejemplo 11.13Un investigador de una fábrica de automóviles quiere desarrollar un modelo estadístico para predecir el tiempo de la entrega (el número de días transcurridos entre la fecha del pedido y la fecha de entrega del automóvil) de vehículos nuevos ordenados con equipo opcional. Como el investigador cree que hay una relación lineal entre el número de opciones pedidas y el tiempo de entrega, se selecciona una muestra aleatoria de 16 automóviles con los resultados presentados en la siguiente tabla:

AutomóvilNúmero de opciones

ordenadas (x)

Tiempo de entrega en días

(y)

1 3 25

2 4 32

3 4 26

4 7 38

5 7 34

6 8 41

7 9 39

8 11 46

9 12 44

10 12 51

11 14 53

12 16 58

13 17 61

14 20 64

15 23 66

16 25 70

Page 37: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.3 inferenciAs en regresión y correlAción 499

a) Con un nivel de significación del 5%, ¿hay una relación lineal entre el número de opciones y el tiempo de entrega?

b) Encuentre una estimación por intervalo con 95% de confianza para la pendiente real.

Solución

Iniciaremos por recabar los datos necesarios para calcular los conceptos a usar para llevar a cabo la prueba solicitada en un inciso y la estimación en el otro inciso, todo lo cual es planteado en la tabla siguiente:

X Y XY X2 Y2

3 25 75 9 625

4 32 128 16 1 024

4 26 104 16 676

7 38 266 49 1 444

7 34 238 49 1 156

8 41 328 64 1 681

9 39 351 81 1 521

11 46 506 121 2 116

12 44 528 144 1 936

12 51 612 144 2 601

14 53 742 196 2 809

16 58 928 256 3 364

17 61 1 037 289 3 721

20 64 1 280 400 4 096

23 66 1 518 529 4 356

25 70 1 750 625 4900

X 192∑ = XY 748∑ = XY 10391∑ = X 29882∑ = y 380262∑ =

Tabla 11.12 Determinación de información complementaria del ejemplo 11.13

Para calcular los coeficientes de regresión a y b se utilizan los modelos establecidos por el método de mínimos cuadrados, donde, al sustituir los valores pertinentes, se obtiene lo siguiente:

aX Y X XY

n X X

2988 748 192 10391

16 2988 192

23995210944

21.92542

2 2 2

∑ ∑ ∑∑∑∑ ( )

( )( ) ( )( )( ) ( )

( )=

−=

−−

= ≅

días

bn XY X Y

n X X=

( )−− ( )

=( ) − ( )(∑∑ ∑

∑∑ 2 2

16 10391 192 748))( ) − ( )

= ≅16 2988 192

2264010944

2 06872 . días/opciones

Page 38: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

500 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

El error estándar de estimación también se obtiene de una sustitución de las operaciones de las variables respectivas, para obtener lo siguiente:

SY a Y b XY

nYX =− −

−=

− ( )( ) −∑∑∑ 2

2

38026 21 9254 748 2. .00687 10391

14129 9391

143 0465

( )( )= ≅.

. días

Un nivel de significación del 5% con prueba de dos extremos y grados de libertad de n 2 5 16 2 5 14 nos da un valor crítico por tablas correspondientes a la distribución t de Student de tc 5 2.145

Recordemos que en el capítulo correspondiente a prueba de hipótesis ya se planteó cómo se deben usar las tablas de la distribución t de Student.

Para determinar el error estándar del coeficiente de regresión, seguimos el modelo correspondiente, que en seguida será enunciado.

SS

xx

n

byx

ii

=

−( )

=−

=

∑ ∑2

2

3 0465

298836864

16

3 046. . 5526 1534

1165.

.≅

días/opciones

En estos momentos ya es posible comenzar a dar respuesta a lo solicitado.a) Siguiendo los pasos de toda prueba de hipótesis, se tiene el planteamiento siguiente:

No hay relación linealH : 0

H : 00 1

1 1

ββ

=

≠ Hay relación lineal

0�1�2�3�4 4321

R. A.

1 � α = .95

R.R R.Rα

2 025= . α2 025= .

c�t = �2.145 ct = 2.145

Figura 11.11 RegladedecisióngráficaenunidadestdeStudent

Aceptar H si 2.145 t 2.1450 p− ≤ ≤

Page 39: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.3 inferenciAs en regresión y correlAción 501

Cálculo del estadístico de prueba por el modelo correspondiente tbSp

b

= = =2 06871165

17 7571.

..

Ahora, como = >t 17.7571 2.145 Hp 0 se rechaza, luego H1 se acepta.

Conclusión: Hay una relación lineal.

b) Para establecer una estimación por intervalo para la pendiente poblacional ß1, se procederá a obtenerla bajo el modelo siguiente: b tSb± .

El valor crítico se determina con el coeficiente de confianza del 95% y la distribución t de Student, siendo este el mismo que para el inciso anterior, es decir, tc = ±2 145.b tS

2.0687 2.145 .1165

2.0687 .2499

1.8188 2.3186

b

( )±

±

±≤ ≤

Interpretación: en 95 casos de 100 el valor de la pendiente poblacional se encuentra entre 1.82 y 2.32 días/opciones

11.3.2 Inferencia del coeficiente de correlación poblacional

El método a emplear consiste en examinar la relación lineal entre dos variables por medio del coeficiente de correlación de la muestra r. La prueba de la existencia de una relación lineal entre dos variables es la misma que determinar si hay o no alguna correlación significativa entre ellas.

Se plantea la hipótesis nula de que el coeficiente de correlación de la población es igual a cero. Entonces la hipótesis nula y la alternativa se establecerían de la siguiente forma:

No hay correlaciónH : 0

H : 00

1

ρρ=

≠ Hay correlación

El estadístico de prueba para determinar la existencia de la correlación es el enunciado siguiente:

tr

1 rn 2

p 2=

−−

En este caso, también se hacen las observaciones planteadas para la inferencia en regresión. Asímismo se utilizará el ejemplo anterior ya trabajado.

Ejemplo 11.14Un investigador de una fábrica de automóviles quiere desarrollar un modelo estadístico para predecir el tiempo de entrega (el número de días transcurridos entre la fecha del pedido y la fecha de entrega del automóvil) de

Page 40: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

502 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

vehículos nuevos ordenados con equipo opcional. El investigador cree que hay una relación lineal entre el número de opciones pedidas y el tiempo de entrega. Se selecciona una muestra aleatoria de 16 automóviles con los resultados que se presentan en la siguiente tabla:

Automóvil

Número de opcio-nes

ordenadas (x)

Tiempo de entrega en días

(y)

1 3 25

2 4 32

3 4 26

4 7 38

5 7 34

6 8 41

7 9 39

8 11 46

9 12 44

10 12 51

11 14 53

12 16 58

13 17 61

14 20 64

15 23 66

16 25 70

Con un nivel de significancia del 5%, ¿hay una relación lineal entre el número de opciones y el tiempo de entrega por medio del coeficiente de correlación muestral?

Solución

Iniciaremos por recabar los datos necesarios para calcular los conceptos a usar para llevar a cabo la prueba solicitada, lo cual se plantea en la tabla siguiente:

Page 41: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

11.3 inferenciAs en regresión y correlAción 503

X Y XY X2 Y2

3 25 75 9 625

4 32 128 16 1 024

4 26 104 16 676

7 38 266 49 1 444

7 34 238 49 1 156

8 41 328 64 1 681

9 39 351 81 1 521

11 46 506 121 2 116

12 44 528 144 1 936

12 51 612 144 2 601

14 53 742 196 2 809

16 58 928 256 3 364

17 61 1 037 289 3 721

20 64 1 280 400 4 096

23 66 1 518 529 4 356

25 70 1 750 625 4900

X 192∑ = Y 748∑ = XY 10391∑ = X 29882∑ = Y 380262∑ =

Tabla 11.13 Determinación de información complementaria del ejemplo 11.14

Para calcular los coeficientes de correlación y el de determinación se utilizan los modelos establecidos, donde, luego de sustituir los valores pertinentes, se obtiene lo siguiente:

rn xy x y

n x x n y y=

− ( )

− ( )

∑ ∑∑∑∑ ∑∑2 2 2 2

==( )− ( )( )

( ) − ( )

16 10391 192 748

16 2988 192 162

338026 748

22640

10944 48912

226

2( ) − ( )

=[ ][ ]

= 440

535292928

2264023136 39834

9785= ≅.

.

Por lo tanto, r .9785 .95752 2( )= = .

Un nivel de significancia del 5%, con prueba de dos extremos y grados de libertad de n 2 5 16 2 5 14, nos da un valor crítico por tablas correspondientes a la distribución t de Student de tc 5 2.145. Recordemos que en el capítulo correspondiente a prueba de hipótesis se planteó cómo se deben usar las tablas de la distribución t de Student.

En estos momentos ya es posible comenzar a dar respuesta a lo solicitado. Siguiendo los pasos de toda prueba de hipótesis, se tiene el planteamiento siguiente:

No hay correlaciónH : 0

H : 00

1

ρρ=

≠ Hay correlación

Page 42: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

504 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

0�1�2�3�4 4321

R. A.

1 � α = .95

R.R R.Rα

2 025= . α2 025= .

c�t = �2.145 ct = 2.145

Figura 11.12 RegladedecisióngráficaenunidadestdeStudent

Aceptar H ,si 2.145 t 2.1450 p− ≤ ≤

Cálculo del estadístico de prueba por el modelo correspondiente tr

1 rn 2

p 2=

−−

t.9785

1 .957514 2

.9785

.055117.759p =

−−

= ≅

Ahora, como = >t 17.759 2.145 Hp 0 se rechaza, luego H1 se acepta.

Conclusión: Hay una correlación alta positiva.

Ejercicios de regresión y correlación lineal

11.1 En un estudio sobre cómo la producción del trigo depende del fertilizante supóngase que se dispone de fondos para efectuar solo siete observaciones experimentales. Así, “x” se establece a siete diferentes niveles con una observación “y” en cada caso, como se presenta en la tabla siguiente:

Observaciones del fertilizante y de la producción

Fertilizante (libras/acre) x 100 200 300 400 500 600 700

Producción (bulto/acre) y 40 50 50 70 65 65 80

Determínese:

a) La ecuación de regresión. b) Qué producción se predecirá para una cantidad de fertilizante de 800 libras/acre.c) El error estándar de regresión.

Page 43: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

ejercicios de regresión y correlAción lineAl 505

11.2 El consejo municipal ha recabado datos sobre el número de accidentes menores de tránsito y el número de juegos de futbol de jóvenes que tienen lugar en la ciudad el fin de semana.

X (juegos de futbol) 20 30 10 12 15 25 34

Y (accidentes menores) 6 9 4 5 7 8 9

a) Represente gráficamente estos datos.b) Desarrolle la ecuación de estimación que mejor describa tales datos.c) Pronostique el número de accidentes menores de tránsito que ocurrirán en un fin de semana durante

el cual tendrán lugar 33 partidos de futbol en esa ciudad.d) Determine la desviación estándar de regresión.e) Calcule el coeficiente de correlación.

11.3 Una compañía construye casas unifamiliares. El contador especializado de la firma quiere estimar el costo de construcción de las casas unifamiliares para el año próximo, con el propósito de asignar un precio de venta a cada casa. El costo de construcción de todas las residencias unifamiliares construidas el año anterior está disponible en los registros de la empresa. En vez de utilizar simplemente los costos del año pasado como una estimación de los costos del próximo año, el contador cree que el costo de la construcción tiene una fuerte relación con el tamaño del terreno. Se selecciona una muestra aleatoria de 12 casas construidas el año pasado, cuya información recopilada se presenta en la siguiente tabla:

Tamaño del terreno (miles de pies2)

5 7 10 10 12 20 22 15 30 40 12 15

Costo de construcción(miles de dólares)

31.6 32.4 41.7 50.2 46.2 58.5 59.3 48.4 63.7 85.3 53.4 54.5

Calcúlese la ecuación de regresión y el coeficiente de determinación, luego interprete este último.

11.4 Con la tabla siguiente, que muestra las respectivas alturas X y Y de una muestra de doce padres y de sus respectivos hijos primogénitos:

Altura de los padres (pulgadas) X

65 63 67 64 68 62 70 66 68 67 69 71

Altura de los hijos (pulgadas) Y

68 66 68 65 69 66 68 65 71 67 68 70

hállese:

a) La recta de regresión de mínimos cuadrados de Y sobre X.b) La recta de regresión de mínimos cuadrados de X sobre Y.

Emplear las formas de las rectas de regresión siguientes, si X 5 X − X– & Y 5 Y − Y– :

YXY

XX2== ∑

XXY

YY2== ∑

Page 44: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

506 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

11.5 De la siguiente tabla que proporciona las edades “X” y las presiones sanguíneas “Y” de 12 mujeres, encuéntrese la ecuación de regresión de mínimos cuadrados de Y sobre X:

Edades X 56 42 72 36 63 47 55 49 38 42 68 60

Presión sanguínea Y 147 125 160 118 149 128 150 145 115 140 152 155

11.6 Se reunieron datos de una muestra de 10 restaurantes ubicados cerca de centros educativos y reflejaron la siguiente información:

Población de estudiantes (en miles) X

2 6 8 8 12 16 20 20 22 26

Ventas trimestrales (en miles de pesos) Y

58 105 88 118 117 137 157 169 149 202

¿Cuáles son los valores de los coeficientes de regresión de la ecuación de regresión simple?

11.7 La siguiente tabla muestra las alturas, con aproximación en pulgadas, y los pesos, con aproximación en libras, de una muestra de 12 jóvenes extraídos al azar de entre los estudiantes de primer grado de un colegio estatal.

Altura 70 63 72 60 66 70 74 65 62 67 65 68

Peso 155 150 180 135 156 168 178 160 132 145 139 152

a) Obténgase el diagrama de dispersión de los datos.b) Constrúyase una recta que se aproxime a los datos.c) Estímese el peso de un estudiante cuya altura es de 63 pulgadas.d) Calcúlese la altura de un estudiante cuyo peso es de 168 libras.

11.8 El editor en jefe de un importante periódico metropolitano ha intentado convencer al dueño de éste para que mejore las condiciones de trabajo en el taller de prensas. Está convencido de que cuando trabajan las prensas el grado de ruido que emiten llega a niveles no saludables que dan lugar a situaciones de tensión y ansiedad entre los empleados. Recientemente hizo que un psicólogo realizara una prueba durante la cual los prensistas se situaron en cuartos con niveles variables de ruido, pero luego se les hizo otra prueba para medir niveles de humor y ansiedad. La siguiente tabla muestra el índice del grado de ansiedad o nerviosismo, así como el nivel de ruido al que se vieron expuestos:

Grado de ansiedad 39 38 16 18 41 45 25 38

Nivel de ruido 4 3 1 2 6 7 2 3

a) Determine una representación gráfica de la información.b) Halle una ecuación de estimación.c) Cuál es el pronóstico del grado de ansiedad para cuando hay un nivel de ruido de 5.d) Obtenga la desviación estándar de regresión.

Page 45: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

ejercicios de regresión y correlAción lineAl 507

11.9 Una universidad desea predecir el número de sus estudiantes de primer grado de manera que se tenga una preparación adecuada para garantizar un funcionamiento eficaz y una enseñanza de calidad. Un análisis preliminar hecho por la oficina de admisiones reveló una información, la cual se presenta en el formato de la tabla siguiente:

Número de solicitudes (en cientos)

X

2 4 5 5 7 6 9 11 12 13 13 13 14 14 15 16 17 17 18 19

Número de inscripcio-nes en 1er grado (en cientos) Y

3 6 6 7 9 9 11 13 12 14 15 13 13 15 15 18 19 20 20 22

a) Realícese un diagrama de dispersión.b) Determínese la recta de regresión de Y con respecto a X.c) Obtenga el coeficiente de regresión correspondiente a la pendiente e intérprete.

11.10 La tabla siguiente indica las calificaciones finales en álgebra y física obtenidas por 10 estudiantes selec-cionados aleatoriamente:

a) Represente gráficamente los datos.b) Halle la recta de mínimos cuadrados que mejor se ajuste a los datos; para ello, utilice la X como la

variable independiente.c) Encuentre la recta de mínimos cuadrados que mejor se ajuste a los datos; para ello, maneje la Y como

la variable independiente.d) Si un estudiante obtiene una calificación de 75 en álgebra, ¿cuál es su puntuación esperada en física?e) Si un estudiante obtuvo una puntuación de 95 en física, ¿cuál será un estimado de su puntuación en

álgebra?

Álgebra 75 80 93 65 87 71 98 68 84 77

Física 82 78 86 72 91 80 95 72 89 74

11.11 Supongamos que las calificaciones Y de 20 estudiantes para una prueba de matemáticas están asociadas a las horas semestre tomadas X por los estudiantes individuales en una universidad, como se muestra en la tabla siguiente:

Calificaciones

Horas semestre

5 6 7 8 9

4 5 6 7 8

2 3 1 5 6

1 2 3 4 5

Page 46: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

508 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

Encuentre:

a) La ecuación de regresión.b) La desviación estándar de regresión.

11.12 Un estudio llevado a cabo por el departamento de transporte de una gran ciudad, acerca de los precios de los boletos de los autobuses y el número de pasajeros que los abordan, produjo los siguientes resultados:

Precio boleto(centavos de dólar)

25 30 35 40 45 50 55 60

Pasajeros por millas 800 780 780 660 640 600 620 620

a) Represéntese gráficamente.b) Determínese la ecuación de estimación que mejor describa a los datos.

11.13 Supongamos que un analista toma una muestra aleatoria de 10 embarques recientes por camión realizados por una compañía y registra la distancia en millas, así como el tiempo de entrega al mediodía más cercano a partir del momento en que el embarque estuvo listo para su carga.

a) Elabore el diagrama de dispersión con los datos de la tabla.b) Considere si el análisis de regresión lineal parece apropiado.c) Determine la ecuación de regresión de mínimos cuadrados y trace en el diagrama de dispersión la

línea de regresión de tales datos.d) Calcule el error estándar de estimación para el problema de análisis de tiempo de entrega utilizando

los coeficientes de regresión de la ecuación de regresión de mínimos cuadrados.e) Compruebe de tres formas diferentes que el valor del coeficiente de correlación es de aproximadamente

de .95f) Obtenga el valor del coeficiente de determinación.

Distancia en millas (X)

825 215 1070 550 480 920 1350 325 670 1215

Tiempo de entrega en días (Y)

3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0

11.14 El director del departamento de limpieza en una cierta ciudad está interesado en la relación existente entre la edad de un camión de basura y los gastos de reparación anuales que deberá realizar. Su objetivo es determinar tal relación; para llevar a cabo lo anterior, ha recabado información referente a cuatro camiones elegidos al azar, del total de camiones que la ciudad posee ahora.

Gastos anuales de reparación de camiones de limpieza

Edad del camión en años (X)Gastos de reparación durante el último

año en cientos de dólares (Y)

3 6

5 7

1 4

3 7

Page 47: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

ejercicios de regresión y correlAción lineAl 509

a) Determine la ecuación de la regresión.b) Estime los gastos anuales de reparación para un camión con cuatro años de antigüedad.

11.15 El gerente de personal de cierta empresa intuye que quizás haya relación entre el ausentismo y la edad de sus trabajadores, por lo que decide tomar la edad de unos empleados para desarrollar un modelo de predicción de días de ausencia durante un año laboral. Para ello, seleccionó una muestra aleatoria de 10 individuos con los resultados que se presentan a continuación:

Edad en años (X) 27 61 37 23 46 58 29 36 64 40

Días de ausentismo (Y) 15 6 10 18 9 7 14 11 5 8

a) Haga un diagrama de dispersión.b) Suponiendo una relación lineal, use el método de los mínimos cuadrados para encontrar los coeficientes

de regresión.c) Interprete el significado de la pendiente.d) ¿Cuántos días (promedio) se predeciría que se ausentará un trabajador de 40 años?e) Determine el coeficiente de correlación e interprete.f) Obtenga el coeficiente de determinación e interprete.

11.16 Los datos que se presentan en seguida muestran la mejora (ganancia en velocidad de lectura en palabras por minuto) de seis estudiantes que participan en un programa de velocidad en la lectura y el número de semanas que han participado en el programa. En este caso, hay que determinar los coeficientes de regresión.

Número de semanas X 4 2 8 6 9 3

Ganancia de velocidadpalabras por minuto Y

91 50 210 164 241 79

11.17 Usando los datos de la tabla siguiente:

X 15 6 10 5 12 14

Y 6 16 15 18 9 10

a) Grafique el diagrama de dispersión.b) Desarrolle la ecuación de estimación que mejor describa los datos.c) Determine Y para X 5 5, 6 y 7.

11.18 En una compañía de seguros se desea determinar la relación entre la experiencia en ventas y el volumen de las mismas. Para ello, se selecciona una muestra aleatoria de un cierto número de vendedores, de quienes se encuentra que sus años de experiencia X y ventas anuales normales Y son los siguientes:

X 1 2 3 4 5 6 7 8 9

Y (en $100 000) 2 1 3 3 4 5 6 5 7

Page 48: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

510 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

a) Construya un diagrama de dispersión y trace en él la recta de regresión precisa.b) Estime el volumen de ventas anuales para un vendedor que tiene una experiencia en ventas de

10 años.

11.19 Los siguientes datos se refieren a los residuos de cloro detectados en una alberca en diversos momentos después de que se ha tratado con productos químicos:

Número de horas 2 4 6 8 10 12

Residuos de cloro(partes por millón)

1.8 1.5 1.4 1.1 1.1 0.9

a) Ajuste una línea de mínimos cuadrados con la que se predigan los residuos de cloro en función del número de horas transcurridas después de que la alberca ha sido tratada con productos químicos.

b) Construya un intervalo con un nivel de confianza del 95% para el promedio de los residuos de cloro en la alberca que tiene siete horas después de que se ha tratado con productos químicos.

11.20 Las materias primas empleadas en la producción de una fibra sintética son almacenadas en un lugar donde no se tiene control sobre la humedad. Las mediciones de la humedad relativa en el lugar de almacenamiento y la humedad en una muestra de las materias primas (ambos en porcentajes) en 12 días dieron los siguientes resultados:

Humedad relativa (x) 55 42 48 35 50 43 48 62 31 36 44 39

Contenido de humedad (y) 13 12 11 8 14 9 11 16 7 9 12 10

a) Ajustar a una línea con el método de mínimos cuadrados.b) Determine la desviación estándar de regresión.c) Encuentre un intervalo con un nivel de confianza del 99% para el contenido de humedad promedio de

las materias primas cuando la humedad del lugar de almacenamiento es del 40%.

11.21 Con base en los datos del ejercicio 17, determine el coeficiente de correlación e interprete.

11.22 Con el uso de la información del ejercicio 18, obtenga el error estándar de estimación, el coeficiente de correlación y el coeficiente de determinación.

11.23 Determínese el grado de relación entre las variables X y Y, calculando el coeficiente de correlación r, dadas por la información presentada en la siguiente tabla, consistente en los promedios de puntos de calificaciones (PPC) del bachillerato y la educación superior de 20 estudiantes.

Page 49: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

ejercicios de regresión y correlAción lineAl 511

EstudiantePPC de

bachillerato(x)

PPC de educación superior

(y)

1 3 6

2 2 4

3 4 4

4 12 9

5 11 8

6 8 9

7 9 7

8 7 8

9 6 5

10 5 6

11 4 8

12 8 4

13 3 7

14 12 6

15 9 8

16 8 5

17 11 10

18 7 7

19 8 6

20 10 5

11.24 Los datos siguientes corresponden al número de minutos “X” que tardan 10 mecánicos para ensamblar cierta pieza de una maquinaria por la mañana, donde “Y” representa el tiempo que ocupan los mecánicos por la tarde.

X (min.) 11.1 10.3 12.0 15.1 13.7 18.5 17.3 14.2 14.8 15.3

Y (min.) 10.9 14.2 13.8 21.5 13.2 21.1 16.4 19.3 17.4 19.0

a) Calcule el coeficiente de determinación e interprete su significado.b) Con un nivel de significación de .05, ¿hay una relación lineal entre el tiempo que tardan en ensamblar

los mecánicos y el tipo de turno?

Page 50: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

512 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

11.25 Una compañía de productos químicos desea estudiar los efectos que el tiempo de extracción produce en la eficiencia de una operación de extracción; para ello, utilizó los datos que se presentan en la siguiente tabla:

Tiempo de extracción (minutos) X 27 45 41 19 35 39 19 49 15 31

Eficiencia de extracción (%) Y 57 64 80 46 62 72 52 77 57 68

a) Calcule el coeficiente de determinación e interprete su significado.b) Con un nivel de significancia del 1%, ¿hay una relación lineal entre los tiempos de extracción y la

eficiencia de extracción?

11.26 Un administrador desea establecer un programa flexible para estimar costos fijos a ciertos rangos de producción, para lo cual utiliza los costos y las producciones históricas con que cuenta. Al seleccionar aleatoriamente una muestra de siete de estos costos y producciones, las presenta en la siguiente tabla. Determínese una ecuación que le permita al administrador estimar costos fijos a partir de la producción.

Producción(en $10 000) X

3 4 5 6 7 8 9

Costos fijos(en $1000) Y

12 10.5 13 12 13 13.3 16.5

11.27 Utilizando la información del ejercicio 14, pruebe si la pendiente de regresión de la población es significativamente diferente a cero con un nivel del 10% de significancia.

11.28 Un consultor quiere averiguar la exactitud con que un nuevo índice de rendimiento en el trabajo mide lo que es importante para la empresa. Para verificarlo, examina la relación que hay entre dicho índice y el sueldo de un empleado por hora. Para obtener lo que desea se consideró una muestra de cuatro empleados elegidos aleatoriamente y se reunió la información que se presenta en la tabla siguiente:

Índice X 9 7 8 4

Sueldo Y 36 25 33 15

a) Determínese la ecuación de la recta que mejor se ajuste a esta información utilizando el método de mínimos cuadrados.

b) Pruebe si la pendiente de regresión de la población es significativamente mayor a cero. Considere un nivel de significancia del 5%.

11.29 Supóngase que usted está a cargo de la economía de un país y recibe la siguiente información histórica sobre la oferta de dinero y el producto nacional bruto (PNB), ambos en millones de dólares.

Oferta de dinero X 2.0 2.5 3.2 3.6 3.3 4.0 4.2 4.6 4.8 5.0

Producto nacional bruto Y 5.0 5.5 6.0 7.0 7.2 7.7 8.4 9.0 9.7 10.0

a) Desarróllese la ecuación de estimación que mejor describa la relación entre las variables.b) Calcúlese el error estándar de estimación de la relación establecida.

Page 51: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

respuestAs de los ejercicios 513

11.30 Una compañía refresquera está estudiando el efecto de su última campaña publicitaria. Por tal motivo, se encuestó a un grupo de personas elegidas aleatoriamente con la pregunta de cuántas latas del nuevo refresco habían comprado la semana anterior y cuántos anuncios del refresco habían visto o leído en esa semana. Los resultados obtenidos se presentan en la tabla siguiente:

Número de anuncios X 4 9 3 0 1 6 2 5

Número de latas compradas Y 12 14 7 6 3 5 6 10

Determine la ecuación de estimación que mejor se ajuste al comportamiento de las variables.

11.1 a) a 5 36.428 bultos/acre b 5 .0589 bultos/libra

Y 36.428 .0589X= +�

b) Y 800 83.57( )= =� bultos/acre

c) SYX5 5.961 bultos/acre

11.2 a) Relación lineal positiva. b) a 5 2.7317 accidentes b 5 .1978 accidentes/juego

Y 2.7317 .1978X= +�

c) Y 33 9.2591( ) =� accidentes

d) S .8013XY = accidentes

e) r 5 .9295 correlación alta positiva

11.3 Y 29.825 1.35X= +� miles de dólares

r2 8926 89 26= ≅. . %

Interpretación: 89.26% de las variaciones en los costos de construcción quedan explicados por la variación en el tamaño del lote.

11.4 a) Y 35.889 .476X= +�

b) X Y� = − +3 349 1 038. .

11.5 Y 80.778 1.138X= +�

11.6 a 5 $60 000 b 5 5

11.7 X 5: altura en pulgadas Y 5: peso en libras

Respuestas de los ejercicios

Page 52: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

514 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

a) Relación lineal positiva b) Y 60.74 3.2156X= − +� c) Y 63 141.8428( ) =� libras X 5: peso en libras Y 5: altura en pulgadas d) Y 31.1078 .2317X= +� Y 168 70.0334( ) =� pulgadas

11.8 a) Relación lineal positiva b) Y 16.52 4.57X= +� c) Y 5 39.35( ) =� grados de ansiedad d) S 6.325XY = grados de ansiedad

11.9 a) Relación lineal positiva b) Y 150 1.002X= +� c) b 5 1.002 Interpretación: Por cada aumento de 1000 solicitudes se tendrá un aumento aproximada-

mente de 1002 inscripciones.

11.10 X 5: álgebra Y 5: física a) Relación lineal positiva b) Y 29.13 .6613X= +�

c) Y 75 78.73( ) ≅� puntos X 5: física Y 5: álgebrad) Y 14.3932 1.1501X= − +�e) Y 95 94.87( ) ≅� puntos

11.11 a) Y 5.89142 .2147X= −� b) S 2.354XY = puntos

11.12 X 5: pasajeros por milla Y 5: precio del boleto (centavos de dólar) a) Relación lineal positiva b) Y 133.3806 .13219X= −� centavos de dólar

11.13 a) Relación lineal positiva b) Con base en el diagrama de dispersión, todo indica que los puntos trazados siguen globalmente una

relación lineal y que la dispersión vertical respecto del bosquejo de una línea de regresión (la de me-jor ajuste, en cuanto a cercanía con todos los puntos de la nube) es casi la misma con respecto a los valores abajo y los que se localizan arriba de ella; así, el análisis de regresión lineal parece apropiado. Más aún, es lógico relacionar variables que se refieren a distancias de traslado y tiempo de entrega.

c) Y .11 .0036X= +� días d) S .4587XY = días f) r .9091 90.91%2 = ≅

11.14 a) Y 375 75X= +� dólares b) Y 4 675( ) =� dólares

Page 53: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

Alfaomegaestadística en el área de las ciencias sociales y administrativas – aragón

respuestAs de los ejercicios 515

11.15 a) Relación lineal positiva b) a 5 21.587 faltas b 5 .2681 faltas/año c) Interpretación de la pendiente: por cada 10 años de aumento en la edad del trabajador, disminuye su

asistencia anual en aproximadamente tres faltas. d) Y 40 10.86( ) ≅� días de ausentismo e) r 5−.9325 correlación alta negativa f) r2 5 86.96% Interpretación: el 89.96% de la variación en la edad explica la variación en el ausentismo

anual de los trabajadores.

11.16 b 5 27.4746 palabras por minuto/semanas participando a 5 7.3645 palabras por minuto

11.17 a) Relación lineal negativa b) Y 23.3125 1.0625X= −� c) Y 5 17.94( ) =� d) Y 6 16.88( ) =� e) Y 7 15.83( ) =�

11.18 a) Relación lineal negativa b) Y 10 $733332( ) =� con escala aplicada

11.19 a) Y 1.9 .086X= −� b) S .099 1

1.188 1.412XY

YXµ= ≅≤ ≤

11.20 a) Y .95 .269X= − +� b) S 1.1135XY = c) 8.66 10.95YXµ≤ ≤

11.21 r 5 −.9388 correlación negativa alta

11.22 Error estándar de estimación:

SY Y

nXY =−( )−

=∑ � 2

269013. cientos de miles 5 $69 013

SY a Y b XY

nXY =− −

−=∑∑∑ 2

26761. cientos de miles 5 $67 610

Coeficiente de correlación: r 5 .9475 correlación positiva alta

Coeficiente de determinación:

rY Y

Y Y.897 89.7%2

2

2

∑∑

( )( )=

−= =

Page 54: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Predicción y/o

516 11 Análisis de regresión y correlAción lineAl

Alfaomega estadística en el área de las ciencias sociales y administrativas – aragón

11.23 Y 4.777 .2481X= +�

ra y b xy ny

y ny.4289126

2

2 2

∑ ∑∑

=+ −

−= correlación positiva media.

11.24 a) r2 535 53 5= =. . % . Interpretación: el 53.5% de la variación en el tiempo que tardan en ensamblar los mecánicos de la tarde se llega a explicar con la variación en el tiempo que tardan los del turno de la mañana.

b) tc 5 2.306; tp 5 3.034 y como 3.034>2.306 ⇒ H0 se rechaza, luego H1 se acepta, por lo que establecemos que hay una relación lineal.

11.25 a) r2 5 .6803 5 68.03%. Interpretación: el 68.03% de la variación en la eficiencia de extracción se explica

con la variación en el tiempo de extracción. b) tc5 3.3554; tp 5 4.11 y como 4.11 > 3.3554 ⇒ H0 se rechaza, luego H1 se acepta, por lo que establecemos

que hay una relación lineal.

11.26 Y 8808 .0682X= +�

11.27 Syx 5 86.60 dólares Sb5 30.62 dólares

( )( )±

0 2.92 30.62

89.41, 89.41 H0 se acepta

11.28 a) Y 2.752 4.286X= − +� b) S 1.9481YX = S .521b =

=t 8.23 Hp 0 se rechaza, luego H1 se acepta; si es significativamente mayor a cero la pendiente.

1.29 a) n 5 10 datos Y 1.168 1.7156X= +� millones de dólares b) SYX 5 .3732 millones de dólares

11.30 Y 4.487 .9034X= +�

Páginas Web recomendadas

También hay que considerar la consulta de este material, escrito y tratado por otros autores, para ello sugerimos revisar las siguientes direcciones electrónicas:

http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf

http://www.uca.edu.sv/matematica/upload_w/file/REGRESION%20SIMPLE%20Y%20MULTIPLE.pdf

http://www.dcb.unam.mx/profesores/irene/Notas/Regresion.pdf

http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf

http://www.tecnun.es/asignaturas/Estad_ii/Archivos/Recursos/RegresionMINITAB.pdf