estadistica informe
TRANSCRIPT
CURSO : ESTADISTICA PARA ECONOMISTAS I
DOCENTE : Dr. FRANCO CORNELIO CARLOS
ALBERTO.
ALUMNO : ARTEAGA BARRIOS, Cristian.
HARO REYES, Ricardo.
CRUZ PALACIOS. Leydi.
ZAVALETA ALIPIO, Abel.
CORTIJO VILLARROEL, Carmen.
INTRODUCCION
Este trabajo trata de la estadística descriptiva. Se organizaron datos sin procesar
en una distribución de frecuencias y se calcularon varias medidas de tendencia
central y de dispersión, a fin de describir de las principales características de los
datos.
En este trabajo se estudiara la relación entre dos o más variables, y se
desarrollara una ecuación que permita calcular una variable basada en otra. Por
ejemplo, ¿existe relación entre lo que gasta una empresa en una publicidad y sus
ventas? ¿Se puede calcular el costo de la calefacción domestica en el invierno con
base en el área que tiene el inmueble? ¿Hay alguna relación entre la tasa de
publicidad por línea en un periódico y su circulación? ¿Existe una relación entre la
antigüedad en el trabajo de un empleado de producción y el número de unidades
que labora? Obsérvese que en cada uno de estos casos hay dos variables, por
ejemplo, el número de años en un trabajo y la cantidad de unidades producidas.
En este trabajo se examinara primero el significado y el objetivo del análisis de
correlación. Luego se analiza una grafica diseñada para representar la relación
entre dos variables: el diagrama de dispersión se continúa el estudio desarrollando
una ecuación matemática que permita calcular el valor de una variable con base
en el valor de otra, y a esto se le denomina análisis de regresión. Asimismo, se ara
lo siguiente: (1) se determinara la ecuación de recta que mejor se adapte a los
datos; (2) se calculara el valor de una variable con base a otra: (3) se medira el
error de la estimación, y (4) se establecerán los intervalos de confianza y de
predicción para el cálculo.
¿Qué es un análisis de correlación?
El análisis de correlación es el estudio de la relación que existe entre las variables.
Para explicar lo anterior supóngase que el gerente de ventas de la compañía
copier sales off América, empresa que tiene una gran fuerza de ventas en todo
Estados Unidos y Canadá, desea determinar si existe una relación entre el número
de llamadas telefónicas de ventas hechas en un mes, y la cantidad de copiadoras
vendidas durante ese lapso. El gerente selecciona al azar una muestra de 10
representantes, y determina el número de tales llamadas que hizo cada uno el
mes anterior y la cantidad de productos vendidos. La información muestral
aparece en la tabla 1.
Representantes de
ventas
Número
l
lamada
Número de
copiadoras
vendidasj Tom Keller 20 30
Jeff Hall 40 60Brian Virost 20 40Greg Fish 30 60
Susan Welch 10 30Carlos Ramirez 10 40Rich Niles 20 40Mike Kiel 20 50Mark Reynolds 20 30
Soni Jones 30 70
Parece haber cierta relación entre el número de llamadas y la cantidad de
unidades vendidas. Esto es, el agente que realizó el mayor número de llamadas
vendió más copiadoras. Sin embargo, la relación no es “perfecta” o exacta. Por
ejemplo, Soni Jones hizo menos llamadas que Jeff Hall, pero ella vendió más
unidades.
En vez de hablar en lo general, como se ha hecho hasta ahora, se desarrollarán
algunas medidas estadísticas para presentar en forma más precisa la relación
entre las dos variables: llamadas de ventas, y copiadoras vendidas. A este
conjunto de técnicas estadísticas se le denomina análisis-de correlación.
Análisis de correlación Conjunto de técnicas estadísticas empleado para medir la intensidad de la
asociación entre dos variables.
El principal objetivo del análisis de correlación consiste en determinar qué tan
intensa es ¡a relación entre dos variables. Normalmente, el primer paso es mostrar
los datos en un diagrama de dispersión.
Diagrama de dispersión Gráfica que representa la relación entre dos variables.
Un ejemplo mostrará cómo se aplica el citado diagrama.
EJEMPLO:
La empresa Copier Sales of América. Inc., vende copiadoras a negociaciones
grandes, medianas y pequeñas en Estados Unidos y Canadá. La señorita Marcy
Bancer fue promovida recientemente al puesto de gerente nacional de ventas. A la
próxima junta de ventas asistirán los representantes de todo el país. A ella le
gustaría hacerles notar la importancia de hacer llamadas extra cada día. Decide
reunir alguna información acerca de la relación entre el número de llamadas y el
número de productos vendidos. Seleccionó al azar una muestra de 10
representantes y determinó el número de llamadas que hicieron el último mes. y el
de copiadoras que vendieron. La información muestral se tiene en la tabla 13.1.
¿Qué observaciones puede hacer usted acerca de la relación entre el número de
llamadas y la cantidad de copiadoras vendidas? Trace un diagrama de dispersión
para representar esta información.
SOLUCION:
Con base en los datos presentados en la tabla 1, la señorita Bancer sospecha que
existe una relación entre el número de llamadas hechas en un mes, y la cantidad
de copiadoras que se vendieron. Soni Jones vendió el mayor número de unidades
el mes anterior, y era una de las tres representantes que hizo 30 o más llamadas.
Por otra parte, Susan Welch y Carlos Ramírez hicieron sólo 10 llamadas en el
mismo mes. A la señorita Welch correspondió el menor número de copiadoras
vendidas entre los representantes en la muestra.
La deducción es que el número de copiadoras vendidas tiene relación con la
cantidad de llamadas realizadas. A medida que aumenta el número de
telefonemas crece la cantidad de unidades vendidas. El número de llamadas de
venta se denomina variable independiente, y la cantidad de copiadoras vendidas,
variable dependiente.
Variable independiente Una variable que proporciona las bases para el cálculo. Es la variable de
predicción.
Variable dependiente La variable que se predice o calcula.
Es práctica común marcar la variable dependiente (en este ejemplo, copiadoras
vendidas) en el eje vertical, o eje Y, y la variable independiente (número de
llamadas a clientes) en el eje horizontal, o eje X. Para establecer el diagrama de
dispersión para la información de ventas de la mencionada empresa, se comienza
con el primer representante, Tom Keller, quien hizo 20 telefonemas el mes anterior
y vendió 30 copiadoras; así que X = 20 y / = 30. Para ubicar el punto se desplaza
sobre el eje horizontal hasta llegar a X = 20, después se sube en dirección vertical
hasta Y - 30, y se sitúa así el punto respectivo en el plano XY. Este proceso se
continúa hasta situar todas las parejas de datos, como se muestra en el diagrama
siguiente.
DIAGRAMA 1
El diagrama de dispersión indica gráficamente que los representantes de ventas
que hacen más llamadas telefónicas, tienden a vender más copiadoras. Es
razonable que la señorita Bancer, la gerente nacional de ventas de la empresa
mencionada, diga a sus re-presentantes que cuanto mayor sea el número de
llamadas a clientes que hagan, más copiadoras podrán esperar vender.
Obsérvese que aunque parece existir una relación positiva entre las dos variables,
no todos los puntos quedan en una misma línea recta. En la siguiente sección se
medirá la intensidad y la dirección de esta relación entre dos variables,
determinando el coeficiente de correlación.
Coeficiente de correlación
Originado por e! investigador Karl Pearson, aproximadamente en el año 1900, el
coeficiente de correlación describe la intensidad de la relación entre dos conjuntos
de variables de nivel de intervalo (o variables de nivel de relación o razón.) Como
se le denota con r, con frecuencia se menciona también como r de Pearson, o
como coeficiente de correlación producto-momento de Pearson. Puede tomar
cualquier valor de -1.00 a +1.00, inclusive. Un coeficiente de correlación de -1.00 o
de +1.00 indica una correlación perfecta. Por ejemplo, un coeficiente de
correlación para el ejemplo anterior calculado como +1.00, señalaría que el
número de llamadas era un pronóstico perfecto de la cantidad de copiadoras
vendidas. Esto es, el número de telefonemas y el de productos vendidos están
perfectamente relacionados en un sentido lineal positivo. Un valor de -1.00
indicaría que las llamadas a clientes y el número de copiadoras vendidas están
perfectamente relacionadas en un sentido lineal negativo. La forma como quedaría
el diagrama de dispersión si la relación entre ambos conjuntos de datos fuera
lineal y perfecta, se tiene en el diagrama 2.
DIAGRAMA 2
Diagrama de dispersión que ilustran una correlación negativa perfecta y una correlación positiva perfecta.
Si no existe en absoluto alguna relación entre los dos conjuntos de
variables, la r de Pearson será cero. Un coeficiente de correlación r cercano a 0
(por ejemplo, 0.08) indica que la relación es muy débil. Se llega a la misma
conclusión si r = -0.08. Coeficientes de -0.91 y +0.91 tienen igual fuerza; ambos
indican una correlación muy intensa entre los dos conjuntos de variables. De
modo que la fuerza de la correlación no depende de la dirección (ya sea - o +).
En el diagrama 13.3 se muestran diagramas de dispersión para r = 0, una r débil
(por ejemplo, -0.23) y una r fuerte (por ejemplo, +0.87). Obsérvese que si la
correlación es débil, existe una dispersión considerable con respecto a una recta
trazada a través del espacio central de Los datos. Para que el diagrama de
dispersión represente una relación fuerte, debe existir poca dispersión con
respecto a la citada línea. Esto indica, en el ejemplo correspondiente al
diagrama, que el promedio de calificaciones de bachillerato (GPA) da un
pronóstico muy certero del desempeño futuro en una institución universitaria.
Algunos ejemplos de graficas de correlación.
DIAGRAMA 3: Diagramas de dispersión que representan correlaciones nula, débil y fuerte.
Coeficiente de correlación Medida de la intensidad de la relación lineal entre dos variables.
¿Cómo se determina el valor del coeficiente de correlación? A manera de ejemplo
se usarán los datos de la empresa Copier Sales of América, que se presentan en
la tabla 2. Se empieza con un diagrama de dispersión similar a los presentados en
el diagrama .2. Se traza una línea vertical sobre la media de los valores X, se traza
una recta horizontal sobre la media de los valores Y. En el diagrama 4 se ha
añadido una recta vertical sobre el punto correspondiente a 22 llamadas (X = ∑X/n
= 220/10 = 22) y una recta horizontal sobre el punto correspondiente a 45.0
copiadoras (Y = ∑Y/n = 450/10 = 45.0). Estas rectas pasan por el “centro” de los
datos y dividen al diagrama de dispersión en cuatro cuadrantes. Puede
considerarse que origen se desplaza de (0, 0) a (22, 45).
TABLA 2 Llamadas a clientes realizadas y copiadoras vendidas por los 10
vendedores de una muestra.
Representante de
ventas
Llamadas
clientes
(X)
Copiadoras
vendidas
(Y)
X2 Y2 XY
Tom Keller 20 30 400 900 600
Jeff Hall 40 60 1
600
3 600 2 400
Brian Virosi 20 40 400 1 600 800
Greg Fish 30 60 900 3 600 1 800
Susan Welch 10 30 100 900 300
Carlos Ramirez 10 40 100 1 600 400
Rich Niles 20 40 400 1 600 800
Mike Kiel 20 50 400 2 500 1 000
Mark Reynolds 20 30 400 900 600
Soni Jones 30 70 900 4 900 2 100
Total 220 450 5
600
22 100 10 800
I
DIAGRAMA 4 Cálculo del coeficiente de correlación.
Si la relación entre las dos variables es positiva, entonces el número de
copiadoras vendidas es mayor que la media, el número de llamadas a clientes
también será mayor que ¡a media. Estos puntos, en el diagrama 4, se encuentran
en el cuadrante superior derecho. Análogamente, si el número de copiadoras
vendidas es menor que la media, también lo será el número de llamadas a
clientes; estos puntos se encuentran en el cuadrante inferior izquierdo. Por
ejemplo la última persona de la lista en la tabla 2, Soni Jones, hizo 30 llamadas a
clientes y vendió 70 copiadoras. Estos dos valores son mayores que sus
respectivas medías, por lo que este punto se encuentra en el cuadrante superior
derecho. Soni hizo ocho (X - Ẋ = 30 - 22) llamadas más que el promedio y vendió
25 (Y - Ẏ = 70 - 45) copiadoras más que e! promedio. Tom Keller, que es la
primera persona en la lista de la tabla 2, hizo 20 llamadas y vendió 30 copiadoras.
Estos dos valores son menores que sus respectivas medias, por tanto, este punto
se encuentra en el cuadrante inferior izquierdo. Tom hizo dos llamadas menos a
clientes y vendió 15 copiadoras menos que los valores medios respectivos. En la
tabla 3 se presentan las desviaciones, respecto al número medio de llamadas a
clientes y respecto ai número medio de copiadoras vendidas, correspondientes a
los 10 representantes de venías. La suma de los productos de estas desviaciones
respecto a sus medias es 900. Es decir, es e! término ∑(X-Ẋ)(Y- Ẏ) = 900.
TABLA 3 Desviaciones de la media, y sus productos.
Representantes
de ventas
Llamadas
Y
Venta
X
X- Ẋ Y — Ẏ (X-Ẋ)(Y- Ẏ)
Tom Keller 20 30 -2 — 15 30
Jeff Hall 40 60 18 15 270Brian Virosi 20 40 -2 -5 10
Greg Fish 30 60 8 15 120
Susan Welch 10 30 -12 -15 180Carlos
Ramirez
10 40 -12 -5 60Rich Niles 20 40 -2 -5 10
Mike Kiel 20 50 -2 5 -10Mark
Reynolds
20 30 -2 -15 30
Soni Jones 30 70 8 25 200
900
Tanto en el cuadrante superior derecho como en el cuadrante inferior izquierdo, el
pro ducto (X - Ẋ)(Y -Ẏ) es positivo porque los dos factores tienen el mismo signo.
En el ejemplo todos los representantes de ventas, menos Mike Kiel están en este
caso. Por tanto es de esperarse que el coeficiente de correlación sea positivo.
Si la relación entre las dos variables es inversa, una variable será mayor que la
media y I; otra será inferior que la media. En este caso, la mayor parte de los
puntos están en los cuadrantes superior izquierdo e inferior derecho. Ahora (X - Ẋ)
y (Y - Ẏ) tendrán signos contrarios, así que su producto es negativo. El coeficiente
de correlación será negativo.
¿Qué pasa cuando no hay una relación lineal entre las dos variables? En el
diagrama de dispersión los puntos se encontrarán en los cuatro cuadrantes. Los
productos negativo: (X-Ẋ)(Y- Ẏ) anularán a los productos positivos y la suma será
casi cero. Esto genera un coeficiente de correlación cercano a cero
Pearson no quería que el coeficiente de correlación se viera afectado por las
unidades di las dos variables. Por ejemplo, sí se hubieran usado cientos de
copiadoras vendidas en lugar de copiadoras vendidas, el coeficiente de
correlación hubiera sido el mismo. El coeficiente de correlación es independiente
de la escala usada si el término ∑(X- Ẋ)[Y - Ẏ) se dividí entre las desviaciones
estándar muéstrales. También se hace independiente del tamaño di la muestra y
queda limitado a valores desde -1.00 hasta +1.00 si se divide entre (n - 1).
Este razonamiento lleva a la fórmula siguiente.
Formula 1 : r=∑(x−Ẋ )( y−Ẏ )
(n−1 ) sx s y
COEFICIENTE DE CORRELACIÓN FORMA CONCEPTUAL
Para calcular el coeficiente de correlación se usan las desviaciones estándar de la
muestra de 10 llamadas a clientes y 10 copiadoras vendidas. Para calcular las
desviaciones estándar se puede usar la fórmula 4.7 o uno de los paquetes de
cómputo. La desviación estándar de las llamadas a clientes es 9.189 y del número
de copiadoras vendidas, 14.337.
Luego, estos valores se sustituyen en las variables de la fórmula 1 para calcular el
coeficiente de correlación.
COEFICIENTE DE CORRELACIÓN
FORMULA 2
r¿n (∑XY )−(∑ X )(∑Y )
√¿¿¿
Donde:
n= es el número de pares de observaciones.
∑X= es la suma de los valores de la variable X.
∑Y= es la suma de los valores de la variable Y.
(∑x2) = es la suma de los cuadrados de los valores de la variable X.
(∑x )2 = es el cuadrado de la suma de los valores de la variable X.
(∑ y2) = es la suma de los cuadrados de los valores de la variable Y.
(∑ y )2 = es el cuadrado de la suma de los valores de la variable Y.
∑XY= suma de los productos de X e Y.
EJEMPLO:
Regresemos al ejemplo anterior en el que se trazó un diagrama de dispersión
representando la relación entre el número de llamadas a clientes y la cantidad de
copiadoras vendidas. Determine el coeficiente de correlación e interprete su valor.
En la tabla 2 se repite la información de los números de llamadas a clientes y de la
cantidad de copiadoras vendidas. También se presentan los totales adicionales
necesarios para determinar el coeficiente de correlación.
El coeficiente de correlación es 0.759 y se encontró empleando la fórmula 2.
r=n (∑ XY )−(∑X )(∑Y )
√¿¿¿
r=10 (10800 )−(220 )(450)
√¿¿¿= 0.759
¿Cómo se interpreta un coeficiente de correlación igual a 0.759? Primero, es
positivo, de manera que se ve que hay una relación directa entre el número de
llamadas a clientes y la cantidad de copiadoras vendidas. Esto confirma
nuestro razonamiento basado en el diagrama de dispersión (diagrama 4). El valor
0.759 está bastante cercano a 1.00, por lo que se concluye que la relación es
fuerte. Dicho de otra manera, un aumento de 25% en las llamadas posiblemente
llevaría a un aumento de 25% en las ventas.
Coeficiente de determinación
En el ejemplo anterior respecto a la relación entre el número de llamadas
telefónicas y la cantidad de productos vendidos, el coeficiente de correlación,
0.759, se interpretó como “fuerte”. Sin embargo, los términos como débil,
moderado y fuerte no tienen significado preciso. Una medida que tiene una
acepción más fácil de interpretar es el coeficiente de determinación. Se calcula
elevando al cuadrado el coeficiente de correlación. Para el ejemplo, dicho
coeficiente de determinación,r2, vale 0.576, que proviene de (0.759¿¿2. Esta es una
proporción o porcentaje; puede decirse que 57.6% de la variación en el número de
copiadoras vendidas se explica por La variación en el número de llamadas a los
clientes.
Coeficiente de determinación La porción de la variación total en la variable dependiente Y
que se explica por la variación en la variable independiente X.
Más adelante en este capítulo, se estudiará con mayor detenimiento el coeficiente
de determinación.
Una advertencia
Si existe una relación intensa (por ejemplo, 0.91) entre dos variables, el lector
puede sentirse inclinado a considerar que un aumento o una disminución en una
variable causa un cambio en la otra. Por ejemplo, se puede mostrar que el
consumo de cacahuates (o maníes) y el de aspirinas tiene una gran correlación.
Sin embargo, esto no indica que un incremento en el consumo de aquéllos causó
un aumento en el consumo de aspirinas. Igualmente, los ingresos de profesores y
la cantidad de internos en instituciones de atención a enfermos mentales han
crecido en forma proporcional. Además, a medida que ha disminuido la población
de alumnos “fósiles”, ha ocurrido un aumento en el número de doctorados
académicos. A relaciones como éstas se las denomina correlaciones falsas (o
espurias). Lo que se puede concluir cuando se encuentran dos variables con una
correlación fuerte, es que existe una relación entre las dos variables, y no que un
cambio en una origine una modificación en la otra.
Prueba de significancia del coeficiente de correlación
Recuérdese que la gerente de ventas de Copier Sales of América, encontró que la
correlación entre el número de llamadas telefónicas y la cantidad de copiadoras
vendidas fue 0.759. Esto indica una marcada relación entre las dos variables. Sin
embargo, sólo se incluyeron - diez vendedores en la muestra. ¿Podría ser que la
correlación en la población sea en realidad cero? Esto significaría que la
correlación de 0.759 se debió al azar. La población en es- a te ejemplo son todos
los vendedores que emplea la compañía.
Resolver este dilema exige una prueba para contestar la pregunta obvia: ¿podría
haber una correlación cero entre la población de la que se tomó la muestra? En
otras palabras, ¿la r calculada proviene de una población de observaciones por
pares con correlación nula? Para continuar con la convención de utilizar letras
griegas para representar un valor poblacional, se utilizará la letra p (es decir, la r0)
para representar la correlación en la población.
Se continuará con la ilustración que considera las llamadas a clientes y copiadoras
vendidas. Las hipótesis nula y alternativa son:
H0: p = 0 (La correlación en la población es nula o cero.)
H1: p ≠ 0 (La correlación en la población es diferente de cero.)
Debido a la forma en que está enunciada Hv se sabe que la prueba es de dos
colas.
La fórmula para “t” es:
PRUEBA “T” PARA EL COEFICIENTE DE CORRELACIÓN.
FORMULA 3:
t= r √n−2√1−r 2
n−2grados de libertad
Utilizando el nivel de significancia 0.05, la regla de decisión indica que si
la t calculada se encuentra en el área entre +2.306 y -2.306, no se rechaza la
hipótesis nula. Para localizar el valor crítico 2.306, gl = n - 2 = 10-2 = 8. Ver
también el diagrama 5.
DIAGRAMA 5.
Regla de decisión para prueba de hipótesis al nivel de significancia, 0.05 y 8 grados de libertad.
Aplicando la fórmula (3) al ejemplo de las llamadas de ventas y copiadoras
vendidas resulta:
t= r √n−2√1−r 2
=0.795√10−2√1−0.7592
=3.297
El valor calculado de “t” queda en la región de rechazo, de manera que se rechaza
H0 al nivel de significancia 0.05, lo cual significa que la correlación en la población
no es nula. Desde un punto de vista práctico, esto indica a la gerente de ventas
que definitivamente existe correlación en la población de vendedores respecto al
número de llamadas realizadas y la cantidad de copiadoras vendidas.
La prueba de hipótesis se puede interpretar también en términos de los valores p.
Un valor p es la probabilidad de encontrar un valor, para el estadístico de prueba,
más extremo que el calculado, dado que H0 sea verdadera. Para determinar el
valor p, diríjase al apéndice F al renglón que corresponde a 8 grados de libertad.
El valor del estadístico de prueba es 3.297, por tanto, en la fila de 8 grados de
libertad y prueba de dos colas, encuentre el valor más cercano a 3.297. Para una
prueba de dos colas, al nivel de significancia 0.02, el valor crítico es 2.896; y al
nivel 0.01, el valor crítico es 3.355. Como 3.297 está entre 2.896 y 3.355, se
concluye que el valor p es menor que 0.02.
Tanto MINITAB como Excel reportan la correlación entre dos variables. Además
de la correlación, MINITAB da el valor p para la prueba de la hipótesis de que, en
la población, la correlación entre las dos variables es 0. A continuación se muestra
la pantalla con los resultados de MINITAB. Los resultados son los mismos que los
calculados antes.
Análisis de regresión
En la sección anterior se desarrollaron medidas para expresar la intensidad y la
dirección de la relación que existe entre dos variables. En esta J| sección se
quiere determinar una ecuación para expresar la relación lineal (en línea recta)
entre dos variables. Además, se desea estimar el valor de la variable dependiente
Y, con base en un valor de la variable independiente X. A la técnica empleada
para desarrollar la ecuación y dar las estimaciones se conoce como análisis de
regresión.
En la tabla 1 se presenta el número de llamadas telefónicas y la cantidad de
unidades vendidas para una muestra de 10 representantes de ventas de la
empresa Copier Sales of América. El diagrama 1 muestra esta información en un
diagrama de dispersión. Ahora se desea desarrollar una ecuación lineal que
exprese la relación entre el número de llamadas a clientes y la cantidad de
unidades vendidas. La ecuación para la línea recta empleada para calcular Y, con
base en X, se conoce como ecuación de regresión.
Ecuación de regresión Es una ecuación que define la relación lineal entre dos variables.
La gráfica de dispersión que se muestra en el diagrama 1 se reproduce en el
diagrama 6, e incluye una línea trazada con regla que pasa a través de los puntos,
para ¡lustrar que es muy probable que tal recta sea la que mejor se ajusta a los
datos. Sin embargo, esa línea trazada con regla tiene una desventaja: su posición
se basa, en parte, en el juicio de quien la dibuja. Las rectas trazadas a mano en el
diagrama 7 representan los criterios de cuatro personas. Todas ellas, excepto la A,
parecen razonables. No obstante, cada una daría una estimación distinta de
unidades vendidas que corresponden a un número determinado de llamadas.
Llamadas telefónicas y copiadoras vendidas por 10 representantes de venta. Cuatro rectas sobrepuestas en el diagrama de dispersión.
Principio de mínimos cuadrados
El juicio personal se elimina al determinar la recta de regresión utilizando un
método matemático denominado principio de mínimos cuadrados. Este
procedimiento origina lo que comúnmente se conoce como la recta de “mejor
ajuste”.
Principio de mínimos cuadrados Técnica empleada para obtener la ecuación de regresión
minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de
Y y los valores pronosticados de Y.
Para ilustrar este concepto, los mismos datos se grafican en los tres diagramas
siguientes. La recta de regresión del diagrama 8 se determinó empleando el
método de mínimos cuadrados. Es la línea de mejor ajuste porque la suma de los
cuadrados de las desviaciones verticales con respecto a ésta es mínima. El primer
punto localizado (X = 3, Y = 8) tiene una desviación de 2 con respecto a la recta,
obtenida de 10 - 8; el cuadrado de su desviación es 4. El cuadrado de la
desviación para el punto X- 4, Y = 18, es 16. El cuadrado de la desviación para el
punto X = 5, Y = 16 es 4. La suma de los cuadrados de las desviaciones en
cuestión es 24, determinada por 4 + 16 + 4.
DIAGRAMA 8: Recta de mínimos cuadrados.
DIAGRAMA 9: Línea trazada con regla.
DIAGRAMA 10: Línea trazada con regla
Considérese que las rectas de los diagramas 9 y 10 se trazaron a mano utilizando
una regla. La suma del cuadrado de las desviaciones verticales en el diagrama 9
es de 44.
Para el diagrama 10 esta suma es 132. Ambas sumas son mayores que la suma
para la recta del diagrama 8. Obtenida utilizando el método de mínimos
cuadrados.
La forma general de la ecuación de regresión es:
FORMULA 4
FORMA GENERAL DE LA ECUACIÓN DE REGRESIÓN LINEAL
Y '=a+bx
Donde:
Y'= se lee Y prima, es el valor pronosticado de la variable Y para un valor
seleccionado de X.
A= es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y
cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la
recta de regresión cruza el eje Y, cuando X = 0.
B= es la pendiente de la recta, o el cambio promedio en Y" por unidad de cambio
(incremento o decremento) en la variable independiente X.
X= es cualquier valor seleccionado de la variable independiente.
Debe observarse que la ecuación de regresión lineal para la muestra de
vendedores es sólo una estimación de la relación entre las dos variables en la
población. De modo que, en general, los valores de a y O en la ecuación de
regresión se denominan coeficientes de regresión estimados, o simplemente
coeficientes de regresión.
Las fórmulas para b y a son:
PENDIENTE DE LA LÍNEA DE REGRESIÓN
b=n (∑X )−(∑ X )(∑Y )
n (∑x2 )−¿¿ FORMULA 5
PUNTO DONDE SE INTERCEPTA CON EL EJE Y
a=∑ yn
−b ∑ Xn
[FORMULA 6]
Donde:
X = un valor de la variable independiente.
Y = un valor de la variable dependiente. n es el número de elementos en la
muestra.
Volviendo al problema de la empresa Copíer Sales of América, la gerente de
ventas recopiló Información respecto al número de llamadas telefónicas hechas y
la cantidad de copiadoras vendidas, para una muestra aleatoria de 10
representantes de ventas. Como parte de su presentación en la próxima junta de
ventas, a la señorita Bancer, gerente de esa área, le gustaría ofrecer información
específica referente a la relación entre el número de llamadas y la cantidad de
productos vendidos. Utilice el método de mínimos cuadrados para determinar la
ecuación lineal y expresar la relación entre las dos variables. ¿Cuál es el número
esperado de copiadoras vendidas por un representante que realiza 20 llamadas a
sus clientes?
La tabla 4 repite la información muestral de la tabla 2. También incluye las sumas
que se necesitan en las fórmulas (5) y (6) para obtener la ecuación de regresión.
Los cálculos necesarios para determinar la ecuación de regresión son los
siguientes:
b=n (∑X )−(∑ X )(∑Y )
n (∑x2 )−¿¿.
TABLA 4: Cálculos necesarios para determinar la ecuación de regresión de
mínimos cuadrados.
I
Representantes de ventas
Llamadas de ventas(X)
Copiadorasvendidas
(Y)
X2 Y2 X Y
Tom Keller 20 30 400 900 600
Jeff Hall 40 60 1 600 3 600 2 400
Brian Virost 20 40 400 1 600 800
Greg Fish 30 60 900 3 600 1 800
Susan Welch 10 30 100 900 300
Carlos Ramirez 10 40 100 1 600 400
Rich Niles 20 40 400 1 600 800
Mike Kiel 20 50 400 2 500 1 000
Mark Reynolds 20 30 400 900 600
Soni Jones 30 70 900 4 900 2 100
Total 220 450 5 600 22100 10 800
Por tanto, la ecuación de regresión es Y’= 18.9476 + 1.1842X. De modo que si un
vendedor hace 20 llamadas telefónicas, puede esperarse que venda 42.6316
copiadoras, valor que se obtiene de Y'= 18.9476 + 1.1842X = 18.9476 +
1.1842(20). El valor b = 1.1842 significa que para cada llamada adicional que
realizan los representantes de ventas pueden esperar aumentar en casi 1.2 el
número de copiadoras vendidas. Para decirlo de otra forma, cinco llamadas extra
en un mes resultarán en casi seis copiadoras vendidas adicionalmente [1.1842(5)
= 5.921].
El valor a de 18.9476 es el punto donde la ecuación cruza el eje Y. Una traducción
literal es que si no se hacen llamadas, esto es, X = 0, se venderán 18.9476
copiadoras. Obsérvese que X = 0 se encuentra fuera del intervalo de valores
Incluidos en la muestra y, por tanto, no debe emplearse para calcular el número de
productos vendidos. Las llamadas a clientes fueron de 10 a 40, así que los
cálculos se deben hacer dentro de esa gama de valores.
Trazo de la línea de regresión:
La ecuación de mínimos cuadrados, Y' - 18.9476 + 1.1842X, se puede graficar en
el diagrama de dispersión. El primer representante de ventas en la muestra es
Tom Keller, quien hizo 20 llamadas telefónicas. El número calculado de
copiadoras vendidas es Y'= 18.9476 + 1.1842(20) = 42.6316. El punto X = 20 y
Y= 42.6316, se localiza recorriendo hasta 20 sobre el eje X y subiendo luego
verticalmente hasta 42.6316. Los otros puntos de la ecuación de regresión se
pueden determinar introduciendo el valor particular de X en la ecuación.
Representantes ¡ de ventas
Llamadas(X)
Ventas estimadas(Y’)
Representantes de ventas
LlamadasW
Ventas estimadas(n
i ..................! Tom Keller
20 42.6316 Carlos Ramirez
10 30.7896
Jeff Hall 40 66.3156 Rich Niles 20 42.6316
Brian Virost 20 42.6316 Mike Kiel 20 42.6316
Greg Fish 30 54.4736 Mark Reynolds
20 42.6316
Susan Welch 10 30.7896 Soni Jones 30 54.4736
Todos los demás puntos se unen para obtener la recta como se observa en el
diagrama 11.
DIAGRAMA 11. Línea de regresión trazada en el diagrama de dispersión.
Tal recta tiene características interesantes. Según se analizo, no existe otra línea recta que pase
por lo datos y tenga una suma de desviaciones al cuadrado que se menor. Además esta recta
pasara por los puntos representados por las medias respectivas de los valores X e Y, esto es Ẋ e
Ў. En este ejemplo, Ẋ=22.0 e Ў=45.0.
El error estándar de estimación
Obsérvese en el gráfico de dispersión anterior (diagrama 11) que no todos los
puntos quedan con exactitud en la recta de regresión. Si todos hubieran quedado
en la línea y si el número de observaciones hubiera sido suficientemente grande,
no existiría error en el cálculo del número de unidades vendidas. Dicho de otra
forma, si todos los puntos estuvieran en la recta de regresión, las unidades
vendidas podrían pronosticarse con una precisión de 100%. Entonces no habría
error a! pronosticar la variable Y con base en la variable X. Esto es cierto en el
caso hipotético que sigue (véase el diagrama 12). Teóricamente, si X = 4.
Entonces podría pronosticarse una Y exacta de 100 con 100% de confianza. O
bien, si X = 12, entonces Y= 300. Debido a que no hay diferencia entre los valores
observados y ¡os valores pronosticados, no existe error en esta estimación.
DIAGRAMA 12. Ejemplo de una predicción perfecta: caballos de fuerza y costo de la electricidad.
Obtener una predicción perfecta en los aspectos de economía y administración es
prácticamente imposible. Por ejemplo, los ingresos anuales provenientes de
ventas de gasolina (Y) con base en los registros de automóviles (X) hasta cierta
fecha, sin duda podrían aproximarse con gran exactitud, pero el pronóstico no
sería preciso con redondeo a unidades monetarias enteras, o tal vez hasta el
millar de unidades monetarias. Aun los pronósticos de resistencia a la tensión
mecánica de los alambres de acero, con base en el diámetro externo de los
mismos, no siempre son exactos, debido a ligeras diferencias en la composición
del acero.
Entonces, lo que se necesita es una medida que indique qué tan preciso es el
pronóstico de Y con base en Xo, por el contrario, cuán inexacta podría ser la
predicción. A esta medida se le denomina error estándar de estimación, el cual se
representa por sy. X‘. Y es el mismo concepto que el de la desviación estándar. La
desviación estándar mide la dispersión respecto a la línea de regresión.
Error estándar de estimación Medida de la dispersión de los valores observados con respecto a la
línea de regresión.
El error estándar de estimación se determina aplicando la siguiente ecuación.
Obsérvese que ésta es muy semejante a la de la desviación estándar de una
muestra.
ERROR ESTÁNDAR DE ESTIMACIÓN
Sy.x =√∑ ( y−Y ' )2
n−2
FORMULA 7.
La desviación estándar se basa en los cuadrados de las desviaciones respecto a
la media, mientras que el error estándar de estimación se basa en los cuadrados
de las desviaciones respecto a la línea de regresión. Si la suma de los cuadrados
de las desviaciones es pequeña, esto significa que la línea de regresión es
representativa de los datos. Si los cuadrados de las desviaciones son grandes,
entonces la recta de regresión puede no representar a los datos.
EJEMPLO.
Recordemos el ejemplo que se relaciona con la empresa Copier Sales of América.
La gerente de ventas determinó que la ecuación de regresión de mínimos
cuadrados era Y'=18.9476 + 1.1842X, donde Y se refiere al número de copiadoras
vendidas, y “X” a la cantidad de llamadas telefónicas hechas. Evalúe el error
estándar de estimación como una medida de cuán bien se adaptan los valores a la
recta de regresión.
Para evaluar el error estándar se comienza determinando la diferencia entre el
valor Y, y el valor calculado mediante la ecuación de regresión, Y’. A continuación
tal diferencia se eleva al cuadrado, esto es, ( y−Y ' )2. Esto se hace para cada una
de las n observaciones y se suman los resultados; es decir, se calcula ∑ ( y−Y ' )2,
que es el numerador de la fórmula (13.7). Finalmente se divide entre el número de
observaciones menos 2. ¿Por qué menos 2? Se pierde un grado de libertad cada
vez que se calcula el valor de intersección, a, y el valor de la pendiente, b. Los
detalles de los cálculos se resumen en la tabla 5.
TABLA 5 Cálculos necesarios para obtener el error estándar de estimación.
Ventas
Ventas Desviación
Representante reales
calculadas
Desviación
al cuadrado
de ventas (Y) (H (Y- n (Y- Y') 2
Tom Keller 30 42.6316
-12.631
6
159.557
Jeff Hall 60 66.3156 -6.3156
39.887
Brian Virost 40 42.6316
-2.6316
6.925
Greg Fish 60 54.4736
5.5264 30.541
Susan Welch 30 30.7896
-0.7896
0.623
Carlos Ramirez 40 30.7896
9.2104 84.831
Rich Niles 40 42.6316
-2.6316
6.925
Mike Kiel 50 42.6316
7.3684 54.293
Mark Reynolds 30 42.6316
-12.631
159.557
Soni Jones 70 54.4736
15.5264
241.069
0.0000 784.208
El error de estimación es 9.901, que se determina aplicando la formula 7.
Sy.x =√∑ ( y−Y ' )2
n−2 =√ 784.20810−2
= 9.901.
Las desviaciones (Y - Y') son desviaciones verticales con respecto a la
recta de regresión. Para ilustrar esto se muestran las 10 desviaciones de la tabla 5
en el diagrama 13. Obsérvese en la citada tabla que la suma de las desviaciones
señaladas es igual a cero, lo cual indica que las desviaciones positivas (por
encima de la línea de regresión) están compensadas por las desviaciones
negativas (por debajo de tal recta).
DIAGRAMA 13. Llamadas de ventas y copiadoras vendidas en una muestra de 10 vendedores.
La fórmula (7) para el error estándar de estimación sirve para mostrar la
semejanza que existe, en concepto y cálculo, entre la desviación estándar y el
error estándar de estimación. Supóngase que se estudia un gran número de
observaciones y que las cifras son grandes. Determinar cada punto sobre la recta
de regresión y elevar al cuadrado las diferencias, esto es (Y - Y')2, sería muy
tedioso. La fórmula que sigue es idéntica desde el punto de vista algebraico a la
anterior (7), pero es mucho más fácil de utilizar.
FÓRMULA PARA EL ERROR ESTÁNDAR DE ESTIMACIÓN
Sy.x =√∑Y 2−a (∑ y )−b(∑xy )n−2
FORMULA 8
Los cuadrados, sumas y otras cifras para el problema de la empresa Copler
Sales of América, se calcularon en la tabla 13.4. Al introducir esos valores en la
fórmula se tiene que:
Sy.x =√∑Y 2−a (∑ y )−b(∑xy )n−2
=√22100−18.9476¿¿¿ =9.901.
Consideraciones básicas para la regresión lineal
Para aplicar correctamente la regresión lineal deben satisfacerse varias
suposiciones, las cuales se ilustran en el diagrama
DIAGRAMA 14. Representación grafica de las suposiciones para la regresión.
Recuerde de! capítulo 7, que si los valores siguen una distribución normal,
entonces 68% de las observaciones estarán comprendidas entre la media más
una desviación estándar y la media menos una desviación estándar; 95% de las
observaciones estarán comprendidas entre la media más menos dos desviaciones
estándar, y virtualmente todas las observaciones se encontrarán entre la media y
más menos tres desviaciones estándar. Esta misma relación existe entre los
valores pronosticados Y' y el error estándar de estimación.
1. Y' ± sx.y comprenderá 68% de las observaciones.
2. Y'± 2sx.y comprenderá 95% de las observaciones.
3. Y' ±3sx.y comprenderá virtualmente todas las observaciones.
Ahora es posible relacionar estas consideraciones con el problema de la empresa
Copier Sales of América, donde se estudia la relación entre el número de llamadas
telefónicas y la cantidad de copiadoras vendidas. Suponga que se toma una
muestra mucho mayor que n =10, pero el error estándar de estimación sigue
siendo 9.901. Si se traza una recta paralela a 9.901 unidades por arriba de la línea
de regresión, y otra a 9.901 unidades por abajo de dicha línea, cerca de 68% de
los puntos estarían entre las dos líneas paralelas. De modo semejante, una recta a
19.802 [2sx.y = 2(9.901)] unidades sobre la línea de regresión, y otra a 19.802
unidades abajo de tal recta, el espacio entre ellas debería incluir aproximadamente
95% de los valores de los datos.
Como una revisión rápida refiérase a la segunda columna de la derecha en la
tabla 5, la columna con el encabezado “Desviación”. Tres de las 10 desviaciones
exceden a un error estándar de estimación. Esto es, la desviación de -12.6316
para Tom Keller, -12.6316 para Mark Reynolds, y +15.5264 para Soni Jones,
exceden todos el valor de 9.901, que está a un error estándar desde la recta de
regresión. Por tanto, dicho de otro modo, siete de las diez desviaciones en la
muestra quedan dentro de un error estándar con relación a la línea de regresión,
lo que es un buen resultado para una muestra relativamente pequeña.
Intervalos de confianza y de predicción
El error estándar de estimación también se utiliza para establecer intervalos de
confianza cuando el tamaño de la muestra es grande y la dispersión con respecto
a ¡a línea de regresión se aproxima a la distribución normal. En el ejemplo
relacionado con el número de llamadas telefónicas y la cantidad de copiadoras
vendidas, el tamaño de la muestra es pequeño; por tanto, se necesita un factor qe
corrección que considere el tamaño de la muestra. Además, al alejarse del valor
medio de la variable independiente, los cálculos están sujetos a mayor variación, y
esto también se debe corregir.
Se desea proporcionar estimaciones de intervalo de dos tipos. El primero,
denominado intervalo de confianza, presenta el valor medio de Y para un valor
dado de X. El segundo tipo se conoce como intervalo de predicción e informa
acerca de la gama de valores de Y para un valor particular de X. Para explicarlo
más ampliamente, supóngase que se calcula el sueldo de ejecutivos en ¡a
industria de ventas al menudeo, con base en su experiencia. Si se necesita una
estimación de intervalo del pago laboral de todos los ejecutivos de esa actividad
que tienen 20 años de experiencia, se calcula un intervalo de confianza. Si se
desea una estimación del sueldo de Curtís Bender, un funcionario de la industria
en cuestión, con 20 años de experiencia, se calcula un intervalo de predicción.
A fin de determinar el intervalo de confianza para el valor medio de Y para un valor
dado de X, se utiliza la fórmula siguiente:
INTERVALO DE CONFIANZA PARA LA MEDIA DE y, DADA X.
Y’ =t(s x . y ¿√ 1n +(x−Ẋ )2
∑ (x )2−¿¿¿¿
FORMULA 9.
'
Donde:
Y' es el valor pronosticado para cualquier valor X seleccionado.
X es cualquier valor seleccionado de X.
Ẋ es la media de las X, evaluada mediante ∑X/n.
n es el número de observaciones,
s x . y es el error estándar de estimación. y ■ *
t es el valor para n - 2 grados de libertad.
De nuevo conviene recordar que el concepto de f ¡o dedujo Willíam Gossett, a
principios del decenio de 1900, observando que Ẋ ±z(s) no era exactamente
correcto para muestras pequeñas. Por ejemplo, se percató de que para muestras
de tamaño 120, 95% de los elementos quedaban dentro de Ẋ ± 1.98s, en vez de
Ẋ ± 1.96s. Esta diferencia no es crítica, pero obsérvese lo que sucede conforme
disminuye el tamaño de la muestra:
gl t
120 1.980
60 2.000
21 2.080
10 2.228
3 3.182
Esto es lógico. Cuanto más pequeña sea la muestra, tanto mayor será el error
posible. El incremento en el valor de t compensa esta posibilidad.
Regresemos al ejemplo relacionado con la empresa Copier Sales of América.
Determínese un intervalo de confianza de 95% para todos los representantes de
ventas que realizan 25 llamadas telefónicas, y para Sheila Baker, una vendedora
de la Costa Oeste que hizo 25 llamadas.
Se utiliza la fórmula (9) para determinar un intervalo de confianza. La tabla 6
incluye los totales necesarios y se repite la información de la tapia 2.
TABLA 6. Cálculos necesarios para determinar el intervalo de confianza y el
intervalo de predicción
Representante de ventas
Llamadasrealizadas
(X)
Copiadorasvendidas
( Y )
X2 Y 2 XY
Tom Keller 20 30 400 900 600
Jeff Hall 40 60 1 600 3 600 2 400
Brian Virosi 20 40 400 1 600 800
Greg Fish 30 60 900 3 600 1 800
Susan Welch 10 30 100 900 300
Carlos Ramirez 10 40 100 1 600 400
Rich Niles 20 40 400 1 600 800
Mike Kiel 20 50 400 2 500 1 000
Mark Reynolds 20 30 400 900 600
Soni Jones 30 70 900 4 900 2 100
Total 220 450 5 600 22 100 10 800
El primer paso es determinar el número de copiadoras que espera vender un (o
una) representante de ventas si realizan 25 telefonemas. Esto es 48.5526,
obtenido mediante Y' = 18.9476+ 1.1842X= 18.9476 + 1.1842(25).
Para determinar el valor t, primero se necesita conocer el número de grados de
libertad. En este caso, tales grados son n-2 = 10-2 = 8. Se establece el nivel de
confianza de 95%, que se obtiene por la diferencia de 1 menos el nivel de
confianza. Se utiliza la categoría de dos extremidades. Para encontrar el valor t,
vaya hacia abajo en la columna de la izquierda hasta 8 grados de libertad, y
después a través de la columna con el nivel de significancia de 0.05, para dos
colas. El valor de t resulta ser igual a 2.306.
En la sección anterior se obtuvo que el error estándar de estimación es 9.901, X =
25, y de la tabla 13.6, ∑X = 220 y ∑x2 = 5 600. Además, Ẋ = ∑X/n = 220/10 = 22.
Introduciendo estos valores en la fórmula (9) se determina el intervalo de
confianza.
Y’ =t(s x . y ¿√ 1n +(x−Ẋ )2
∑ (x )2−¿¿¿¿ = 48.5526±2.306 (9.901 ) √ 110 +
(25−22 )2
5600−(220 )2
10
=¿
= 48.5526± 7.6356.
Por tanto, el intervalo de confianza de 95% para todos los representantes
de ventas que realizan 25 llamadas telefónicas va desde 40.9170 hasta 56.1882.
Para interpretarlo se redondean los valores. SI un vendedor hace 25 telefonemas,
puede esperar vender 48.6 copiadoras. Es probable que sus ventas variarán de
40.9 a 56.2 de tales máquinas.
Para determinar el intervalo de predicción para un valor particular de Y dado cierto
valor de X, se modifica ligeramente la fórmula 13.9: Se agrega un “1” como
sumando bajo el radical. La fórmula se convierte en:
INTERVALO DE PREDICCION PARA Y, DADO UN VALOR DE X.
Y’ =t(s x . y ¿√1+ 1n +(x−Ẋ )2
∑ (x )2−¿¿¿¿
FORMULA 10.
Supónganos que se desea calcular el número de copiadoras que vendió Sheila
Baker, quien hizo 25 llamadas telefónicas. El intervalo de predicción de 95% se
determina como sigue:
Y’ =t(s x . y ¿√1+ 1n +(x−Ẋ )2
∑ (x )2−¿¿¿¿ = 48.5526 ±2.306 (9.901 )√1+ 110 +
(25−22)2
5600−(220)2
10
=48.5526± 24.0746
De modo que el intervalo va desde 24.478 hasta 72.627 copiadoras. Se
concluye que el número de productos vendidos se encontrará entre
aproximadamente 24 y 73 para un representante de ventas en particular. Este
intervalo es muy grande. Es mucho mayor que el intervalo de confianza para todos
los vendedores que hicieron 25 llamadas. Sin embargo, es lógico que habrá mayor
variación en el estimado de ventas para un individuo que para un grupo.
La siguiente gráfica de MINITAB muestra la relación entre la recta de
regresión (línea continua), el Intervalo de confianza (línea punteada) y el intervalo
de predicción (línea con puntos y guiones). Las franjas del intervalo de predicción
siempre se encuentran más alejadas de la recta de regresión que las del intervalo
de confianza. También conforme los valores de X se alejan del número medio de
llamadas (22), tanto en dirección positiva como negativa, las bandas del intervalo
de confianza y del intervalo de predicción se hacen más amplias. Esto es
ocasionado por el numerador del término de la derecha_dentro del radical en las
fórmulas 9 y 10. Es decir, conforme aumenta el término (x−Ẋ)2, también
aumentan las amplitudes del Intervalo de confianza y de predicción. Dicho de otra
manera, conforme se aleja de la media de la variable independiente, hay menos
precisión en las estimaciones.
Intervalos de confianza y de estimación para los datos de la empresa copier sales
of América.
Algo más acerca del coeficiente de determinación
La fórmula 13.2 es una expresión conveniente para calcular el coeficiente de
correlación, r. El coeficiente de determinación se obtuvo elevando al cuadrado el
coeficiente de correlación.
Para examinar más de cerca el concepto básico del coeficiente de determinación,
supóngase que interesa la relación entre los años de permanencia en el trabajo, X,
y la producción semanal, Y. Los datos muéstrales indicaron que:
Empleado Años de servicio, X
Producción semanal, Y
Gordon 14 6
James 7 5
Ford 3 3
Salter 15 9
Artes 11 7
Los datos muéstrales se graficaron en un diagrama de dispersión. Debido a
que la relación entre X e Y parece ser lineal, se trazó una recta por los puntos
determinados (ver el diagrama 15). La ecuación es Y' = 2 + 0.4X.
Obsérvese en el diagrama 15 que si se fuera a utilizar esa recta para
pronosticar la producción semanal de un empleado, en ningún caso la predicción
sería exacta. Esto es, existiría cierto error en cada uno de los pronósticos. Como
ejemplo, para Gordon, que ha estado con la empresa 14 años, se pronosticaría
una producción semanal de 7.6 unidades; sin embargo, él sólo produce 6
unidades.
……..
. . . DIAGRAMA 15. Datos observados y la recta de mínimos cuadrados.
Para medir el error general en nuestro pronóstico, cada desviación con
respecto a la recta se eleva al cuadrado y se suman los cuadrados. El punto
pronosticado sobre la recta se indica con Y", el cual se lee “ye prima”, y el punto
observado se representa con Y. Para Gordon, (Y - Y')2 = (6 - 7.6)2 = (-1.6)2 =
2.56. Lógicamente, esta variación no puede explicarse por medio de la variable
independiente, de manera que se denomina variación no explicada. No es posible
explicar en forma específica por qué la producción de Gordon de 6 unidades está
1.6 unidades abajo de su producción pronosticada de 7.6 unidades con base en el
número de años de permanencia en el trabajo.
La suma de las desviaciones al cuadrado, L(Y - Y’)2 es 4.00 (ver la tabla 13.7). El
término I(Y - Y')2 = 4.00 es la variación en / (producción) que no puede
pronosticarse a partir de X. Es, por tanto, la variación “no explicada” en Y.
TABLA 7 Cálculos necesarios para determinar la variación no explicada
X Y Y Y - Y ’ ( Y - Y ' f
Gordon 14 6 7.6 -1.6 2.56
James 7 5 4.8 0.2 0.04
Ford 3 QvJ
3.2 -0.2 0.04
Salter 15 9 8.0 1.0 1.00
Artes 11 7 6.4 0.6 0.36
Total 50 30 0.0* 4.00
'Debe ser 0.
Supónganos ahora que sólo se conocen los valores Y (en este problema, la
producción semanal) y se desea pronosticar la producción de todos los
empleados. Los valores reales de la producción para los empleados son 6, 5, 3, 9
y 7 (a partir de la tabla 7). Para hacer tales predicciones, podríamos asignar la
producción media semanal (6 unidades, obtenida de ∑Y/n = 30/5 = 6) a cada
empleado. Esto conservaría la suma de los cuadrados de los errores de pronóstico
en un valor mínimo. (Recuérdese del capítulo 3 que la suma de los cuadrados de
las desviaciones con respecto a la media aritmética, para un conjunto de números,
es menor que la suma de los cuadrados de las desviaciones a partir de cualquier
otro valor, como la mediana.) En la tabla 8 se muestran los cálculos necesarios. La
suma de los cuadrados de las desviaciones es 20, como se ve en la tabla 8. Tal
valor 20 se conoce como variación total en Y.
TABLA 8 Cálculos necesarios para determinar la variación total en Y
Nombre Producciónsemanal,
Y
Media de la producción semanal,
Y
Y - ? (Y - Y )2
Gordon 6 6 0 0
James 5 6 -1 1
Ford 3 6 -3 9
Salter 9 6 3 9
Artes 7 6 1 1
Total 0* 20
'Debe ser 0.
Lo que se realizó para determinar la variación total en Y se muestra gráficamente
en el diagrama 16.
Lógicamente, la variación total en / puede subdividirse en variación no explicada y
variación explicada. Para llegar a la variación explicada, conociendo la variación
total y la variación no explicada, simplemente se realiza una resta: Variación
explicada = Variación total - Variación no explicada. Al dividir la variación
explicada entre ¡a variación total se obtiene el coeficiente de determinación,r2, que
es una relación proporcional. En términos de una fórmula:
COEFICIENTE DE DETERMINACION
r2=Vari aciontotal−variacionno explicadavariaciontotal
r2=∑ ( y−Ў )2−∑ ( y−Y ’ )2
∑ ( y−Ў )2
En este problema:
r2=20−420
= 16/20
Donde:
20 tabla 8
4 tabla 7
16 Variación explicada
20 variación total.
Como ya se ha mencionado, 0.80 corresponde a un porcentaje. Se dice así que
80% de la variación en la producción semanal, y, está determinado, o explicado,
por su relación lineal con X (años de permanencia en el trabajo).
Para verificar podría aplicarse la fórmula (1) para el coeficiente de correlación. Al
elevar r al cuadrado se obtiene el coeficiente de determinación.
Relaciones entre el coeficiente de correlación, el coeficiente de
determinación y el error estándar de estimación
En una sección anterior se analizó el error estándar de estimación, que mide cuán
cerca de la recta de regresión se encuentran los valores reales. Cuando el error
estándar es pequeño, ello indica que las dos variables están relacionadas muy de
cerca. En el cálculo del error estándar, el término clave es ∑ ( y−Y ’ )2. Si el valor de
tal término es pequeño, entonces el error estándar también lo será.
El coeficiente de correlación mide la intensidad de la asociación entre dos
variables. Cuando los puntos en el diagrama de dispersión parecen cercanos a la
recta, se observa que el coeficiente de correlación tiende a ser grande. Así que el
error estándar de estimación y el coeficiente de correlación indican la misma
información, pero utilizan una escala diferente para señalar el vigor de la
asociación. Sin embargo, en ambas medidas interviene el término ∑ ( y−Y ’ )2.
También observamos que el cuadrado del coeficiente de correlación se denomina
coeficiente de determinación. Este último mide el porcentaje de la variación en Y
que se explica por la variación en X.
Un medio conveniente para mostrar la relación entre estas tres medidas es una
tabla ANOVA. El concepto es semejante en análisis de regresión. La variación
total, ∑ ( y−Y ’ )2, se divide en dos componentes:
1. La variación explicada por la regresión (que la explica la variable
independiente)
2. El error, o variación no explicada. Estas dos categorías se identifican en la
primera columna de ¡a tabla ANOVA que sigue. La columna con el
encabezado “gl" se refiere a los grados de libertad asociados a cada
categoría. El número total de grados de libertad es n - 1. El número de
grados de libertad en la regresión es 1, debido a que hay solamente una
variable independiente. El número de grados de libertad asociado con el
término de error es n - 2. El término “SS”, que está en el centro de la tabla
ANOVA, se refiere a la suma de cuadrados: la variación. Los términos se
calculan como sigue:
Regresión = SSR = ∑ (Y ’−Ў )2
Variación de error = SSE =∑ ( y−Y ’ )2
Variación total = SS total = ∑ ( y−Ў )2
Fuente gi SS MS
Regresión 1 SSR SSR/1
Error n- 2 SSE SSE/(n - 2)
Total n - 1 SS total*
*SS total = SSR
+ SSE.
El coeficiente de determinación,r2 , puede obtenerse directamente a partir de la
tabla ANOVA mediante:
COEFICIENTE DE DETERMINACIÓN
r2= SSRSS total
=1 SSESS total
FORMULA 12.
El término “SSR/SS total” es la relación proporciona! en la variación de Y
explicada por la variable independiente X. Obsérvese el efecto del término SSE
sobre r2. Conforme SSE disminuye, r2 aumenta. Por el contrario, conforme
disminuye el error estándar, aumenta el término r2 .
El error estándar de estimación también puede determinarse a partir de la tabla
ANOVA, utilizando la ecuación que sigue:
ERROR ESTANDAR DE ESTIMACION
SY.X = √SSE2n−2a
FORMULA 13.
EL ejemplo de la empresa Copier Sales of América sirve para ilustrar los cálculos
del coeficiente de determinación y del error estándar en la estimación a partir de
una tabla ANOVA.
En el ejemplo de Copier Sales of América se estudió la relación entre el número
de llamadas telefónicas realizadas y la cantidad de copiadoras vendidas. Utilice un
paquete de computación para determinar la ecuación de regresión de mínimos
cuadrados y la tabla ANOVA. Identifique tal ecuación, el error estándar de
estimación y el coeficiente de determinación en ¡a salida de computadora. De la
tabla ANOVA en dicho resultado, obtenga el coeficiente de determinación y el
error estándar de estimación aplicando las fórmulas (12) y (13).
.
Utilizando la fórmula 12, el coeficiente de determinación es 0.576.
Este es el mismo valor que se calculó anteriormente, cuando se encontró el
coeficiente de determinación elevando al cuadrado el coeficiente de correlación.
De nuevo puede decirse que la variable independiente, explica 57.6% del cambio
en la variable número de copiadoras vendidas. Si fuera necesario el coeficiente de
correlación, se habría tomado la raíz cuadrada del coeficiente de determinación:
Pero aún existe un problema, y éste implica el signo para el coeficiente de
correlación. Recuérdese que la raíz cuadrada de un valor puede tener signo
positivo o negativo. El signo del coeficiente de correlación siempre será el mismo
que el de la pendiente en la gráfica. Esto es, b y r siempre tendrán el mismo signo.
En este caso es positivo, por lo que el coeficiente de determinación es 0.759.
El error estándar de estimación se calcula con la fórmula 13
De nuevo, este valor es igual al que se calculó anteriormente.