estadistica informe

CURSO : ESTADISTICA PARA ECONOMISTAS I

DOCENTE : Dr. FRANCO CORNELIO CARLOS

ALBERTO.

ALUMNO : ARTEAGA BARRIOS, Cristian.

HARO REYES, Ricardo.

CRUZ PALACIOS. Leydi.

ZAVALETA ALIPIO, Abel.

CORTIJO VILLARROEL, Carmen.

INTRODUCCION

Este trabajo trata de la estadística descriptiva. Se organizaron datos sin procesar

en una distribución de frecuencias y se calcularon varias medidas de tendencia

central y de dispersión, a fin de describir de las principales características de los

datos.

En este trabajo se estudiara la relación entre dos o más variables, y se

desarrollara una ecuación que permita calcular una variable basada en otra. Por

ejemplo, ¿existe relación entre lo que gasta una empresa en una publicidad y sus

ventas? ¿Se puede calcular el costo de la calefacción domestica en el invierno con

base en el área que tiene el inmueble? ¿Hay alguna relación entre la tasa de

publicidad por línea en un periódico y su circulación? ¿Existe una relación entre la

antigüedad en el trabajo de un empleado de producción y el número de unidades

que labora? Obsérvese que en cada uno de estos casos hay dos variables, por

ejemplo, el número de años en un trabajo y la cantidad de unidades producidas.

En este trabajo se examinara primero el significado y el objetivo del análisis de

correlación. Luego se analiza una grafica diseñada para representar la relación

entre dos variables: el diagrama de dispersión se continúa el estudio desarrollando

una ecuación matemática que permita calcular el valor de una variable con base

en el valor de otra, y a esto se le denomina análisis de regresión. Asimismo, se ara

lo siguiente: (1) se determinara la ecuación de recta que mejor se adapte a los

datos; (2) se calculara el valor de una variable con base a otra: (3) se medira el

error de la estimación, y (4) se establecerán los intervalos de confianza y de

predicción para el cálculo.

¿Qué es un análisis de correlación?

El análisis de correlación es el estudio de la relación que existe entre las variables.

Para explicar lo anterior supóngase que el gerente de ventas de la compañía

copier sales off América, empresa que tiene una gran fuerza de ventas en todo

Estados Unidos y Canadá, desea determinar si existe una relación entre el número

de llamadas telefónicas de ventas hechas en un mes, y la cantidad de copiadoras

vendidas durante ese lapso. El gerente selecciona al azar una muestra de 10

representantes, y determina el número de tales llamadas que hizo cada uno el

mes anterior y la cantidad de productos vendidos. La información muestral

aparece en la tabla 1.

Representantes de

ventas

Número

l

lamada

Número de

copiadoras

vendidasj Tom Keller 20 30

Jeff Hall 40 60Brian Virost 20 40Greg Fish 30 60

Susan Welch 10 30Carlos Ramirez 10 40Rich Niles 20 40Mike Kiel 20 50Mark Reynolds 20 30

Soni Jones 30 70

Parece haber cierta relación entre el número de llamadas y la cantidad de

unidades vendidas. Esto es, el agente que realizó el mayor número de llamadas

vendió más copiadoras. Sin embargo, la relación no es “perfecta” o exacta. Por

ejemplo, Soni Jones hizo menos llamadas que Jeff Hall, pero ella vendió más

unidades.

En vez de hablar en lo general, como se ha hecho hasta ahora, se desarrollarán

algunas medidas estadísticas para presentar en forma más precisa la relación

entre las dos variables: llamadas de ventas, y copiadoras vendidas. A este

conjunto de técnicas estadísticas se le denomina análisis-de correlación.

Análisis de correlación Conjunto de técnicas estadísticas empleado para medir la intensidad de la

asociación entre dos variables.

El principal objetivo del análisis de correlación consiste en determinar qué tan

intensa es ¡a relación entre dos variables. Normalmente, el primer paso es mostrar

los datos en un diagrama de dispersión.

Diagrama de dispersión Gráfica que representa la relación entre dos variables.

Un ejemplo mostrará cómo se aplica el citado diagrama.

EJEMPLO:

La empresa Copier Sales of América. Inc., vende copiadoras a negociaciones

grandes, medianas y pequeñas en Estados Unidos y Canadá. La señorita Marcy

Bancer fue promovida recientemente al puesto de gerente nacional de ventas. A la

próxima junta de ventas asistirán los representantes de todo el país. A ella le

gustaría hacerles notar la importancia de hacer llamadas extra cada día. Decide

reunir alguna información acerca de la relación entre el número de llamadas y el

número de productos vendidos. Seleccionó al azar una muestra de 10

representantes y determinó el número de llamadas que hicieron el último mes. y el

de copiadoras que vendieron. La información muestral se tiene en la tabla 13.1.

¿Qué observaciones puede hacer usted acerca de la relación entre el número de

llamadas y la cantidad de copiadoras vendidas? Trace un diagrama de dispersión

para representar esta información.

SOLUCION:

Con base en los datos presentados en la tabla 1, la señorita Bancer sospecha que

existe una relación entre el número de llamadas hechas en un mes, y la cantidad

de copiadoras que se vendieron. Soni Jones vendió el mayor número de unidades

el mes anterior, y era una de las tres representantes que hizo 30 o más llamadas.

Por otra parte, Susan Welch y Carlos Ramírez hicieron sólo 10 llamadas en el

mismo mes. A la señorita Welch correspondió el menor número de copiadoras

vendidas entre los representantes en la muestra.

La deducción es que el número de copiadoras vendidas tiene relación con la

cantidad de llamadas realizadas. A medida que aumenta el número de

telefonemas crece la cantidad de unidades vendidas. El número de llamadas de

venta se denomina variable independiente, y la cantidad de copiadoras vendidas,

variable dependiente.

Variable independiente Una variable que proporciona las bases para el cálculo. Es la variable de

predicción.

Variable dependiente La variable que se predice o calcula.

Es práctica común marcar la variable dependiente (en este ejemplo, copiadoras

vendidas) en el eje vertical, o eje Y, y la variable independiente (número de

llamadas a clientes) en el eje horizontal, o eje X. Para establecer el diagrama de

dispersión para la información de ventas de la mencionada empresa, se comienza

con el primer representante, Tom Keller, quien hizo 20 telefonemas el mes anterior

y vendió 30 copiadoras; así que X = 20 y / = 30. Para ubicar el punto se desplaza

sobre el eje horizontal hasta llegar a X = 20, después se sube en dirección vertical

hasta Y - 30, y se sitúa así el punto respectivo en el plano XY. Este proceso se

continúa hasta situar todas las parejas de datos, como se muestra en el diagrama

siguiente.

DIAGRAMA 1

El diagrama de dispersión indica gráficamente que los representantes de ventas

que hacen más llamadas telefónicas, tienden a vender más copiadoras. Es

razonable que la señorita Bancer, la gerente nacional de ventas de la empresa

mencionada, diga a sus re-presentantes que cuanto mayor sea el número de

llamadas a clientes que hagan, más copiadoras podrán esperar vender.

Obsérvese que aunque parece existir una relación positiva entre las dos variables,

no todos los puntos quedan en una misma línea recta. En la siguiente sección se

medirá la intensidad y la dirección de esta relación entre dos variables,

determinando el coeficiente de correlación.

Coeficiente de correlación

Originado por e! investigador Karl Pearson, aproximadamente en el año 1900, el

coeficiente de correlación describe la intensidad de la relación entre dos conjuntos

de variables de nivel de intervalo (o variables de nivel de relación o razón.) Como

se le denota con r, con frecuencia se menciona también como r de Pearson, o

como coeficiente de correlación producto-momento de Pearson. Puede tomar

cualquier valor de -1.00 a +1.00, inclusive. Un coeficiente de correlación de -1.00 o

de +1.00 indica una correlación perfecta. Por ejemplo, un coeficiente de

correlación para el ejemplo anterior calculado como +1.00, señalaría que el

número de llamadas era un pronóstico perfecto de la cantidad de copiadoras

vendidas. Esto es, el número de telefonemas y el de productos vendidos están

perfectamente relacionados en un sentido lineal positivo. Un valor de -1.00

indicaría que las llamadas a clientes y el número de copiadoras vendidas están

perfectamente relacionadas en un sentido lineal negativo. La forma como quedaría

el diagrama de dispersión si la relación entre ambos conjuntos de datos fuera

lineal y perfecta, se tiene en el diagrama 2.

DIAGRAMA 2

Diagrama de dispersión que ilustran una correlación negativa perfecta y una correlación positiva perfecta.

Si no existe en absoluto alguna relación entre los dos conjuntos de

variables, la r de Pearson será cero. Un coeficiente de correlación r cercano a 0

(por ejemplo, 0.08) indica que la relación es muy débil. Se llega a la misma

conclusión si r = -0.08. Coeficientes de -0.91 y +0.91 tienen igual fuerza; ambos

indican una correlación muy intensa entre los dos conjuntos de variables. De

modo que la fuerza de la correlación no depende de la dirección (ya sea - o +).

En el diagrama 13.3 se muestran diagramas de dispersión para r = 0, una r débil

(por ejemplo, -0.23) y una r fuerte (por ejemplo, +0.87). Obsérvese que si la

correlación es débil, existe una dispersión considerable con respecto a una recta

trazada a través del espacio central de Los datos. Para que el diagrama de

dispersión represente una relación fuerte, debe existir poca dispersión con

respecto a la citada línea. Esto indica, en el ejemplo correspondiente al

diagrama, que el promedio de calificaciones de bachillerato (GPA) da un

pronóstico muy certero del desempeño futuro en una institución universitaria.

Algunos ejemplos de graficas de correlación.

DIAGRAMA 3: Diagramas de dispersión que representan correlaciones nula, débil y fuerte.

Coeficiente de correlación Medida de la intensidad de la relación lineal entre dos variables.

¿Cómo se determina el valor del coeficiente de correlación? A manera de ejemplo

se usarán los datos de la empresa Copier Sales of América, que se presentan en

la tabla 2. Se empieza con un diagrama de dispersión similar a los presentados en

el diagrama .2. Se traza una línea vertical sobre la media de los valores X, se traza

una recta horizontal sobre la media de los valores Y. En el diagrama 4 se ha

añadido una recta vertical sobre el punto correspondiente a 22 llamadas (X = ∑X/n

= 220/10 = 22) y una recta horizontal sobre el punto correspondiente a 45.0

copiadoras (Y = ∑Y/n = 450/10 = 45.0). Estas rectas pasan por el “centro” de los

datos y dividen al diagrama de dispersión en cuatro cuadrantes. Puede

considerarse que origen se desplaza de (0, 0) a (22, 45).

TABLA 2 Llamadas a clientes realizadas y copiadoras vendidas por los 10

vendedores de una muestra.

Representante de

ventas

Llamadas

clientes

(X)

Copiadoras

vendidas

(Y)

X2 Y2 XY

Tom Keller 20 30 400 900 600

Jeff Hall 40 60 1

600

3 600 2 400

Brian Virosi 20 40 400 1 600 800

Greg Fish 30 60 900 3 600 1 800

Susan Welch 10 30 100 900 300

Carlos Ramirez 10 40 100 1 600 400

Rich Niles 20 40 400 1 600 800

Mike Kiel 20 50 400 2 500 1 000

Mark Reynolds 20 30 400 900 600

Soni Jones 30 70 900 4 900 2 100

Total 220 450 5

600

22 100 10 800

I

DIAGRAMA 4 Cálculo del coeficiente de correlación.

Si la relación entre las dos variables es positiva, entonces el número de

copiadoras vendidas es mayor que la media, el número de llamadas a clientes

también será mayor que ¡a media. Estos puntos, en el diagrama 4, se encuentran

en el cuadrante superior derecho. Análogamente, si el número de copiadoras

vendidas es menor que la media, también lo será el número de llamadas a

clientes; estos puntos se encuentran en el cuadrante inferior izquierdo. Por

ejemplo la última persona de la lista en la tabla 2, Soni Jones, hizo 30 llamadas a

clientes y vendió 70 copiadoras. Estos dos valores son mayores que sus

respectivas medías, por lo que este punto se encuentra en el cuadrante superior

derecho. Soni hizo ocho (X - Ẋ = 30 - 22) llamadas más que el promedio y vendió

25 (Y - Ẏ = 70 - 45) copiadoras más que e! promedio. Tom Keller, que es la

primera persona en la lista de la tabla 2, hizo 20 llamadas y vendió 30 copiadoras.

Estos dos valores son menores que sus respectivas medias, por tanto, este punto

se encuentra en el cuadrante inferior izquierdo. Tom hizo dos llamadas menos a

clientes y vendió 15 copiadoras menos que los valores medios respectivos. En la

tabla 3 se presentan las desviaciones, respecto al número medio de llamadas a

clientes y respecto ai número medio de copiadoras vendidas, correspondientes a

los 10 representantes de venías. La suma de los productos de estas desviaciones

respecto a sus medias es 900. Es decir, es e! término ∑(X-Ẋ)(Y- Ẏ) = 900.

TABLA 3 Desviaciones de la media, y sus productos.

Representantes

de ventas

Llamadas

Y

Venta

X

X- Ẋ Y — Ẏ (X-Ẋ)(Y- Ẏ)

Tom Keller 20 30 -2 — 15 30

Jeff Hall 40 60 18 15 270Brian Virosi 20 40 -2 -5 10

Greg Fish 30 60 8 15 120

Susan Welch 10 30 -12 -15 180Carlos

Ramirez

10 40 -12 -5 60Rich Niles 20 40 -2 -5 10

Mike Kiel 20 50 -2 5 -10Mark

Reynolds

20 30 -2 -15 30

Soni Jones 30 70 8 25 200

900

Tanto en el cuadrante superior derecho como en el cuadrante inferior izquierdo, el

pro ducto (X - Ẋ)(Y -Ẏ) es positivo porque los dos factores tienen el mismo signo.

En el ejemplo todos los representantes de ventas, menos Mike Kiel están en este

caso. Por tanto es de esperarse que el coeficiente de correlación sea positivo.

Si la relación entre las dos variables es inversa, una variable será mayor que la

media y I; otra será inferior que la media. En este caso, la mayor parte de los

puntos están en los cuadrantes superior izquierdo e inferior derecho. Ahora (X - Ẋ)

y (Y - Ẏ) tendrán signos contrarios, así que su producto es negativo. El coeficiente

de correlación será negativo.

¿Qué pasa cuando no hay una relación lineal entre las dos variables? En el

diagrama de dispersión los puntos se encontrarán en los cuatro cuadrantes. Los

productos negativo: (X-Ẋ)(Y- Ẏ) anularán a los productos positivos y la suma será

casi cero. Esto genera un coeficiente de correlación cercano a cero

Pearson no quería que el coeficiente de correlación se viera afectado por las

unidades di las dos variables. Por ejemplo, sí se hubieran usado cientos de

copiadoras vendidas en lugar de copiadoras vendidas, el coeficiente de

correlación hubiera sido el mismo. El coeficiente de correlación es independiente

de la escala usada si el término ∑(X- Ẋ)[Y - Ẏ) se dividí entre las desviaciones

estándar muéstrales. También se hace independiente del tamaño di la muestra y

queda limitado a valores desde -1.00 hasta +1.00 si se divide entre (n - 1).

Este razonamiento lleva a la fórmula siguiente.

Formula 1 : r=∑(x−Ẋ )( y−Ẏ )

(n−1 ) sx s y

COEFICIENTE DE CORRELACIÓN FORMA CONCEPTUAL

Para calcular el coeficiente de correlación se usan las desviaciones estándar de la

muestra de 10 llamadas a clientes y 10 copiadoras vendidas. Para calcular las

desviaciones estándar se puede usar la fórmula 4.7 o uno de los paquetes de

cómputo. La desviación estándar de las llamadas a clientes es 9.189 y del número

de copiadoras vendidas, 14.337.

Luego, estos valores se sustituyen en las variables de la fórmula 1 para calcular el

coeficiente de correlación.

COEFICIENTE DE CORRELACIÓN

FORMULA 2

r¿n (∑XY )−(∑ X )(∑Y )

√¿¿¿

Donde:

n= es el número de pares de observaciones.

∑X= es la suma de los valores de la variable X.

∑Y= es la suma de los valores de la variable Y.

(∑x2) = es la suma de los cuadrados de los valores de la variable X.

(∑x )2 = es el cuadrado de la suma de los valores de la variable X.

(∑ y2) = es la suma de los cuadrados de los valores de la variable Y.

(∑ y )2 = es el cuadrado de la suma de los valores de la variable Y.

∑XY= suma de los productos de X e Y.

EJEMPLO:

Regresemos al ejemplo anterior en el que se trazó un diagrama de dispersión

representando la relación entre el número de llamadas a clientes y la cantidad de

copiadoras vendidas. Determine el coeficiente de correlación e interprete su valor.

En la tabla 2 se repite la información de los números de llamadas a clientes y de la

cantidad de copiadoras vendidas. También se presentan los totales adicionales

necesarios para determinar el coeficiente de correlación.

El coeficiente de correlación es 0.759 y se encontró empleando la fórmula 2.

r=n (∑ XY )−(∑X )(∑Y )

√¿¿¿

r=10 (10800 )−(220 )(450)

√¿¿¿= 0.759

¿Cómo se interpreta un coeficiente de correlación igual a 0.759? Primero, es

positivo, de manera que se ve que hay una relación directa entre el número de

llamadas a clientes y la cantidad de copiadoras vendidas. Esto confirma

nuestro razonamiento basado en el diagrama de dispersión (diagrama 4). El valor

0.759 está bastante cercano a 1.00, por lo que se concluye que la relación es

fuerte. Dicho de otra manera, un aumento de 25% en las llamadas posiblemente

llevaría a un aumento de 25% en las ventas.

Coeficiente de determinación

En el ejemplo anterior respecto a la relación entre el número de llamadas

telefónicas y la cantidad de productos vendidos, el coeficiente de correlación,

0.759, se interpretó como “fuerte”. Sin embargo, los términos como débil,

moderado y fuerte no tienen significado preciso. Una medida que tiene una

acepción más fácil de interpretar es el coeficiente de determinación. Se calcula

elevando al cuadrado el coeficiente de correlación. Para el ejemplo, dicho

coeficiente de determinación,r2, vale 0.576, que proviene de (0.759¿¿2. Esta es una

proporción o porcentaje; puede decirse que 57.6% de la variación en el número de

copiadoras vendidas se explica por La variación en el número de llamadas a los

clientes.

Coeficiente de determinación La porción de la variación total en la variable dependiente Y

que se explica por la variación en la variable independiente X.

Más adelante en este capítulo, se estudiará con mayor detenimiento el coeficiente

de determinación.

Una advertencia

Si existe una relación intensa (por ejemplo, 0.91) entre dos variables, el lector

puede sentirse inclinado a considerar que un aumento o una disminución en una

variable causa un cambio en la otra. Por ejemplo, se puede mostrar que el

consumo de cacahuates (o maníes) y el de aspirinas tiene una gran correlación.

Sin embargo, esto no indica que un incremento en el consumo de aquéllos causó

un aumento en el consumo de aspirinas. Igualmente, los ingresos de profesores y

la cantidad de internos en instituciones de atención a enfermos mentales han

crecido en forma proporcional. Además, a medida que ha disminuido la población

de alumnos “fósiles”, ha ocurrido un aumento en el número de doctorados

académicos. A relaciones como éstas se las denomina correlaciones falsas (o

espurias). Lo que se puede concluir cuando se encuentran dos variables con una

correlación fuerte, es que existe una relación entre las dos variables, y no que un

cambio en una origine una modificación en la otra.

Prueba de significancia del coeficiente de correlación

Recuérdese que la gerente de ventas de Copier Sales of América, encontró que la

correlación entre el número de llamadas telefónicas y la cantidad de copiadoras

vendidas fue 0.759. Esto indica una marcada relación entre las dos variables. Sin

embargo, sólo se incluyeron - diez vendedores en la muestra. ¿Podría ser que la

correlación en la población sea en realidad cero? Esto significaría que la

correlación de 0.759 se debió al azar. La población en es- a te ejemplo son todos

los vendedores que emplea la compañía.

Resolver este dilema exige una prueba para contestar la pregunta obvia: ¿podría

haber una correlación cero entre la población de la que se tomó la muestra? En

otras palabras, ¿la r calculada proviene de una población de observaciones por

pares con correlación nula? Para continuar con la convención de utilizar letras

griegas para representar un valor poblacional, se utilizará la letra p (es decir, la r0)

para representar la correlación en la población.

Se continuará con la ilustración que considera las llamadas a clientes y copiadoras

vendidas. Las hipótesis nula y alternativa son:

H0: p = 0 (La correlación en la población es nula o cero.)

H1: p ≠ 0 (La correlación en la población es diferente de cero.)

Debido a la forma en que está enunciada Hv se sabe que la prueba es de dos

colas.

La fórmula para “t” es:

PRUEBA “T” PARA EL COEFICIENTE DE CORRELACIÓN.

FORMULA 3:

t= r √n−2√1−r 2

n−2grados de libertad

Utilizando el nivel de significancia 0.05, la regla de decisión indica que si

la t calculada se encuentra en el área entre +2.306 y -2.306, no se rechaza la

hipótesis nula. Para localizar el valor crítico 2.306, gl = n - 2 = 10-2 = 8. Ver

también el diagrama 5.

DIAGRAMA 5.

Regla de decisión para prueba de hipótesis al nivel de significancia, 0.05 y 8 grados de libertad.

Aplicando la fórmula (3) al ejemplo de las llamadas de ventas y copiadoras

vendidas resulta:

t= r √n−2√1−r 2

=0.795√10−2√1−0.7592

=3.297

El valor calculado de “t” queda en la región de rechazo, de manera que se rechaza

H0 al nivel de significancia 0.05, lo cual significa que la correlación en la población

no es nula. Desde un punto de vista práctico, esto indica a la gerente de ventas

que definitivamente existe correlación en la población de vendedores respecto al

número de llamadas realizadas y la cantidad de copiadoras vendidas.

La prueba de hipótesis se puede interpretar también en términos de los valores p.

Un valor p es la probabilidad de encontrar un valor, para el estadístico de prueba,

más extremo que el calculado, dado que H0 sea verdadera. Para determinar el

valor p, diríjase al apéndice F al renglón que corresponde a 8 grados de libertad.

El valor del estadístico de prueba es 3.297, por tanto, en la fila de 8 grados de

libertad y prueba de dos colas, encuentre el valor más cercano a 3.297. Para una

prueba de dos colas, al nivel de significancia 0.02, el valor crítico es 2.896; y al

nivel 0.01, el valor crítico es 3.355. Como 3.297 está entre 2.896 y 3.355, se

concluye que el valor p es menor que 0.02.

Tanto MINITAB como Excel reportan la correlación entre dos variables. Además

de la correlación, MINITAB da el valor p para la prueba de la hipótesis de que, en

la población, la correlación entre las dos variables es 0. A continuación se muestra

la pantalla con los resultados de MINITAB. Los resultados son los mismos que los

calculados antes.

Análisis de regresión

En la sección anterior se desarrollaron medidas para expresar la intensidad y la

dirección de la relación que existe entre dos variables. En esta J| sección se

quiere determinar una ecuación para expresar la relación lineal (en línea recta)

entre dos variables. Además, se desea estimar el valor de la variable dependiente

Y, con base en un valor de la variable independiente X. A la técnica empleada

para desarrollar la ecuación y dar las estimaciones se conoce como análisis de

regresión.

En la tabla 1 se presenta el número de llamadas telefónicas y la cantidad de

unidades vendidas para una muestra de 10 representantes de ventas de la

empresa Copier Sales of América. El diagrama 1 muestra esta información en un

diagrama de dispersión. Ahora se desea desarrollar una ecuación lineal que

exprese la relación entre el número de llamadas a clientes y la cantidad de

unidades vendidas. La ecuación para la línea recta empleada para calcular Y, con

base en X, se conoce como ecuación de regresión.

Ecuación de regresión Es una ecuación que define la relación lineal entre dos variables.

La gráfica de dispersión que se muestra en el diagrama 1 se reproduce en el

diagrama 6, e incluye una línea trazada con regla que pasa a través de los puntos,

para ¡lustrar que es muy probable que tal recta sea la que mejor se ajusta a los

datos. Sin embargo, esa línea trazada con regla tiene una desventaja: su posición

se basa, en parte, en el juicio de quien la dibuja. Las rectas trazadas a mano en el

diagrama 7 representan los criterios de cuatro personas. Todas ellas, excepto la A,

parecen razonables. No obstante, cada una daría una estimación distinta de

unidades vendidas que corresponden a un número determinado de llamadas.

Llamadas telefónicas y copiadoras vendidas por 10 representantes de venta. Cuatro rectas sobrepuestas en el diagrama de dispersión.

Principio de mínimos cuadrados

El juicio personal se elimina al determinar la recta de regresión utilizando un

método matemático denominado principio de mínimos cuadrados. Este

procedimiento origina lo que comúnmente se conoce como la recta de “mejor

ajuste”.

Principio de mínimos cuadrados Técnica empleada para obtener la ecuación de regresión

minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de

Y y los valores pronosticados de Y.

Para ilustrar este concepto, los mismos datos se grafican en los tres diagramas

siguientes. La recta de regresión del diagrama 8 se determinó empleando el

método de mínimos cuadrados. Es la línea de mejor ajuste porque la suma de los

cuadrados de las desviaciones verticales con respecto a ésta es mínima. El primer

punto localizado (X = 3, Y = 8) tiene una desviación de 2 con respecto a la recta,

obtenida de 10 - 8; el cuadrado de su desviación es 4. El cuadrado de la

desviación para el punto X- 4, Y = 18, es 16. El cuadrado de la desviación para el

punto X = 5, Y = 16 es 4. La suma de los cuadrados de las desviaciones en

cuestión es 24, determinada por 4 + 16 + 4.

DIAGRAMA 8: Recta de mínimos cuadrados.

DIAGRAMA 9: Línea trazada con regla.

DIAGRAMA 10: Línea trazada con regla

Considérese que las rectas de los diagramas 9 y 10 se trazaron a mano utilizando

una regla. La suma del cuadrado de las desviaciones verticales en el diagrama 9

es de 44.

Para el diagrama 10 esta suma es 132. Ambas sumas son mayores que la suma

para la recta del diagrama 8. Obtenida utilizando el método de mínimos

cuadrados.

La forma general de la ecuación de regresión es:

FORMULA 4

FORMA GENERAL DE LA ECUACIÓN DE REGRESIÓN LINEAL

Y '=a+bx

Donde:

Y'= se lee Y prima, es el valor pronosticado de la variable Y para un valor

seleccionado de X.

A= es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y

cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la

recta de regresión cruza el eje Y, cuando X = 0.

B= es la pendiente de la recta, o el cambio promedio en Y" por unidad de cambio

(incremento o decremento) en la variable independiente X.

X= es cualquier valor seleccionado de la variable independiente.

Debe observarse que la ecuación de regresión lineal para la muestra de

vendedores es sólo una estimación de la relación entre las dos variables en la

población. De modo que, en general, los valores de a y O en la ecuación de

regresión se denominan coeficientes de regresión estimados, o simplemente

coeficientes de regresión.

Las fórmulas para b y a son:

PENDIENTE DE LA LÍNEA DE REGRESIÓN

b=n (∑X )−(∑ X )(∑Y )

n (∑x2 )−¿¿ FORMULA 5

PUNTO DONDE SE INTERCEPTA CON EL EJE Y

a=∑ yn

−b ∑ Xn

[FORMULA 6]

Donde:

X = un valor de la variable independiente.

Y = un valor de la variable dependiente. n es el número de elementos en la

muestra.

Volviendo al problema de la empresa Copíer Sales of América, la gerente de

ventas recopiló Información respecto al número de llamadas telefónicas hechas y

la cantidad de copiadoras vendidas, para una muestra aleatoria de 10

representantes de ventas. Como parte de su presentación en la próxima junta de

ventas, a la señorita Bancer, gerente de esa área, le gustaría ofrecer información

específica referente a la relación entre el número de llamadas y la cantidad de

productos vendidos. Utilice el método de mínimos cuadrados para determinar la

ecuación lineal y expresar la relación entre las dos variables. ¿Cuál es el número

esperado de copiadoras vendidas por un representante que realiza 20 llamadas a

sus clientes?

La tabla 4 repite la información muestral de la tabla 2. También incluye las sumas

que se necesitan en las fórmulas (5) y (6) para obtener la ecuación de regresión.

Los cálculos necesarios para determinar la ecuación de regresión son los

siguientes:

b=n (∑X )−(∑ X )(∑Y )

n (∑x2 )−¿¿.

TABLA 4: Cálculos necesarios para determinar la ecuación de regresión de

mínimos cuadrados.

I

Representantes de ventas

Llamadas de ventas(X)

Copiadorasvendidas

(Y)

X2 Y2 X Y

Tom Keller 20 30 400 900 600

Jeff Hall 40 60 1 600 3 600 2 400

Brian Virost 20 40 400 1 600 800

Greg Fish 30 60 900 3 600 1 800

Susan Welch 10 30 100 900 300

Carlos Ramirez 10 40 100 1 600 400

Rich Niles 20 40 400 1 600 800

Mike Kiel 20 50 400 2 500 1 000

Mark Reynolds 20 30 400 900 600

Soni Jones 30 70 900 4 900 2 100

Total 220 450 5 600 22100 10 800

Por tanto, la ecuación de regresión es Y’= 18.9476 + 1.1842X. De modo que si un

vendedor hace 20 llamadas telefónicas, puede esperarse que venda 42.6316

copiadoras, valor que se obtiene de Y'= 18.9476 + 1.1842X = 18.9476 +

1.1842(20). El valor b = 1.1842 significa que para cada llamada adicional que

realizan los representantes de ventas pueden esperar aumentar en casi 1.2 el

número de copiadoras vendidas. Para decirlo de otra forma, cinco llamadas extra

en un mes resultarán en casi seis copiadoras vendidas adicionalmente [1.1842(5)

= 5.921].

El valor a de 18.9476 es el punto donde la ecuación cruza el eje Y. Una traducción

literal es que si no se hacen llamadas, esto es, X = 0, se venderán 18.9476

copiadoras. Obsérvese que X = 0 se encuentra fuera del intervalo de valores

Incluidos en la muestra y, por tanto, no debe emplearse para calcular el número de

productos vendidos. Las llamadas a clientes fueron de 10 a 40, así que los

cálculos se deben hacer dentro de esa gama de valores.

Trazo de la línea de regresión:

La ecuación de mínimos cuadrados, Y' - 18.9476 + 1.1842X, se puede graficar en

el diagrama de dispersión. El primer representante de ventas en la muestra es

Tom Keller, quien hizo 20 llamadas telefónicas. El número calculado de

copiadoras vendidas es Y'= 18.9476 + 1.1842(20) = 42.6316. El punto X = 20 y

Y= 42.6316, se localiza recorriendo hasta 20 sobre el eje X y subiendo luego

verticalmente hasta 42.6316. Los otros puntos de la ecuación de regresión se

pueden determinar introduciendo el valor particular de X en la ecuación.

Representantes ¡ de ventas

Llamadas(X)

Ventas estimadas(Y’)

Representantes de ventas

LlamadasW

Ventas estimadas(n

i ..................! Tom Keller

20 42.6316 Carlos Ramirez

10 30.7896

Jeff Hall 40 66.3156 Rich Niles 20 42.6316

Brian Virost 20 42.6316 Mike Kiel 20 42.6316

Greg Fish 30 54.4736 Mark Reynolds

20 42.6316

Susan Welch 10 30.7896 Soni Jones 30 54.4736

Todos los demás puntos se unen para obtener la recta como se observa en el

diagrama 11.

DIAGRAMA 11. Línea de regresión trazada en el diagrama de dispersión.

Tal recta tiene características interesantes. Según se analizo, no existe otra línea recta que pase

por lo datos y tenga una suma de desviaciones al cuadrado que se menor. Además esta recta

pasara por los puntos representados por las medias respectivas de los valores X e Y, esto es Ẋ e

Ў. En este ejemplo, Ẋ=22.0 e Ў=45.0.

El error estándar de estimación

Obsérvese en el gráfico de dispersión anterior (diagrama 11) que no todos los

puntos quedan con exactitud en la recta de regresión. Si todos hubieran quedado

en la línea y si el número de observaciones hubiera sido suficientemente grande,

no existiría error en el cálculo del número de unidades vendidas. Dicho de otra

forma, si todos los puntos estuvieran en la recta de regresión, las unidades

vendidas podrían pronosticarse con una precisión de 100%. Entonces no habría

error a! pronosticar la variable Y con base en la variable X. Esto es cierto en el

caso hipotético que sigue (véase el diagrama 12). Teóricamente, si X = 4.

Entonces podría pronosticarse una Y exacta de 100 con 100% de confianza. O

bien, si X = 12, entonces Y= 300. Debido a que no hay diferencia entre los valores

observados y ¡os valores pronosticados, no existe error en esta estimación.

DIAGRAMA 12. Ejemplo de una predicción perfecta: caballos de fuerza y costo de la electricidad.

Obtener una predicción perfecta en los aspectos de economía y administración es

prácticamente imposible. Por ejemplo, los ingresos anuales provenientes de

ventas de gasolina (Y) con base en los registros de automóviles (X) hasta cierta

fecha, sin duda podrían aproximarse con gran exactitud, pero el pronóstico no

sería preciso con redondeo a unidades monetarias enteras, o tal vez hasta el

millar de unidades monetarias. Aun los pronósticos de resistencia a la tensión

mecánica de los alambres de acero, con base en el diámetro externo de los

mismos, no siempre son exactos, debido a ligeras diferencias en la composición

del acero.

Entonces, lo que se necesita es una medida que indique qué tan preciso es el

pronóstico de Y con base en Xo, por el contrario, cuán inexacta podría ser la

predicción. A esta medida se le denomina error estándar de estimación, el cual se

representa por sy. X‘. Y es el mismo concepto que el de la desviación estándar. La

desviación estándar mide la dispersión respecto a la línea de regresión.

Error estándar de estimación Medida de la dispersión de los valores observados con respecto a la

línea de regresión.

El error estándar de estimación se determina aplicando la siguiente ecuación.

Obsérvese que ésta es muy semejante a la de la desviación estándar de una

muestra.

ERROR ESTÁNDAR DE ESTIMACIÓN

Sy.x =√∑ ( y−Y ' )2

n−2

FORMULA 7.

La desviación estándar se basa en los cuadrados de las desviaciones respecto a

la media, mientras que el error estándar de estimación se basa en los cuadrados

de las desviaciones respecto a la línea de regresión. Si la suma de los cuadrados

de las desviaciones es pequeña, esto significa que la línea de regresión es

representativa de los datos. Si los cuadrados de las desviaciones son grandes,

entonces la recta de regresión puede no representar a los datos.

EJEMPLO.

Recordemos el ejemplo que se relaciona con la empresa Copier Sales of América.

La gerente de ventas determinó que la ecuación de regresión de mínimos

cuadrados era Y'=18.9476 + 1.1842X, donde Y se refiere al número de copiadoras

vendidas, y “X” a la cantidad de llamadas telefónicas hechas. Evalúe el error

estándar de estimación como una medida de cuán bien se adaptan los valores a la

recta de regresión.

Para evaluar el error estándar se comienza determinando la diferencia entre el

valor Y, y el valor calculado mediante la ecuación de regresión, Y’. A continuación

tal diferencia se eleva al cuadrado, esto es, ( y−Y ' )2. Esto se hace para cada una

de las n observaciones y se suman los resultados; es decir, se calcula ∑ ( y−Y ' )2,

que es el numerador de la fórmula (13.7). Finalmente se divide entre el número de

observaciones menos 2. ¿Por qué menos 2? Se pierde un grado de libertad cada

vez que se calcula el valor de intersección, a, y el valor de la pendiente, b. Los

detalles de los cálculos se resumen en la tabla 5.

TABLA 5 Cálculos necesarios para obtener el error estándar de estimación.

Ventas

Ventas Desviación

Representante reales

calculadas

Desviación

al cuadrado

de ventas (Y) (H (Y- n (Y- Y') 2

Tom Keller 30 42.6316

-12.631

6

159.557

Jeff Hall 60 66.3156 -6.3156

39.887

Brian Virost 40 42.6316

-2.6316

6.925

Greg Fish 60 54.4736

5.5264 30.541

Susan Welch 30 30.7896

-0.7896

0.623

Carlos Ramirez 40 30.7896

9.2104 84.831

Rich Niles 40 42.6316

-2.6316

6.925

Mike Kiel 50 42.6316

7.3684 54.293

Mark Reynolds 30 42.6316

-12.631

159.557

Soni Jones 70 54.4736

15.5264

241.069

0.0000 784.208

El error de estimación es 9.901, que se determina aplicando la formula 7.

Sy.x =√∑ ( y−Y ' )2

n−2 =√ 784.20810−2

= 9.901.

Las desviaciones (Y - Y') son desviaciones verticales con respecto a la

recta de regresión. Para ilustrar esto se muestran las 10 desviaciones de la tabla 5

en el diagrama 13. Obsérvese en la citada tabla que la suma de las desviaciones

señaladas es igual a cero, lo cual indica que las desviaciones positivas (por

encima de la línea de regresión) están compensadas por las desviaciones

negativas (por debajo de tal recta).

DIAGRAMA 13. Llamadas de ventas y copiadoras vendidas en una muestra de 10 vendedores.

La fórmula (7) para el error estándar de estimación sirve para mostrar la

semejanza que existe, en concepto y cálculo, entre la desviación estándar y el

error estándar de estimación. Supóngase que se estudia un gran número de

observaciones y que las cifras son grandes. Determinar cada punto sobre la recta

de regresión y elevar al cuadrado las diferencias, esto es (Y - Y')2, sería muy

tedioso. La fórmula que sigue es idéntica desde el punto de vista algebraico a la

anterior (7), pero es mucho más fácil de utilizar.

FÓRMULA PARA EL ERROR ESTÁNDAR DE ESTIMACIÓN

Sy.x =√∑Y 2−a (∑ y )−b(∑xy )n−2

FORMULA 8

Los cuadrados, sumas y otras cifras para el problema de la empresa Copler

Sales of América, se calcularon en la tabla 13.4. Al introducir esos valores en la

fórmula se tiene que:

Sy.x =√∑Y 2−a (∑ y )−b(∑xy )n−2

=√22100−18.9476¿¿¿ =9.901.

Consideraciones básicas para la regresión lineal

Para aplicar correctamente la regresión lineal deben satisfacerse varias

suposiciones, las cuales se ilustran en el diagrama

DIAGRAMA 14. Representación grafica de las suposiciones para la regresión.

Recuerde de! capítulo 7, que si los valores siguen una distribución normal,

entonces 68% de las observaciones estarán comprendidas entre la media más

una desviación estándar y la media menos una desviación estándar; 95% de las

observaciones estarán comprendidas entre la media más menos dos desviaciones

estándar, y virtualmente todas las observaciones se encontrarán entre la media y

más menos tres desviaciones estándar. Esta misma relación existe entre los

valores pronosticados Y' y el error estándar de estimación.

1. Y' ± sx.y comprenderá 68% de las observaciones.

2. Y'± 2sx.y comprenderá 95% de las observaciones.

3. Y' ±3sx.y comprenderá virtualmente todas las observaciones.

Ahora es posible relacionar estas consideraciones con el problema de la empresa

Copier Sales of América, donde se estudia la relación entre el número de llamadas

telefónicas y la cantidad de copiadoras vendidas. Suponga que se toma una

muestra mucho mayor que n =10, pero el error estándar de estimación sigue

siendo 9.901. Si se traza una recta paralela a 9.901 unidades por arriba de la línea

de regresión, y otra a 9.901 unidades por abajo de dicha línea, cerca de 68% de

los puntos estarían entre las dos líneas paralelas. De modo semejante, una recta a

19.802 [2sx.y = 2(9.901)] unidades sobre la línea de regresión, y otra a 19.802

unidades abajo de tal recta, el espacio entre ellas debería incluir aproximadamente

95% de los valores de los datos.

Como una revisión rápida refiérase a la segunda columna de la derecha en la

tabla 5, la columna con el encabezado “Desviación”. Tres de las 10 desviaciones

exceden a un error estándar de estimación. Esto es, la desviación de -12.6316

para Tom Keller, -12.6316 para Mark Reynolds, y +15.5264 para Soni Jones,

exceden todos el valor de 9.901, que está a un error estándar desde la recta de

regresión. Por tanto, dicho de otro modo, siete de las diez desviaciones en la

muestra quedan dentro de un error estándar con relación a la línea de regresión,

lo que es un buen resultado para una muestra relativamente pequeña.

Intervalos de confianza y de predicción

El error estándar de estimación también se utiliza para establecer intervalos de

confianza cuando el tamaño de la muestra es grande y la dispersión con respecto

a ¡a línea de regresión se aproxima a la distribución normal. En el ejemplo

relacionado con el número de llamadas telefónicas y la cantidad de copiadoras

vendidas, el tamaño de la muestra es pequeño; por tanto, se necesita un factor qe

corrección que considere el tamaño de la muestra. Además, al alejarse del valor

medio de la variable independiente, los cálculos están sujetos a mayor variación, y

esto también se debe corregir.

Se desea proporcionar estimaciones de intervalo de dos tipos. El primero,

denominado intervalo de confianza, presenta el valor medio de Y para un valor

dado de X. El segundo tipo se conoce como intervalo de predicción e informa

acerca de la gama de valores de Y para un valor particular de X. Para explicarlo

más ampliamente, supóngase que se calcula el sueldo de ejecutivos en ¡a

industria de ventas al menudeo, con base en su experiencia. Si se necesita una

estimación de intervalo del pago laboral de todos los ejecutivos de esa actividad

que tienen 20 años de experiencia, se calcula un intervalo de confianza. Si se

desea una estimación del sueldo de Curtís Bender, un funcionario de la industria

en cuestión, con 20 años de experiencia, se calcula un intervalo de predicción.

A fin de determinar el intervalo de confianza para el valor medio de Y para un valor

dado de X, se utiliza la fórmula siguiente:

INTERVALO DE CONFIANZA PARA LA MEDIA DE y, DADA X.

Y’ =t(s x . y ¿√ 1n +(x−Ẋ )2

∑ (x )2−¿¿¿¿

FORMULA 9.

'

Donde:

Y' es el valor pronosticado para cualquier valor X seleccionado.

X es cualquier valor seleccionado de X.

Ẋ es la media de las X, evaluada mediante ∑X/n.

n es el número de observaciones,

s x . y es el error estándar de estimación. y ■ *

t es el valor para n - 2 grados de libertad.

De nuevo conviene recordar que el concepto de f ¡o dedujo Willíam Gossett, a

principios del decenio de 1900, observando que Ẋ ±z(s) no era exactamente

correcto para muestras pequeñas. Por ejemplo, se percató de que para muestras

de tamaño 120, 95% de los elementos quedaban dentro de Ẋ ± 1.98s, en vez de

Ẋ ± 1.96s. Esta diferencia no es crítica, pero obsérvese lo que sucede conforme

disminuye el tamaño de la muestra:

gl t

120 1.980

60 2.000

21 2.080

10 2.228

3 3.182

Esto es lógico. Cuanto más pequeña sea la muestra, tanto mayor será el error

posible. El incremento en el valor de t compensa esta posibilidad.

Regresemos al ejemplo relacionado con la empresa Copier Sales of América.

Determínese un intervalo de confianza de 95% para todos los representantes de

ventas que realizan 25 llamadas telefónicas, y para Sheila Baker, una vendedora

de la Costa Oeste que hizo 25 llamadas.

Se utiliza la fórmula (9) para determinar un intervalo de confianza. La tabla 6

incluye los totales necesarios y se repite la información de la tapia 2.

TABLA 6. Cálculos necesarios para determinar el intervalo de confianza y el

intervalo de predicción

Representante de ventas

Llamadasrealizadas

(X)

Copiadorasvendidas

( Y )

X2 Y 2 XY

Tom Keller 20 30 400 900 600

Jeff Hall 40 60 1 600 3 600 2 400

Brian Virosi 20 40 400 1 600 800

Greg Fish 30 60 900 3 600 1 800

Susan Welch 10 30 100 900 300

Carlos Ramirez 10 40 100 1 600 400

Rich Niles 20 40 400 1 600 800

Mike Kiel 20 50 400 2 500 1 000

Mark Reynolds 20 30 400 900 600

Soni Jones 30 70 900 4 900 2 100

Total 220 450 5 600 22 100 10 800

El primer paso es determinar el número de copiadoras que espera vender un (o

una) representante de ventas si realizan 25 telefonemas. Esto es 48.5526,

obtenido mediante Y' = 18.9476+ 1.1842X= 18.9476 + 1.1842(25).

Para determinar el valor t, primero se necesita conocer el número de grados de

libertad. En este caso, tales grados son n-2 = 10-2 = 8. Se establece el nivel de

confianza de 95%, que se obtiene por la diferencia de 1 menos el nivel de

confianza. Se utiliza la categoría de dos extremidades. Para encontrar el valor t,

vaya hacia abajo en la columna de la izquierda hasta 8 grados de libertad, y

después a través de la columna con el nivel de significancia de 0.05, para dos

colas. El valor de t resulta ser igual a 2.306.

En la sección anterior se obtuvo que el error estándar de estimación es 9.901, X =

25, y de la tabla 13.6, ∑X = 220 y ∑x2 = 5 600. Además, Ẋ = ∑X/n = 220/10 = 22.

Introduciendo estos valores en la fórmula (9) se determina el intervalo de

confianza.

Y’ =t(s x . y ¿√ 1n +(x−Ẋ )2

∑ (x )2−¿¿¿¿ = 48.5526±2.306 (9.901 ) √ 110 +

(25−22 )2

5600−(220 )2

10

=¿

= 48.5526± 7.6356.

Por tanto, el intervalo de confianza de 95% para todos los representantes

de ventas que realizan 25 llamadas telefónicas va desde 40.9170 hasta 56.1882.

Para interpretarlo se redondean los valores. SI un vendedor hace 25 telefonemas,

puede esperar vender 48.6 copiadoras. Es probable que sus ventas variarán de

40.9 a 56.2 de tales máquinas.

Para determinar el intervalo de predicción para un valor particular de Y dado cierto

valor de X, se modifica ligeramente la fórmula 13.9: Se agrega un “1” como

sumando bajo el radical. La fórmula se convierte en:

INTERVALO DE PREDICCION PARA Y, DADO UN VALOR DE X.

Y’ =t(s x . y ¿√1+ 1n +(x−Ẋ )2

∑ (x )2−¿¿¿¿

FORMULA 10.

Supónganos que se desea calcular el número de copiadoras que vendió Sheila

Baker, quien hizo 25 llamadas telefónicas. El intervalo de predicción de 95% se

determina como sigue:

Y’ =t(s x . y ¿√1+ 1n +(x−Ẋ )2

∑ (x )2−¿¿¿¿ = 48.5526 ±2.306 (9.901 )√1+ 110 +

(25−22)2

5600−(220)2

10

=48.5526± 24.0746

De modo que el intervalo va desde 24.478 hasta 72.627 copiadoras. Se

concluye que el número de productos vendidos se encontrará entre

aproximadamente 24 y 73 para un representante de ventas en particular. Este

intervalo es muy grande. Es mucho mayor que el intervalo de confianza para todos

los vendedores que hicieron 25 llamadas. Sin embargo, es lógico que habrá mayor

variación en el estimado de ventas para un individuo que para un grupo.

La siguiente gráfica de MINITAB muestra la relación entre la recta de

regresión (línea continua), el Intervalo de confianza (línea punteada) y el intervalo

de predicción (línea con puntos y guiones). Las franjas del intervalo de predicción

siempre se encuentran más alejadas de la recta de regresión que las del intervalo

de confianza. También conforme los valores de X se alejan del número medio de

llamadas (22), tanto en dirección positiva como negativa, las bandas del intervalo

de confianza y del intervalo de predicción se hacen más amplias. Esto es

ocasionado por el numerador del término de la derecha_dentro del radical en las

fórmulas 9 y 10. Es decir, conforme aumenta el término (x−Ẋ)2, también

aumentan las amplitudes del Intervalo de confianza y de predicción. Dicho de otra

manera, conforme se aleja de la media de la variable independiente, hay menos

precisión en las estimaciones.

Intervalos de confianza y de estimación para los datos de la empresa copier sales

of América.

Algo más acerca del coeficiente de determinación

La fórmula 13.2 es una expresión conveniente para calcular el coeficiente de

correlación, r. El coeficiente de determinación se obtuvo elevando al cuadrado el

coeficiente de correlación.

Para examinar más de cerca el concepto básico del coeficiente de determinación,

supóngase que interesa la relación entre los años de permanencia en el trabajo, X,

y la producción semanal, Y. Los datos muéstrales indicaron que:

Empleado Años de servicio, X

Producción semanal, Y

Gordon 14 6

James 7 5

Ford 3 3

Salter 15 9

Artes 11 7

Los datos muéstrales se graficaron en un diagrama de dispersión. Debido a

que la relación entre X e Y parece ser lineal, se trazó una recta por los puntos

determinados (ver el diagrama 15). La ecuación es Y' = 2 + 0.4X.

Obsérvese en el diagrama 15 que si se fuera a utilizar esa recta para

pronosticar la producción semanal de un empleado, en ningún caso la predicción

sería exacta. Esto es, existiría cierto error en cada uno de los pronósticos. Como

ejemplo, para Gordon, que ha estado con la empresa 14 años, se pronosticaría

una producción semanal de 7.6 unidades; sin embargo, él sólo produce 6

unidades.

……..

. . . DIAGRAMA 15. Datos observados y la recta de mínimos cuadrados.

Para medir el error general en nuestro pronóstico, cada desviación con

respecto a la recta se eleva al cuadrado y se suman los cuadrados. El punto

pronosticado sobre la recta se indica con Y", el cual se lee “ye prima”, y el punto

observado se representa con Y. Para Gordon, (Y - Y')2 = (6 - 7.6)2 = (-1.6)2 =

2.56. Lógicamente, esta variación no puede explicarse por medio de la variable

independiente, de manera que se denomina variación no explicada. No es posible

explicar en forma específica por qué la producción de Gordon de 6 unidades está

1.6 unidades abajo de su producción pronosticada de 7.6 unidades con base en el

número de años de permanencia en el trabajo.

La suma de las desviaciones al cuadrado, L(Y - Y’)2 es 4.00 (ver la tabla 13.7). El

término I(Y - Y')2 = 4.00 es la variación en / (producción) que no puede

pronosticarse a partir de X. Es, por tanto, la variación “no explicada” en Y.

TABLA 7 Cálculos necesarios para determinar la variación no explicada

X Y Y Y - Y ’ ( Y - Y ' f

Gordon 14 6 7.6 -1.6 2.56

James 7 5 4.8 0.2 0.04

Ford 3 QvJ

3.2 -0.2 0.04

Salter 15 9 8.0 1.0 1.00

Artes 11 7 6.4 0.6 0.36

Total 50 30 0.0* 4.00

'Debe ser 0.

Supónganos ahora que sólo se conocen los valores Y (en este problema, la

producción semanal) y se desea pronosticar la producción de todos los

empleados. Los valores reales de la producción para los empleados son 6, 5, 3, 9

y 7 (a partir de la tabla 7). Para hacer tales predicciones, podríamos asignar la

producción media semanal (6 unidades, obtenida de ∑Y/n = 30/5 = 6) a cada

empleado. Esto conservaría la suma de los cuadrados de los errores de pronóstico

en un valor mínimo. (Recuérdese del capítulo 3 que la suma de los cuadrados de

las desviaciones con respecto a la media aritmética, para un conjunto de números,

es menor que la suma de los cuadrados de las desviaciones a partir de cualquier

otro valor, como la mediana.) En la tabla 8 se muestran los cálculos necesarios. La

suma de los cuadrados de las desviaciones es 20, como se ve en la tabla 8. Tal

valor 20 se conoce como variación total en Y.

TABLA 8 Cálculos necesarios para determinar la variación total en Y

Nombre Producciónsemanal,

Y

Media de la producción semanal,

Y

Y - ? (Y - Y )2

Gordon 6 6 0 0

James 5 6 -1 1

Ford 3 6 -3 9

Salter 9 6 3 9

Artes 7 6 1 1

Total 0* 20

'Debe ser 0.

Lo que se realizó para determinar la variación total en Y se muestra gráficamente

en el diagrama 16.

Lógicamente, la variación total en / puede subdividirse en variación no explicada y

variación explicada. Para llegar a la variación explicada, conociendo la variación

total y la variación no explicada, simplemente se realiza una resta: Variación

explicada = Variación total - Variación no explicada. Al dividir la variación

explicada entre ¡a variación total se obtiene el coeficiente de determinación,r2, que

es una relación proporcional. En términos de una fórmula:

COEFICIENTE DE DETERMINACION

r2=Vari aciontotal−variacionno explicadavariaciontotal

r2=∑ ( y−Ў )2−∑ ( y−Y ’ )2

∑ ( y−Ў )2

En este problema:

r2=20−420

= 16/20

Donde:

20 tabla 8

4 tabla 7

16 Variación explicada

20 variación total.

Como ya se ha mencionado, 0.80 corresponde a un porcentaje. Se dice así que

80% de la variación en la producción semanal, y, está determinado, o explicado,

por su relación lineal con X (años de permanencia en el trabajo).

Para verificar podría aplicarse la fórmula (1) para el coeficiente de correlación. Al

elevar r al cuadrado se obtiene el coeficiente de determinación.

Relaciones entre el coeficiente de correlación, el coeficiente de

determinación y el error estándar de estimación

En una sección anterior se analizó el error estándar de estimación, que mide cuán

cerca de la recta de regresión se encuentran los valores reales. Cuando el error

estándar es pequeño, ello indica que las dos variables están relacionadas muy de

cerca. En el cálculo del error estándar, el término clave es ∑ ( y−Y ’ )2. Si el valor de

tal término es pequeño, entonces el error estándar también lo será.

El coeficiente de correlación mide la intensidad de la asociación entre dos

variables. Cuando los puntos en el diagrama de dispersión parecen cercanos a la

recta, se observa que el coeficiente de correlación tiende a ser grande. Así que el

error estándar de estimación y el coeficiente de correlación indican la misma

información, pero utilizan una escala diferente para señalar el vigor de la

asociación. Sin embargo, en ambas medidas interviene el término ∑ ( y−Y ’ )2.

También observamos que el cuadrado del coeficiente de correlación se denomina

coeficiente de determinación. Este último mide el porcentaje de la variación en Y

que se explica por la variación en X.

Un medio conveniente para mostrar la relación entre estas tres medidas es una

tabla ANOVA. El concepto es semejante en análisis de regresión. La variación

total, ∑ ( y−Y ’ )2, se divide en dos componentes:

1. La variación explicada por la regresión (que la explica la variable

independiente)

2. El error, o variación no explicada. Estas dos categorías se identifican en la

primera columna de ¡a tabla ANOVA que sigue. La columna con el

encabezado “gl" se refiere a los grados de libertad asociados a cada

categoría. El número total de grados de libertad es n - 1. El número de

grados de libertad en la regresión es 1, debido a que hay solamente una

variable independiente. El número de grados de libertad asociado con el

término de error es n - 2. El término “SS”, que está en el centro de la tabla

ANOVA, se refiere a la suma de cuadrados: la variación. Los términos se

calculan como sigue:

Regresión = SSR = ∑ (Y ’−Ў )2

Variación de error = SSE =∑ ( y−Y ’ )2

Variación total = SS total = ∑ ( y−Ў )2

Fuente gi SS MS

Regresión 1 SSR SSR/1

Error n- 2 SSE SSE/(n - 2)

Total n - 1 SS total*

*SS total = SSR

+ SSE.

El coeficiente de determinación,r2 , puede obtenerse directamente a partir de la

tabla ANOVA mediante:

COEFICIENTE DE DETERMINACIÓN

r2= SSRSS total

=1 SSESS total

FORMULA 12.

El término “SSR/SS total” es la relación proporciona! en la variación de Y

explicada por la variable independiente X. Obsérvese el efecto del término SSE

sobre r2. Conforme SSE disminuye, r2 aumenta. Por el contrario, conforme

disminuye el error estándar, aumenta el término r2 .

El error estándar de estimación también puede determinarse a partir de la tabla

ANOVA, utilizando la ecuación que sigue:

ERROR ESTANDAR DE ESTIMACION

SY.X = √SSE2n−2a

FORMULA 13.

EL ejemplo de la empresa Copier Sales of América sirve para ilustrar los cálculos

del coeficiente de determinación y del error estándar en la estimación a partir de

una tabla ANOVA.

En el ejemplo de Copier Sales of América se estudió la relación entre el número

de llamadas telefónicas realizadas y la cantidad de copiadoras vendidas. Utilice un

paquete de computación para determinar la ecuación de regresión de mínimos

cuadrados y la tabla ANOVA. Identifique tal ecuación, el error estándar de

estimación y el coeficiente de determinación en ¡a salida de computadora. De la

tabla ANOVA en dicho resultado, obtenga el coeficiente de determinación y el

error estándar de estimación aplicando las fórmulas (12) y (13).

.

Utilizando la fórmula 12, el coeficiente de determinación es 0.576.

Este es el mismo valor que se calculó anteriormente, cuando se encontró el

coeficiente de determinación elevando al cuadrado el coeficiente de correlación.

De nuevo puede decirse que la variable independiente, explica 57.6% del cambio

en la variable número de copiadoras vendidas. Si fuera necesario el coeficiente de

correlación, se habría tomado la raíz cuadrada del coeficiente de determinación:

Pero aún existe un problema, y éste implica el signo para el coeficiente de

correlación. Recuérdese que la raíz cuadrada de un valor puede tener signo

positivo o negativo. El signo del coeficiente de correlación siempre será el mismo

que el de la pendiente en la gráfica. Esto es, b y r siempre tendrán el mismo signo.

En este caso es positivo, por lo que el coeficiente de determinación es 0.759.

El error estándar de estimación se calcula con la fórmula 13

De nuevo, este valor es igual al que se calculó anteriormente.

estadistica informe

Documents