correlacion y regresión

14
ESTADÍSTICA II REGRESIÓN Y CORRELACIÓN REGRESIÓN Es un proceso estadístico utilizado para la predicción o previsión, o también llamada esperanza condicional; donde se estima el valor promedio de la variable dependiente cuando se fijan las variables independientes. Se analiza la relación existente entre variables, entendiendo cómo el valor de la variable dependiente cambia cuando cualquiera de las variables independientes es variada, mientras se mantienen otras variables independientes fijas. Este proceso entonces observa si las variaciones de una característica provocan variaciones en la magnitud de otra característica, además que permite explorar las formas de estas relaciones. Por ejemplo: EL precio de venta depende del precio de costo de un artículo. EL costo total depende de la producción total. El tiempo de servicios de un trabajador depende de su edad. EL consumo familiar está en función del ingreso familiar. Página 1

Upload: sophylu94sanchez

Post on 19-Jan-2016

40 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Correlacion y Regresión

ESTADÍSTICA II

REGRESIÓN Y CORRELACIÓNREGRESIÓN

Es un proceso estadístico utilizado para la predicción o previsión, o también llamada esperanza condicional; donde se estima el valor promedio de la variable dependiente cuando se fijan las variables independientes.

Se analiza la relación existente entre variables, entendiendo cómo el valor de la variable dependiente cambia cuando cualquiera de las variables independientes es variada, mientras se mantienen otras variables independientes fijas. Este proceso entonces observa si las variaciones de una característica provocan variaciones en la magnitud de otra característica, además que permite explorar las formas de estas relaciones.

Por ejemplo:

EL precio de venta depende del precio de costo de un artículo. EL costo total depende de la producción total. El tiempo de servicios de un trabajador depende de su edad. EL consumo familiar está en función del ingreso familiar.

Este análisis de regresión puede utilizarse para inferir relaciones causales entre variables independientes y dependientes, sin embargo puede conducir a ilusiones o falsas relaciones.

LA RECTA DE REGRESIÓNLlamamos línea de regresión a la curva que mejor se ajusta a nube de puntos, es una curva ideal en torno a la que se distribuyen los puntos de la nube.Se utiliza para predecir la variable dependiente (Y) a partir de la independiente (X).

La diferencia entre el valor real (yi) y el teórico (yi*) se llama residuo. En nuestro caso esta línea es una recta que se calcula imponiendo dos condiciones:

Página 1

Page 2: Correlacion y Regresión

ESTADÍSTICA II

•Debe pasar por el punto (x, y), centro de gravedad de la distribución.•La suma de los cuadrados de los residuos debe ser mínima.

Con esto obtenemos la ecuación de la RECTA de REGRESIÓN de Y sobre X:

La pendiente de esta recta es el llamado COEFICIENTE de REGRESIÓN=

Si lo que deseamos es predecir el valor de X, habremos de calcular otra recta de regresión, análoga a la anterior, intercambiando las x con las y.

CORRELACIÓNLa correlación entre dos variables busca determinar el grado de relación que existe entre ellas. Para determinar esta relación se calcula por medio de los coeficientes de correlación (r).

Cuando representamos gráficamente una distribución bidimensional en un sistema cartesiano obtenemos lo que llamamos diagrama de dispersión o nube de puntos. La forma que adopta la nube de puntos nos indica el tipo y grado de relación o dependencia entre ambas variables.

Hablaremos de correlación lineal cuando los datos tienden a agruparse alrededor de una recta. Si esta recta tiene pendiente positiva la correlación o dependencia es directa, incrementos positivos en una variable implican aumentos en la otra. Si la recta tiene pendiente negativa la correlación o dependencia es inversa, al aumentar una disminuye la otra.

Coeficiente de correlación lineal: Este coeficiente, llamado de Pearson, es una

medida objetiva de la correlación lineal entre dos variables.

Su valor está entre -1 y 1. Su signo es el de la covarianza, si r>0 la correlación es directa, si r<0 inversa.

Si se aproxima a -1 o a 1 la correlación es fuerte, si está próximo a 0 es débil. Cuando vale -1 o 1 es perfecta, los puntos están situados en una recta.

Página 2

Page 3: Correlacion y Regresión

ESTADÍSTICA II

TEORÍA DE REGRESIÓN Y CORRELACIÓNAPLICACIONES

1.- TEORÍA DE REGRESIÓNEn términos de estadística los conceptos de regresión y ajuste con líneas paralelas son sinónimos lo cual resulta estimar los valores de la variable dependiente (Y) correspondiente a los valores dados de la variable independiente (X), por lo que si se estima el valor de "Y" a partir de "X" decimos que se trata de una curva de regresión de "Y" sobre "X". Ejemplo.- El peso depende de la estatura, el consumo del ingreso etc.

1.2 DIAGRAMA DE DISPERSIÓN.-Es una gráfica en el eje cartesiano en la que cada punto trazado representa los valores de las variables (X, Y) y el cual nos permite encontrar la curva de mejor ajuste por los distintos métodos de aproximación como ser: Método de mano alzada, método libre, método semi-promedio y el método de los mínimos cuadrados.Ejemplo.- Dados los gasto de publicidad en los meses enero a julio los cuales general los sgts. Ingresos:

A) MÉTODO DE MANO ALZADA (Método Gráfico).- Consiste en utilizar como referencia el diagrama de dispersión e identificar la función de acuerdo a la tendencia de los puntos de la gráfica.Observación.- En la gráfica podemos identificar las desviaciones de los puntos con respecto a la recta. La desventaja de este método consiste en la dependencia existente entre ambas variables ya que si aumentan los valores de X, también lo harán los valores de Y.

B) MÉTODO LIBRE.-

Consiste en ajustar una recta a una curva de tendencia mediante la observación del gráfico. Los puntos que servirán de base para establecer la función deseada

Página 3

Page 4: Correlacion y Regresión

ESTADÍSTICA II

serán escogidos por el observador. Mediante el diagrama de dispersión observamos que se trata de una función lineal (Por la forma de los puntos de "X, Y").

C) MÉTODO SEMIPROMEDIO.-

Consiste en agrupar los datos en dos estratos preferiblemente iguales y lograr dos puntos en el gráfico para trazar una recta de tendencia. Este método nos permite trazar funciones lineales para cada semipromedio y luego resolver mediante el sistema lineal deseado.

D) MÉTODO DE LOS MÍNIMOS CUADRADOS.-

Al realizar un análisis lógico entre las variables es necesario determinar el tipo de función matemática que representa la relación entre ellas, para lo cual se debe ajustar la recta o curva de regresión en base a la forma que representa la gráfica. La curva de mejor ajuste se la puederealizar por el método de los mínimos cuadrados aplicando a diferentes tipos de funciones tal como ser: Función Lineal, Parabólica, Potencial, Exponencial, etc.

Página 4

Page 5: Correlacion y Regresión

ESTADÍSTICA II

Función lineal o recta de regresión de los mínimos cuadrados.- Si al observar el diagrama de dispersión notamos un comportamiento rectilíneo, el ajuste de la recta de regresión de los mínimos cuadrados se lo realiza de la forma siguiente:

Función parabólica de regresión de los mínimos cuadrados.- Las relaciones lineales se la pueden adaptar a diferentes tipos de curva. Elajuste correspondiente se lo realiza dela siguiente forma:

Página 5

Page 6: Correlacion y Regresión

ESTADÍSTICA II

Función Potencial.- Es muy utilizada en proyecciones, por su flexibilidad se la conoce como función de elasticidad por lo que es muy sensible al comportamiento en el diagrama de dispersión. Su expresión matemática es la siguiente:

Función Exponencial.- Cuando se desea calcular tasas de crecimiento, tomando en cuenta los puntos observados en el período histórico, se recurre a la siguiente función:

Página 6

Page 7: Correlacion y Regresión

ESTADÍSTICA II

2.-TEORÍA DE CORRELACIÓN

Una de las principales dificultades que nos presenta la regresión es la confiabilidad en la función utilizada, para lo cual recurrimos a otro tipo de análisis denominado método de Correlaciónel cual determina el grado de relación existente entre las variables y el efecto producido por el cambio de una variable con respecto de la otra.

TIPOS DE CORRELACIÓN

El tipo de Correlación debe ser analizado en el diagrama de dispersión en base a la forma que toma la curva de la función y a la relación entre las variables.Cuando el análisis se basa en el estudio de dos variables se denomina Correlación simple, cuando se analizan más variables se las denomina Correlación múltiple.

MEDIDAS DE CORRELACIÓN

Se utiliza para determinar el grado de Correlación existente entre las variables observadas, mediante los siguientes indicadores.

A) VARIANZA GENERAL.- Es utilizada para la determinación del coeficiente de Correlación y se obtiene sumando la varianza no explicada con la varianza explicada.

∑(Yi-y)2 = ∑(Yi-y*)2 + ∑(Y*-y)2

VAR.TOTAL = VAR. NO EXPLIC.+ VAR. EXPLIC.

2103,71 = 9,75 + 2094,38

Ejemplo.-En base a lafunción lineal Y= 11.36X – 2,22 establecer si dicha función puede ser confiable.

Página 7

Page 8: Correlacion y Regresión

ESTADÍSTICA II

B) COEFICIENTE DE DETERMINACIÓN.- Es el cociente de la variación explicada y la variación general y es de gran utilidad para la determinación del coeficiente de Correlación. Su expresión matemática está dada por:

r2 =  VARIACION   EXPLICADA  = ∑(Y*-y)2 =2094,38 = 0,9956VARIACION TOTAL ∑(Yi-y)2

2103,71

C) COEFICIENTE DE CORRELACIÓN.- Es la raíz cuadrada del cociente de los valores calculados y los valores estimados. Su valor está comprendido entre (-1) y (+1) determinando la correlación positiva o negativa; el valor cero significa que existe una gran correlación entre las variables.

D) ERROR TIPICO DE LA ESTIMA.- Es la sumatoria de los desvíos cuadráticos de las variables observadas y estimadas. El error típico tiene propiedades análogas a las de la desviación típica ya que poseen similar expresión matemática.

E) MARGEN DE SEGURIDAD (Intervalos de Confianza).- Nos ayuda a determinar el grado de confianza en la utilización de una función determinada y se calcula sumando y restando a los valores máximos y mínimos de (Y*), el valor del error típico de la estima, con lo cual se obtienen dos líneas paralelas.

Página 8

Page 9: Correlacion y Regresión

ESTADÍSTICA II

F) MARGEN DE ERROR Y MARGEN DE CONFIANZA.- Se denomina margen de error al cociente de dividir los valores del número de observaciones que han quedado fuera del margen de seguridad entre el número total de observaciones.Margen de confianza es el cociente entre las observaciones que han quedado dentro del margen de seguridad y el número total de observaciones.El margen de confianza debe ser superior al 60% para que tengamos la seguridad que utilizamos una curva de mejor ajuste de regresión. Si el margen de seguridad no fuese superior al 60% la curva de regresión debe ser ajustada a otro tipo de función. Ambos márgenes deben ser expresados en términos porcentuales y la suma de ambos debe dar como resultado el 100%.

Interpretación.- Existe un 71,43% de confianza que la función lineal de regresión de los mínimos cuadrados Y= 11,36X-2,22 es la más confiable, al cumplir con la siguiente condición:

MC>60%

Página 9

Page 10: Correlacion y Regresión

ESTADÍSTICA II

BIBLIOGRAFÍA http://eeduc.files.wordpress.com/2008/02/correlacion-y-regresion-lineales.pdf http://www.fao.org/docrep/003/x6845s/x6845s02.htm http://recursostic.educacion.es/descartes/web/materiales_didacticos/

Correlacion_regresion_recta_regresion/correlacion_y_regresion.htm

Página 10