trabajo regresion correlacion

14
REGRESION Introducción. Regresión es una palabra un tanto rara. La utilizan los biólogos, los médicos, los psicólogos... y suena como "ir hacia atrás", "volver al pasado", y realmente este es verdadero significado del vocablo. Fue un biólogo y estadístico inglés, SIR FRANCIS GALTON*, quien introdujo en 1889 el término regresión en Estadística. Empleó este concepto para indicar la relación que existía entre la estatura de los niños de una muestra y la estatura de su padre. Observó, que si los padres son altos, los hijos generalmente también lo son, y si los padres son bajos los hijos son también de menor estatura. Pero ocurría un hecho curioso: cuando el padre es muy alto o muy bajo, aparece una perceptible "regresión", hacia la estatura media de la población, de modo que sus hijos retroceden hacia la media de la que sus padres, por cierto, están muy alejados. Hoy día, el término no se utiliza en ese sentido. Concepto El análisis de regresión consiste en emplear métodos que permitan determinar la mejor relación funcional entre dos o más variables concomitantes (o relacionadas). En muchas ocasiones, se desea conocer algo acerca de la relación o dependencia entre dos características cuantitativas, o más de una, consideradas sobre la misma población objeto de estudio (por ejemplo la talla y el peso). Hay muchos casos en los que ya de antemano se "sospecha" que puede existir algún tipo de relación, y por consiguiente, se pretende saber por ejemplo, en el caso de que tengamos únicamente dos variables:

Upload: jose-miguel-neira-neira

Post on 05-Jul-2015

321 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: TRABAJO REGRESION CORRELACION

REGRESION

Introducción.

Regresión es una palabra un tanto rara. La utilizan los biólogos, los médicos, los psicólogos... y suena como "ir hacia atrás", "volver al pasado", y realmente este es verdadero significado del vocablo.

Fue un biólogo y estadístico inglés, SIR FRANCIS GALTON*, quien introdujo en 1889 el término regresión en Estadística. Empleó este concepto para indicar la relación que existía entre la estatura de los niños de una muestra y la estatura de su padre.

Observó, que si los padres son altos, los hijos generalmente también lo son, y si los padres son bajos los hijos son también de menor estatura. Pero ocurría un hecho curioso: cuando el padre es muy alto o muy bajo, aparece una perceptible "regresión", hacia la estatura media de la población, de modo que sus hijos retroceden hacia la media de la que sus padres, por cierto, están muy alejados. Hoy día, el término no se utiliza en ese sentido.

Concepto

El análisis de regresión consiste en emplear métodos que permitan determinar la mejor relación funcional entre dos o más variables concomitantes (o relacionadas).

En muchas ocasiones, se desea conocer algo acerca de la relación o dependencia entre dos características cuantitativas, o más de una, consideradas sobre la misma población objeto de estudio (por ejemplo la talla y el peso). Hay muchos casos en los que ya de antemano se "sospecha" que puede existir algún tipo de relación, y por consiguiente, se pretende saber por ejemplo, en el caso de que tengamos únicamente dos variables:

1.- Si ambas variables están realmente relacionadas entre sí o si, por el contrario, pueden considerarse independientes.

2.- Si existe dependencia, es necesario conocer el "grado de relación", así como el "tipo" de relación entre ambas.

3.- Si puede predecirse la variable que es considerada como dependiente a partir de los valores de la otra, que es considerada independiente, y si es así, con qué precisión.

¿Cuándo existe regresión?

De una forma general, lo primero que suele hacerse para ver si dos variables aleatorias están relacionadas o no (de ahora en adelante las llamaremos X e Y,

Page 2: TRABAJO REGRESION CORRELACION

denotando con Y a la variable dependiente, y X a la variable independiente o regresora), consiste en tomar una muestra aleatoria. Sobre cada individuo de la muestra se analizan las dos características en estudio, de modo que para cada individuo tenemos un par de valores (xi, yi) (i=1,...,n).

Seguidamente, representamos dichos valores en unos ejes cartesianos, dando lugar al diagrama conocido como diagrama de dispersión o nube de puntos. Así, cada individuo vendrá representado por un punto en el gráfico, de coordenadas, xi, yi. De esa forma, podremos obtener una primera idea acerca de la forma y de la dispersión de la nube de puntos.

Al dibujar la nube de puntos, podemos encontrarnos, entre otros, los casos a los que hace referencia la figura 6.1.

En primer lugar deberemos distinguir entre dependencia funcional y dependencia estocástica. En el primer caso la relación es perfecta: Y=f(X) (ver figura 6.1d y e); es decir, los puntos del diagrama de dispersión correspondiente, aparecen sobre la función Y=f(X).

Por ejemplo, el caso de la figura 6.1d sería Y=a+bX. Sin embargo, lo que suele ocurrir es que no existe una dependencia funcional perfecta, sino otra dependencia o relación menos rigurosa que se denomina dependencia estocástica (figura 6.1b y c); entonces, la relación entre X e Y, podríamos escribirla (en el caso de la figura 6.1.b) de la forma Y=a+bX+e, donde e es un error o un residual, debido por ejemplo, a no incluir variables en el modelo que sean importantes a la hora de explicar el comportamiento de Y, y cuyos efectos sean diferentes a los de X; errores aleatorios o de medida, o simplemente a que estamos especificando mal el modelo (por ejemplo, que en lugar de ser una recta, sea una parábola). 4

Figura 6.1: Tipos de relación entre dos variables X e Y

Page 3: TRABAJO REGRESION CORRELACION

El caso de la figura 6.1a se corresponde con el de ausencia de relación, o independencia.

Formulación:

Problemas de Aplicación (Formulación):

Diagrama de Dispersión.- Es una gráfica en el eje cartesiano en la que cada punto trazado representa los valores de las variables (X,Y) y el cual nos permite encontrar la curva de mejor ajuste por los distintos métodos de aproximación como ser:

Método de mano alzada. Método libre. Método semipromedio. Método de los mínimos cuadrados.

Ejemplo.- Sean los Gastos de publicidad en los meses enero a julio, los cuales generan los siguientes ingresos:

a) Método de Mano alzada (Método Gráfico).- Consiste en utilizar como referencia el diagrama de dispersión e identificar la función de acuerdo a la tendencia de los puntos de la gráfica.

Observación.- En la gráfica podemos identificar las desviaciones de los puntos con respecto a la recta. La desventaja de este método consiste en la dependencia existente entre ambas variables ya que si aumentan los valores de X, también lo harán los valores de Y.

Page 4: TRABAJO REGRESION CORRELACION

b) Método Libre.- Consiste en ajustar una recta a una curva de tendencia mediante la observación del gráfico. Los puntos que servirán de base para establecer la función deseada serán escogidos por el observador. Mediante el diagrama de dispersión observamos que se trata de una función lineal (Por la forma de los puntos de "X,Y").

C) Método Semipromedio.- Consiste en agrupar los datos en dos estratos preferiblemente iguales y lograr dos puntos en el gráfico para trazar una recta de tendencia. Este método nos permite trazar funciones lineales para cada semipromedio y luego resolver mediante el sistema lineal deseado.

d) Método de los Mínimos Cuadrados.- Al realizar un análisis lógico entre las variables es necesario determinar el tipo de función matemática que representa la relación entre ellas, para lo cual se debe ajustar la recta o curva de regresión en base a la forma que representa la gráfica. La curva de mejor ajuste se la puede realizar por el método de los mínimos cuadrados aplicando a diferentes tipos de funciones tal como ser: Función Lineal, Parabólica, Potencial, Exponencial, etc.

d.1) Función Lineal o Recta de Regresión de los Mínimos Cuadrados.- Si al observar el diagrama de dispersión notamos un comportamiento rectilíneo, el ajuste de la recta de regresión de los mínimos cuadrados se lo realiza de la forma siguiente:

Page 5: TRABAJO REGRESION CORRELACION

d.2) Función Parabólica de Regresión de los Mínimos Cuadrados.- Las relaciones lineales se la pueden adaptar a diferentes tipos de curva. El ajuste correspondiente se lo realiza de la siguiente forma:

d.3) Función Potencial.- Es muy utilizada en proyecciones, por su flexibilidad se la conoce como función de elasticidad por lo que es muy sensible al comportamiento en el diagrama de dispersión. Su expresión matemática es la siguiente:

Page 6: TRABAJO REGRESION CORRELACION

d.4) Función Exponencial.- Cuando se desea calcular tasas de crecimiento, tomando en cuenta los puntos observados en el período histórico, se recurre a la siguiente función:

CORRELACION

Introducción.

Una de las principales dificultades que nos presenta la regresión es la confiabilidad en la función utilizada, para lo cual recurrimos a otro tipo de análisis denominado método de Correlación.

Concepto:

Determina el grado de relación existente entre las variables y el efecto producido por el cambio de una variable con respecto de la otra.

Page 7: TRABAJO REGRESION CORRELACION

Tipos de Correlación.- El tipo de Correlación debe ser analizado en el diagrama de dispersión en base a la forma que toma la curva de la función y a la relación entre las variables.

Cuando el análisis se basa en el estudio de dos variables se denomina Correlación simple, cuando se analizan más variables se las denomina Correlación múltiple.

Page 8: TRABAJO REGRESION CORRELACION

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la correlación tiende a ser lineal directa (mayores valores de X significan mayores valores de Y), y se aproxima a –1 cuando la correlación tiende a ser lineal inversa.

Es importante notar que la existencia de correlación entre variables no implica causalidad.

Nota: Si no hay correlación de ningún tipo entre dos variables aleatorias, entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos dice que no hay correlación lineal, pero puede que la haya de otro tipo.

El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variables:

Problemas de Aplicación (Formulación):

Medidas de Correlación.- Se utiliza para determinar el grado de Correlación existente entre las variables observadas, mediante los siguientes indicadores:

a) Varianza General.- Es utilizada para la determinación del coeficiente de Correlación y se obtiene sumando la varianza no explicada con la varianza explicada.

Page 9: TRABAJO REGRESION CORRELACION

b) Coeficiente de Determinación.- Es el cociente de la variación explicada y la variación general y es de gran utilidad para la determinación del coeficiente de Correlación. Su expresión matemática está dada por:

c) Coeficiente de Correlación.- Es la raíz cuadrada del cociente de los valores calculados y los valores estimados. Su valor está comprendido entre (-1) y (+1) determinando la correlación positiva o negativa; el valor cero significa que existe una gran correlación entre la variables.

d) Error típico de la Estima.- Es la sumatoria de los desvíos cuadráticos de las variables observadas y estimadas. El error típico tiene propiedades análogas a las de la desviación típica ya que poseen similar expresión matemática.

e) Margen de Seguridad (Intervalos de Confianza).- Nos ayuda a determinar el grado de confianza en la utilización de una función determinada y se calcula sumando y restando a los valores máximos y mínimos de (Y*), el valor del error típico de la estima, con lo cual se obtienen dos líneas paralelas.

Page 10: TRABAJO REGRESION CORRELACION

f) Margen de Error y Margen de Confianza.- Se denomina margen de error al cociente de dividir los valores del número de observaciones que han quedado fuera del margen de seguridad entre el número total de observaciones.

Margen de confianza es el cociente entre las observaciones que han quedado dentro del margen de seguridad y el número total de observaciones.

El margen de confianza debe ser superior al 60% para que tengamos la seguridad que utilizamos una curva de mejor ajuste de regresión. Si el margen de seguridad no fuese superior al 60% la curva de regresión debe ser ajustada a otro tipo de función.

Ambos márgenes deben ser expresados en términos porcentuales y la suma de ambos debe dar como resultado el 100%

Interpretación.- Existe un 71,43% de confianza que la función lineal de regresión de los mínimos cuadrados Y= 11,36X-2,22 es la más confiable, al cumplir con la siguiente condición:

MC > 60%

Conclusión

En conclusión la Regresión y la Correlación son dos medidas que están estrechamente relacionadas pero son totalmente diferentes, puesto que la Correlación es la medida en la cual se relacionan dos variables diferentes, mientras que la Regresión es la ecuación matemática que describe el comportamiento de dos medidas, es decir, con la regresión podemos construir una fórmula que nos exprese el comportamiento entre las variables.

Bibliografía:

http://www.sc.ehu.es/sbweb/fisica/cursoJava/numerico/regresion/regresion.htm

http://www.upcomillas.es/personal/peter/investigacion/Regresion.pdf

Page 11: TRABAJO REGRESION CORRELACION

UNIVERSIDAD DE CUENCA

FACULTAD DE CIENCIAS QUIMICAS

ESCUELA DE INGENIERIA INDUSTRIAL

MATERIA:

ESTADISTICA II

TEMA:

TRABAJO DE INVESTIGACION

“REGRESION Y CORRELACION”

INTEGRANTES:

MARCELA ESPINOSA

JOSE MIGUEL NEIRA

FECHA:

22 de junio de 2011