presentacion 5 regresion lineal correlacion

79
ESTADÍSTICA Y DISEÑO DE EXPERIMENTOS Regresión lineal Andrés Felipe Guzmán Agudelo DEPARTAMENTO DE INGENIERÍA QUÍMICA FACULTAD DE INGENIERÍA UNIVERSIDAD DE ANTIOQUIA

Upload: caral1306

Post on 09-Nov-2015

277 views

Category:

Documents


5 download

DESCRIPTION

qwqwqw

TRANSCRIPT

Presentacin de PowerPoint

ESTADSTICA Y DISEO DE EXPERIMENTOSRegresin lineal

Andrs Felipe Guzmn AgudeloDEPARTAMENTO DE INGENIERA QUMICAFACULTAD DE INGENIERAUNIVERSIDAD DE ANTIOQUIA

Regresin El trmino regresin fue introducido por Francis Galton en su libro Natural inheritance (1889) y fue confirmado por su amigo Karl Pearson. Su trabajo se centr en la descripcin de los rasgos fsicos de los descendientes (variable A) a partir de los de sus padres (variable B). Regresin Galton generaliz esta tendencia bajo la "ley de la regresin universal": Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.As, en el ejemplo de Pearson: = 85 cm + 0,5XDonde es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre. http://es.wikipedia.org/wiki/Regresi%C3%B3n_a_la_mediaRegresin Estudiando la altura de padres e hijos a partir de ms de mil registros de grupos familiares, se lleg a la conclusin de que los padres muy altos tenan una tendencia a tener hijos que heredaban parte de esta altura, pero que revelaban tambin una tendencia a regresar a la media.

Fuente: http://www.dmae.upm.es/WebpersonalBartolo/Probabilidad/15_RegresionLineal.pdfCorrelacinCovarianza entre Y y XCorrelacinCorrelacin Una r positiva indica una asociacin positiva entre las variables. Una r negativa indica asociacin negativa. La r toma valores entre -1 y 1. Valores cercanos a 0, indican relacin lineal dbil. Valores de r cercanos a -1 y 1 indican que los putos se hallan cercanos a una recta. Esto ocurre cuando los puntos de dispersin caen sobre una recta. CorrelacinComo r utiliza los valores estandarizados de las observaciones, no varan cuando alguna de las variables o ambas cambian de unidades. La correlacin no tiene unidad de medida.La correlacin solo mide la relacin lineal entre dos variables. No mide relaciones curvilneas aunque sean muy fuertes. Al igual que la media y la desviacin estndar, r se ve afectada por valores atpicos o extremos. Correlacin

Variables de respuesta y Variables explicativasUna variable de respuesta mide el resultado de un estudio. Una variable explicativa intenta explicar los resultados observados. Podemos investigar relaciones entre dos variables explicativas o entre dos variables de respuesta. Ej: la relacin entre la nota que saquemos en matemticas y en qumica. La relacin que existe entre la longitud y el peso de una persona. Regresin Una recta de regresin describe como cambia una variable de respuesta y a medida que cambia una variable explicativa x. A menudo, utilizamos una recta de regresin para predecir el valor de y correspondiente a un valor de x. A diferencia de la correlacin, la regresin exige que tengamos una variable explicativa y una variable de respuesta. APLICACIONES DE LA REGRESIN LINEALUna ingeniera en una empresa esta interesado en determinar como varia la composicin de una fraccin de alcanos en una corriente de destilacin con respecto a la temperatura de entrada a una torre de destilacin.Otro ingeniero esta interesado en determinar cuales son los parmetros de cinticos de un modelo de secado.

BASES DE LA INFERENCIA PARA LA REGRESIN LINEALPara cualquier valor de x la respuesta y vara de acuerdo con una distribucin normal. Las respuestas son repetidas e independientes entre s. La pendiente y la ordenada al origen son parmetros desconocidos. La desviacin tpica de y () es la misma para todos los valores de x. El valor de es desconocido.

Para cualquier valor de x la respuesta y vara de acuerdo con una distribucin normal. Las respuestas repetidas y son independientes entre s.XYLa respuesta media y, tiene una relacin lineal con xXY

La desviacin tpica de y () es la misma para todos los valores de x. El valor de es desconocido. Homocedasticidad

La desviacin tpica de y () es diferente para por lo menos uno de los valores de x. El valor de es desconocido. Heterocedasticidad

MODELO DE REGRESIN LINEAL SIMPLEEl valor medio de la variable aleatoria Y se relaciona con x mediante:El modelo de regresin lineal simple o modelo emprico obtenido de los datos es:

Mtodo de mnimos cuadradosMnimos cuadrados es una tcnica de anlisis numrico encuadrada dentro de la optimizacin matemtica, en la que, dados un conjunto de pares ordenados: (variable independiente, variable dependiente) y una familia de funciones, se intenta encontrar la funcin, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mnimo error cuadrtico.Caractersticas de la regresin mnimo cuadradoCaractersticas de la regresin mnimo cuadrado* La recta de la regresin mnimo cuadrado pasa por los puntos del diagrama de dispersin de y con relacin a x y tiene una pendiente de

* La correlacin r describe la fuerza de la relacin lineal. El cuadrado de la correlacin r2 , es la fraccin de la variacin de los valores de y que se explican por la regresin mnimo cuadrado de y sobre x.

MTODO DE MNIMOS CUADRADOSMinimiza la suma de cuadrados de los errores o desviaciones verticales de cada valor observado con respecto a la lnea de regresin verdadera.Los estimadores de mnimos cuadrados para el intercepto y la pendiente en el modelo de regresin lineal simple son:Lnea de regresinestimadaEjemploUna empresa de la ciudad registra el consumo mensual de gas natural en m3 y la produccin de ladrillos en toneladas P. mesPGasmesPGasnoviembre13,317,6julio03,4diciembre28,330,5agosto0,53,4enero23,924,9septiembre3,35,9febrero18,321octubre6,78,7marzo14,414,8noviembre16,717,9abril7,211,2diciembre17,820,2mayo2,24,8enero28,930,8junio03,4febrero16,719,3Ejemplo 1

Ejemplo 1PGasPromedio12,38814,863Desviacin Estndar9,8619,413r0,9952Regresin mnimo cuadradoR2 representa el porcentaje de la variabilidad en Y que ha sido explicado por el modelo de regresin ajustado en un rango que va de 0 a 100%. El restante es atribuible a las desviaciones alrededor de la lnea, las cuales pueden ser por otros factores como el error de medicin o un error del modelo lineal para ajustar los datos adecuadamente. Caractersticas de la regresin mnimo cuadradoEs posible dividir la variacin total de los valores observados de y, expresada como su varianza, en dos partes. Una de ellas es la variacin que esperamos obtener de y a medida que x se mueve a lo largo de la recta de regresin. La otra mide la variacin de los datos en relacin a la recta. El cuadrado de la correlacin r2 es el primero de estos dos componentes expresado como fraccin de la variacin total. Caractersticas de la regresin mnimo cuadrado

ESTIMACIN DEUn estimador insesgado de se puede obtener con la suma de cuadrados del error o suma de cuadrados de los residuales.

Suma total de cuadrosde la variable respuesta yPROPIEDADES DE LOS ESTIMADORES DE MNIMOS CUADRADOSCASO INTRODUCTORIO

Tomado de Applied Statistics and Probability for Engineers 3 Ed. Douglas C. Montgomery, George C. Runger, 2003DIAGRAMA DE DISPERSIN Y MODELO DE REGRESIN

Tomado de Applied Statistics and Probability for Engineers 3 Ed. Douglas C. Montgomery, George C. Runger, 2003Inferencia EstadsticaMtodos que se utilizan para tomar decisiones o sacar conclusiones acerca de una poblacin. Estos mtodos emplean la informacin contenida en una muestra para sacar conclusiones. La inferencia estadstica se divide en estimacin de parmetros y en prueba de hiptesis. PRUEBA DE HIPTESIS PARA LA PENDIENTESe quiere probar la hiptesis de que la pendiente es igual a una constante. Las hiptesis son: H0:1= 1,0Ha:1 1,0

Se calcula el estadstico T0 :

El cual tiene una distribucin t con n-2 grados de libertad. H0:1= 1,0 se rechaza a favor de Ha: 1 1,0 si |t0|> t/2,n-2

PRUEBA DE HIPTESIS PARA LA PENDIENTEUn caso muy especial es cuando se prueba si 1 = 0. Las hiptesis serian:H0:1= 0Ha: 1 0La cual se prueba con el estadstico T0 :

H0:1= 0 se rechaza a favor de Ha: 1 0, si |t0|> t/2,n-2Si no se puede rechazar H0, se concluye que no existe una verdadera regresin lineal entre x e y.

SIGNIFICANCIA DE LA REGRESIN

PRUEBA DE HIPTESIS PARA EL INTERCEPTOSe quiere probar la hiptesis de que la pendiente es igual a una constante. Las hiptesis son: H0:0= 0,0Ha:0 0,0

Se calcula el estadstico T0 :

El cual tiene una distribucin t con n-2 grados de libertad. H0:0= 0,0 se rechaza a favor de Ha: 0 0,0 si |t0|> t/2,n-2

ANOVA para la significancia de la regresin Existe otro enfoque diferente para evaluar la significancia de la regresin: ANOVA. El ANOVA para una regresin lineal descompone la variabilidad de la variable respuesta en variabilidad explicada por el modelo ms variabilidad no explicada o residual. Bajo la hiptesis de que existe una relacin lineal entre la variable respuesta y la regresora, se quiere realizar el siguiente contraste de hiptesis:

H0: y= (el modelo es una constante, no varia con x)H1: y= + x (el modelo lineal es significativo)

ANOVA para la significancia de la regresin Para todos yi los valores tenemos que

variabilidad de la variable respuesta SST= variabilidad explicada por la recta de regresin SSR + variabilidad residual o no explicada por el modelo ajustado SSE

XYXYANOVA para la significancia de la regresin Si H0 es cierta: MSR < MSE S el valor P es grande (mayor que ) se acepta H0.

Si H0:1= 0 no se rechaza, implica que x es de escaso valor para explicar la variacin de Y, y que el mejor estimador de Y para cualquier valor de x es =Y (Fig a), o que la verdadera relacin entre x y Y es no lineal (Fig. b).

Si H0:1= 0 se rechaza, implica que x es de valor para explicar la variabilidad de Y, y significara que el modelo lineal es adecuado (Fig a) o que si bien existe un efecto lineal de x, podra mejorarse el modelo si se tienen en cuenta trminos polinmicos en x de orden superior (Fig b).

INTERVALO DE CONFIANZA PARALA PENDIENTEEl error estndar estimado es() para la pendiente es:

El intervalo de confianza de nivel C de la pendiente de la recta de regresin es:

donde es el valor crtico superior (1-C)/2 de la

distribucin t con n-2 grados de libertad.

INTERVALO DE CONFIANZA PARA EL INTERCEPTOEl error estndar estimado es() para la ordenada al origen a:

El intervalo de confianza de nivel C de la ordenada al origen de la recta de regresin es:

donde t es el valor crtico superior (1-C)/2 de la distribucin t con n-2 grados de libertad.

INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA Puede obtenerse un intervalo de confianza para la respuesta media en un punto particular de x, por ejemplo x0. Un intervalo de confianza de nivel C =1- para la respuesta media y|x, cundo x toma el valor de x0 es

se calcula a partir del modelo de regresin

INTERVALOS DE PREDICCIN PARA UNA OBSERVACIN FUTURA Puede obtenerse un intervalo de confianza para una observacin futura y0 para un valor de x0. Un intervalo de prediccin de nivel C =1- para una sola observacin de y cuando x toma el valor de x0 es:

0 se calcula a partir del modelo de regresin

INTERVALOS O LIMITES DE PREDICCIN Y DE CONFIANZA

Tomado de Applied Statistics and Probability for Engineers 3 Ed. Douglas C. Montgomery, George C. Runger, 2003

A medida que x0 se aleja de x, el intervalo de confianza ensancha, es decir, aumenta la incertidumbre.

Diagrama de residuosPodemos graficar los residuos para comprobar si la recta de regresin se ajusta a los datos. Un diagrama de residuos es un diagrama de dispersin en el cual se representa los residuos en las ordenadas y la variable explicativa en las abcisas. Residuos= y observada y predicha.

Diagrama de residuosAl realizar el anlisis de residuales, es importante tener en cuenta, no solo la magnitud de cada uno de ellos, sino su distribucin como un todo.

Diagrama de residuosCuando el modelo es adecuado, esta grfica no debe mostrar ningn tipo de tendencia, y los residuales deben distribuirse de manera ms o menos uniforme por encima y por debajo de la lnea. El hecho de que los residuales se aparten sistemticamente de la lnea cero es indicio de que el modelo es inadecuado.

Diagrama de residuos

PRUEBA DE FALTA DE AJUSTE Los modelos de regresin se ajustan a los datos para proporcionar un modelo emprico cuando la verdadera relacin entre Y y x es desconocida. Un prueba de bondad de ajuste se plantea como prueba de hiptesis:

H0: El modelo de regresin lineal simple es correcto.H1: El modelo de regresin lineal simple no es correcto

Para calcular al falta de ajuste, es necesario contar con mas de un valor de Y para al menos un valor de x.

PRUEBA DE FALTA DE AJUSTE La prueba de falta de ajuste (lack of fit), consiste en hacer una particin de la suma de cuadrados de los errores o los residuales en dos componentes:SSE= SSPE + SSLOFEn donde SSPE es la suma de cuadrados atribuibles a un error experimental puro, y SSLOF es la suma de cuadros atribuibles a la falta de ajuste del modelo. SSE = SST SSR se calcul en el anlisis ANOVA para la significancia de la regresin, y SSLOF= SSE SSPE se calcula en un nuevo anlisis de varianza.

Prueba de falta de ajuste Para calcular SSPE, deben tenerse observaciones repetidas de la respuesta y para al menos un nivel de x. Suponga que se tienen n observaciones totales, y m niveles distintos de cada x, tales quey11, y12,, y1n1 observaciones repetidas de x1y21, y22,, y2n2 observaciones repetidas de x2::::ym1, ym2,, ymn1 observaciones repetidas de xmLa suma total de los cuadrados del error puro es

ANOVA de falta de ajuste

Transformacin a una lnea RectaEn ocasiones se encuentra que el modelo de regresin lineal Y= + *x + , no es apropiado, debido a que la verdadera funcin de regresin es no lineal. Algunas veces la naturaleza no lineal del modelo se determina por inspeccin visual del diagrama de dispersin, y algunas veces por conocimiento de las bases tericas implcitas en los datos. En algunos de estos casos, una funcin no lineal puede expresarse como una lnea recta con las transformaciones matemticas adecuadas. Transformacin a una lnea Recta, ejemplos

59Transformacin a una lnea recta. Calculo de g.

MhLa cantidad total de energa en cualquier sistema aislado, sin la accin de una fuerza exterior, permanece invariable con el tiempoTransformacin a una lnea recta. Calculo de g.MhA su vez, la variacin de la energa mecnica es la suma de la variacin de la energa cintica mas la variacin de la energa potencial:

Transformacin a una lnea recta. Calculo de g.MhEL cuerpo parte del reposo (vi=0) , entonces la energa cintica inicial (Eci) es nula. Las alturas se miden desde el punto final de la trayectoria, por lo tanto, la energa potencial final (Epf) tambin es nula.

Transformacin a una lnea recta. Calculo de g.Mhi

XY

aceleracin de la gravedadTransformacin a una lnea recta. Calculo de g.Trabajo: calcular g.Evaluar y=v2f, para 10 valores de x. Mida cada valor de y para cada x 7 vecesCon los datos evaluados, construya un modelo de regresin lineal, y encuentre el valor de g. Estime un intervalo de confianza para g. Investigue cuales son los valores de g reportados en fuentes internacionales, y realice una prueba de hiptesis para probar si su valor de g calculado, es igual al reportado. A nivel de la superficie del mar g es aproxi= 9,80665 m/s2REGRESIN LINEAL MLTIPLE Regresin lineal mltiple Un modelo de regresin, en donde la variable de salida, depende de mas de una variable de entrada, se denomina modelo de regresin mltiple.

Donde 0, es la ordenada al origen, y 1 y 2 son los coeficientes de regresin, y miden el cambio esperado de Y por un cambio unitaria de una variable cuando la otra se mantiene constante.

Regresin lineal mltiple

Regresin lineal mltiple En general, la variable de respuesta pude relacionarse como mas de una variable de entrada.

Los parmetros 0 y j y con j=1,2,,k son los coeficientes de regresin. El modelo describe un hiperplano en el espacio de k dimensiones de las variables de regresoras o de entrada.

Regresin lineal mltiple Un modelo con interacciones puede analizarse como un modelo lineal mltiple.

El termino x1x2 describe interaccin Regresin lineal mltiple

Regresin lineal mltiple Datos de una regresin lineal mltipleRegresin lineal mltiple

Los parmetros 0 y j y con j=1,2,,k son los coeficientes de regresin, los cuales se resuelven con procedimientos de algebra lineal. Por ejemplo para k=2Regresin lineal mltiple. Prueba para la significancia de la regresin Grados de libertadN-1p-1N-pNmero de observaciones en YNmero de Trminos de laregresinRegresin lineal mltiple. Prueba para la significancia de la regresin Esta prueba sirve para determinar si existe una relacin lineal entre la variable de respuesta y las variables regresoras. (Esto no quiere decir que sea el modelo ms apropiado).

Fuente deVariacinSuma de cuadradosGLCuadrado medioF0regresinSSRp-1MSRMSR/MSEResidual (error)SSE N-pMSE

Total SST N-1Se rechaza Ho si

Regresin lineal mltiple. Ajuste del modelo R2. El coeficiente de determinacin mltiple mide el porcentaje de la variacin de la variable de salida que se explica por las variables de entrada. Adicionar variables de entradas aumenta el valor de R2, pero no significa que esta variable sean significativas o no.Los modelos con grandes valores de R2 pueden producir estimaciones pobres. Por esto se calcula el R ajustado para los grados de libertad el cual no se infla al adicionar trminos en la regresinRegresin lineal mltiple

Prueba sobre los coeficientes de regresin individuales.Si H0 no se rechaza indica que el regresor j puede ser removido del modelo.Regresin lineal mltiple.Prueba de falta de ajuste Para realizar la prueba de falta de ajuste en la regresin mltiple, se necesitan ni observaciones repetidas de la respuesta Y para el i-simo nivel del vector regresor Xi, i=1,2,3m. Por tanto yij denota la j-sima observacin de la respuesta a Xi, i=1,2,3,m y j=1,2,3 ni. La medida del error puro es:nmero totalde niveles de los regresoresRegresin lineal mltiplePrueba de falta de ajuste Fuente deVariacin Suma de cuadradosGLCuadrado medio(Varianza)F0Por la recta(regresin)SSRp-1MSRMSR/MSE

Residual (error)SSE =SST -SSRN-pMSE

Falta de ajusteSSLOF= SSE SSPE m-pMSLOF= SSLOF/(m-p)MSLOF/MSPEErro puroN-mMSPE =SSPE /(N-m)Total N-1Regresin lineal mltiple.Prueba de falta de ajuste La prueba de hiptesis para la prueba de falta de ajuste esH0: El modelo de regresin lineal es correcto.H1: El modelo de regresin lineal no es correcto

Se concluye que la funcin de regresin es no lineal si F0> F, m-p, N-m