presentación de powerpoint · los objetivos a alcanzar y el problema a resolver conclusión se...
TRANSCRIPT
Simulación de Modelos Lineales. Modelo de Regresión Lineal
SimpleSoftware Actuarial III, Licenciatura en Actuaría, FCFM-BUAP
Primavera 2020
Macías M.
Introducción
Análisis de datos
En la segunda sesión de la asignatura se tuvo una introducción a laCiencia de Datos y se dio una definición de lo que es el Análisis deDatos:
3
Según Horus (2018):
“Aquellos procesos y técnicas que analizan, transforman, ordenan y danvalor a los datos, para que puedan ser utilizados en beneficio de unproyecto o estrategia [...] consiste básicamente en construir modelos apartir de patrones observables en las grandes cantidades de datos. Losmodelos plantean una mejor visualización de variables relacionales, porlo que resulta muchísimo más sencillo extraer información útil”
4
Fases o etapas del análisis de datos
También se mencionaron los tipos de análisis que existen y las etapas que se siguen en un proceso de análisis de datos, aquí un resumen de dichas etapas:
5
Formulación del problema
Necesidad real que se vuelve el foco de estudio
Recolección de datos
Se aplican las técnicas más apropiadas según el problema a resolver
Filtrado y limpieza de datos
Se elimina lo poco útil
Exploración de datos
Se usa estadística descriptiva y gráficos
Análisis
Se aplican distintas técnicas dependiendo de los datos, los objetivos a alcanzar y el
problema a resolver
Conclusión
Se interpretan los resultados del análisis
6
Primera fase: formulación del problema
Para la primera fase, se plantearon problemas simples y breves con elfin de conocer conceptos importantes y familiarizarse con el entorno R,hasta ahora no se ha presentado un problema concreto y amplio propiodel área de actuaría (esto lo harán los últimos equipos que expondrán).
Pero, cuando en un futuro cercano se realice una investigación seria, nose debe olvidar que:
7
“La formulación del problema es más esencial que su propia solución, que puede ser simplemente una habilidad matemática o experimental”
Albert Einstein (1879-1955)
“Una respuesta apropiada para un problema bien formulado es mucho mejor que una respuesta exacta para un problema aproximado”
John Wilder Tukey (1915-2000) estadístico estadounidense
8
Segunda fase: recolección de datos
Respecto a la segunda fase, no se recolectaron datos a través deencuestas o investigaciones formales, sino que, se hizo uso de losbancos de datos (datasets) que ya proporciona R y provienen dedistintos experimentos de diferentes áreas de estudio, por ejemplo(p.e.) airquality, iris, mtcars, USMortality, etcétera; también sedescargaron bases de datos de distintas páginas web sobre: encuestas,datos clínicos, mediciones del servicio meteorológico, horas de llegaday salida de vuelos, etc.
Sin embargo, se debe tener presente que, una vez establecidos losobjetivos del problema que se quiere estudiar, conviene definir conprecisión cuáles son las características a medir sobre un conjunto deindividuos seleccionados de una población de interés sobre la que sequiera extraer conclusiones.
9
Tercera fase: filtrado y limpieza de datos
En la fase de filtrado y limpieza se enseñó cómo elaborar una tabla dedatos, hablando específicamente de R: un data frame y se resaltarondos conceptos importantes:
• Observación: conjunto de mediciones realizadas en condicionessimilares (usualmente todas las mediciones de una observación sonrealizadas al mismo tiempo y sobre el mismo objeto). Contienemuchos valores, cada uno asociado a una variable diferente. Son lasfilas o renglones del data frame.
• Variable: cantidad, cualidad o característica mesurable (medible), lascaracterísticas que se van a medir de un fenómeno real. Son lascolumnas en el data frame.
10
Tipos de variables
11
Numéricas o cuantitativas
(tienen escala, unidades)
Discretas
(cantidad finita o numerable de valores,
sin decimales)
Continuas
(valores en toda la recta real)
Cualitativas o categóricas (tienen nombre o
etiquetas)
Nominales
(sin orden entre los valores)
Ordinales
(con valores ordenados, tienen un
sentido de escala)
Cuarta fase: exploración
En la fase de exploración se conocieron algunos conceptos básicos en laestadística descriptiva: medidas de tendencia central en datos noagrupados y agrupados: media, moda, mediana; medidas dedispersión en datos no agrupados y agrupados: desviación estándar,varianza, rango de variación, curtosis, simetría; frecuencias absolutas,frecuencias absolutas acumuladas, frecuencias relativas, frecuenciasrelativas acumuladas; percentil, cuartil, rango intercuartil, etc., todoesto con la idea de identificar tendencias en los datos.
12
También se mostraron los distintos tipos de gráficos que existen paraexpresar:
• Variables numéricas: histogramas (caso particular de diagramas debarras), gráficos de cajas (boxplot) para visualizar relaciones entre unavariable continua y un factor, polígono de frecuencias, gráficos dedispersión o nube de puntos (scatter) para visualizar relaciones entreun par de variables continuas.
• Variables categóricas: diagrama de barras, de sectores o pie.
13
Se proporcionaron instrucciones propias de R para realizar filtrado dedatos, eliminación de variables, modificación de observaciones,manipulación de valores NA y por supuesto todo ello conllevó alproceso de programación en R usando vectorización, estructurascondicionales, ciclos y funciones, entre muchas otras instrucciones. Seconcluyó con una herramienta muy útil para facilitar la exploracióninicial de datos: R Commander.
Lo más importante en esta fase es obtener los primeros indicios para lasolución del problema, es obtener las “preconclusiones”.
14
Quinta fase: análisis
La fase de análisis es una de las etapas críticas y suele ser agobianteporque se requiere tener conocimiento de distintas técnicasestadísticas para decidir aplicar alguna o varias de ellas según distintoscasos: ¿qué tipos de variables se tienen, se trabaja sólo con datosnuméricos o se tienen tanto datos numéricos como categóricos, losdatos se pueden agrupar, se pueden comparar, se busca una relaciónentre ellos, se busca calcular un modelo matemático que permitapredecir una variable en función de otra, … ?
15
Aquí es donde se requerirán de conocimientos avanzados en estadística y otros temas como p.e. reconocimiento de patrones.
En esta fase se decide si las preconclusiones que se obtuvieron en la etapa anterior son ciertas o no lo son.
16
Sexta fase: conclusiones
En esta fase, después de haber interpretado correctamente losresultados, se obtienen conclusiones que, dependiendo del problemaplanteado pueden consistir en sugerir propuestas, advertir problemas,extraer datos valiosos, resolver algo concreto, etc. y una parte tambiénrelevante que forma parte de esta fase es saber presentar dichasconclusiones de forma adecuada: breve, clara, amena, entendible,precisa, gráfica, etc.
En particular, R proporciona Markdown, herramienta que permitecombinar código y resultados en documentos que después se puedenexportar a otros formatos como: archivos word, pdf, presentaciones,etc. y aunque ese tema no forma parte de este curso, te recomiendoinvestigar y aprender sobre él.
17
Objetivo de la clase
El objetivo de esta clase es dar un ejemplo del uso del lenguaje R comoapoyo para resolver un problema que necesita analizar datos paracalcular un modelo matemático que permita predecir una variable enfunción de otra, concretamente se verá el Modelo de Regresión Lineal.
Se pretende mostrar que R facilita cálculos y obtención de resultados através de algunos comandos, que R es una herramienta que ayuda aresolver problemas donde se hace uso de la estadística inferencial.
18
Estadística inferencial
La estadística inferencial es una rama de la estadística matemática quecomprende métodos para deducir propiedades de una población através de una muestra: pruebas de estimación, de hipótesis,paramétricas, no paramétricas, análisis de correlación, de regresión, devarianza, etc.
Como se puede ver y se mencionó al inicio de la quinta fase, serequieren de conocimientos avanzados de temas de estadística ymatemáticas, por lo que, se tratará de hacer lo más digerible el tema,sin usar demasiadas ecuaciones matemáticas (las cuales, te seránexplicadas en las asignaturas correspondientes del nivel básico yformativo) pero a su vez lo suficientemente claro para poder entenderlo que se hace.
19
Modelización estadística y Análisis de correlación
Esta sección y la siguiente (Modelo de Regresión Lineal Simple) estánbasadas en su mayoría en el texto de Aparicio, Martínez Mayoral yMorales (s.f.) y el ejemplo que se utiliza en las secciones se tomó dedicha fuente.
21
Modelo, modelo matemático, modelo estadísticoCuando se estudia una población respecto a ciertas características de interés,se busca la naturaleza de las relaciones entre ellas e incluso se intentapredecir alguna(s) de ellas en función de otras construyendo modelos paradescribirlas.
Por ejemplo, puede ser importante para alguien investigar la naturaleza de larelación entre dos características (variables) como son el peso y la altura deindividuos, para un gerente de una cadena de supermercados investigar larelación entre el número de empleados y las ventas semanales, para unagrónomo investigar la relación entre el número de plantas en una hectáreay el rendimiento de éste, para un médico saber las diferencias en la tensiónarterial antes y después de un tratamiento para dos grupos de pacientes:nuevo tratamiento y placebo, etc.
22
En general, un modelo es una representación en pequeña escala de larealidad.
Un modelo matemático ayuda a predecir y a entender relaciones entrevariables.
La estadística permite incorporar la variabilidad presente en la vida real en modelos a través de la aleatoriedad.
Los modelos estadísticos son la base en la que se sustentan la mayoría de las técnicas de análisis de datos habituales.
23
Variable de entrada = Variable
independiente = Variable explicativa = Variable predictora
Modelo matemáticoVariable de salida =
variable dependiente = variable respuesta
Sirven para predecir la salida, es decir, predecir a la variable dependiente
X f(x) Y
La que se va a predecirFunción matemática encargada de relacionar la entrada con la salida, une la respuesta en función de las explicativas
De forma muy simplificada se puede decir que existen 3 partes encualquier modelo:
24
Existen distintas funciones y mapas de modelos por lo que, elegir cuál es elmodelo más apropiado es toda una ciencia y requiere de experiencia.
Generalmente se proponen modelos considerando hipótesis distribucionalesy relaciones. Después se comparan y selecciona el mejor modelo a través delajuste y diagnóstico de modelos.
Se valida la capacidad predictiva del modelo para finalmente interpretar yconcluir.
Si la revisión del modelo lleva a descartarlo, será preciso una nuevapropuesta y se entra en un ciclo de: ajustar, seleccionar y validar hasta quesatisfaga el diagnóstico y la validación del modelo.
25
Tipos de Modelos
Lineal
Regresión lineal
Simple
Polinómico
ANCOVA (análisis de la covarianza)
ANOVA (análisis de la varianza)
Múltiple
Series de tiempo
No lineal
Potencial
Porumbrales
Variables explicativas de tipocontinuo con fines predictivos
Variables explicativas categóricas ycontinuas conjuntamente que añaden objetivos de comparación de grupos
Algunos ejemplos:
26
En esta sesión se pretende ejemplificar el Modelo de Tipo Lineal,concretamente de Regresión Lineal Simple.
27
Algunos conceptos
Antes de entrar en materia se van a precisar los siguientes conceptosque se manejan en la estadística inferencial:
• Los parámetros son características numéricas que sintetizan lainformación sobre todos los elementos de una población, p.e. elingreso mensual medio de la población o el porcentaje de individuosen la población con ingresos mensuales superiores a $20,000 pesos.
• Las poblaciones de interés, por su tamaño, son imposibles deobservar completamente, por lo que, para su estudio se utiliza unsubconjunto de la misma: una muestra.
• Cuando una muestra es escogida al azar se denomina muestraaleatoria.
28
La probabilidad en la estadística
Las muestras aleatorias son la herramienta primaria de la inferenciaestadística y el motivo por el cual se puede utilizar la probabilidad paraextraer conclusiones sobre la población de interés.
Según Ferrándiz (citado por Aparicio, Martínez Mayoral y Morales, s.f,pág. 29):
“Las conclusiones de un análisis estadístico y la fiabilidad de las mismasse formulan en términos probabilísticos […] los modelos probabilísticosfundamentan la justificación teórica de la inferencia estadística. Esdecir, no hay inferencia estadística sin probabilidad”
29
Es conveniente garantizar lo máximo posible la representatividad de lamuestra elegida en la población de interés, esto es, garantizar que seha recogido en justa medida la heterogeneidad existente en lapoblación total.
El método de muestreo aleatorio más común es el muestreo aleatoriosimple, en el que todos los elementos de la población tienen la mismaprobabilidad de ser seleccionados y a su vez son seleccionadosindependientemente unos de otros.
30
Más conceptos
Los estadísticos son características de una muestra y juegan el mismopapel sobre una muestra que los parámetros describiendo a unapoblación, de hecho, algunos estadísticos se utilizarán para aproximarparámetros, pasando a denominarse: estimadores.
P.e. el ingreso mensual medio de la muestra o el porcentaje deindividuos en la muestra con ingresos mensuales superiores a $20,000pesos son estadísticos y además estimadores de sus análogos en lapoblación.
31
Cuando se trabaja en la modelización de una variable respuestacontinua (con predictores continuos o categóricos) lo habitual es acudira modelos de regresión que permitan predecir la primera en función delas restantes variables observadas que estén relacionadas con ella.
Se trata de descubrir asociaciones lineales entre variables de tipocontinuo. Una vez ratificada la linealidad, se formula un modelo depredicción lineal.
32
El análisis de regresión lineal no es más que encontrar un modelolineal, una función matemática: la función de una recta.
Encontrar la mejor función de la recta que permita predecir el valor deuna variable sabiendo los valores de otra variable que se observe.
33
Correlación
• Cuando la variable explicativa es de tipo factor su asociación con larespuesta se detecta al comprobar si provoca diferentes respuestasen los diferentes niveles (categorías) observados. Tales diferencias seaprecian bien con los gráficos de cajas. Este caso no será abarcado enesta clase.
• Cuando las variables explicativas son de tipo continuo se utilizangráficos de dispersión, cuando se estudia si las relaciones son de tipolineal, dicho análisis se denomina de correlación. Si se dispone de unaúnica variable predictora, se propone como medida de asociaciónlineal el coeficiente de correlación simple; cuando se tienen variospredictores, se trabaja con coeficientes de correlación parcial.
34
Análisis de correlación
Un análisis de correlación deberá constituir la primera aproximación alos datos de naturaleza continua cuando se plantea su modelización.Consta de dos partes:
1. Inspección gráfica de los datos (como ya se dijo, gráficos dedispersión)
2. Análisis de correlación propiamente dicho, que consiste en elcálculo de las correlaciones y la realización de los contrastespertinentes.
35
Correlación lineal simple
Después de la inspección gráfica de los datos, se hace el análisis paradeterminar si el tipo de asociación es lineal o no. En ocasiones, aún sinapreciarse de inmediato una relación lineal, es posible transformarlos datos con alguna función que linealice la relación.
El conseguir una buena linealización del problema será resultadomuchas veces de la experiencia acumulada.
Un análisis de correlación permitirá cuantificar el grado de asociaciónlineal entre variables, en particular, entre las variables explicativascontinuas disponibles y la respuesta de interés.
36
Coeficiente de correlación o correlación de PearsonEl coeficiente de correlación de Pearson es una medida de asociaciónlineal libre de escala (no tienen unidades) con valores comprendidosentre -1 y 1, invariante a transformaciones lineales de las variables.
Dada una muestra 𝑥1, 𝑦1 , … (𝑥𝑛, 𝑦𝑛) de dos variables x e y, se calculael coeficiente de correlación lineal simple (𝑟) de Pearson como:
𝑟 = 𝑖=1𝑛 (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑖=1𝑛 (𝑥𝑖− 𝑥)2 𝑖=1
𝑛 (𝑦𝑖− 𝑦)2
37
En particular:
• r = 0, nada de asociación (lineal)
• r = 1 o -1, asociación lineal perfecta, -1 es decreciente y 1 es creciente
• r < 0, correlación negativa, cuando una variable aumenta de valor, laotra disminuye
• r > 0, correlación positiva, cuando una variable aumenta de valor, laotra también.
38
Ejemplo
Se usará este sencillo problema en el resto de la presentación paraejemplificar cómo se hace un análisis de correlación, el cual permitedescubrir si hay asociación lineal entre variables de tipo continuo,concretamente entre una única variable predictora y una variablerespuesta. Una vez ratificada la linealidad se tendrá la justificaciónadecuada para formular un modelo de predicción lineal:
Parece que el dinero gastado en la manutención de tractores esmayor a medida que aumenta la edad del tractor.
Se trata de determinar si esto es cierto o no lo es, si hay una relaciónentre el dinero gastado y la edad de los tractores y si esta relación eslineal. 39
# Se investiga la relación lineal entre el dinero gastado# (costes en 6 meses) en la manutención de tractores y la # edad de los mismos (en años). # Se usan como muestra 17 observaciones
edad <- c(4.5, 4.5, 4.5, 4.0, 4.0, 4.0, 5, 5, 5.5, 5, 0.5, 0.5, 6, 6, 1, 1, 1)
costes <- c(619, 1049, 1033, 495, 723, 681, 890, 1522, 987, 1194, 63, 182, 764, 1373, 978, 466, 549)
plot(edad, costes, xlab = “Edad (en años)", ylab = "Costes en 6 meses")
Se inspecciona gráficamente
40
41
¿A simple vista se puede apreciar una línea recta?En realidad, solo por trozosEntonces:
#Se calcula la correlación lineal de Pearson:
cor(edad, costes) [1] 0.6906927
# 0.6906927 > 0, la correlación es positiva, # es decir, hay una asociación lineal entre # las variables, cuando una crece, la otra también
Se calcula la correlación
42
• La instrucción cor calcula la correlación de X y Y si son vectores, o lacovarianza si son matrices entre las columnas de X y las columnas deY.
• Cuenta con el parámetro method para especificar cuál método seusará para calcular el coeficiente de correlación (o covarianza):Pearson (este es el valor por defecto), Kendall o Spearman.
43
Contraste de hipótesis
En términos muy simples, un contraste de hipótesis es cuando se tieneuna intuición y se quiere investigar si esa intuición es cierta o no.
Una hipótesis es una pregunta que admite un sí o un no comorespuesta.
Para contrastar si dos variables x e y están relacionadas linealmente, seplantea el contraste:
𝐻0 ∶ 𝜌 = 0𝐻1 ∶ 𝜌 ≠ 0
44
H0 es la hipótesis nula
H1 es la hipótesis de investigación, del investigador o alternativa, es laque se quiere corroborar
Rechazar la H0 es lo mismo que aceptar la H1 y viceversa.
45
Valor 𝜌
El resultado final de un método estadístico para la prueba de unahipótesis es el valor 𝝆. Este valor sirve para contestar una hipótesis.
Para resolver dicho contraste se puede utilizar el estadístico de la z-transformada de Fisher o un test t denominado de correlación delproducto de los momentos de Pearson, donde:
• Si el 𝝆 valor es más grande que 0.05 NO se puede rechazar lahipótesis nula
• Si el 𝝆 valor es más pequeño que 0.05 se rechaza la hipótesis nula afavor de la hipótesis de investigación
46
Se podría corroborar si la correlación es positiva o negativa planteando los contrastes:
(CORR+) 𝐻0 ∶ 𝜌 = 0𝐻1 ∶ 𝜌 > 0
(CORR-) 𝐻0 ∶ 𝜌 = 0𝐻1 ∶ 𝜌 < 0
47
Realización de contrastes
Siguiendo con el ejemplo de los tractores, se formula la hipótesis deinvestigación:
H1 = Hipótesis del investigador. Se quiere saber si es significativa lacorrelación entre edad del tractor y costes de manutención
H0 = Hipótesis nula. No es significativa la correlación entre edad deltractor y costes de manutención
- Se establece el criterio de significación por lo que se usa el mástípico: 0.05 (5%)
- Se calcula el 𝜌 valor48
cor.test(edad, costes)
Pearson's product-moment correlation
data: edad and costes t = 3.6992, df = 15, p-value = 0.002143alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.3144325 0.8793971
sample estimates: cor
0.6906927
Se acepta la hipótesis alternativa 𝑯𝟏 : 𝝆 ≠ 𝟎 <𝟎. 𝟎𝟓 es decir se rechaza la correlación nula y sereconoce una relación lineal entre ambas variables
49
¿Se puede afirmar estadísticamente, a un nivel de confianza del99% que existe una relación directa entre edad y costes, esto es,a más edad del tractor, mayores costes de manutención?
cor.test(edad, costes, alternative = "greater", conf.level = 0.99)
Pearson's product-moment correlation
data: edad and costest = 3.6992, df = 15, p-value = 0.001071alternative hypothesis: true correlation is greater than 099 percent confidence interval:0.2236894 1.0000000
sample estimates:cor
0.6906927La respuesta después de observar el resultado es: Sí
50
• La instrucción cor.test hace una prueba de asociación entre muestrasemparejadas usando el coeficiente de correlación del producto de losmomentos de Pearson, 𝜏 de Kendall o 𝜌 de Spearman, por lo quecuenta con el parámetro method para especificar cuál de los tres seusará siendo Pearson el valor por defecto.
• El parámetro alternative permite especificar si se desea mayor omenor asociación para la hipótesis alternativa.
• El parámetro conf.level permite especificar el nivel de confianza parael intervalo de confianza devuelto.
51
Pre-conclusión del ejemplo: se ha ratificado la linealidad, por tanto, se tiene la justificación para formular un modelo de predicción.
52
Modelo de Regresión Lineal Simple
Modelo de Regresión LinealSimple (RLS)Es el modelo lineal más sencillo, a través del cual se pretende explicar(predecir) una variable respuesta continua y a partir de una variableexplicativa también continua x. Se asume que existe una relación linealentre ellas, que se quiere captar a través de un modelo de regresión.
Una regresión lineal simple es cuando tenemos una variabledependiente con una variable independiente y la relación entre ambasse aproxima a una línea recta.
54
• De una forma muy simple, la función de una recta está dada por:
𝑦 = 𝑎 + 𝑏𝑥
La regresión trata de calcular 𝑎 y 𝑏 para construir la recta máscoherente con lo datos que se tengan.
El análisis de regresión se encarga de dibujar la recta con el errormínimo.
55
El error del modelo o residuo del modelo es la distancia de un punto ala recta.
La recta de regresión que se busca es la recta que tiene la suma dedistancias más pequeña de todas las rectas posibles.
Ejemplo:
56
La distancia entre la recta (modelo) y el valor observado es el residuo del modelo, es decir, es el error de predicción del modelo
57
Formulación del modelo RLS
De manera más formal, el modelo RLS de y sobre x se formula como:
𝑦 = 𝛽0 + 𝛽1𝑥 + 𝜖
de forma que, para un valor dado de x = 𝑥, ϵ representa una desviaciónaleatoria de la respuesta y sobre el valor esperado según la recta deregresión (son los residuos, es decir, la diferencia entre la estimación ylos valores reales para cada par de puntos XY):
E(y|x = 𝑥) = 𝛽0 + 𝛽1𝑥
58
Los coeficientes de la regresión, esto es, los parámetros que seestimarán para ajustar el modelo RLS son:
• 𝛽0 la interceptación de la recta, es decir, la altura de la recta cuandox = 0.
• 𝛽1 la pendiente de la recta, que refleja cuánto varía la respuestamedia E(y) cuando se pasa de observar x = 𝑥 a x = 𝑥 + 1.
59
Dada una muestra de valores observados (𝑥𝑖 , 𝑦𝑖) 𝑖=1𝑛 el modelo
implica que todas las observaciones responden a:
𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜖𝑖 , 𝑖 = 1,… , 𝑛
donde 𝜖𝑖 son errores aleatorios e incorrelados, con media cero yvarianza constante 𝜎2 , características que identifican las hipótesisbásicas del modelo RLS:
60
• Incorrelación: 𝐶𝑜𝑟𝑟 𝜖𝑖 , 𝜖𝑗 = 0. Significa que las observaciones de larespuesta y, 𝑦1,, 𝑦2, … , 𝑦𝑛 están incorreladas entre sí, esto es, losvalores de unas no afectan a los de otras.
• Media cero: E 𝜖𝑖 = 0. Lo que implica que la respuesta esperadasegún el modelo RLS depende linealmente de los coeficientes deregresión 𝛽0 y 𝛽1.
• Varianza constante: Var 𝑟 𝜖𝑖 = 𝜎2. Lo que significa que lasobservaciones 𝑦1,, 𝑦2, … , 𝑦𝑛 provienen de una misma población cuyavariabilidad respecto de sus medias {𝛽0 + 𝛽1𝑥𝑖 , 𝑖 = 1,… , 𝑛} vienedada por 𝜎2.
61
Estimación de la recta de regresión
Estimar la recta de regresión consiste en estimar los coeficientes de laregresión:
𝑦 = 𝛽0 + 𝛽1𝑥
donde 𝑦 denota el valor de y predicho por la recta para el valorobservado de x=𝑥
62
Se disponen de dos criterios básicos de estimación que proporcionan lamisma solución. Utilizar uno u otro depende de los interesesestadísticos que se tengan. Si sólo se quiere determinar la recta, bastacon considerar el criterio de Mínimos Cuadrados. Si además sepretende utilizarla con fines inferenciales o predictivos, se hablará deque la solución es la máximo-verosímil.
63
Criterio 1: Mínimos Cuadrados o minimización del error cuadráticomedio. Consiste en minimizar las distancias entre los puntosobservados y los predichos por la recta de ajuste.
64
Criterio 2: Máxima Verosimilitud. Habitualmente el objetivo de unanálisis de regresión no consiste únicamente en estimar la recta, sinoen inferir con ella, esto es, asociar un error a las estimacionesobtenidas, contrastar un determinado valor de los parámetros opredecir la respuesta para un x dado junto con una banda de confianza.En ese caso, se precisa de distribuciones de probabilidad para controlarla incertidumbre. Entonces se añade una hipótesis más sobre ladistribución de la variable respuesta, o lo que es lo mismo, sobre elerror aleatorio Є. Dicha hipótesis es la de normalidad de los errores.
65
x <- edad; y <- costes
# La estimación de mínimos cuadrados se obtiene con lsfit.# Devuelve una lista con 4 elementos, el primero de ellos,# corresponde a los coeficientes a y b de la recta (o sea, # el modelo). Recordar que se puede usar names(mc) para # conocer los nombres de los elementos de la listamc <- lsfit(x,y)$coefficientsmcIntercept X 323.6223 131.7165
# Se grafican otra vez los datos y se superpone la recta,# abline agrega líneas rectas a un gráficoplot(x,y)abline(a=mc[1],b=mc[2])
Siguiendo con el ejemplo de los tractores, se determinará la recta usando el criterio de los mínimos cuadrados
66
La recta captura la tendencia lineal de los datos, ésta no se percibía claramente en la inspección gráfica del análisis de correlación.
67
La recta de mínimos cuadrados resulta:
𝑐𝑜𝑠𝑡𝑒𝑠 = 323.6 + 131.7𝑒𝑑𝑎𝑑
Es decir, un año más de antigüedad del tractor reporta un gasto adicional de $131.72
68
# lm se usa para calcular y ajustar modelos lineales. # Se puede usar para llevar a cabo regresión, análisis de # varianza de un solo estrato y análisis de covarianza.# Sintaxis: # variable respuesta ~ variable predictoraemv <- lm(y~x)$coefficients
emv(Intercept) x 323.6223 131.7165
La recta estimada resulta nuevamente:
𝒄𝒐𝒔𝒕𝒆𝒔 = 𝟑𝟐𝟑. 𝟔 + 𝟏𝟑𝟏. 𝟕𝒆𝒅𝒂𝒅
Ahora se obtiene el ajuste por máxima verosimilitud
69
Estimación de 𝜎2
La varianza 𝜎2 de los errores es una medida de la variabilidad(heterogeneidad) entre los individuos respecto a la media cuando elmodelo RLS describe adecuadamente la tendencia entre las variables yy x, o lo que es lo mismo, de la dispersión de las observacionesrespecto de la recta de regresión. Así pues, da una medida de bondadde ajuste del modelo de regresión a los datos observados.
Cuando el modelo de regresión es bueno, es posible conseguir unaestimación de la varianza 𝜎2 a partir de la suma de cuadrados residualSSE, también llamada suma de cuadrados debida al error.
70
SSE da una medida de la desviación entre las observaciones 𝒚𝒊 y lasestimaciones que proporciona la recta de regresión, de aquí se defineel cuadrado medio residual y el error estándar residual.
Siguiendo con el ejemplo sobre los tractores, se plantean las preguntas:
1. ¿Cuál es la variabilidad residual del modelo de regresión para losdatos de Tractores?
2. ¿Es posible reducir dicha variabilidad planteando otros modelos deregresión basados en transformaciones de los datos originales?
71
# Se volverá a usar lm para trabajar sobre el modelo ajustadofit <- lm(y~x)
# La estimación de la varianza se consigue a partir del# resumen del ajuste, que se obtiene con el comando:sfit <- summary(fit)sfit
# Para conocer el nombre de todos los elementos de la lista# que regresa summary, recorder que se puede usar names(sfit)
# Como se ve en la diapositiva 73, el error estándar # residual es de 283.5 y la varianza, su cuadrado:sfit$sigma^2[1] 80360.47# que resulta considerablemente alta.
72
Call: lm(formula = y ~ x)
Residuals: Min 1Q Median 3Q Max -355.49 -207.48 -61.06 132.65 539.80
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 323.62 146.94 2.202 0.04369 * x 131.72 35.61 3.699 0.00214 ** ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 283.5 on 15 degrees of freedom
Multiple R-squared: 0.4771, Adjusted R-squared: 0.4422
F-statistic: 13.68 on 1 and 15 DF, p-value: 0.002143
Muestra para cada coeficienteel valor estimado, el errorestándar de la estimación, el estadístico t y la probabilidad
73
# Sin embargo, si se considera una transformación de los datos con# el logaritmo de los costes (cuyo rango es grande) en busca de mejorar# la linealidad y por tanto la calidad del ajuste, se tiene:
cor.test(x,log(y))
Pearson's product-moment correlation
data: x and log(y)t = 4.2027, df = 15, p-value = 0.0007687alternative hypothesis: true correlation is not equal to 095 percent confidence interval:0.3939673 0.8984522
sample estimates:cor
0.7353647
#0.7353647 incrementa la cor(x,y) = 0.69
74
fit.log <- lm(log(y)~x); fit.logCall:lm(formula = log(y) ~ x)
Coefficients:(Intercept) x
5.7008 0.2309
sfit <- summary(fit.log); sfitCall:lm(formula = log(y) ~ x)
Residuals:Min 1Q Median 3Q Max
-0.72257 -0.31200 -0.04122 0.21549 0.95371
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.70085 0.22677 25.140 1.12e-13 ***x 0.23095 0.05495 4.203 0.000769 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4375 on 15 degrees of freedomMultiple R-squared: 0.5408, Adjusted R-squared: 0.5101 F-statistic: 17.66 on 1 and 15 DF, p-value: 0.0007687
75
# Se reduce considerablemente el error de los residuos a # 0.4375, recordar que antes fue de 283.5, entonces# la varianza del error es:
sfit$sigma^2[1] 0.1913944
# Recordar que antes fue de 80360.47
76
Respondiendo a la pregunta 2, sí fue posible reducir lavariabilidad planteando otro modelo de regresión,transformando los datos originales.
Inferencia sobre 𝛽0 y 𝛽1
Los estimadores de mínimos cuadrados 𝛽0 y 𝛽1 son insesgados y demínima varianza de entre todos los estimadores insesgados. El hechode especificar una distribución normal sobre los errores para laestimación máximo-verosímil permite derivar de forma directa ladistribución de dichos estimadores, que resulta también normal.Cuando el modelo de regresión es adecuado, se pueden estimar lasvarianzas de dichas distribuciones, de aquí, se pueden construir losestadísticos t0 y t1 para inferir sobre los parámetros, estos estimadorespermiten inferir (estimar y resolver contrastes de hipótesis) sobre loscoeficientes del modelo, y en particular contestar a preguntas sobre larelación entre las variables respuesta y explicativa.
77
El contraste se resuelve de la siguiente forma:
• Se rechaza H0 a nivel 𝜶 cuando p-valor ≤ 𝜶
• Si p-valor > 𝜶, se dice que los datos no proporcionan suficientes evidencias en contra de la hipótesis nula y ésta no se puede rechazar.
78
Nuevamente, siguiendo con el ejemplo de los tractores:
Con el mejor modelo RLS obtenido hasta el momento para predecir loscostes en función de la edad del camión:
1. Construir intervalos de confianza al 99% para 𝛽0 y 𝛽1, ¿qué se puededecir de la relación entre dichas variables?
2. Concluir sobre los contrastes 𝛽0 = 0 y 𝛽1= 0. Comprobar también queel último contraste 𝛽1= 0 es equivalente al contraste de correlaciónnula entre las variables del modelo.
79
# Los coeficientes estimados se obtienen con:coef(fit.log)(Intercept) x 5.7008492 0.2309455
# Los errores estándar asociados a los coeficientes son:sfit$coefficients[,2] (Intercept) x 0.22676720 0.05495161
80
# Los intervalos de confianza para los parámetros al 95% (valor por # defecto de la función) se obtienen con:confint(fit.log)
2.5 % 97.5 %(Intercept) 5.2175063 6.1841920x 0.1138189 0.3480721
# Los intervalos de confianza para los parámetros al 99%:confint(fit.log, level = 0.99)
0.5 % 99.5 %(Intercept) 5.03263134 6.3690670x 0.06901889 0.3928721
81
Call: lm(formula = log(y) ~ x)
Residuals:
Min 1Q Median 3Q Max -0.72257 -0.31200 -0.04122 0.21549 0.95371
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.70085 0.22677 25.140 1.12e-13 *** x 0.23095 0.05495 4.203 0.000769 *** ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4375 on 15 degrees of freedomMultiple R-squared: 0.5408, Adjusted R-squared: 0.5101 F-statistic: 17.66 on 1 and 15 DF, p-value: 0.0007687
# Los p-valores asociados al contraste beta=0 para cada coeficiente# se visualizan con summary(fit.log) que ya está almacenado en sfit:sfit
82
Con los resultados obtenidos, la recta ajustada es:
𝒍𝒐𝒈 𝒄𝒐𝒔𝒕𝒆𝒔 = 𝟓. 𝟕 + 𝟎. 𝟐𝟑𝟏𝒆𝒅𝒂𝒅
Los intervalos de confianza para 𝛽0 y 𝛽1 al nivel de confianza del 99% resultan:
𝑰𝑪 𝜷0 , 𝟗𝟗% = (𝟓. 𝟎𝟑, 𝟔. 𝟑𝟔𝟗)𝑰𝑪 𝜷1 , 𝟗𝟗% = (𝟎. 𝟎𝟔𝟗, 𝟎. 𝟑𝟗𝟑)
83
Ninguno de los cuales incluye al cero, lo que habla positivamente de susignificatividad estadística, esto es, se predice el logaritmo de loscostes con la edad de los vehículos a través de una recta coninterceptación y pendientes (significativamente) distintas de cero. Dehecho, la relación entre el logaritmo de los costes y la edad es directa,como se concluye del signo y la magnitud del coeficiente estimado 𝜷𝟏.
84
Para resolver el contraste βi = 0, para i = 0, 1, se obtienen los siguientesvalores para los estadísticos t y sus p-valores asociados:
𝑡0 = 25.140, 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 1.12𝑒 − 13𝒕𝟏 = 𝟒. 𝟐𝟎𝟑, 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0.000769
lo que concluye contundentemente sobre la significatividad de ambos afavor de que son distintos de cero, entonces se rechaza H0. Enparticular, la edad explica significativamente el logaritmo de loscostes a través del modelo lineal ajustado.
El test de correlación cero y el correspondiente β1 = 0 están basados enel mismo estadístico t, t1 = 4.203, proporcionando por tanto el mismop-valor de 0.000769.
85
Predicciones de nuevas observaciones
Si se quiere estimar el valor medio de la variable y cuando la variable xtoma un valor concreto x = x0 dentro del rango de valores observados,basta con sustituir dicho valor en la recta de regresión ajustada.
Ahora bien, predecir un hecho puntual en el futuro conlleva másincertidumbre que estimar en términos medios qué va a ocurrir, porello, tanto la estimación de la respuesta media como la prediccióncoinciden, aunque difieren en cuanto al grado de incertidumbre de lamisma.
86
Otra vez con el ejemplo, se va a estimar la respuesta media y lapredicción de una nueva observación para una secuencia de 20 puntosequidistantes en el rango de valores observados para la variableexplicativa y se van a representar las bandas de confianza tanto en laescala de la variable respuesta del modelo como de la variable original.
87
# Se quiere estimar y predecir con la recta de regresión, los # costes de manutención para diversas edades:x0 <- seq( min(x), max(x), length=20 )
# La estimación completa de la respuesta media se obtiene con:pred.m <- predict(fit,data.frame(x=x0),interval="confidence",se.fit=T)
# La predicción completa de una nueva observación se obtiene con:pred.p <- predict(fit,data.frame(x=x0),interval="prediction",se.fit=T)
# Se grafican los intervalos de confianza para estimación y predicción,# en la escala del log(costes):par(mfrow=c(1,2))
88
# Además de plot, existe matplot…matplot(x0, cbind(pred.m$fit, pred.p$fit[,-1]),
lty=c(1,2,2,3,3), col=c("black","red","red","blue","blue"),type="l",xlab="edad", ylab="log(costes)")
points(x,log(y))
matplot(x0, cbind(exp(pred.m$fit), exp(pred.p$fit[,-1])),lty=c(1,2,2,3,3),col=c("black","red","red","blue","blue"),type="l",xlab="edad",ylab="costes")
legend("topleft", c("Estim.Media","Predicción"), lty=c(2,3),col=c("red","blue"), cex = 0.8, bty="n")
points(x,y)
89
90
En el ancho de las bandas de confianza de los gráficos se aprecia ladiferente certidumbre que se obtiene sobre la estimación de larespuesta media y sobre la predicción de una nueva observación.Puesto que la relación entre costes y log(costes) es biunívoca es posibledeshacer la transformación para obtener estimaciones e intervalos deconfianza de la estimación de los costes en función de la edad de loscamiones. La recta ajustada entre log(costes) y edad da lugar a unacurva de estimación de costes en función de edad.
91
Bondad del ajuste
Cuando se ha realizado el ajuste de un modelo de regresión lineal sedebe verificar que efectivamente dicho modelo proporciona un buenajuste a la hora de explicar (predecir) la variable respuesta, esto se hacecon la bondad del ajuste, que se cuantifica con el tanto por ciento devariabilidad explicada por el modelo sobre la variable respuesta.Existen varios tipos de medidas que cuantifican la variabilidad como:
• Error residual (menor error residual)
• Test F de bondad de ajuste que se obtiene de la Tabla de ANOVA(Análisis de la Varianza)
• El coeficiente de determinación
92
La prueba más reconocida para concluir sobre la bondad del ajustepor la obtención de significatividad estadística es la correspondienteal test F, derivado de la Tabla de ANOVA. Superado este test, elmodelo se da por bueno.
93
Sin entrar a detalle en la parte matemática y continuando con elejemplo, se va a utilizar R para obtener la Tabla de ANOVA para elajuste obtenido con los datos de tractores y se va a concluir sobre labondad del ajuste.
94
anova(fit.log)
Analysis of Variance Table
Response: log(y)Df Sum Sq Mean Sq F value Pr(>F)
x 1 3.3806 3.3806 17.663 0.0007687 ***Residuals 15 2.8709 0.1914 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
95
# El estadístico F de la Tabla Anova es igual al estadístico t# de beta1, elevado al cuadrado, y por tanto sus p-valores coinciden:
sfit$coefficientsEstimate Std. Error t value Pr(>|t|)(Intercept) 5.7008492 0.22676720 25.139655 1.122126e-13x 0.2309455 0.05495161 4.202707 7.686893e-04
coef(sfit)["x",]Estimate Std. Error t value Pr(>|t|)
0.2309455105 0.0549516103 4.2027068807 0.0007686893
coef(sfit)["x",3]^2 #t^2=17.66275[1] 17.66275
sfit$fstatisticvalue numdf dendf17.66275 1.00000 15.00000
96
Al observar la Tabla de ANOVA, se ve que la variabilidad explicada porla recta, en términos de sumas de cuadrados, denotado por SSR, SSR =3.3806, es superior a la que queda por explicar, SSE = 2.8709. Elestadístico F valora si dicha diferencia es suficientemente grande comopara poder concluir que efectivamente la recta explica la mayor partede la variabilidad existente.
El valor del estadístico F es 17.66275, que para una F con 1 y 15 gradosde libertad da un p-valor de 0.0007687. La conclusión es que podemosrechazar H0 : 𝜷𝟏 = 0, o lo que es lo mismo, H0: el modelo no explica losdatos, a favor de que la edad resulta útil para predecir el logaritmode los costes a través de un modelo de regresión lineal.
97
Ahora se va a obtener el coeficiente de determinación del ajusteconseguido para Tractores y se va a comprobar que dicho coeficientecoincide con el coeficiente de correlación al cuadrado. Con esto, sepuede concluir sobre la bondad del ajuste con base en él.
98
# El coeficiente de determinación se obtiene a partir de (ya antes # habíamos usado este comando):sfitCall:lm(formula = log(y) ~ x)
Residuals:Min 1Q Median 3Q Max
-0.72257 -0.31200 -0.04122 0.21549 0.95371
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.70085 0.22677 25.140 1.12e-13 ***x 0.23095 0.05495 4.203 0.000769 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4375 on 15 degrees of freedomMultiple R-squared: 0.5408, Adjusted R-squared: 0.5101 F-statistic: 17.66 on 1 and 15 DF, p-value: 0.0007687 99
# Identificado como Multiple R-Squared:sfit$r.squared[1] 0.5407612
# Corroboramos que su valor es igual a la correlación al cuadrado:cor(x,log(y))^2[1] 0.5407612
El valor que se obtiene para el coeficiente de determinación (MultipleR-Squared) es de R2 = 0.541, esto es, alrededor del 54% de lavariabilidad de los log-costes es explicada por la recta ajustada. No esun valor especialmente alto. De hecho, en el gráfico de la diapositiva90 se ve que la tendencia lineal más marcada proviene de losvehículos que superan los cuatro años. Los costes de los camionesmuy nuevos han sido muy variables y es arriesgado hablar de unarelación lineal con la edad del tractor.
100
Diagnóstico gráfico del modelo. Análisis de los ResiduosUna vez ajustado un modelo, superadas las pruebas de bondad deajuste pertinentes, fundamentalmente el test F de ANOVA, eldiagnóstico del modelo consiste en verificar si satisface las hipótesisbásicas del modelo de regresión:
• linealidad entre las variables x e y
• para los errores del modelo, 𝜖𝑖 :
1. media cero
2. varianza constante
3. incorrelación
4. normalidad
101
El análisis de los residuos permitirá detectar deficiencias en laverificación de las hipótesis así como descubrir observacionesanómalas o especialmente influyentes en el ajuste. Una vezencontradas las deficiencias, si existen, cabría considerar elreplanteamiento del modelo: empleando transformaciones de lasvariables o proponiendo modelos alternativos al de RLS.
102
El diagnóstico del modelo se lleva a cabo fundamentalmente a partirde la inspección de los residuos del modelo. Estos sólo son buenosestimadores de los errores cuando el modelo ajustado es bueno. Aunasí, es lo más aproximado con lo que se cuenta para indagar qué ocurrecon los errores y si éstos satisfacen las hipótesis del modelo. El análisisde los residuos es básicamente gráfico, aunque existen varios testsestadísticos útiles para detectar inadecuaciones del modelo.
103
• Gráfico qq-plot e histograma de los residuos: Si es cierta lanormalidad de los residuos, los puntos han de estar alineados con ladiagonal. La hipótesis de normalidad se puede checar también conhistogramas de los residuos cuando el tamaño muestral es grande.
• Gráfico de residuos versus valores ajustados: Si los residuos estándistribuidos alrededor del cero y el gráfico no presenta ningunatendencia entonces el modelo se considera adecuado.
104
• Gráfico de residuos versus valores de la variable predictora: Sonútiles para apreciar tendencias en los residuos que han quedado sinexplicar por el modelo ajustado.
• Gráfico de residuos versus otros posibles regresores: Representar losresiduos versus otras variables observadas que puedan hacer el papelde predictores puede revelar la necesidad de incluirlos para conseguirexplicar algo más de la respuesta. Los gráficos que manifiesten algúntipo de tendencias identificarán a otros regresores potenciales queayuden a la mejora del modelo.
105
• Gráfico secuencial de los residuos: La correlación entre los datos esun proceso intrínseco al muestreo, saber cómo se ha llevado a caboéste da información, generalmente suficiente para poder hablar decorrelación o incorrelación. Los gráficos secuenciales de residuossirven para detectar problemas de correlación de éstos(autocorrelación) o de inestabilidad de la varianza a lo largo deltiempo. También son útiles los gráficos en que se representa unresiduo versus el anterior en la secuencia en que han sidoobservados, si hay correlación se apreciará tendencia. Detectarautocorrelación llevará a considerar otro tipo de modelos, p.e. deseries temporales.
106
Para finalizar con el ejemplo, calcular los residuos asociados al ajustede los Tractores y llevar a cabo el diagnóstico del modelo. Concluirsobre el mismo.
107
# Los residuos e(i) se obtienen con:fit.log$residuals
1 2 3 4 5 -0.31199871 0.21548863 0.20011849 -0.42007346 -0.04122201
6 7 8 9 10 -0.10106892 -0.06435528 0.47220380 -0.07637945 0.22948756
11 12 13 14 15 -0.72257174 -0.61231525 -0.44795446 0.13823116 0.95371497
16 17 0.21239094 0.37630375
# o biene <- residuals(fit.log); e
# Los residuos estandarizados se obtienen con (ya ejecutado antes):sfit <- summary(fit.log)
108
d <- e/sfit$sigma; d
1 2 3 4 5 -0.71316200 0.49256069 0.45742786 -0.96019767 -0.09422465
6 7 8 9 10 -0.23102183 -0.14710233 1.07935641 -0.17458702 0.52455924
11 12 13 14 15 -1.65164372 -1.39962109 -1.02392763 0.31596672 2.17998748
16 17 0.48548004 0.86014950
# R proporciona un diagnóstico gráfico del modelo ajustado con:par(mfrow=c(2,2))
plot(fit.log)
109
110
En el gráfico se tiene el diagnóstico que proporciona R por defecto.
En el gráfico de residuos versus valores ajustados (Residuals vs Fitted)se aprecia mayor dispersión en los datos con menor coste previsto ycierta tendencia en los datos con mayores costes predichos, si biendicha tendencia prácticamente desaparece al utilizar los residuosestandarizados, por lo que el comportamiento ahí no preocupa. Ladiferente variabilidad entre observaciones con costes predichosmayores y menores sí que es preocupante y cabría plantear algunacorrección de la misma.
111
La normalidad de los residuos (gráfico Normal-QQ) no esespecialmente respetuosa con la diagonal y en concreto laobservación 15 se escapa considerablemente de la misma.
El último gráfico de Residuals vs Leverage se utiliza para identificarobservaciones alejadas o influyentes en el ajuste (posibles outliers uobservaciones de clientes).
Ahora se procede a dibujar los gráficos de diagnóstico descritos y noproporcionados por defecto por R .
112
par(mfrow=c(2,2))
# El histograma de los residuos, superponiendo una densidad normal:hist(d,probability = T, xlab = "Residuos estandarizados", main = "",
xlim = c(-3,3))
d.seq <- seq(-3, 3, length = 50)
lines(d.seq, dnorm(d.seq,mean(d),sd(d)))
#Se consiguen los gráficos qqplot de normalidad con los comandos:# qqnorm(d) y qqline(d)
# El gráfico de residuos versus el predictor:plot(x, d, xlab = "Edad Tractor", ylab = "Residuos Estandarizados")
113
# y se captura con una curva suavizada la tendencia:lines(lowess(x,d), col = "red")
# La secuencia temporal de residuos se obtiene con:plot(d, type = "b", ylab = "Residuos estandarizados")
# y el gráfico de residuos versus el anterior sería:n<-length(d)
plot(d[1:(n-1)], d[2:n], xlab = "Residuo i", ylab = "Residuo i-1")
# y nuevamente se captura con una curva suavizada la tendencia:lines(lowess(d[1:(n-1)], d[2:n]), col="red")
114
115
Como en el gráfico qq-plot, el histograma de los residuos muestra ciertadesviación de normalidad, especialmente crítica en la cola derecha. Ladiferente variabilidad de los residuos es notoria en el gráfico deResiduos versus Edad, así como cierta tendencia cuadrática en losresiduos explicada por la Edad en los datos correspondientes a lostractores mayores de 4 años. El gráfico secuencial de residuos nomuestra ninguna estructura patente de correlación y tampoco el deresiduos consecutivos.
116
Conclusión del ejemplo
La conclusión es que se detectan faltas de normalidad y de linealidad,especialmente debida a la distinción entre dos grupos de tractores:los de edad inferior a un año y los de edad superior a 4. Para resolveresto, se podría crear una nueva variable que identifique estos dosgrupos y emplearla en el ajuste, esto es, proponer un nuevo modelode predicción que permita ajustar una recta de regresión para loscamiones modernos y otra para los más viejos.
117
Conclusiones y referencias
Conclusiones
• El objetivo de esta sesión fue mostrar paso a paso cómo analizardatos para calcular un modelo de predicción lineal. Se comenzó con elanálisis de correlación sobre datos de naturaleza continua, se siguiócon la determinación de la recta o propiamente del modelo paradespués ajustarlo, una vez ajustado y superadas las pruebas debondad de ajuste pertinentes, se diagnosticó el modelo.
• El diagnóstico permite detectar deficiencias, y si ocurren, se puedereconsiderar la modelización, posiblemente con transformaciones delos datos que corrijan los defectos encontrados. Propuesto un nuevomodelo corrector, se repiten los pasos: ajuste, bondad del ajuste ydiagnosis.
119
• El objetivo de explicar en forma muy general la simulación demodelos lineales fue para mostrar la utilidad del lenguaje R en lasolución de esta clase de problemas, pues como ya es sabido, R es unlenguaje estadístico y por tanto cuenta con instrucciones que facilitancálculos y graficación.
• Finalmente, no se debe olvidar que, aunque se tengan lasherramientas más sofisticadas, lo más importante siempre será lacorrecta interpretación que se haga de los resultados que arrojandichas herramientas.
120
Referencias
• Aparicio, J., Martínez Mayoral, M.A., Morales, J. (s.f). Modelos LinealesAplicados en R. Depto. Estadística, Matemáticas e Informática. Centro deInvestigación Operativa, Universidad Miguel Hernández.
• Conesa Guillán, D.V. (s.f.). Computación y programación en R: Tema 4.Valencia: Valencia Bayesian Research Group, Dept. d’Estadística iInvestigació Operativa, Universitat de València.
• Horus. (2018). Análisis de datos en Big Data: tipos y fases. Recuperado de:https://www.horusgestion.com/blog/analisis-de-datos-en-big-data-tipos-y-fases
• Ollé Sánchez, J. (2017-2020). Conceptos Claros [Blog]. Recuperado de:https://conceptosclaros.com/blog/
• Risk, M.R. (2003). Cartas sobre Estadística de la Revista Argentina deBioingeniería. Argentina: Facultad Regional Buenos Aires, UniversidadTecnológica Nacional.
121