regresion estadistica
TRANSCRIPT
República Bolivariana de Venezuela
Ministerio del Poder Popular para la Educación Universitaria
I.U.T “Antonio José de Sucre”
Extensión – Puerto La Cruz
Departamento: Electricidad
Trabajo de:
Regresión lineal simple
Profesor: Pedro Vidal Bachiller:
María F. De Sousa
C.I: 21.390.227
Puerto la cruz, 07 de febrero de 2016
Introducción
La estadística es un potente auxiliar de muchas ciencias y actividades
humanas, es una herramienta indispensable para la toma de decisiones y esto
se puede ver reflejado precisamente en la regresión lineal simple la cual es un
proceso estadístico muy importante para cualquier profesional; ya que es muy
utilizado en diversos campos, algunos de ellos son: la medicina, la informática,
la contaduría, la electricidad, la economía, las finanzas, la biología, entre otros;
cuando se aplica adecuadamente la regresión lineal se logra relacionar de
forma rigurosa y cuantificable variables en diferentes ambientes.
Asimismo se encuentra acompañada de una serie de elementos tales
como el método de mínimo cuadrados que se usa comúnmente en el ajuste de
curvas, las hipótesis, las suposiciones que son fundamentales para encontrar
las variables y asignar a la relación entre variables un número, logrando así
obtener una medida referente a su grado de relación.
La Regresión lineal simple es la más básica pero también la más usual,
y por lo tanto es aplicada en todos los ámbitos del conocimiento.
Historia de la regresión lineal
Legendre (1805) fue el primero en documentar el uso de la regresión
lineal en una publicación del Método de los Mínimos Cuadrados que incluía una
versión del teorema de Gauss-Márkov. Los primeros trabajos que tienen que
ver con el estudio de la regresión lineal se remontan al siglo XIX, cuando Sir
Francis Galton (1822-1917), estudio el impacto de la herencia en la estatura de
las personas, y la expresión matemática de los fenómenos vinculados a ella. Él
fue el primero en trabajar un conjunto de variables y asignar a la relación entre
variables un número, para así obtener una medida referente a su grado de
relación. Sostenía que las personas excepcionalmente altas solían tener hijos
de estatura menor, mientras que las personas muy bajas solían tener hijos más
altos; este hecho fue expuesto por Galton como la regresión a la media,
aplicables a las tallas de una generación respecto de las siguientes. La
justificación que se da hoy en día a esta situación es que los valores extremos
de una distribución se deben en gran parte al azar.
Regresión lineal simple
La regresión lineal es un Proceso estadístico que pretende modelar la
relación entre dos variables, por la ecuación de línea recta. Así pues, tenemos
una variable Y, que depende de otra "x", que es independiente. Si se utiliza,
sólo una variable independiente, la regresión se denomina simple. Cuando se
usa más de una variable independiente, la regresión se llama "Múltiple".
La ecuación de la línea recta es: y = ax + b, donde "a" es la pendiente del
segmento de línea recta, y "b", el punto en el que, la línea corta el eje vertical
(y).
Clases de coeficiente de Regresión:
- El coeficiente de regresión puede ser: Positivo, Negativo y Nulo.
- Es positivo cuando las variaciones de la variable independiente X son
directamente proporcionales a las variaciones de la variable dependiente “Y”
- Es negativo, cuando las variaciones de la variable independiente “X”
son inversamente proporcionales a las variaciones de las variables
dependientes “Y”.
- Es nulo o cero, cuando entre las variables dependientes “Y” e independientes
“X” no existen relación alguna.
Supociones de la regresión lineal
- Los valores de la variable independiente X son fijos, medidos sin
error.
- La variable Y es aleatoria.
- Para cada valor de X, existe una distribución normal de valores de
Y (subpoblaciones Y).
- Las variancias de las subpoblaciones Y son todas iguales.
- Todas las medias de las subpoblaciones de Y están sobre la
recta.
- Los valores de Y están normalmente distribuidos y son
estadísticamente independientes.
Estimadores de mínimos cuadrados
Gauss propuso en 1809 el método de mínimos cuadrados para
obtener los valores βˆ 0 y βˆ 1 que mejor se ajustan a los datos: yˆi = βˆ 0 +
βˆ 1xi.
es una técnica de análisis numérico enmarcada dentro de la
optimización matemática, en la que, dados un conjunto de pares ordenados:
variable independiente, variable dependiente, y una familia de funciones, se
intenta encontrar la función continua, dentro de dicha familia, que mejor se
aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo
error cuadrático.
En su forma más simple, intenta minimizar la suma de cuadrados de las
diferenciasen las ordenadas (llamadas residuos) entre los puntos generados
por la función elegida y los correspondientes valores en los datos.
Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el
número de datos medidos es 1 y se usa el método de descenso por
gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS
minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por
iteración), pero requiere un gran número de iteraciones para converger.
Desde un punto de vista estadístico, un requisito implícito para que
funcione el método de mínimos cuadrados es que los errores de cada medida
estén distribuidos de forma aleatoria. El teorema de Gauss-Márkov prueba que
los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de
datos no tiene que ajustarse, por ejemplo, a una distribución normal. También
es importante que los datos a procesar estén bien escogidos, para que
permitan visibilidad en las variables que han de ser resueltas (para dar más
peso a un dato en particular
Estimación de la ecuación de regresión muestral.
Consiste en determinar los valores de "a" y "b " a partir de la muestra, es
decir, encontrar los valores de a y b con los datos observados de la muestra.
El método de estimación es el de Mínimos Cuadrados, mediante el cual se
obtiene:
Luego, la ecuación de regresión muestral estimada es:
El coeficiente de determinación: Se define el coeficiente de
determinación, R2, como el cuadrado del coeficiente de correlación entre los
valores de Y observados y los valores de Y ajustados; viene dado por la
expresión:
Rectas de regresión
Las rectas de regresión son las rectas que mejor se ajustan a la nube
de puntos (o también llamado diagrama de dispersión) generada por una
distribución binomial.
Matemáticamente, son posibles dos rectas de máximo ajuste:
La recta de regresión de Y sobre X:
La recta de regresión de X sobre Y:
Calidad de ajuste de una regresión lineal simple La calidad del ajuste de una regresión lineal simple, permite verificar la calidad
con la que el modelo planteado permite hacer estimaciones. Se necesita
conocer qué tanta variabilidad en Y fue explicada por el modelo, si se cumplen
los supuestos de normalidad en los residuos y si la variación no tiene ningún
patrón fuera de lo usual.
Los elementos fundamentales de la regresión lineal
Son la pendiente, la intersección y el error.
Aplicaciones de la regresión lineal
Líneas de tendencia
Una línea de tendencia representa una tendencia en una serie de
datos obtenidos a través de un largo período. Este tipo de líneas puede
decirnos si un conjunto de datos en particular (como por ejemplo, el PBI,
el precio del petróleo o el valor de las acciones) han aumentado en un
determinado período.10 Se puede dibujar una línea de tendencia a simple
vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente
se calcula de manera más precisa utilizando técnicas estadísticas como las
regresiones lineales. Las líneas de tendencia son generalmente líneas
rectas, aunque algunas variaciones utilizan polinomios de mayor grado
dependiendo de la curvatura deseada en la línea.
El uso de la regresión lineal está muy generalizado y se puede aplicar
prácticamente a cualquier campo algunos de ellos son:
finanzas
medicina
Biología
Física
Ingeniería
La economía
Hipótesis básicas del modelo de regresión lineal.
Hipótesis primera: El modelo está bien especificado. Es decir, la única
variable relevante en la explicación de la variable endógena es la variable X,
además, la relación que existe entre la variable endógena y exógena es del tipo
lineal.
Hipótesis segunda: La variable exógena es una variable no aleatoria,
es determinista. En consecuencia, la esperanza de X es X.
Hipótesis tercera: No existen errores de medida en los datos de las
variables Y y X.
Hipótesis cuarta: Los parámetros del modelo son fijos, y no existe
cambio estructural en el período muestral.
Hipótesis quinta: Comportamiento del término de perturbación
aleatoria.
Análisis de regresión lineal
El análisis de regresión involucra el estudio la relación entre dos
variables cuantitativas.
En general interesa:
Investigar si existe una asociación entre las dos variables
testeando la hipótesis de independencia estadística.
Estudiar la fuerza de la asociación, a través de una medida
de asociación denominada coeficiente de correlación.
Estudiar la forma de la relación.
Usando los datos propondremos un modelo para la relación
y a partir de ella será posible predecir el valor de una variable a partir de
la otra.
Modelo de regresión lineal simple
El modelo de regresión lineal simple se caracteriza porque para estimar
o predecir la variable dependiente o endógena sólo se utiliza una variable
independiente o exógena, a través, de la siguiente ecuación:
Υi= α + β Хi+ єi i = 1,..., N
Donde, N es el número de observaciones de las variables; los
coeficientes α y β, son los parámetros desconocidos que indican
respectivamente, la ordenada en el origen (o valor estimado de Y cuando X=0)
y la pendiente o coeficiente de la regresión (o variación la variable dependiente
ante variaciones unitarias de la variable independiente); y ε, es la perturbación
aleatoria que recoge todos aquellos hechos no observables y que, por lo tanto,
se asocian con el azar. Esta perturbación es la que confiere al modelo su
carácter estocástico.
Las asociaciones que se presentan en la regresión lineal simple
1) Correlación o asociación Positiva (+), es decir a medidas altas de
una variable, le corresponden medidas altas de otra variable, cambios en el
mismo sentido (Relación Directamente Proporcional).
X entonces Y
X entonces Y
Ejemplo: Altura y peso
2) Correlación o Asociación Negativa (-), En este caso, a valores
altos de una variable, corresponden valores bajos de la otra variable y
viceversa. (Relación inversamente proporcional).
3) Medidas no Correlaciónales; No existe ninguna asociación entre
las variables.
Ecuación de regresión lineal simple
Es una ecuación para estimar una variable dependiente a partir de la
variable independiente.
Si X: Variable independiente
Y: Variable dependiente
Donde: Y = variable dependiente estimada
: b = coeficiente de R.L.S.
Características del Coeficiente de R.L.S. (b)
1) b: indica el número de unidades en que varía la variable dependiente al
variar la independiente en una unidad de su medida.
2) Si b es positivo los cambios son directamente proporcionales.
Si b es negativo entonces los cambios son inversamente proporcional
3) b: mide la pendiente de la línea de regresión.
4) b, esta dado en unidades de la variable dependiente.
5) b y r siempre tienen el mismo signo.
6) b se calcula:
Sí Y = f(X), entonces:
Y el valor de la constante a:
Si X= f (Y)
Limitaciones
Una de las principales limitaciones del análisis de regresión se basa en
el hecho de que dos variables crezcan o decrezcan siguiendo las mismas
pautas no implica necesariamente que una cause a la otra, ya que puede
ocurrir que entre ellas se produzca una relación espúrea. Por lo tanto, para
establecer la relación entre diferentes variables es necesario que esta relación
se base en una buena teoría, ya que, este análisis estadístico es adecuado
para cuantificar una relación conocida entre variables, pero no es el mejor
instrumento para hallar relaciones funcionales entre variables.
Definición de correlación lineal: Es aquella que establece la relación
que existen entre las dos variables que participan en una distribución
bidimensional.
Tipos de correlación lineal: Existen tres tipos de correlación lineal las
cuales son:
Correlación Directa: Se da cuando al aumentar una de las
variables la otra aumenta.
Correlación Inversa: Se da cuando al aumentar una de las
variables la otra disminuye.
Correlación Nula: Se da cuando no hay dependencia entre
las variables.
Diagrama de dispersión: Es una representación gráfica de la relación
entre dos variables, permite analizar la relación que existe entre los valores de
una variable que nos interesa (dependiente) y los valores de otra variable que
sea fácil de medir (independiente).
Ejemplo
Este es el diagrama de dispersión que expresa la cantidad de dinero
que se ganó Mateo cada semana trabajando en la tienda de su padre.
Las semanas están diagramadas en el eje x, y la cantidad de dinero que
se ganó en esa semana en el eje y. En general, la variable independiente (la
variable que no está influenciada por nada) está en el eje x y la variable dependiente (la que es modificada por la variable independiente) está en el
eje y.
En este diagrama podemos ver que en la segunda semana Mateo se
ganó alrededor de $125, y en la semana 18 estuvo cerca de los $165. Pero
más importante aún es la tendencia. Por ejemplo, con estos datos podemos ver
que Mateo gana cada vez más según pasan las semanas. Quizá su padre le da
más horas a la semana o más responsabilidades.
Correlación de Pearson: Es una medida de la relación lineal entre dos
variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación
de Pearson es independiente de la escala de medida de las variables. De
manera menos formal, podemos definir el coeficiente de correlación de
Pearson como un índice que puede utilizarse para medir el grado de relación
de dos variables siempre y cuando ambas sean cuantitativas.
Ventajas
El valor del coeficiente de correlación es independiente de
cualquier unidad usada para medir variables.
Mientras más grande sea la muestra más exacta será la
estimación.
Desventajas
Requiere supuestos acerca de la naturaleza o formas de
las poblaciones afectadas.
Requiere que las dos variables hayan ido medidas hasta
un nivel cuantitativo continuo y que la distribución de ambas sea
semejante a la de la curva normal.
Usos del coeficiente de correlación de Pearson
Permite predecir el valor de una variable dado un valor
determinado de la otra variable.
Se trata de valorar la asociación entre dos variables
cuantitativas estudiando el método conocido como correlación.
Dicho cálculo es el primer paso para determinar la relación
entre las variables.
Consiste en la posibilidad de calcular su distribución
muestral y así poder determinar su error típico de estimación.
Reporta un valor de correlación cercano a cero como un
indicador de que no hay relación lineal entre dos variables.
Reporta un valor de correlación cercano a uno como un
indicador de que existe una relación lineal positiva entre las dos
variables. Un valor mayor a cero que se acerque a uno da como
resultado una mayor correlación positiva entre la información.
Coeficiente de correlación de Spearman: La correlación de Spearman
es una medida de relación lineal entre dos variables. Se diferencia de la
correlación de Pearson en que utiliza valores medidos a nivel de una escala
ordinal. Si alguna de las variables está medida a nivel de escala de
intervalo/razón deberá procederse antes de operar el estadístico a su
conversión en forma ordinal.
Ventaja
- No está afectada por los cambios en las unidades de medida.
- Al ser una técnica no parámetra, es libre de distribución probabilística.
Desventaja
- Es recomendable usarlo cuando los datos presentan
valores extremos, ya que dichos valores afectan mucho el coeficiente de
correlación de Pearson, o ante distribuciones no normales
- R no debe ser utilizado para decir algo sobre la relación
entre causa y efecto.
Usos
- Para aplicar el coeficiente de correlación de Spearman se
requiere que las variables estén medidas al menos en escala ordinal, es
decir; de forma que las puntuaciones que la representan puedan ser
colocadas en dos series ordenadas.
- A veces, este coeficiente es denominado por la letra
griega ρs (rho), aunque cuando nos situamos en el contexto de la
Estadística Descriptiva se emplea la notación rs.
Ejemplo de Regresión lineal SimpleLa tabla siguiente, presenta datos sobre el volumen y (x10-4mm3) de desgaste del acero dulce, y la viscosidad x del aceite:
x 1.6. 9.4. 15.5. 20.0. 22.0. 33.0. 35.5. 40.5. 43.0y 240 181 193 155 172 94 110 75 113
a) Ajusta un modelo de regresión lineal simple utilizando la técnica de mínimos
cuadrados.
b) Obtén el valor ajustado de y cuando x = 22, y calcula el residuo
correspondiente.
c) Calcula R2 para este modelo, y da una interpretación de esta cantidad.
Antes de empezar a resolver los apartados propuestos, hacemos una
recopilación de datos que podemos extraer de la tabla dada, ya que
posteriormente serán de gran utilidad.
· n = 9
·
·
·
·
·
Apartado a)
Para calcular la pendiente, la expresión matemática es:
Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:
·
·
Por lo tanto, la pendiente es:
Una vez obtenida la pendiente, podemos tener el valor del estimador para la
ordenada:
Sustituimos valores:
Por lo tanto, la ecuación de regresión ajustada es:
y(x) = 234.070733 - 3.508556·x
Siendo:
· y ≡ Volumen de desgaste del acero dulce.
· x ≡ Viscosidad del aceite.
Apartado b)
Para obtener el valor ajustado de y cuando x = 22, empleamos la ecuación de
regresión ajustada:
Y (22) = 234.070733 - 3.508556 · 22 = 156.882501
Para obtener el residuo, el valor real está contenido en la tabla, lo que
debemos hacer es, restar la real con la que obtenemos con la ecuación de
regresión ajustada:
Residuo ≡ 172 - (234.070733 - 3.508556 · 22) = 15.117499
Apartado c)
Para obtener el coeficiente de determinación, empleamos su expresión
matemática:
Debemos obtener el valor de Syy:
·
Sustituimos valores y obtenemos el resultado del coeficiente de determinación:
Conclusión
Es necesario que cada individuo adquiera todos los conocimientos
relacionados con la regresión lineal simple, con la finalidad de emplearlo
correctamente en el trabajo, un ejemplo claro de ello es el precio del petróleo ,
de las acciones o de una enfermedad, todo depende del campo de trabajo en el
que nos encontremos, a través de la regresión lineal logramos saber y
entender de qué manera se ha incrementado o disminuido el precio o una
enfermedad ; por esta razón debemos indagar este importante tema, de esta
forma obtendremos un balance general de la situación actual del caso tratado
y se podrá mejorar significativamente , logrando así establecer la relación entre
diferentes variables y beneficiar a la población.
Bibliografía
www.elrincondelvago.com
http://www.monografias.com/trabajos/osciloscopio/osciloscopio.com.
https://es.wikipedia.org
https://es.slideshare.net