Informática. Universidad Carlos III de Madrid 2
Tema 2: Estadística descriptiva bivariante
1. Introducción2. Tablas de frecuencias bivariantes.3. Gráficos de dispersión.4. Medidas de relación lineal5. La recta de regresión simple.
Informática. Universidad Carlos III de Madrid 3
Tema 2: Estadística descriptiva bivariante
1. Introducción2. Tablas de frecuencias bivariantes.3. Gráficos de dispersión.4. Medidas de relación lineal5. La recta de regresión simple.
Informática. Universidad Carlos III de Madrid 4
2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)
Informática. Universidad Carlos III de Madrid 5
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)
Cada celda: frecuencias conjuntas
2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes
Informática. Universidad Carlos III de Madrid 6
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)
Las univariantes: frecuencias marginales
2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes
Informática. Universidad Carlos III de Madrid 7
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)
Cada fila o columna: frecuencia condicionada (al valor de la fila o columna)
2.2. Tablas de frecuencias Tablas de frecuencias bivariantesbivariantes
Informática. Universidad Carlos III de Madrid 8
Tema 2: Estadística descriptiva bivariante
1. Introducción2. Tablas de frecuencias bivariantes.3. Gráficos de dispersión.4. Medidas de relación lineal5. La recta de regresión simple.
Informática. Universidad Carlos III de Madrid 9
GrGrááfico de dispersifico de dispersióónn
Para cada dato (individuo, elemento) tenemos información de dos variables: X e Y
Informática. Universidad Carlos III de Madrid 10
3.5 Gr3.5 Grááfico de dispersifico de dispersióónn
Pote
ncia
gen
erad
a po
r un
m
olin
o de
vie
nto
Para cada dato (individuo, elemento) tenemos información de dos variables: X e Y
Informática. Universidad Carlos III de Madrid 11
Tema 2: Estadística descriptiva bivariante
1. Introducción2. Tablas de frecuencias bivariantes.3. Gráficos de dispersión.4. Medidas de relación lineal5. La recta de regresión simple.
Informática. Universidad Carlos III de Madrid 12
Medidas de dependencia linealMedidas de dependencia lineal• Coeficiente de covarianza
• Coeficiente de correlación
Entre estas variables no hay relación lineal
Entre estas variables hay relación lineal
La línea roja podría ser un buen resumen de esa relación
Informática. Universidad Carlos III de Madrid 13
Para n individuos, tenemos datos de 2 variables
Individuo x y
1 x1 y1
2 x2 y2
: : :
n xn yn
Covarianza
Correlación
Covarianza y correlación positivas
Covarianza y correlación negativas
Una forma habitual de presentar la información es en forma de matrices (simétricas)
Matriz de covarianzas
Matriz de correlaciones
Medidas de dependencia linealMedidas de dependencia lineal• Coeficiente de covarianza
• Coeficiente de correlación
Informática. Universidad Carlos III de Madrid 15
• La covarianza tiene unidades (unidades_x)(unidades_y)• La correlación es adimensional. ES MÁS FÁCIL DE INTERPRETAR• Se puede demostrar que -1≤r≤1
r=1 r=0.06
r=-0.94 r=-0.83 r=-0.08
r=0.8
Informática. Universidad Carlos III de Madrid 16
Tema 2: Estadística descriptiva bivariante
1. Introducción2. Tablas de frecuencias bivariantes.3. Gráficos de dispersión.4. Medidas de relación lineal5. La recta de regresión simple.
Informática. Universidad Carlos III de Madrid 17
La recta de regresiLa recta de regresióónn
X
y
( , )i ix y
¿Cómo obtener la ecuación de esa recta
‘resumen’?
Informática. Universidad Carlos III de Madrid 18
La recta de regresiLa recta de regresióónn
X
yEcuación de la recta:
Y=a+bX
Si tiene que pasar por dos puntos: solución única
Informática. Universidad Carlos III de Madrid 19
La recta de regresiLa recta de regresióónn
X
y
( , )i ix y
Es imposible que una recta pase por todos
los puntos
¿Cómo elegir la que más nos interesa?
Informática. Universidad Carlos III de Madrid 20
La recta de regresiLa recta de regresióónn
X
y
( , )i ix y
Buscamos una recta muy concreta llamada
RECTA DE REGRESIÓN
(de regresión simple)
Es la recta que, dado el valor de X me da la
mejor predicción de Y
Informática. Universidad Carlos III de Madrid 21
X
y
( , )i ix y
a bx+
iy
ix
ˆiyValor observado
Valor previstopor la recta
valor observado
La recta de regresiLa recta de regresióónn Es la recta que, dado el valor de X me da la mejor predicción de Y
Error de prediccióno residuo:
ˆi i ie y y= −
ei
Informática. Universidad Carlos III de Madrid 22
X
y
( , )i ix y
a bx+
iy
ix
ˆiy
valor observado
La recta de regresiLa recta de regresióónn
ei
Buscamos la recta que minimiza los errores de predicción:
2
1min
N
ii
e=∑
(recta de mínimos cuadrados)
Informática. Universidad Carlos III de Madrid 23
La recta de regresiLa recta de regresióónn
X
y
( , )i ix y
a bx+
x
y
2
cov( , )
x
x ybs
=
a y bx= −
SOLUCIÓN
Informática. Universidad Carlos III de Madrid 24
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas
En la localización 1 se va a establecer un sistema informático para la telemedida de la velocidad del viento, pero no para la localización 2. Se quiere calcular la recta de regresión que permita predecir la velocidad de la Localización 2 sabiendo la de la Localización 1
Loc.1:
media: 2.51
varianza: 1.91
Loc.2:
media: 3.28
varianza: 2.36
cov (V1,V2)=1.995
Informática. Universidad Carlos III de Madrid 25
Loc.1:
media: 2.51
varianza: 1.91
Loc.2:
media: 3.28
varianza: 2.36
cov (V1,V2)=1.995
3.28 1.045 2.51 0.657a y bx= − = − × =b=cov(x,y)/var(x)=1.995/1.91=1.045
2 1ˆ 0.657 1.045V V= + ×
Si, por ejemplo, en la Localización 1 se mide una velocidad de viento de 5 m/s, la predicción en la Localización 2 es de un viento de
0.657+1.045x5=5.88 m/s
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas
Informática. Universidad Carlos III de Madrid 26
3.28 1.045 2.51 0.657a y bx= − = − × =b=cov(x,y)/var(x)=1.995/1.91=1.045
2 1ˆ 0.657 1.045V V= + ×
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas
y=a+bxInterpretación de b: si x aumenta en una unidad, y aumenta en b
unidades
Si en la localización 1 aumenta la velocidad del viento en 1 m/s, en la localización 2 lo hará en 1.045 m/s
Informática. Universidad Carlos III de Madrid 27
3.28 1.045 2.51 0.657a y bx= − = − × =b=cov(x,y)/var(x)=1.995/1.91=1.045
2 1ˆ 0.657 1.045V V= + ×
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas
y=a+bxInterpretación de a: si x vale 0, y toma el valor a
Si en la localización 1 no hay viento, en la localización 2 hay 0.657 m/s, que es muy pequeño
Informática. Universidad Carlos III de Madrid 28
EvaluaciEvaluacióón de la regresin de la regresióónn
La regresión para predecir y a partir de x será buena idea si:
1. La relación entre x e y es lineal2. La relación es fuerte (alta correlación)
GráficosCorrelación y Coeficiente de
determinación R2
Informática. Universidad Carlos III de Madrid 29
EvaluaciEvaluacióón de la regresin de la regresióónn
La regresión para predecir y a partir de x será buena idea si:
1.1 Gráfico xy1.2 Gráfico de predicciones vs observaciones1.3 Gráfico de residuos vs valores previstos
Este simple gráfico xy nos dice que no hay relación lineal. La regresión va a predecir mal
1.1 Gráfico xy
Datos: parqueeolico.sf3
1. La relación entre x e y es lineal
Informática. Universidad Carlos III de Madrid 30
EvaluaciEvaluacióón de la regresin de la regresióónn
La regresión para predecir y a partir de x será buena idea si:
1. La relación entre x e y es lineal
1.1 Gráfico xy1.2 Gráfico de predicciones vs observaciones1.3 Gráfico de residuos vs valores previstos
1.2 Gráfico de predicciones frente a observaciones
Cardata.sf: queremos explicar mpg(millas por galón) en función del peso
(weight)
Parqueeolico.sf3: queremos explicar la energía generada en función de la
velocidad del viento)
Hay linealidad
No hay linealidad
Informática. Universidad Carlos III de Madrid 31
EvaluaciEvaluacióón de la regresin de la regresióónn
1.3 Gráfico de residuos frente a valores previstos
Es la representación gráfica más importante para evaluar una regresión
Valores observados
Valores previstos
Informática. Universidad Carlos III de Madrid 32
EvaluaciEvaluacióón de la regresin de la regresióónn
1.3 Gráfico de residuos frente a valores previstos
Es la representación gráfica más importante para evaluar una regresión
Energia-PREDICCION
Valores previstos
Informática. Universidad Carlos III de Madrid 33
Energia-PREDICCION
Valores previstos
La no linealidad es muy clara. La regresión no es adecuada.
Informática. Universidad Carlos III de Madrid 34
2 1ˆ 0.657 1.045V V= + ×
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas
Estos residuos no muestran ninguna
estructura evidente. Es señal de que el modelo
lineal es adecuado
Informática. Universidad Carlos III de Madrid 35
Estos gráficos de residuos SÍ son aceptables
Estos gráficos de residuos NO son aceptables
Informática. Universidad Carlos III de Madrid 36
Algunos tipos de no linealidades se pueden corregir transformando la variable
Esta curva es la que nos gustaría usar como
resumen de la relación…… Pero la técnica de regresión simple sólo nos proporciona
este tipo de soluciones
Buscamos otras variables y*=f(y) , x*=g(x) tales
que entre ellas haya relación lineal
x
Y
37
Buscamos una transformación que ‘enderece’ la nube
de puntos
Si c<1, los valores más grandes se comprimen más. En este caso, aplicado sobre
X ‘enderezamos’ la curvatura.
Si c>1, el efecto es el opuesto: los valores más grandes se
expanden más. En este caso, aplicado sobre Y también
‘enderezamos’ la curvatura.
y=a+bxc
yc=a+bx
y=a+bxc
c=0.9 insuficiente c=0.5 ¡perfecto! c=0.1 nos hemos pasado!!
y y y
x0.9 x0.5 x0.1
38
X
Y
•Cómo quedaría la nube de puntos si hacemos y2? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos x2? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos y0.5? (asumiendo que son positivos)
•Cómo quedaría la nube de puntos si hacemos log(y)? (asumiendo que son positivos)
Informática. Universidad Carlos III de Madrid 39
EvaluaciEvaluacióón de la regresin de la regresióónn
La regresión para predecir y a partir de x será buena idea si:
1. La relación entre x e y es lineal2. La relación es fuerte (alta correlación)
Gráficos
Correlación y Coeficiente de
determinación R2
• Entre 0 y 1
•
•El coeficiente de determinación nos dice qué proporción de la dispersión de la variable respuesta y viene explicada por la recta de la regresión