econometría aplicada - víctor medina · repaso: distribuciones(antesdeseguirconinferencia)...

38
Econometría Aplicada Econometría Aplicada Inferencia estadística, bondad de ajuste y predicción Víctor Medina

Upload: vocong

Post on 28-Sep-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Econometría Aplicada

Econometría AplicadaInferencia estadística, bondad de ajuste y predicción

Víctor Medina

Econometría AplicadaIntervalos de confianza

Intervalos de confianza

Econometría AplicadaIntervalos de confianza

Intervalos de confianza

La pregunta que intentamos responder es en qué intervalo de valores esprobable (a un cierto nivel de confianza) que el coeficiente βj esté contenido.

Estimación del intervalo para un coeficienteSi consideramos un intervalo de confianza al 100(1− α)%, entonces laexpresión que debe cumplir nuestra variable aleatoria t es

P (−tc1 < t < tc2) = 100(1− α)%

Luego si consideramos α = 5% y que la distribución tN−K es simétrica,entonces tc1 = tc2 = t1−5%/2,N−K

I Obs. tc queda definido por los grados de libertad m = N −K y por elnivel de confianza α, no depende del coeficiente βj !

Econometría AplicadaIntervalos de confianza

Recordando la distribución t-student

Econometría AplicadaIntervalos de confianza

Estimación del intervalo para un coeficienteI Entonces el intervalo para βj queda definido por

100(1− α)% = P (−tc < t < tc)

= P (−t1−α/2,N−K <βj − βjse(βj)

< t1−α/2,N−K)

= P (−t1−α/2,N−Kse(βj) < βj − βj < t1−α/2,N−Kse(βj))

= P (t1−α/2,N−Kse(βj) > βj − βj > −t1−α/2,N−Kse(βj))

= P (βj + t1−α/2,N−Kse(βj) > βj > βj − t1−α/2,N−Kse(βj))

I Es decir, con 100(1− α)% de confianza,

βj ∈(βj − t1−α/2,N−Kse(βj), βj + t1−α/2,N−Kse(βj)

)

Econometría AplicadaIntervalos de confianza

Ejemplo en Stata. . . identificando el intervalo de confianza(t0.975,72 ≈ 1.993).

Econometría AplicadaIntervalos de confianza

Estimación del intervalor para una combinación lineal de coeficientesEl resultado que recién presentamos se puede extender para una combinaciónlineal de los coeficientes.

I Supongamos que queremos estimar

λ = c1β1 + c2β2 + ...+ cKβK =K∑j=1

cjβj

Luego,

t = λ− λse(λ)

=∑

cj βj −∑

cjβj

se(∑

cj βj)∼ tN−K

Econometría AplicadaIntervalos de confianza

Aplicación: Si se quiere incrementar el gasto en publicidad en 800.000 pesosy bajar el precio en 400 pesos, entonces el cambio esperado en las ventas son

λ = E(V entas1)− E(V entas0)= ∆2β2 + ∆3β3

= −400β2 + 0.8β3

Y el gerente quiere estimar el incremento y un intervalo de confianza al 90%I Sabemos que el cambio estimado es

λ = −400β2 + 0.8β3 = −400 · (−0.0079079) + 0.8 · 1.862584 = 4.653227

I El valor de tc = t0.95,72 = 1.666, luego el intervalo es(λ− tcse(λ), λ+ tcse(λ)

)I Es decir

se(λ) = se(−400β2 + 0.8β3)

=√var(−400β2) + var(0.8β3) + 2cov(−400β2, 0.8β3)

=?

millones

Econometría AplicadaIntervalos de confianza

se(λ) = se(−400β2 + 0.8β3)

=√var(−400β2) + var(0.8β3) + 2cov(−400β2, 0.8β3)

=√

4002 · 1.201e−6 + 0.82 · 0.46675603 + 2 · 400 · 0.8 · 0.00001974= 0.7095896

Entonces, con un nivel del 90% decimos que el incremento en precio seráλ ∈ (4.653227− 1.666 · 0.7095896, 4.653227 + 1.666 · 0.7095896) =(3.471051, 5.835403)

Econometría AplicadaTest de hipótesis

Test de hipótesis

Econometría AplicadaTest de hipótesis

Test de hipótesis

Básicamente los pasos de un test de hipótesis son

1. Determinar la hipótesis nula y la alternativa2. Especificar el test estadístico y su distribución si la hipótesis nula es

verdadera3. Seleccionar α y determinar la región de rechazo4. Calcular el valor del estadístico y, si se desea, el p-valor5. Concluír

Test de significancia de un coeficienteCuando construimos nuestro modelo de regresión múltiple (o simple), lohacemos creyendo que las variables explicaticas influencian la variable y.Para confirmar esta creencia, nos preguntamos si la data nos provee deevidencia suficiente.

Econometría AplicadaTest de hipótesis

Test de significancia de un coeficiente (dos colas)

I Luego, para averiguar si la variable xj se relaciona con y, testeamos lahipótesis nula

H0 : βj = c

(en particular podemos pensar que c = 0)

versus la hipótesis alternativa

H1 : βj 6= c

Para realizar el test, hacemos uso del estadístico que, si H0 es cierta, entonces

t = βj − βj√var(βj)

= βj − cse(βj)

∼ t(N−K)

En particular, si c = 0

t = βj

se(βj)∼ t(N−K)

Econometría AplicadaTest de hipótesis

Test de significancia de un coeficiente (dos colas)(Recuerde que podemos generalizar H0 : βk = c con c cualquier valor, enparticular 0)

Econometría AplicadaTest de hipótesis

Test de significancia de un coeficiente (una cola y > c)En caso de que queramos testear si el coeficiente es mayor a una constante c,entonces cambiamos nuestro planteamiento a

H0 : βj = c

versus la hipótesis alternativa

H1 : βj > c

Es decir, si nuestro estadístico t = βj−cse(βj) es mayor a nuestro valor crítico tc,

entonces rechazamos H0

Econometría AplicadaTest de hipótesis

Test de significancia de un coeficiente (una cola y > c)

Econometría AplicadaTest de hipótesis

Test de significancia de un coeficiente (una cola y < c)Para el caso que queramos testear que el coeficiente es menor a unaconstante c, tenemos

H0 : βj = c

versus la hipótesis alternativa

H1 : βj < c

Es decir, si nuestro estadístico t = βj−cse(βj) es menor a nuestro valor crítico tc,

entonces rechazamos H0

Econometría AplicadaTest de hipótesis

Test de significancia de un coeficiente (una cola y < c)

Econometría AplicadaTest de hipótesis

Test de significancia de una combinación lineal de coeficientesSiguiendo con nuestro ejemplo de Mcdonalds. . . el gerente de marketing nosasegura que una disminución en 200 pesos del índice de precio es másefectivo en el aumento de las ventas versus incrementar el gasto enpublicidad en 500.000 pesos.Es decir, nos dice que −200 · β2 > 0.5 · β3.

I Usted no acepta esta preposición a menos que se pueda verificar con ladata.

I Sabe que el cambio estimado en ventas por efecto de la disminución enprecio es −200 · (−0.0079079) = 1.58158 y por efecto de publicidad0.5 · 1.862584 = 0.931292, es decir, el gerente de mkt parece estar en locorrecto.

I Luego lo que queremos testear es

H0 : −200β2 − 0.5β3 ≤ 0

versusH1 : −200β2 − 0.5β3 > 0

Econometría AplicadaTest de hipótesis

Test de significancia de una combinación lineal de coeficientesAsumiendo que la igualdad en H0 se cumple, el estadístico t bajo la hipótesisnula es

t = −200 · β2 − 0.5 · β3

se(−200 · β2 − 0.5 · β3)∼ t72

El valor crítico a un nivel de significancia del 5% es t0.95,72 = 1.666, luegorechazamos H0 si t ≥ 1.666 (o equivalentemente p-valor< 0.05)

I Para encontrar el estadístico t, debemos calcular se(−200 · β2 − 0.5 · β3),reemplazando los valores obtenidos anteriormente, tenemos quese(−200 · β2 − 0.5 · β3) ≈ 0.408

I Luego t = 200·0.0079079−0.5·1.8625840.408 = 1.593843

I Como 1.594<1.666, entonces no existe evidencia suficiente comopara rechazar H0

I Es decir, estadísticamente no podemos estar de acuerdo con laafirmación del gerente.

Econometría AplicadaBondad de ajuste

Bondad de ajuste

Econometría AplicadaBondad de ajuste

Bondad de ajuste

Considerando el modelo yi = β1 + β2xi2 + ...+ βKxiK + ei, notamos quepodemos escribirlo como

yi = yi + ei

con yi = β1 + β2xi2 + ...+ βKxiK y ei = yi − yi, luego

yi − y = (yi − y) + ei ⇒ (yi − y)2 = (yi − y)2 + e2i + 2(yi − y)ei

Y sumando para todas las observaciones de la muestra tenemos que1

N∑i=1

(yi − y)2 =N∑i=1

(yi − y)2 +N∑i=1

e2i

I Se define la suma de cuadrados totales SST =∑N

i=1(yi − y)2

I La suma de cuadrados de la regresión SSR =∑N

i=1(yi − y)2

I Suma de los cuadrados de los residuos SSE =∑N

i=1 e2i

1Como ejercicio queda demostrar que∑N

i=1(yi − y)ei = 0. Hint: utilizar sistema de

ecuaciones para los estimadores MC.

Econometría AplicadaBondad de ajuste

Bondad de ajusteLuego tenemos SST = SSR+ SSE y se define el coeficiente dedeterminación R2

R2 = SSR

SST=∑N

i=1(yi − y)2∑N

i=1(yi − y)2

= 1− SSE

SST= 1−

∑N

i=1 e2i∑N

i=1(yi − y)2

Como se observa R2 es una medida entre la variación de la regresión (o elmodelo con todas sus variables explicativas) versus la variación total de lavariable dependiente. En otras palabras, R2 cuantifica la cantidad devariación de la variable dependiente que es explicada por el modelo.

I R2 puede tomar valores entre 0 y 1.I Valor de R2 cercanos a 1, nos dice que la variación de la variable

dependiente es explicada en gran medida por las variaciones en lasvariables explicativas.

I Valores cercanos a 0, nos dice que la variación del modelo explica pocola variación de la variable dependiente.

Econometría AplicadaBondad de ajuste

Bondad de ajuste

Gráficamente para el caso K = 2

Econometría AplicadaRepaso: Distribuciones (antes de seguir con inferencia)

Repaso: Distribuciones (antes de seguir con inferencia)

Econometría AplicadaRepaso: Distribuciones (antes de seguir con inferencia)

Repaso: Distribuciones (antes de seguir con inferencia)

Distribución normal y normal estándarSi x ∼ N(µ, σ2), luego haciendo la transformación z = x−µ

σimplica que

z ∼ N(0, 1)

Distribución χ2

Si z ∼ N(0, 1), entonces z2 ∼ χ21. Por otra parte, si tenemos n distribuciones

independientes xi ∼ χ21, entonces

n∑i=1

xi ∼ χ2n

Distribución t-studentSi z ∼ N(0, 1) y x ∼ χ2

n y son independientes, entoncesz√x/n

∼ tn

Econometría AplicadaRepaso: Distribuciones (antes de seguir con inferencia)

DistribucionesDistribución F de FisherSi x ∼ χ2

n (chi-cuadrado grado n) e y ∼ χ2m (chi-cuadrado grado m) y son

independientes, entoncesx/n

y/m∼ Fn,m

0 1 2 3 4 5

0.0

0.4

0.8

1.2

x

Den

sida

d

F de Fisher (df1,df2)

(1,30)(3,30)(8,30)(20,30)(1,1)

Econometría AplicadaInferencia (continuación)

Inferencia (continuación)

Econometría AplicadaInferencia (continuación)

Test de hipótesis

Hasta ahora, tenemosI Un coeficiente

I Dos colasI Una cola

I Combinación lineal de coeficientesI Grupo de variables (hipótesis conjunta)

Test de hipótesis conjunta (F-test)El interés es testear si un conjunto de coeficientes {βj}j∈{2,...,K} son o noestadísticamente significativos para el modelo.La motivación del test es que si comparamos el modelo completo (con lasK − 1 variables explicativas) versus un modelo reducido (por ejemplo, conR− 1 variables explicativas) y medimos el aumento de sus errores alcuadrado, testeamos si esa diferencia responde a una cantidad significativa.

Econometría AplicadaInferencia (continuación)

Test de hipótesis conjunta (F-test)

H0 : βR+1 = 0 y βR+2 = 0 . . . y βK = 0

H1 : βR+1 6= 0 o βR+2 6= 0 . . . o βK 6= 0

I Modelo sin restricción (U): y = β1 + β2x2 + · · ·+ βKxKI Modelo con restricción (R): y = β1 + β2x2 + · · ·+ βRxR (quitamosK −R variables)2

Luego, se calcula para cada modelo la suma de los cuadrados de sus residuos,es decir, SSEU y SSER (note que este último siempre es mayor o igual alprimero). Y se crea el estadístico

F = (SSER − SSEU )/(K −R)SSEU/(N −K) ∼ F(K−R,N−K)

2Sin pérdida de generalidad se quitaron las últimas K − R variables, pero tengapresente que puede ser cualquier combinación posible.

Econometría AplicadaInferencia (continuación)

Test de hipótesis conjunta (F-test)

En el caso que queramos testear la significancia del modelo completo, es decir,si todos los β’s son cero versus al menos uno es distinto de cero, entonces3

H0 : β2 = 0 y β3 = 0 . . . y βK = 0

H1 : β2 6= 0 o β3 6= 0 . . . o βK 6= 0

I Modelo sin restricción (U): y = β1 + β2x2 + · · ·+ βKxKI Modelo con restricción (R): y = β1 (implica que β1 = y, es decir,SSER =

∑N

i=1(yi − yi) =∑N

i=1(yi − y) = SST )

F = (SST − SSE)/(K − 1)SSE/(N −K) ∼ F(K−1,N−K)

Este es el test que realizan los softwares estadísticos por defecto.

3Que es equivalente a considerar que R = 1

Econometría AplicadaEjemplo en Stata, desde cero.

Ejemplo en Stata, desde cero.

Econometría AplicadaPredicción

Predicción

Econometría AplicadaPredicción

Predicción

I La predicción es una de las herramienta mas utilizada en econometría,ya que intenta predecir un valor futuro (series de tiempo) o un valorpara un individuo que no pertenecía a la muestra (data transversal)

I Se puede efectuar para un valor puntual y0 o bien para el valor esperadoE(y0)

Valor puntualSupongamos

I El modelo y = β1 + β2x2 + · · ·+ βKxK + e (equivalente a y = Xβ + e)y su respectiva estimación E(y) = y = β1 + β2x2 + · · ·+ βKxK(equivalente a E(y) = Xβ)

I Queremos predecir el valor y0 asociados a un vector de regresores x0icon i = 2, . . . ,K

Econometría AplicadaPredicción

Valor puntualPara predecir el valor de y0 consideramos que se rige bajo el mismo modeloy0 = β1 + β2x02 + · · ·+ βKx0K + e0, luego la estimación MCO seríay0 = xt0β, por lo tanto el error de predicción es

u0 = y0 − y0 = xt0(β − β) + e0

Que tieneI Error de estimación del vector βI Error estocástico inherente al modelo e0

Si se conservan los supuestos del modelo de regresion lineal, entonces el valoresperado del error de predicción es cero, luego

var(u0) = E(u20) = E(xt0(β − β)(β − β)tx0 + 2xt0(β − β)e0 + e2

0)= σ2 + σ2xt0(XtX)−1x0

Econometría AplicadaPredicción

Predicción de un valor puntualI Luego, bajo supuestos de normalidad del error e0, el error de predicciónu0 es una combinación lineal de dos variables normales y por lo tantotambien distribuye bajo una normal N(0, σ2

u)I Vemos que su varianza σ2

u depende de σ2 (desconocido), de los valoresxt0 (conocidos) y de X (conocidos).

I Razones análogas a las ya vistas tenemos que

y0 − y0√σ2(1 + xt0(XtX)−1x0)

∼ N(0, 1)⇒ y0 − y0√σ2(1 + xt0(XtX)−1x0)

∼ tN−K

Entonces podemos construir un intervalo de confianza para el valorfuturo y0 a un nivel α

y0 ∈ [y0 − t1−α/2,N−Kse(u0), y0 + t1−α/2,N−Kse(u0)]

Econometría AplicadaPredicción

Predicción de un valor medioSupongamos ahora que estamos interesados en estimar el valor esperadoE(y0) = xt0β.

I La predicción, al igual que en el caso anterior, será y0 = xt0βI La diferencia es que el error de predicción ahora está dado por

u∗0 = E(y0)− y0 = xt0(β − β)

I Luego la varianza es var(u∗0) = xt0var(β − β)x0 = σ2xt0(XtX)−1x0I Por lo tanto, tenemos que E(y0) a un nivel α

E(y0) ∈ [y0 − t1−α/2,N−Kse(u∗0), y0 + t1−α/2,N−Kse(u∗0)]

Econometría AplicadaPredicción

Ejemplo predicciónConsideremos la versión sencilla del ingreso vs. la escolaridad dada por

ingresoi = −0.0144 + 0.724Escolaridadi

Donde∑

x2i = 2054, N = 13, x = 12, σ2 = 0.8936. Queremos estimar la

predicción media y puntual de x0 = 20, es decir,

y0 = −0.0144 + 0.724 · 20 = 14.4656

Es fácil derivar una expresión para la varianza del error de predicción en elcaso univariado

I var(u0) = σ2 + σ2xt0(XtX)−1x0 = σ2[1 + 1N

+ (x0−x)2

(∑

x2i−Nx2)

]I var(u∗0) = σ2xt0(XtX)−1x0 = σ2[ 1

N+ (x0−x)2

(∑

x2i−Nx2)

]Luego, reemplazando tenemos

I var(u0) = 0.8936[1 + 1

13 + (20−12)2

182

]= 1.2762

I var(u∗0) = 0.8936[

113 + (20−12)2

182

]= 0.3826

Y t0.975,11 = 2.2, luego

Econometría AplicadaPredicción

Gráficamente

Los intervalos de confianza de la predicción