introducción - unam · series de tiempo cnsf - iimas unam introducción ... grá cos para saber...

Series de tiempo CNSF - IIMAS UNAM

Introducción

Una primera denición de serie de tiempo es: un conjunto de observaciones de cierto fenómeno registradassecuencialmente en el tiempo. Estas observaciones serán denotadas por xt1 , xt2 , . . . , xtn = xti : i ∈ T =xtii∈T donde la notación, xti , es el valor de la variable x en el instante ti . Y T es un conjunto de índices quepuede ser un intervalo o T = N, T = Z ó T = R.

Si el conjunto de índices T es numerable, diremos que la serie es a tiempo discreto, mientras que si el conjuntode índices es un conjunto no numerable (por ejemplo T = R), dirémos que la serie de tiempo es continua. A lolargo del curso trabajarémos con procesos a tiempo discreto.

Cuando tomamos cualquier par de índices consecutivos del conjunto, ti+1, ti ∈ T y su diferencia es una constante,ti+1 − ti = k, se dice que la serie es equiespaciada. En adelante trabajarémos con el supuesto de que tenemosseries de tiempo discreta, equiespaciadas en cuyo caso asumiremos sin perdida de generalidad que:

xt1 , xt2 , . . . , xtn = x1, x2, . . . , xn= xini=1 .

Objetivo de este curso en primer lugar será

Descripción Con la información que nos da una serie de tiempo observada usaremos métodos descriptivos ygrácos para saber como está conformada la serie y ver si existen datos atípicos.

Explicación En este paso buscaremos un modelo del cual podamos decir que nuestra serie observada es unarealización de ese modelo.

Predicción Una vez que podamos asumir que nuestra serie observada es una realización de un modelo buscare-mos hacer predicción de valores futuros a partir de los datos del presente y el pasado.

Ejemplos de Series de tiempo

Series económicas: Precios de divisas, tasas, índice de precios

Series Físicas: Meteorológica, temperatura, energia solar

Series de telecomunicacion: Análisis y procesamiento de señales

El primer paso en el análisis de series de tiempo, consiste en gracar la serie. A continuación gracaremos lassiguientes series

1


Time

uspo

p

1800 1850 1900 1950

050

100

150

200

Time

US

Acc

Dea

ths

1973 1975 1977 1979

7000

9000

1100

0

Time

suns

pot.y

ear

1700 1800 1900

050

100

150

Time

John

sonJ

ohns

on

1960 1965 1970 1975 1980

05

1015

1. uspop Esta serie de tiempo muestra los censos de la población de los E.U. realizados cada 10 años, de 1790a 1970. Esta serie parece tener un tener un tendencia al menos cuadrática. No parece tener una parteestacional (cíclica).

2. USAccDeaths Representa el total de muertes accidentales mensuales entre los años 1973 a 1978. Esta serieparece tener un comportamiento estacional cada año (un periodo de 12)

3. sunspot.year Muestra el número anual de manchas solares de 1700 a 1988. Esta serie muestra un compor-tamiento estacional, pero aquí no claro el periodo en el cual se repide el cíclo como en la serie anterior.

4. JohnsonJohnson son las ganancias trimestrales de la compañía Johnson & Johnson de 1960-80. Esta serietiene tanto una parte cíclica (con periodo 3) y como una tendencia no lineal.

5. AirPassengers captura el total mensual de los pasajeros de líneas aéreas internacionales de 1949 a 1960.Como en la serie anterior podemos ver que esta serie tiene tendencia no lineal y una parte cíclica de periodo12.

2


Time

AirP

asse

nger

s

1950 1952 1954 1956 1958 1960

100

200

300

400

500

600

La inspeción gráca puede sugerir la posibilidad de representar los datos como una realización de un procesoque puede tener todas o alguna de las siguientes componentes:

Xt = f (mt, st, Yt) =

mt + st + Yt modelo aditivo

mt · st · Yt modelo multiplicativo,

donde

mt es la componente de tendencia,

st es el componente estacional de periodo d, donde st = st+d = st+2d = . . .

Yt es el componente aleatorio.

Es claro que un modelo multiplicativo Xt = mt · st · Yt lo podemos llevar a un modelo multiplicativo, siempreque Xt > 0, al tomar logaritmo, X ′t = log (Xt) = log (mt · st · Yt) = log (mt) + log (st) + log (Yt) = m′t + s′t + Y ′t .Este tipo de trasnformaciones son utiles para linealizar los datos y reducir la varianza de la serie de tiempo. Unejemplo de esto son las series, JohnsonJohnson y AirPassengers.

Análisis descriptivo

A continuación veremos algunos métodos que se han propuesto para identicar y describir las componentes detendencia mt y la parte estacional o cíclica st de la serie de tiempo.

Primero estudiaremos tres métodos para estimar la tendencia de una serie de tiempo de la forma

Xt = mt + Yt, o Xt = mt + st + Yt

3


Método 1

Si tenemos una serie que tiene solo una parte de tendencia Xt = mt + Yt, como por ejemplo la serie uspop. Unamanera de estimar de mt sería vía mínimos cuadrádos. Es decir, procederemos a estimar la tendencia de entreuna familia de funciones de la forma

mt = a0 + a1t+ a2t2,

y escogeremos los a0, a1 y a2 que minimizen∑t (Xt −mt)

2.

Y así obtener

mt = a0 + a1t+ a2t2.

Una vez estima da la tendencia podemos estimar la parte aleatoria de la siguiente manera

Yt = Xt − mt, t ∈ 1, . . . , n .

Método 2

Suavizamineto de la media vía un promedios moviles.

Sea q un entero no negativo y considederemos el promedio movil de dos lados como

mt =

q∑j=−q

ajXt+j , para t ∈ q + 1, q + 2, . . . , n− q ,

donde

q∑j=−q

aj = 1.

Un caso particular de este tipo de ajuste de la tendencia es si suponemos que aj = 12q+1 , es decir

mt =1

2q + 1

q∑−qXt+j , t ∈ q + 1, q + 2, . . . , n− q .

Notemos que hay 2q + 1 sumandos, por lo tanto,∑q−q

12q+1 = 1.

Antes de describir el último método introduzcamos los operadores retraso y diferencia.

El operador retraso, denotado por B, actua sobre el tiempo de la siguiente manera

BXt = Xt−1

B2Xt = B (BXt) = BXt−1 = Xt−2

...

BjXt = Xt−j .

Denamos a B0Xt = Xt.

4


A partir del operador retraso denimos el operador diferencia como

∇Xt = (1−B)Xt = Xt −Xt−1.

Entonces el operador diferencia lo podemos manipular como si fuera un polinomio común y corriente es decir

∇2Xt = (1−B) (1−B)Xt =(1− 2B +B2

)Xt = Xt − 2Xt−1 +Xt−2.

Y por lo tanto si deseamos diferenciar Xt la serie j veces tenemos que

∇jXt = (1−B)jXt

=

j∑k=0

(j

k

)(−1)

kBkXt

=

n∑k=0

(j

k

)(−1)

kXt−k.

Método 3

Cuando la serie de tiempo Xt tiene una tendencia lineal, mt = at+b, entonces al aplicar un el operador diferencia∇ obtenemos ∇mt = a.

De la misma forma, si nosotros tenemos una serie de tiempo Xt = mt + Yt donde la tendenca es polinomial de

grado k, mt =

k∑j=0

ajtj , entonces al aplicar el operador diferencia a la tendencia tenemos que ∇kmt = k!ak y

por lo tanto tenemos que

∇kXt = k!ak +∇kYt.

Lo que pretendemos ahora es quitar la tendencia y la parte estacional en un modelo general

Xt = mt + st + Yt

donde E [Yt] = 0, st = st+d y∑dj=1 sj = 0

Metodo S1

Para ilustrar este método usemos la serie de muertes accidentales USAccDeaths, y cambiemos la notaciónde la serie de tiempo x1, x2, . . . , xn por los sub índices xj,k, donde j ∈ 1, 2, . . . , 6 representa los años yk = 1, . . . , 12 representa los meses y claramente el periodo es d = 12

Para este método calculemos la tendencia anual que cambia suavemente como

mj =1

12

12∑k=1

xj,k.

5


Mientras que la parte estacional la calcularemos como

sk =1

6

6∑j=1

(xj,k − mj) .

Por último, calculamos la parte aleatoria como

Yj,k = xj,k − mj − sk,

para j ∈ 1, 2, . . . , 6 y k = 1, . . . , 12Lo que pretendemos ahora es quitar la tendenciay la parte estacional

Xt = mt + st + Yt

donde E [Yt] = 0, st = st+d y∑dj=1 sj = 0

Método S2

Supongamos que tenemos una serie observada x1, . . . , xn,

1. Primero vamos a identicar el periodo de la parte estacional, si la serie es mensual y cada año se repiteun tipo de comportamiento tenemos que d = 12, si es una serie cuatrimestral entonces d = 3. Ademássupongamos que la serie x1, . . . , xn tiene k ciclos, es decir que n = kd.

2. Vamos a estimar la tendencia de la serie x1, . . . , xn vía un promedio movil.

(a) Si d es par entonce la ventana del promedio hacia atras y hacia delante la determinamos por d = 2q

mt =0.5xt−q + xt−q+1 + . . .+ xt+q−1 + 0.5xt+q

d, q + 1 < t ≤ n− q.

(b) Si d es impar, la ventana hacia atras y hacia delante la determinamos por d = 2q + 1 y la tendenciala calculamos como

mt =xt−q + . . .+ xt + . . .+ xt+q

d, q + 1 < t ≤ n− q.

3. A la serie original le quitamos la parte de la tendencia

zt = xt − mt, para q + 1 < t ≤ n− q.

4. Con la serie auxiliar zt vamos a crear un ciclo promedio que estimará de la parte estacional, es decir,calcularemos, wk con k ∈ 1, . . . , d, igual que como lo hicimos en el método S1,

5.

zq+1 zq+2 zq+3 . . . zq+1+d

zq+2+d zq+3+d zq+4+d . . . zq+1+2d

zq+2+2d zq+3+2d zq+4+2d . . . zq+1+3d

......

......

zn−q−d+1 zn−q−d+2 zn−q−d+3 . . . zn−q↓promedio ↓promedio ↓promedio ↓promedio

w1 w2 w3 wd

6


6. Para que se cumpla con la condición de que

d∑k=1

sk = 0, ajustamos el ciclo obtenido en la serie wj12j=1 de

la siguiente forma

sk = wk −

d∑i=1

wi

d, k ∈ 1, . . . , d

Ojo si la serie es anual entonces s1 representa el ciclo promedio en julio, s7 representa el ciclo promedio enenero, entonces conviene reordenar el arreglo de la siguente forma V ecciclo = (s7, s8, . . . , s12, s1, s2, . . . , s6).

7. Ahora vamos a repetir el vector V ecciclo, tantos ciclos tengamos St =

V ecciclo, . . . , V ecciclo︸︷︷︸k veces

.

8. Podemos calcular la parte aleatoria como

yt = zt − St, para q + 1 < t ≤ n− q.

7000

8000

9000

1100

0

obse

rved

8400

8800

9200

9600

tren

d−

1500

−50

00

500

1500

seas

onal

−40

00

200

400

600

1973 1974 1975 1976 1977 1978 1979

rand

om

Time

Decomposition of additive time series

7


Método S3

El método de diferenciación puede ser adaptado cuando existe una parte ciclica de periodo d. Introduzcamos lasiguiente notación

∇dXt =(1−Bd

)Xt = Xt −Xt−d

Ahora aplicando ∇d a Xt = mt + st + Yt tenemos que

∇dXt =(1−Bd

)Xt

= (mt + st + Yt)− (mt−d + st−d + Yt−d)

= (mt −mt−d) + (Yt − Yt−d) .

para ∇dXt notamos que (mt −mt−d) es el componente de tendencia y (Yt−d − Yt−d) es el componente aleatorio.Entonces podemos eliminar la tendencia usando algúna podencia del operador diferencia simple ∇.

Modelo probabílistico de las series de tiempo

Procesos Estocásticos

Un procesos estocásticos es una sucesión de variables aleatorias que evolucionan en función de otra variable,generalmente el tiempo. Cada una de las variables aleatorias del proceso tiene su propia función de distribuciónde probabilidad y entre las variables aleatorias, pueden estar correlacionadas o no. Una serie de tiempo de n datosla pensaremos como una muestra extraída (una realización) de un vector de n variables aleatorias (Xt1 , . . . , Xtn)que forman parte de un proceso estocástico.

Denición

Un proceso estocástico es una colección de variables aleatorias Xtt∈T indexadas a un conjunto de índices Tdenida sobre el mismo espacio de probabilidad (Ω,A, P ) y toma valores en (R,B (R)).

Donde T es el conjunto de indices y en nuestro caso será N ∪ 0 o Z.

Un proceso estocástico lo podemos pensar como una aplicación de dos argumentos

X : T × Ω → R(t, ω) → X (t, ω) = Xt (ω) .

Si dejamos jo a t y dejamos variar ω ∈ Ω entonces tenemos una variable aleatoria denida en (Ω,A, P )y toma valores en (R,B (R)).

Si dejamos jo a ω y dejamos variar t ∈ T entonces tenemos una trayectoria o realización del procesoasociada a ω.

8


Llamaremos función de medias del proceso Xtt∈T a la aplicación

t ∈ T → µt = E [Xt] .

Llamaremos función de varianzas del proceso Xtt∈T a la aplicación

t ∈ T → σ2t = V ar [Xt] = E

[(Xt − µt)2

].

La estructura de dependencia lineal entre las variables aleatorias del proceso se representa mediante las funcionesde covarianza y correlación, siempre y cuando los momentos de orden uno y dos existan.

Llamaremos función de autocovarianzas del proceso Xtt∈T a la aplicación

(t1, t2) ∈ T × T → γt1,t2 = Cov (Xt1 , Xt2) = E [(Xt1 − µt1) (Xt2 − µt2)] .

Llamaremos función de autocorrelación del proceso Xtt∈T a la aplicación

(t1, t2) ∈ T × T → ρt1,t2 = Cor (Xt1 , Xt2) =γt1,t2√σ2t1σ

2t2

.

Procesos Estacionarios

Denición

Diremos que Xtt∈T es un proceso estrictamente estacionario si para cualquier τ > 0, n ≥ 1 y ti, ti+τ ∈ T ,i ∈ 1, . . . , n, entonces (Xt1 , . . . , Xtn) y (Xt1+τ , . . . , Xtn+τ ) tiene la misma distribución conjunta, es decir

Ft1,t2,...,tn(a1, a2 . . . , an) = P(Xt1 ≤ a1, Xt2 ≤ a2, . . . , Xtn ≤ an)

= P(Xt1+τ ≤ a1, Xt2+τ ≤ a2, . . . , Xtn+τ ≤ an)

= Ft1+τ,t2+τ,...,tn+τ (a1, a2, . . . , an).

Un ejemplo de un proceso estrictamente estacionario es una muestra aleatoria.

Denición

Diremos que Xtt∈T es un proceso estacionario de primer orden o en media si la función de medias esconstante, es decir, µt no depende de t, es decir

E (Xt1) = µt = k, una constante ∀ t ∈ T.

Denición

Diremos que Xt es un proceso débilmente estacionario o estacionario de segundo orden si ∀n ≥ 1, ∀t1, t2, . . . tn ∈ T y ∀τ ∈ T tal que ∀t1 + τ, t2 + τ, . . . tn + τ ∈ T , los momentos de orden 1 y2 del vector (Xt1 , Xt2 , . . . Xtn) son iguales a los correspondientes momentos de orden 1 y 2 del vector(Xt1+τ , Xt2+τ , . . . Xtn+τ ), es decir

E(Xr1t1 ·X

r2t2 · . . . ·X

rntn

)= E

(Xr1t1+τ ·X

r2t2+τ · . . . ·X

rntn+τ

),

con ri ∈ 0, 1, 2 y∑ni=1 ri ≤ 2.

9


Observación

Un proceso estrictamente estacionario + momentos de segundo orden nitos implica tener un proceso estacinariode segundo orden.

Otra manera de decir lo anterior es la siguiente

Denición

Diremos que Xtt∈T es un proceso estacionario de segundo orden o débilmente estacionario si

1. La función de medias es constante (estacionario en media),

2. La función de autocovarianzas tiene la propiedad de que γt,t+h es independiente de t para cada h, es decirque γs,t = γs+h,t+h para todo s, t, s+ h, t+ h ∈ T .

La condición 2, quiere decir que Cov (Xs, Xt), sólo depende de la distancia en el tiempo entre estas, |s− t|.

Por lo tanto la funciones de autocovarianza y de autocorrelación de un proceso estacionario son denotadas porγh = γt,t+h y ρh = γh

γ0respectivamente.

Propiedades de las funciones de autocovarianzas y autocorrelación

γ0 ≥ 0

Las funciones de autocovarianza y autocorrelación son simétricas con respecto al cero, es decir Cov (Xt, Xt+h) =Cov (Xt, Xt−h), y ρh = ρ−h.

ρ0 = 1

|ρh| ≤ 1

Estimación de las funciones de momentos de procesos estacionarios

La estimación de la media de X1, . . . , Xn es

Xn =1

n

n∑t=1

Xt,

y es un estimador insesgado.

La función de autocovarianza muestral o estimada es

γh =1

n

n−h∑t=1

(Xt+h − Xn

) (Xt − Xn

), 0 ≤ h ≤ n− 1.

La función de autocorrelación muestral o estimada es

ρh =γhγ0, 0 ≤ h ≤ n− 1.

10


Denición

Un proceso de ruido blanco denotoado por εtt∈T , es un proceso estocástico formado por variables aleatoriasno correlacionadas de media cero y varianza constante σ2

ε

Por lo tanto

γ0 = σ2ε ,

γh = 0 h 6= 0.

y ρh = γhγ0

= 0 para h 6= 0.

TeoremaSea εtt∈T un proceso de ruido blanco formado por variables independientes y ρ

h= (ρ1, ρ2, . . . , ρh)

′. Entonces

para toda h ≥ 1,

√nρ

h

d→Nh (0, Ih×h) ,

cuando n→∞.

En otras palabras, n grande las ρ1, ρ2, . . . , ρh, h ≥ 1 son aproximadamente v.a.i.i.d. Norm(0, 1

n

).

Usando el resultado anterior podemos contrastar si la serie de tiempo X1, . . . , Xn se a generado a partir de unproceso de ruido blanco. Si la serie fue generada a partir de un proceso de ruido blanco entonces el 95% de lasautocorrelaciones muestrales deberían caer en el intervalo [−1.96/

√n, 1.96/

√n].

Procesos estocásticos lineales.

DeniciónUn proceso estocástico Xtt∈T es un proceso lineal si para todo t ∈ Z se puede representar como

Xt =

∞∑j=−∞

ψjεt−j , (1)

donde εtt∈T es un proceso de ruido blanco y ψj∞j=−∞ es una sucesión de constantes reales absolutamente

sumables∑∞j=−∞ |ψj | <∞.

Una forma de escribir (1) a partir de operadores de retraso es la siguiente;

Xt = ψ (B) εt, donde ψ (B) =

∞∑j=−∞

ψjBj .

Observaciones

En la denición de proceso estocástico lineal se pide que∑∞j=−∞ |ψj | <∞, esto es con el n de garantizar

que Xt tenga primero y segundo momento nito con probabilidad 1.

Para ver que E [Xt] existe∑∞j=−∞ |ψj | < ∞, primero notemos que usando la desigualdad de Jensen para la

función ϕ(x) =√x, tenemos que

11


E [|εt|] = E[√|εt|2

]≤√E [|εt|2] =

√E [ε2t ] = σε.

Entonces

E [|Xt|] = E

| ∞∑j=−∞

ψjεt−j |

≤ E

∞∑j=−∞

|ψj ||εt−j |

=

∞∑j=−∞

|ψj |E [|εt−j |] ≤ σε∞∑

j=−∞|ψj | <∞.

El operador ψ (B) puede ser interpretado como un ltro lineal. En otras palabras el proceso lineal Xtt∈Tes la salida o resultado de aplicarle el lto ψ (B) a la serie de ruido blanco εtt∈T .

Podemos ser un poco más generales si suponemos un proceso lineal Xtt∈T que tiene media µ se puedeexpresar de la forma Xt − µ =

∑∞j=−∞ ψjεt−j .

Veamos un ejemplo de un proceso estocástico lineal. Sea Xtt∈T un proceso estocástico

Xt =φXt−1 + εt, con |φ| < 1.

De manera recursiva podemos escribir la ecuacion anterior como

Xt = φ (φXt−2 + εt−1) + εt = φ2Xt−2 + φεt−1 + εt

= φ2 (φXt−3 + εt−2) + φεt−1 + εt = φ3Xt−3 + φ2εt−2 + φεt−1 + εt...

= φnXt−n + φn−1εt−(n−1) + . . .+ φ2εt−2 + φεt−1 + εt

= limn→∞

φnXt−n +

∞∑j=0

φjεt−j =

∞∑j=0

φjεt−j .

TeoremaSea Ytt∈T un proceso estacionario con media cero, varianza γY (0) = σ2 y función de autocovarianzas γY (h)

para h ≥ 1. Si ψj∞j=−∞ es una serie de reales tales que

∞∑j=−∞

|ψj | <∞ entonces el proceso Xt =

∞∑j=−∞

ψjYt−j

es estacionario con media cero y función de autocovarianzas

γX(h) =

∞∑j=−∞

∞∑k=−∞

ψjψkγY (h− k + j), h ≥ 0.

Demostración. Sea h ≥ 0

12


γX(h) = Cov (Xt, Xt+h) = E (XtXt+h)− 0 = E

∞∑j=−∞

ψjYt−j

∞∑k=−∞

ψkYt+h−k

= E

∞∑j=−∞

∞∑k=−∞

ψjψkYt−jYt+h−k

=

∞∑j=−∞

∞∑k=−∞

ψjψkE (Yt−jYt+h−k)

=

∞∑j=−∞

∞∑k=−∞

ψjψkγY (h− k + j)

Lo que dice el teorema anterior es que la serie que resulta de aplicarle un ltro lineal a una serie estacionaria estambién una serie estacionaria.

CorolarioCon las hipótesis del teorema anterior y ahora suponiendo que Ytt∈T es ruido blanco, la función de autoco-varianzas del proceso estocástico lineal Xt está dado por

γX(h) = σ2∞∑

j=−∞ψjψj+h, h ≥ 0.

Demostración Si Ytt∈T es ruido blanco entonces γY (h) = 0 si h 6= 0, y γY (0) = σ2, entonces de la ecuación

γX(h) =

∞∑j=−∞

∞∑k=−∞

ψjψkγY (h− k + j),

tenemos que γY (h − k + j) = σ2 si sólo si h − k + j = 0 o equivalentemente k = h + j, y sustituyendo k en laecuación anterior

γX(h) =

∞∑j=−∞

ψjψh+jγY (0) = σ2∞∑

j=−∞ψjψh+j

Teorema

Si Xtt∈T es un proceso lineal con media µ, Xt − µ =∑∞j=−∞ ψjεt−j , con

∞∑j=−∞

ψj 6= 0 donde εtt∈T es ruido

blanco entonces

√nXn − µ√

ν

d→ Norm (0, 1) ,

donde ν =

∞∑j=−∞

γh, y γh es el valor de la función de autocovarianza del proceso Xtt∈T en el retraso h.

Es decir que para n sucientemente grande Xn sigue aproximadamente una distribución Norm(µ, νn

), y esto nos

sirve para hacer intervalos de conanza aproximados para µ con muestras sucientemente grandes.

13


Si además Xtt∈T es Gaussiano si puede probar que

√n(Xn − µ

)∼ Norm

(0,

n∑h=−n

(1− |h|

n

)γh

).

Promedios moviles

DeniciónDiremos que Xtt∈T es un proceso de media movil de orden q, y lo denotaremos como MA(q), si para q ≥ 1entero y θ1, . . . , θq, µ son constantes reales tales que para todo t ∈ T tenemos

Xt =µ+ εt + θ1εt−1 + . . .+ θqεt−q

=µ+ (1 + θ1B1 + . . .+ θqB

q)εt

=µ+ θq(B)εt

donde εt es un proceso de ruido blanco. (A θq(B) le llamaremos el polinomio de media movil.)

Veamos si este proceso es estacionario (estacionario de segundo orden)

Primero calculemos la esperanza y la varianza de un proceso MA(q)

E [Xt] =E [µ+ εt + θ1εt−1 + . . .+ θqεt−q]

=E [µ] + E [εt] + θ1E [εt−1] + ...+ θqE [εt−q]

=µ.

V ar [Xt] =V ar [µ+ εt + θ1εt−1 + . . .+ θqεt−q]

=V [εt] + θ21V [εt−1] + ...+ θ2

qV [εt−q]

=σ2ε

q∑i=0

θ2i , donde θ0 = 1.

Ahora para calcular la función de autocovarianza recordemos que para un proceso estocástico lineal

Xt − µ =

∞∑j=−∞

ψjεt−j ,

sabemos que podemos encontrar la función de autocovarianza como

γX(h) = σ2∞∑

j=−∞ψjψj+h, h ≥ 0.

En nuestro caso tenemos que el proceso estocástico es

14


Xt − µ =εt + θ1εt−1 + . . .+ θqεt−q

entonces ψ0 = 1, ψ1 = θ1, ψ2 = θ2, . . . , ψq = θq y ψk = 0 en cualquier otro caso.

Entonces se puede probar que la autocorrelación para h ≥ 0 de un MA(q) es:

γ(h) = Cov (Xt, Xt+h) =

σ2ε

q−h∑i=0

θiθh+i si 0 ≤ h ≤ q

0 h > q.

Notemos que esto último no depende de t, el tiempo donde se está parado, sino de cuanto están separadas lasobservaciones. por lo tanto es un proceso estacionario de segundo orden.

La función de autocorrelación para h ≥ 0 de un MA(q) está dado por

ρ(h) = ρ(Xt, Xt+h) =γhγ0

=

q−h∑i=0

θiθh+i

q∑i=0

θ2i

si 0 ≤ h ≤ q

0 h > q.

Observaciones

Para unaMA(q), denido por Xt = µ+θq(B)εt, si es un proceso de ruido blanco εt es gaussiano, entocesXt también es gaussiano.

En un proceso MA(q) la función de autocorrelacion presenta un rasgo identicativo, puesto que es cero apartir de los lag′s mayores a el orden del proceso.

Notemos que aunque no se requieren restricciones sobre los coecientes, θ1, . . . , θq para que un procesoMA (q) sea estacionario, sí hay un inconveniente que explicaremos a continuación.

La función de autocorrelación ρ(h) es una herramienta que usaremos más para tratar de identicar que procesogeneró nuestra serie de tiempo. Por lo tanto cabe la pregunta ¾Para cada modelo MA existe una única funciónde autocorrelación? Por desgracia la respuesta es no.

Supongamos que tenemos los siguientes procesos MA (1)

Xt = εt + θεt−1 y Yt = εt +1

θεt−1,

donde θ ∈ R\ 0 y εtt∈T y εtt∈T son dos procesos de ruido blanco. Para estos dos procesos tenemos que lafunción de autocorrelación es

ρ(h) =

1 si h = 0θ

1 + θ2 si h = 1

0 si h > 1.

15


Más aun si V ar (εt) = σ2 y V ar (εt) = σ2

θ2 entonces los proceso tienen la misma función de autocovarianza. Loque nosotros observamos son Xt y Yt y no los procesos de ruido entonces ambos procesos son indistingibles parael observador.

Veamos una forma para elegir entre uno de estos modelos. Del modeloXt = εt+θεt−1 tenemos que εt = Xt−θεt−1

Xt = εt + θεt−1 = εt + θ (Xt−1 − θεt−2)

= εt + θXt−1 − θ2εt−2 = εt + θXt−1 − θ2 (Xt−2 − θεt−3)

= εt + θXt−1 − θ2Xt−2 + θ3εt−3 = εt + θXt−1 − θ2Xt−2 + θ3 (Xt−3 − θεt−4)

= εt + θXt−1 − θ2Xt−2 + θ3Xt−3 − θ4εt−4

...

= εt +

∞∑j=1

(−1)j+1

θjXt−j

Por lo tanto si |θ| < 1, el efecto del pasado cada vez es menor. Por lo tanto si |θ| < 1 tenemos que

εt = Xt −∞∑j=1

(−1)j+1

θjXt−j = Xt +

∞∑j=1

(−1)jθjXt−j

=

∞∑j=0

(−1)jθjXt−j .

Ahora vamos a introducir el concepto de invetibilidad en los procesos MA que nos garantiza que para cadaproceso MA se puede relacionar de manera única con una función de autocorrelación.

Invertibilidad

DeniciónUn procesoMA(q), Xtt∈T denido por θp (B) = 1+θ1B+ . . .+θqB

q se llama invertible si se puede expresar

como un AR(∞), es decir εt =

∞∑j=0

πjXt−j =

∞∑j=0

πjBjXt = ψ (B) εt para toda t ∈ T , donde

∞∑j=0

|πj | < ∞ y

π0 = 1.

El siguietne resultado nos da condiciones necesarias para saber si un proceso MA es invertible o no.

TeoremaUn proceso MA(q), denido por θp (B) εt = Xt, donde θq (B) = 1 + θ1B + . . .+ θqB

q es invertible si solo si lasraíces de la ecuación

θq (B) = 1 + θ1B + . . .+ θqBq = 0,

son en módulo mayores que la unidad

Ejemplo

Para un MA(2), Xt = εt + θ1εt−1 + θ2εt−2 =(1 + θ1B + θ2B

2)εt será invertible si las raíces del polinomio

θ2(B)=1 + θ1B + θ2B2 son en módulo mayores a la unidad, es decir

z1 =

∣∣∣∣∣−θ1 +√θ2

1 − 4θ2

2θ2

∣∣∣∣∣ > 1 y z2 =

∣∣∣∣∣−θ1 −√θ2

1 − 4θ2

2θ2

∣∣∣∣∣ > 1.

16


Entonces igualando el polinomio θ2(B) con su factorización

1 + θ1B + θ2B2 = θ2(B)=

(1− B

z1

)(1− B

z2

)= 1−B

(1

z1+

1

z2

)+

B2

z1z2

Por lo tanto θ2 = 1z1z2

, y θ1 = −(

1z1

+ 1z2

), con estas condiciones tenemos que la región en R2 donde el proceso

MA(2) es invertible es

−1 < θ2 < 1,θ1 + θ2 < 1, θ2 − θ1 < 1.

Para un MA(2) el conjunto de puntos que hace que sea invertible son

−2 −1 0 1 2

−1.

0−

0.5

0.0

0.5

1.0

theta_1

thet

a_2

Autorregresivo

Diremos que un proceso Xtt∈T es un autorregresivo de orden p, y lo denotaremos como AR(p), si para p ≥ 1un entero y φ1, . . . , φp constantes reales tenemos que

Xt =φ1Xt−1 + . . .+ φpXt−p + εt

donde εt es un proceso de ruido blanco.

En terminos de operadores de retraso tenemos

Xt − φ1Xt−1 − . . .− φpXt−p =εt

(1− φ1B − . . .− φpBp)Xt =εt

φp (B)Xt =εt,

17


a φp (B) se le conoce como el polinomio autorregresivo.

Un proceso AR(p) puede ser estacionario o no estacionario, eso dependerá de los valor es de φ1, . . . , φp, porejemplo

Para un AR(1) Xt = φXt−1 + εt con |φ| < 1, ya habíamos calculado que

E (Xt) = 0, γ(h) =σ2φh

1− φ2y ρ(h) =

γ(h)

γ(0)= φh.

Notemos de lo anterior que lo anterior concluimos que la función de autocorrelación decrece de formaexponencial y ademas que irá alternado el signo si φ < 0.

Ahora introduciremos el concepto de causalidad para los proceso AR(p). Este concepto es casi identico a ladenición de un proceso estocástico lineal, y recordemos que para ese tipo de proceso sabemos que condicionespedir para que sean estacionarios de segundo orden. En otras palabras, si tenemos un proceso AR(p) causalentonces este será estacionario.

DeniciónUn proceso AR(p), Xt denido por φp (B) = 1− φ1B − . . .− φpBp se llama causal o función causal de εt

si se puede expresar como un MA(∞), es decir Xt =

∞∑j=0

ψjεt−j =

∞∑j=0

ψjBjεt = ψ (B) εt para toda t ∈ T , donde

∞∑j=0

|ψj | <∞ y ψ0 = 1.

El siguiete teorema nos da condiciones necesarias para saber si un proceso AR(p) es causal o no.

TeoremaUn proceso AR(p), denido por φp (B)Xt = ε, donde φp (B) = 1 − φ1B − . . . − φpBp es causal si solo si lassoluciones de la ecuación

φp (B) = 1− φ1B − . . .− φpBp = 0,

son en módulo mayores que la unidad.

Para un AR(2) la región de causalidad es la que se muestra a continuación

18


Lema

Supongamos que Xtt es proceso causal, Xt =∑∞j=0 ψjεt−j , donde εtt∈T es ruido blanco. Entonces

E [Xt−kεt] =

σ2ε si k = 0,

0 si k > 0.

Demostración

Caso k = 0

E [Xtεt] = E

∞∑j=0

ψjεt−j

εt

=

∞∑j=0

ψjE [εtεt−j ]

= ψ0E [εtεt] = 1 · σ2ε = σ2

ε .

Caso k > 0

E [Xt−kεt] = E

∞∑j=0

ψjεt−k−j

εt

=

∞∑j=0

ψjE [εtεt−k−j ]

=

∞∑j=0

ψj · 0 = 0

Veamos una forma de calcular analíticamente las función de autocovarianza y autocorrelación de un AR(2)suponiedo que es causal y además si perdida de generalidad E (Xt) = 0. Primero tenemos que un AR(2) seescribe como

Xt =φ1Xt−1 + φ2Xt−2 + εt

donde εt es ruido blando con varianza σ2ε . Si multiplicamos esta última ecuación por Xt−k tenemos y tomamos

esperanza de ambos lados tenemos que

E [XtXt−k] =φ1E [Xt−1Xt−k] + φ2E [Xt−2Xt−k] + E [εtXt−k] .

Que es equivalente a

γk =φ1γk−1 + φ2γk−2 + E [εtXt−k] .

19


Usando el Lema anterior al evaluar para distintas k′s tenemos que

γk =φ1γk−1 + φ2γk−2, k ≥ 1

γ0 =φ1γ1 + φ2γ2 + σ2ε .

Dividiendo estas expresiones por γ0 tenemos que

ρk =φ1ρk−1 + φ2ρk−2, k ≥ 1 (2)

1 =φ1ρ1 + φ2ρ2 +σ2ε

γ0. (3)

Evaluando (2) en k = 1 y 2 tenemos que

k = 1, ρ1 =φ1 + φ2ρ1,⇒ ρ1 =φ1

1− φ2

k = 2, ρ2 =φ1ρ1 + φ2,⇒ ρ2 =φ2

1

1− φ2+ φ2.

Ahora si evaluamos (2) con k = 3 y usando los resultados anteriores obtenemos ρ3, y de manera recursiva usandola ecuación (2) podemos obtener ρu para u ≥ 4.

En general para un proceso AR(p) con p ≥ 3 decrece a cero en formas sinusoidales, pero no se anulan a partirde algún lag como sucede en los procesos MA(q).

Supongamos que Xtt es proceso AR(p) causal,

Xt − φ1Xt−1 − . . .− φpXt−p = εt,

donde E [Xt] = 0, ∀t y εtt∈T es ruido blanco. Si a la ecuación anterior la multiplicamos por Xt−k con k ≥ 0y tomamos esperanza de ambos lados obtenemos

γk − φ1γk−1 − . . .− φpγk−p = E [Xt−kεt] .

De la ecuación anterior si evaluamos para distintas k y usamos el lema anterior podemos obtener el siguientesistema de ecuaciones

γ0 − φ1γ1 − φ2γ2 . . .− φpγp = σ2ε , para k = 0

γ1 − φ1γ0 − φ2γ1 . . .− φpγp−1 = 0, para k = 1γ2 − φ1γ1 − φ2γ0 . . .− φpγp−2 = 0, para k = 2

......

γp − φ1γp−1 − φ2γp−2 . . .− φpγ0 = 0, para k = p.

O visto matricialmente

γ0 − φ′pγp = σ2ε (4)

γp = Γpφp, (5)

20


donde γp =

γ1

γ2

...γp

Γp =

γ0 γ1 . . . γp−1

γ1 γ0 . . . γp−2

......

. . ....

γp−1 γp−2 . . . γ0

φp =

φ1

φ2

...φp

. A (5) se le conoce como las ecua-

ciones de Yule-Walker.

Si tenemos una realización Xjnj=1 de tamaño n entonces podemos calcular

γp =

γ1

γ2

...γp

, Γp =

γ0 γ1 . . . γp−1

γ1 γ0 . . . γp−2

......

. . ....

γp−1 γp−2 . . . γ0

,

y de esta forma tenemos una manera inicial de estimar φp y σ2ε en el caso de un AR(p) causal usando las

ecuaciones de Yule-Walker. Si pedimos que γ0 > 0 entonces Γp es invertible y entonces de (5) tenemos que

φp = Γ−1

p γp,

sustituyendo esto último en (4) tenemos

σ2ε = γ0 −

(Γ−1

p γp

)′γp

= γ0 − γ′p(Γ−1

p

)′γp

= γ0 − γ′pΓ−1

p γp.

Función de autocorrelación parcial

La función de autocorrelación parcial (PACF) es una herramienta que nos ayudará a identicar de forma sencillael orden p de un proceso AR, puesto que en general no es fácil detectar el orden p, usando sólo la función deautocorrelación (muestral).

Primero notemos que para un AR(1), donde el efecto de Xt−2 sobre Xt no es directo si no a través de Xt−1, enotras palabras, si conocemos Xt−1, el valor que tome Xt−2 es irrelevante para Xt.

A continuación vamos a denir el cociente de correlación parcial de orden k, que denotaremos φk k, como unamedida de relación lineal entre observaciones separas k periodos, eliminando el efecto de las variables intermedias.

Consideremos un proceso estacionario Xtt∈T y sin perdida de generalidad pensemos que E [Xt] = 0.

1. Para eliminar de Xt+k el efecto de las variables Xt+1, Xt+2, . . . , Xt+k−1 consideremos el predictor lineal

óptimo vía mínimos cuadrados y llamemoslo Xt+k es decir que

Xt+k =η1Xt+1+η2Xt+2 + . . .+ ηk−1Xt+k−1,

donde η1, η2, . . . , ηk−1 son números que se obtienen minimizando

E[(Xt+k − Xt+k

)2]=E

[(Xt+k − η1Xt+1 − η2Xt+2 − . . .− ηk−1Xt+k−1)

2].

21


2. Para eliminar de Xt el efecto de las variables Xt+1, Xt+2, . . . , Xt+k−1 consideremos el predictor lineal

óptimo vía mínimos cuadrados y llamemoslo Xt es decir que

Xt =β1Xt+1+β2Xt+2 + . . .+ βk−1Xt+k−1,

donde β1, β2, . . . , βk−1 son números que se obtienen minimizando

E[(Xt − Xt

)2]=E

[(Xt+k − β1Xt+1 − β2Xt+2 − . . .− βk−1Xt+k−1)

2].

La función de autocorrelación parcial para k ∈ N de un proceso estacionario Xtt∈T es

αk =

ρ1 si k = 1,Cov(Xt−Xt,Xt+k−Xt+k)√

Var(Xt−Xt)√Var(Xt+k−Xt+k)

si k 6= 1.

En general se puede demostrar que para un proceso AR(p) causal, αk = 0 para k ≥ p + 1. Por lo tanto la

PACF es un buen indidador para saber que orden de retraso debe tener el proceso si suponemos que es una

autorregresivo.

La anterior forma de calcular la PACF no es muy sencilla, afortunadamente hay una forma equivalente decalcular la PACF de la siguiente forma: φ1 1 = ρ1, y para k ≥ 2 tenemos que

φ2 2 =

∣∣∣∣ 1 ρ1

ρ1 ρ2

∣∣∣∣∣∣∣∣ 1 ρ1

ρ1 1

∣∣∣∣ , φ2 2 =

∣∣∣∣∣∣1 ρ1 ρ1

ρ1 1 ρ2

ρ2 ρ1 ρ3

∣∣∣∣∣∣∣∣∣∣∣∣1 ρ1 ρ2

ρ1 1 ρ1

ρ2 ρ1 1

∣∣∣∣∣∣, . . . ,φk k =

∣∣∣∣∣∣∣∣∣∣∣

1 ρ1 . . . ρk−2 ρ1

ρ1 1 . . . ρk−3 ρ2

......

. . ....

...ρk−2 ρk−3 . . . 1 ρk−1

ρk−1 ρk−2 . . . ρ1 ρk

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

1 ρ1 . . . ρk−2 ρk−1

ρ1 1 . . . ρk−3 ρk−2

......

. . ....

...ρk−2 ρk−3 . . . 1 ρ1

ρk−1 ρk−2 . . . ρ1 1

∣∣∣∣∣∣∣∣∣∣∣

.

Se puede probar que αk = φk k.

Ejemplo 1

Para un AR(1) con |φ| < 1 tenemos que ρh = φh para h ∈ 0, 1, 2, 3, . . .. Ahora para este proceso obtengamossu función de autocorrelación parcial.

Por denición tenemos que φ1 1 = ρ1 = φ.

φ2 2 =

∣∣∣∣ 1 ρ1

ρ1 ρ2

∣∣∣∣∣∣∣∣ 1 ρ1

ρ1 1

∣∣∣∣ =

∣∣∣∣ 1 φφ φ2

∣∣∣∣∣∣∣∣ 1 φφ 1

∣∣∣∣ =φ2 − φ2

1− φ2= 0.

22


φ3 3 =

∣∣∣∣∣∣1 ρ1 ρ1

ρ1 1 ρ2

ρ2 ρ1 ρ3

∣∣∣∣∣∣∣∣∣∣∣∣1 ρ1 ρ2

ρ1 1 ρ1

ρ2 ρ1 1

∣∣∣∣∣∣=

∣∣∣∣∣∣1 φ φφ 1 φ2

φ2 φ φ3

∣∣∣∣∣∣∣∣∣∣∣∣1 φ φ2

φ 1 φφ2 φ 1

∣∣∣∣∣∣= 0.

Es fácil notar que para un AR(1) con |φ| < 1, φk k = 0 para k ≥ 2.

Ejemplo 2

Para un AR(2) causal habiamos visto que: ρ1 = φ1

1−φ2, ρ2 =

φ21

1−φ2+ φ2 y usando la fórmula recursiva ρ3 =

φ1

(φ21+φ2(2−φ2)

1−φ2

)Por denición tenemos que φ1 1 = ρ1 = φ1

1−φ2.

φ2 2 =

∣∣∣∣ 1 ρ1

ρ1 ρ2

∣∣∣∣∣∣∣∣ 1 ρ1

ρ1 1

∣∣∣∣ =

φ21

1−φ2+ φ2 −

(φ1

1−φ2

)2

1−(

φ1

1−φ2

)2 =φ2

1 (1− φ2) + φ2 (1− φ2)2 − φ2

1

(1− φ2)2 − φ2

1

.

φ3 3 =

∣∣∣∣∣∣1 ρ1 ρ1

ρ1 1 ρ2

ρ2 ρ1 ρ3

∣∣∣∣∣∣∣∣∣∣∣∣1 ρ1 ρ2

ρ1 1 ρ1

ρ2 ρ1 1

∣∣∣∣∣∣= 0, (pruébalo)

Se puede probar que para un AR(2) causal, φk k = 0 para k ≥ 3.

En general se puede demostrar que para un proceso AR(p) causal, φk k = 0 para k ≥ p + 1. Por lo tanto la

PACF es un buen indidador para saber que orden de retraso debe tener el proceso si suponemos que es una

autorregresivo.

Por otro lado, si tenemos un MA(q) invertible, entonces este proceso lo podemos representar como un AR(∞)entonces lo que esperaríamos es que la pacf de un MA(q) no se haga cero a partir de algún momento.

PACF muestral

Supongamos que tenemos un proceso estacionario Xtt∈T , con PACF φk k : k = 1, 2, 3, . . .. Por otro lado,

supongamos que la serie observada X1, X2, . . . , Xn proviene de dicho proceso. El estimador φk k de φk k, loobtendrémos de la siguiente manera:

23


φ1 1 = ρ1, y φk k =

∣∣∣∣∣∣∣∣∣∣∣

1 ρ1 . . . ρk−2 ρ1

ρ1 1 . . . ρk−3 ρ2

......

. . ....

...ρk−2 ρk−3 . . . 1 ρk−1

ρk−1 ρk−2 . . . ρ1 ρk

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

1 ρ1 . . . ρk−2 ρk−1

ρ1 1 . . . ρk−3 ρk−2

......

. . ....

...ρk−2 ρk−3 . . . 1 ρ1

ρk−1 ρk−2 . . . ρ1 1

∣∣∣∣∣∣∣∣∣∣∣

, para k ≥ 2.

TeoremaSea Xtt∈T un proceso AR(p) estacionario con εtt∈T una sucesión de v.a.i.i.d. con E (εt) = 0 y V ar (εt) = σ2

ε

constante. Para k > p,

√nφk k

d→ N (0, 1) .

Proceso mixtos ARMA

Una vez denidos los procesos AR y MA y que conocemos algunas de sus características ahora vamos a combi-narlos para obtener una generalización de los procesos anteriores, a estos procesos se les conoce como modelosautorregresivos de promedios móviles. La idea de hacer esta combinación es que en la práctica tendrémos seriesde tiempo que tienen características tanto de AR como de MA.

Diremos que Xtt∈T es un proceso autorregresivo de medias moviles de orden (p, q), y lo denotamosARMA(p, q)donde p, q ≥ 0 son enteros y φ1, . . . , φp, θ1, . . . , θq. son reales tales que

Xt = φ1Xt−1 + . . .+ φpXt−p +εt + θ1εt−1 + . . .+ θqεt−q,

o equivalentemente

Xt − φ1Xt−1 − . . .− φpXt−p = εt + θ1εt−1 + . . .+ θqεt−q

φp(B)Xt = θq(B)εt.

donde εtt es ruido blanco y los polinomios de retraso φp(·) y θq(·) no tienen ceros en común.

Además para que el proceso ARMA (p, q), φp(B)Xt = θq(B)εt, sea causal e invertible necesitamos que las raícesde los polinomios φp(z) y θq(B) sean en módulo mayores a la unidad.

Ejemplo

La región donde un ARMA (1, 1), Xt−φXt−1 = εt + θεt−1, es invertible y causal es el interior del cuadrado (sinla orilla) que se presenta a continuación

24


−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

theta

phi

Continuando con un proceso ARMA (1, 1), veamos que este proceso es causal.

(1− φB)Xt = εt + θεt−1

Xt =εt

(1− φB)+

θεt−1

(1− φB)

=

∞∑k=0

φkBkεt + θ

∞∑k=0

φkBkεt−1

=

∞∑k=0

φkεt−k + θ

∞∑k=0

φkεt−1−k

= εt +

∞∑k=1

φkεt−k + θ

∞∑k=0

φkεt−1−k

= εt +

∞∑k=0

φk+1εt−1−k + θ

∞∑k=0

φkεt−1−k

= εt +

∞∑k=0

φk+1εt−1−k + θφkεt−1−k

= εt +

∞∑k=0

(φ+ θ)φkεt−1−k

= εt +

∞∑k=1

(φ+ θ)φk−1εt−k.

Entonces ψ0 = 1 y ψk = (φ+ θ)φk−1 con k ≥ 1 para un ARMA(1, 1), y por lo tanto

ρh =

∞∑j=0

ψjψj+h

∞∑j=0

ψ2j

.

25


Antes habíamos calculado las ecuaciones de Yule-Walker para un AR(p) haciendo los supuestos de que Xttes un proceso causal y que E [Xt] = 0 ∀t. Con los supuesto anteriores, pero si ahora Xtt es un procesoARMA(p, q) entonces las ecuaciones de Yule-Walker son de la siguente forma:

γk − φ1γk−1 − φ2γk−2 . . .− φpγk−p = σ2ε

q∑j=k

θjψj−k para k ∈ 0, 1, . . . , q y θ0 = 1.

γk − φ1γk−1 − φ2γk−2 . . .− φpγk−p = 0 para k ≥ q + 1.

Ejemplo

Para un ARMA (1, 1), Xt = φ1Xt−1 + εt + θ1εt−1 con |φ1| < 1, |θ1| < 1, usemos las ecuaciones de Yule-Walkerpara encontrar γhh≥0.

Usando las ecuaciones de Yule Walker tenemos que

γ0 − φ1γ1 = σ2ε (1 + θ1ψ1) para k = 0

γ1 − φ1γ0 = σ2ε θ1 para k = 1,

como ψk = (φ+ θ)φk−1 entonces ψ1 = (φ+ θ), ahora solucionando el sistema de ecuaciones anterior tenemosque

γ0 = σ2ε

1 + 2θ1φ1 + θ21

1− φ21

γ1 = σ2ε

θ1 + φ1 + θ1φ21 + φ1θ

21

1− φ21

= σ2ε

(1 + φ1θ1) (θ1 + φ1)

1− φ21

.

Como γk = φ1γk−1 para k ≥ 2 por las segunda parte de las ecuaciones de Y-W tenemos que

γ2 = φ1γ1 = φ1

σ2ε

(1 + φ1θ1) (θ1 + φ1)

1− φ21

γ3 = φ1γ2 = φ2

1

σ2ε

(1 + φ1θ1) (θ1 + φ1)

1− φ21

...

γk = φk−11

σ2ε

(1 + φ1θ1) (θ1 + φ1)

1− φ21

, para k ≥ 2.

Hasta aquí hemos presentado modelos de series de tiempo estacionarias, pero en la práctica tenemos series queno son estacionarias ya sea porque:

tienen un compente de tendencia (no tienen una media constante) y/o porque la serie de tiempo presentaun componente estacional con un periodo que puede ser determinístico o no.

la varianza de la serie de tiempo no sea constante.

26


Modelos no estacionarios

Como dijimos al inicio del curso, cuando tenemos una serie de tiempo observada y gracamos los datos, esposible que notemos que la serie no sea estacionaria, entonces es deseable aplicar alguna trasformación a losdatos para hacerlos estacionarios.

Si en nuestra serie observada solo se aprecia un compontente de tendencia (media no constante)

Xt = mt + Yt,

ésta puede eliminarse mediante la aplicación del operador diferencia ∇d = (1−B)d, con esto buscamos eliminaruna tendencia polinomial de orden d en la serie, este tipo de trasformación da origen a los modelos integrados oARIMA.

DeniciónProcesos ARIMA(p,d,q) (causales e invertible)Sea d ∈ 1, 2, 3, . . .. Diremos que Xtt∈T es un proceso ARIMA(p, d, q) causal e invertible si al diferenciarlo

d veces, es decir, Yt = ∇dXt = (1−B)dXt tenemos un proceso ARMA(p, q) causal e invertible.Dicho de otro modo, si Xt es un proceso ARIMA(p, d, q) se escribe de la siguiente forma

φ∗(B)Xt = φp(B)(1−B)dXt = θq(B)εt,

(1− φ1B − φ2B

2 − . . .− φpBp)

(1−B)dXt =(1 + θ1B + θ2B

2 + . . .+ θqBq)εt,

φp(B)Yt = θq(B)εt,

donde εt es ruido blanco, φp(B) y θq(B) son los polinomios de retraso de grado p y q respectivamente.

Observaciones

1. El polinomio φ∗(z) = φp(z)(1− z)d tiene una raíz de orden d en z = 1, o tiene una raíz unitaria.

2. El proceso es estacionario si solo si d = 0 y ARIMA(p, 0, q) = ARMA(p, q).

3. Aunque los modelos ARIMA(p, d, q) son muy usados para modelar series con tendencia, también puedenser usados para modelar series sin tendencia.

4. La estimación de los parámetros φ = (φ1, φ2, . . . , φp) , θ = (θ1, θ2, . . . , θq) y σ2ε se harán con base en el

proceso estacionario

(1−B)dXt

.

Ejemplo

Si Xt es un proceso ARIMA(1, 1, 1) causal e invertible donde φ ∈ (−1, 1) y θ ∈ (−1, 1)

(1− φB)(1−B)Xt = (1 + θB)εt,

(1− φB)Yt = (1 + θB)εt,

donde Yt = (1−B)Xt es un proceso ARMA(1, 1) causal e invertible.

27


Modelos estacionales

Ahora nuestro objetivo es poder describir series de tiempo que tengan además1 una componente estacional,

Xt = St + Yt ó

Xt = mt + St + Yt.

donde la parte estacional St se repite en forma determinística en un periodo de tamaño s. Primero vamos ahablar de los modelos estacionales puros, la idea en estos modelos es que sólo existe una dependencia entre lasobservaciones que están separadas un multiplo de s. Por ejemplo, si tenemos una serie mensual y el periodo delcíclo s = 12

MesesAños 1 2 3 . . . 11 121 X1 X2 X3 . . . X11 X12

2 X13 X14 X15 . . . X23 X24

......

......

. . ....

...r − 1 X12(r−2)+1 X12(r−2)+2 X12(r−2)+3 . . . X12(r−2)+11 X12(r−1)

r X12(r−1)+1 X12(r−1)+2 X12(r−1)+3 . . . X12(r−1)+11 X12r

Es importante notar que aunque la estacionaridad se puede considerar como un fenómeno anual, puede existirun comportamiento periodico con duración menor a un año2.

DeniciónDiremos que Xtt∈T es un proceso auto regresivo-medias moviles estacional puro con periodo s deorden (P,Q), y lo denotamos ARMA(P,Q)s donde P,Q ≥ 0 y Φ1, . . . ,ΦP ,Θ1, . . . ,ΘQ. son reales tales que

Xt = Φ1Xt−s + . . .+ ΦPXt−Ps +εt + Θ1εt−s + . . .+ ΘQεt−Qs,

o equivalentemente

(1− Φ1B

s − . . .− ΦpBPs)Xt =

(1 + Θ1B

s + . . .+ ΘQBQs)εt

ΦP (Bs)Xt = ΘQ(Bs)εt,

donde εtt es ruido blanco y los polinomios de retraso ΦP (·) y ΘQ(·) no tienen ceros en común.

Para que el proceso ARMA(P,Q)s sea causal e invertible necesitamos que las raíces de los polinomios ΦP (·) yΘQ(·) sean en módulo mayores a la unidad.

Algunos ejemplos de este tipo de procesos son:

1. ARMA(0, 1)s = MA(1)s, de la forma Xt = εt+Θ1εt−s, donde la función de autocorrelación está dada por

ρh =γhγ0

=

1 h = 0

Θ1

1 + Θ21

si h = s

0 c.o.c.

1Con o sin un compontente de tendencia mt.2Semestral o trimestral por ejemplo.

28


2. ARMA(1, 0)s = AR(1)s, es decir, Xt = Φ1Xt−s + εt, donde la función de autocorrelación está dada por

ρh =γhγ0

=

1 h = 0

Φhs1 si h = s, 2s, 3s, . . .

0 c.o.c.

3. ARMA(1, 1)s, de la forma Xt = Φ1Xt−s + εt + Θ1εt−s, y la función de autocorrelación está dada por

ρh =γhγ0

=

1 h = 0(1+Φ1Θ1)(Θ1+Φ1)

1+Θ21−2Θ1Φ1

h = s

Φ1ρh−s si h = 2s, 3s, . . .

0 c.o.c.

Modelos estacionales multiplicativos y estacionarios

En la mayor parte de los casos los datos no sólo están correlacionados con observaciones que están separadas porun múltiplo de s, sino que también pueden estar correlacionados con observaciones más cercanas. A continuacióndeniremos una familia de modelos que combinen efectos estacionales y no estacionales.

DeniciónDiremos que Xttes un proceso estacional multiplicativo, con periodo s, y lo denotamos como ARMA(p, q)×ARMA(P,Q)S si el proceso se escribe como

φp(B)ΦP (Bs)Xt = θq(B)ΘQ(Bs)εt,

donde εtt es ruido blanco y los polinomios de retraso son los siguientes:φp(z) = 1− φ1B − · · · − φpBp,ΦP (z) = 1− Φ1B

s − · · · − ΦPBPs,

θq(z) = 1 + θ1B + · · ·+ θqBq,

ΘQ(z) = 1 + Θ1Bs + · · ·+ ΘQB

Qs.

Modelos estacionales no estacionarios

Si tenemos una serie de la forma Xt = mt+St+Yt, vimos que vía dierencias simples ∇d = (1−B)dpodíamos

eliminar la componente mt y hablamos del uso de la diferencia estacional ∇Ds = (1−Bs)D, para eliminar lacomponente St

Estos los operadores los usaremos para describir el modelo más general, es decir, una serie que tiene tanto unacomponente de tendencia como el de una parte estacional.

29


DeniciónSean d,D ∈ Z enteros no negativos. Diremos que Xttes un proceso auto-regresivo de promedios moviles

integrado estacional multiplicativo de periodo s, denotado por ARIMA(p, d, q) × ARIMA(P,D,Q)s oSARIMA(p, d, q)× (P,D,Q)S si el proceso

Yt = (1−B)d (

1−BS)D

Xt,

es un proceso ARMA(p, q)×ARMA(P,Q)S causal

φp(B)ΦP (Bs)Yt = θq(B)ΘQ(Bs)εt,

donde εtt es ruido blanco.

Metodología de Box-Jenkins para modelos ARIMA

Etapa de identicación de los órdenes p, d, q, P,D y Q.

Una vez que hemos introducido una familia de proceso nuestro objetivo será, dada una serie de tiempo observadaxtNt=1, encontrar un(os) modelo( de esa familia del cual podamos suponer que nuestra serie observada sea unelemento muestral. Usando el principio de parsimonia, es decir usar el modelo con el menor número de parámetrosposibles.

Etapa 1Identificación delos parámetrosd,D,p,P,q y Q

Etapa 2 Estimación de los coeficientes

Etapa 3Verificación delos supuestos

El modelo cumple con

los supuestos

Usar el modelopara hacerpredicción

sí

No

Identicación del modelo, esta parte la podemos dividir en dos partes:

1. Buscamos la estructura no estacionaria (si es que la hay), es decir ltrar la parte de tendencia y/o parteestacional, para quedarnos con la parte estacionaria.

2. Una vez obtenida la parte estacionaria buscarémos cuál es la estructura estacionaria

En otras palabras buscamos encontrar una transformación de los datos originales de tal forma que obtengamosuna serie estacionaria. Aquí tenemos dos posibles tipos de trasformaciones posibles

30


Cuando gracamos la serie de tiempo observada y notamos que la varianza no es constante, una forma decorregir este problema es aplicar una transformación del tipo Box Cox a los datos, es decir

T (Xt) =

Xλt −1λ si λ 6= 0

log (Xt) si λ = 0.

Cuando gracamos la serie de tiempo observada y notamos que no tiene una media costante es recomendableaplicarle el operador diferencia ∇; anteriormente habíamos platicado que el operador diferencia eliminabatendencias lineales, mt = a0 + a1t, y que el operador diferenica aplicado dos veces, ∇2, elimina tendenciascuadráticas, mt = a0 + a1t + a2t

2. En la práctica no hacen falta diferenciar más de dos veces una seriepara quitarle el componente de tendencia.Algunas veces las series de tiempo veces presentan un componente estacional St con periodo s, esto lopodemos notar de manera gráca a partir de la acf muestral, ya que las autocorrelaciones son muysignicativa en los lag´s s, 2s, 3s, 4s, . . . y decrece de manera lenta. En estos casos es aconsejable aplicarlea la serie una diferencia estacional ∇s = (1−Bs), no es común que se requiera aplicar una diferencia másde una vez.

1. Encontrar d y D tal que la serie Yt = (1−B)d

(1−Bs)D T (Xt) tenga aspecto estacionario. Notemosque la serie la serie de tiempo original Xt corre de los índices t ∈ 1, 2, . . . , N, mientras que la serieestacionaria Yt corre de los índices t ∈ d+ sD + 1, . . . , N.

2. Examinar la ACF y la PACF muestrales asociadas a Ytt para aquellos enteros que son multiplos de s,(identicar los ordenes de P y Q del modelo).

Si ρ(·) y φk k son la ACF y la PACF muestral respectivamente de la serie Ytt, entonces P y Q pueden

seleccionarse de forma tal que, ρ(ks) y φsk sk con k = 1, 2, . . .sea compatible con la ACF y la PACFteóricas del modelo ARMA(P,Q).

3. Los ordenes de p y q deben ser seleccionados de forma tal que:ρ(1), . . . , ρ(s − 1) sea complatible con la ACF teorica y φ1 1, . . . , φs−1 s−1 sea complatible con la PACFla teórica de un proceso ARMA(p, q).

En las aplicaciones es usual que d ∈ 0, 1, 2 y D ∈ 0, 1.

Estimación de los parámetros

Estimación máximo verosimil.

Primero hagamos el supuesto distribucional3 de que εtt son v.a.i.i.d. N(0, σ2

ε

), y que tenemos una realización

de tamaño N , es decir, X1, X2, . . . , XN de un ARMA(p, q) entonces

εt = Xt − φ1Xt−1 − . . .− φpXt−p − θ1εt−1 − . . .− θqεt−q. (6)

Sea t∗ = max(p, q) y usando el supuesto distribucional del ruido blanco tenemos que

3Noten que hasta este momento estamos haciendo este supuesto.

31


fε (εt∗+1, εt∗+2, . . . , εN ) =

N∏t=t∗+1

fε (εt) (por independencia de εt)

=

N∏t=t∗+1

1√2πσε

exp

− ε2t

2σ2ε

(puesto que εt ∼ N

(0, σ2

ε

))

= (2π)−N−t∗

2 σ−(N−t∗)ε exp

−

N∑t=t∗+1

ε2t

2σ2ε

.

Nosotros queremos la función de densidad conjunta del vector X∗ = (Xt∗+1, Xt∗+2, Xt∗+3, . . . , XN ), que es laverosimilitud y la vamos a obtenemos con el cambio de variable dado por (6), es decir

fε(X∗|φp,θq, σ2

ε

)= fε (εt∗+1, εt∗+2, . . . , εN ) |T |−1

= (2π)−N−t∗

2 σ−(N−t∗)ε exp

−S(φp,θq

)2σ2

ε

= g

(σ2ε

)h(φp,θq, σ

2ε

)(7)

donde

S(φp,θq

)=

N∑t=t∗+1

(Xt − φ1Xt−1 − . . .− φpXt−p − θ1εt−1 − . . .− θqεt−q)2, y |T |−1 = 1.

φp = φ1, . . . , φp,

θq = θ1, . . . , θq,

Es importante notar que para maximizar la verosimilitud (7) necesitamos minimizar S(φp,θq

).

Supongamos que φp y θq4 son los valores que minimizan S

(φp,θq

), y evaluemos la verosimilitud en estos valores,

es decir, fε

(X∗|φp, θq, σ2

ε

).

Ahora para terminar nos falta encontrar el estimador máximo verosimil de σ2ε , para facilitar los calculos, tomemos

el logaritmo de la verosimilitud

l(X∗|φp, θq, σ2

ε

)= log

[fε

(X∗|φp, θq, σ2

ε

)]= log

[(2π)

−N−t∗2 σ−(N−t∗)

ε exp

−S(φp,θq

)2σ2

ε

]

= −N − t∗

2

[log (2π) + log

(σ2ε

)]−S(φp, θq

)2σ2

ε

.

De esta ecuación derivamos con respecto a σ2ε

4Encontrar estos valores es un problema de análisis numérico.

32


∂l(X∗|φp, θq, σ2

ε

)∂σ2

ε

= −N − t∗

2σ2ε

+S(φp, θq

)2σ4

ε

, (8)

al igualar a cero obtenemos el punto crítico

σ2ε =

S(φp, θq

)N − t∗

.

Es fácil ver que al derivar (8) nuevamente con respecto a σ2ε , y después evaluar en σ2

ε , es negativo, por lo tantoσ2ε es el estimador máximo verosímil.

Propiedades asintóticas de estimadores

Supongamos que tenemos un un proceso ARMA(p, q) causal e invertible Xtt con media cero

Xt − φ1Xt−1 − . . .− φpXt−p = εt + θ1εt−1 + . . .+ θqεt−q,

donde εtt son v.a.i.i.d. con E(εt) = 0 y V ar(εt) = σ2ε ∀t ∈ T y los polinomios φp(·) y θq(·) no tienen ceros en

común.

Como notación denamos a βt = (φtp,θtq) = (φ1, . . . , φp, θ1, . . . , θq) como el vector de los coecientes, y a

βt

= (φt

p, θt

q) = (φ1, . . . , φp, θ1, . . . , θq) como el vector de estimadores máximo verosimiles. Entonces si n → ∞tenemos que

n12

(β − β

)d→ Np+q(0,V (β)),

donde 0t =

(0, . . . , 0︸︷︷︸

)p+q veces

y (V (β))−1

es una matriz de varianzas-covarianzas de dimensión (p+ q)× (p+ q),

V (β) = σ2ε

(Γφφ ΓφθΓθφ Γθθ

)−1

.

Intervalos de conanza para los coecientes φ1, . . . , φp, θ1, . . . , θq

Si Vjj(β) es el j-ésimo elemento de la diagonal V (β) entonces podemos dar un intervalo de conanza (aproxi-mado) al nivel (1− α)× 100% para βj de la siguente manera

βj ∈ R | |βj − βj | ≤ n−

12 Φ1−α2 V

12jj (β)

,

donde Φ1−α2 representa el cuantil 1 − α2 de una N(0, 1). Un parámetro es signicativo al 95% de conanza si el

cero no está en el intervalo(βj − 1.96× s.eβj , βj + 1.96× s.eβj

).

33


Diagnósicos del modelo vía los residuales

Si tenemos una serie Xtnt=1 y proponemos que proviene de un proceso ARIMA con ordenes p, d y q es decir

(1− φ1B − φ2B

2 − . . .− φpBp)

(1−B)dXt =(1 + θ1B + θ2B

2 + . . .+ θqBq)εt,

φp(B)Yt = θq(B)εt.

Una vez que obtenemos los estimadores de los parámetros φp =(φ1 φ2 . . . φp

), θp =

(θ1 θ2 . . . θq

)y σ2

ε , calculamos los residuales de la siguiente manera: εu = E [εu] = 0, para u ∈ 1, 2, . . . , t∗ + d y

εt = Yt − φ1Yt−1 − . . .− φpYt−p − θ1εt−1 − . . .− θq εt−q,

para t ∈ t∗ + d+ 1, t∗ + d+ 2, . . . , n con t∗ = max(p, q).

Y que queremos ver si εt es una realización de un proceso de ruido blanco. Para ver esto procedamos a hacerlos siguentes pasos

Ver si los los residuales son no correlación para esto usaremos:

la acf ρ2ε(k), y la pacf de los residuales

También hay una prueba de hipótesis, conocida como el contraste de Box-Ljung-Pierce, que consideralas magnitudes de las autocorrelaciones de los residuales en grupo con el siguiente estadístico

Q (h) = n (n+ 2)

h∑k=1

ρ2ε(k)

n− kd→ χ2

(h−r),

donde r es el número de parámetros estimados en el modelo. Y por lo tanto rechazamos la hipótesis deque los primeros de que los primeros h coecientes de autocorrelación son cero al nivel de signicanciaα si

Q (h) ≥ χ21−α,(h−r),

donde χ21−α,(h−r) es el cuantil 1− α de una χ2

(h−r).

Varianza constante

Para checar que los residuales tienen media cero: Primero calculamos ¯ε =∑nk=1

εkn y después S2

ε =∑nk=1

(εk−¯ε)n−r . Concluimos que E [εt] 6= 0 si

|¯ε|√S2ε

n

≥ Φ1−α2 ,

donde Φ1−α2 es el cuantil(1− α

2

)× 100% de una N (0, 1).

Por último, para concluir que los residuales provienen de una normal, podemos proceder con

Un análisis gráco, es decir con un histograma sobre los residuales o un qqplot,

Una prueba de hipótesis como la de Kolmogorov-Smirnov entre otras.

34


Selección del modelos y predicción

Para una serie de tiempo observada puede ocurrir que existan varios modelos que los representen bien, por estarazón, vamos a introducir el criterio de información de Akaike (AIC). Este criterio es simplemente evaluar la

log-verosimilitud en los estimadores máximo verosimiles φp, θq y σ2ε , más un factor que involucre la cantidad de

parámetros estimados, es decir

AIC = −2 log(l(φp, θq, σ

2ε

))+

2(p+ q + 1)

n.

Notemos que cuando la verosimilitud aumenta, −2 log(l(φp, θq, σ

2ε

))disminuye, por lo tanto el modelo con

mayor verosimilitud será el que minimice a −2 log(l(φp, θq, σ

2ε

)). Por otro lado el factor adicional 2(p+q+1)

n ,

penaliza la cantidad de parámetros en el modelo. Por lo tanto nuestra regla de decisión será tomar el modelo5

que minimiza el AIC.

5De entre los modelos que pasan todos los supuestos de los residuales.

35

introducción - unam · series de tiempo cnsf - iimas unam introducción ... grá cos para saber...

Documents