introducción - unam · series de tiempo cnsf - iimas unam introducción ... grá cos para saber...
TRANSCRIPT
Series de tiempo CNSF - IIMAS UNAM
Introducción
Una primera denición de serie de tiempo es: un conjunto de observaciones de cierto fenómeno registradassecuencialmente en el tiempo. Estas observaciones serán denotadas por xt1 , xt2 , . . . , xtn = xti : i ∈ T =xtii∈T donde la notación, xti , es el valor de la variable x en el instante ti . Y T es un conjunto de índices quepuede ser un intervalo o T = N, T = Z ó T = R.
Si el conjunto de índices T es numerable, diremos que la serie es a tiempo discreto, mientras que si el conjuntode índices es un conjunto no numerable (por ejemplo T = R), dirémos que la serie de tiempo es continua. A lolargo del curso trabajarémos con procesos a tiempo discreto.
Cuando tomamos cualquier par de índices consecutivos del conjunto, ti+1, ti ∈ T y su diferencia es una constante,ti+1 − ti = k, se dice que la serie es equiespaciada. En adelante trabajarémos con el supuesto de que tenemosseries de tiempo discreta, equiespaciadas en cuyo caso asumiremos sin perdida de generalidad que:
xt1 , xt2 , . . . , xtn = x1, x2, . . . , xn= xini=1 .
Objetivo de este curso en primer lugar será
Descripción Con la información que nos da una serie de tiempo observada usaremos métodos descriptivos ygrácos para saber como está conformada la serie y ver si existen datos atípicos.
Explicación En este paso buscaremos un modelo del cual podamos decir que nuestra serie observada es unarealización de ese modelo.
Predicción Una vez que podamos asumir que nuestra serie observada es una realización de un modelo buscare-mos hacer predicción de valores futuros a partir de los datos del presente y el pasado.
Ejemplos de Series de tiempo
Series económicas: Precios de divisas, tasas, índice de precios
Series Físicas: Meteorológica, temperatura, energia solar
Series de telecomunicacion: Análisis y procesamiento de señales
El primer paso en el análisis de series de tiempo, consiste en gracar la serie. A continuación gracaremos lassiguientes series
1
Series de tiempo CNSF - IIMAS UNAM
Time
uspo
p
1800 1850 1900 1950
050
100
150
200
Time
US
Acc
Dea
ths
1973 1975 1977 1979
7000
9000
1100
0
Time
suns
pot.y
ear
1700 1800 1900
050
100
150
Time
John
sonJ
ohns
on
1960 1965 1970 1975 1980
05
1015
1. uspop Esta serie de tiempo muestra los censos de la población de los E.U. realizados cada 10 años, de 1790a 1970. Esta serie parece tener un tener un tendencia al menos cuadrática. No parece tener una parteestacional (cíclica).
2. USAccDeaths Representa el total de muertes accidentales mensuales entre los años 1973 a 1978. Esta serieparece tener un comportamiento estacional cada año (un periodo de 12)
3. sunspot.year Muestra el número anual de manchas solares de 1700 a 1988. Esta serie muestra un compor-tamiento estacional, pero aquí no claro el periodo en el cual se repide el cíclo como en la serie anterior.
4. JohnsonJohnson son las ganancias trimestrales de la compañía Johnson & Johnson de 1960-80. Esta serietiene tanto una parte cíclica (con periodo 3) y como una tendencia no lineal.
5. AirPassengers captura el total mensual de los pasajeros de líneas aéreas internacionales de 1949 a 1960.Como en la serie anterior podemos ver que esta serie tiene tendencia no lineal y una parte cíclica de periodo12.
2
Series de tiempo CNSF - IIMAS UNAM
Time
AirP
asse
nger
s
1950 1952 1954 1956 1958 1960
100
200
300
400
500
600
La inspeción gráca puede sugerir la posibilidad de representar los datos como una realización de un procesoque puede tener todas o alguna de las siguientes componentes:
Xt = f (mt, st, Yt) =
mt + st + Yt modelo aditivo
mt · st · Yt modelo multiplicativo,
donde
mt es la componente de tendencia,
st es el componente estacional de periodo d, donde st = st+d = st+2d = . . .
Yt es el componente aleatorio.
Es claro que un modelo multiplicativo Xt = mt · st · Yt lo podemos llevar a un modelo multiplicativo, siempreque Xt > 0, al tomar logaritmo, X ′t = log (Xt) = log (mt · st · Yt) = log (mt) + log (st) + log (Yt) = m′t + s′t + Y ′t .Este tipo de trasnformaciones son utiles para linealizar los datos y reducir la varianza de la serie de tiempo. Unejemplo de esto son las series, JohnsonJohnson y AirPassengers.
Análisis descriptivo
A continuación veremos algunos métodos que se han propuesto para identicar y describir las componentes detendencia mt y la parte estacional o cíclica st de la serie de tiempo.
Primero estudiaremos tres métodos para estimar la tendencia de una serie de tiempo de la forma
Xt = mt + Yt, o Xt = mt + st + Yt
3
Series de tiempo CNSF - IIMAS UNAM
Método 1
Si tenemos una serie que tiene solo una parte de tendencia Xt = mt + Yt, como por ejemplo la serie uspop. Unamanera de estimar de mt sería vía mínimos cuadrádos. Es decir, procederemos a estimar la tendencia de entreuna familia de funciones de la forma
mt = a0 + a1t+ a2t2,
y escogeremos los a0, a1 y a2 que minimizen∑t (Xt −mt)
2.
Y así obtener
mt = a0 + a1t+ a2t2.
Una vez estima da la tendencia podemos estimar la parte aleatoria de la siguiente manera
Yt = Xt − mt, t ∈ 1, . . . , n .
Método 2
Suavizamineto de la media vía un promedios moviles.
Sea q un entero no negativo y considederemos el promedio movil de dos lados como
mt =
q∑j=−q
ajXt+j , para t ∈ q + 1, q + 2, . . . , n− q ,
donde
q∑j=−q
aj = 1.
Un caso particular de este tipo de ajuste de la tendencia es si suponemos que aj = 12q+1 , es decir
mt =1
2q + 1
q∑−qXt+j , t ∈ q + 1, q + 2, . . . , n− q .
Notemos que hay 2q + 1 sumandos, por lo tanto,∑q−q
12q+1 = 1.
Antes de describir el último método introduzcamos los operadores retraso y diferencia.
El operador retraso, denotado por B, actua sobre el tiempo de la siguiente manera
BXt = Xt−1
B2Xt = B (BXt) = BXt−1 = Xt−2
...
BjXt = Xt−j .
Denamos a B0Xt = Xt.
4
Series de tiempo CNSF - IIMAS UNAM
A partir del operador retraso denimos el operador diferencia como
∇Xt = (1−B)Xt = Xt −Xt−1.
Entonces el operador diferencia lo podemos manipular como si fuera un polinomio común y corriente es decir
∇2Xt = (1−B) (1−B)Xt =(1− 2B +B2
)Xt = Xt − 2Xt−1 +Xt−2.
Y por lo tanto si deseamos diferenciar Xt la serie j veces tenemos que
∇jXt = (1−B)jXt
=
j∑k=0
(j
k
)(−1)
kBkXt
=
n∑k=0
(j
k
)(−1)
kXt−k.
Método 3
Cuando la serie de tiempo Xt tiene una tendencia lineal, mt = at+b, entonces al aplicar un el operador diferencia∇ obtenemos ∇mt = a.
De la misma forma, si nosotros tenemos una serie de tiempo Xt = mt + Yt donde la tendenca es polinomial de
grado k, mt =
k∑j=0
ajtj , entonces al aplicar el operador diferencia a la tendencia tenemos que ∇kmt = k!ak y
por lo tanto tenemos que
∇kXt = k!ak +∇kYt.
Lo que pretendemos ahora es quitar la tendencia y la parte estacional en un modelo general
Xt = mt + st + Yt
donde E [Yt] = 0, st = st+d y∑dj=1 sj = 0
Metodo S1
Para ilustrar este método usemos la serie de muertes accidentales USAccDeaths, y cambiemos la notaciónde la serie de tiempo x1, x2, . . . , xn por los sub índices xj,k, donde j ∈ 1, 2, . . . , 6 representa los años yk = 1, . . . , 12 representa los meses y claramente el periodo es d = 12
Para este método calculemos la tendencia anual que cambia suavemente como
mj =1
12
12∑k=1
xj,k.
5
Series de tiempo CNSF - IIMAS UNAM
Mientras que la parte estacional la calcularemos como
sk =1
6
6∑j=1
(xj,k − mj) .
Por último, calculamos la parte aleatoria como
Yj,k = xj,k − mj − sk,
para j ∈ 1, 2, . . . , 6 y k = 1, . . . , 12Lo que pretendemos ahora es quitar la tendenciay la parte estacional
Xt = mt + st + Yt
donde E [Yt] = 0, st = st+d y∑dj=1 sj = 0
Método S2
Supongamos que tenemos una serie observada x1, . . . , xn,
1. Primero vamos a identicar el periodo de la parte estacional, si la serie es mensual y cada año se repiteun tipo de comportamiento tenemos que d = 12, si es una serie cuatrimestral entonces d = 3. Ademássupongamos que la serie x1, . . . , xn tiene k ciclos, es decir que n = kd.
2. Vamos a estimar la tendencia de la serie x1, . . . , xn vía un promedio movil.
(a) Si d es par entonce la ventana del promedio hacia atras y hacia delante la determinamos por d = 2q
mt =0.5xt−q + xt−q+1 + . . .+ xt+q−1 + 0.5xt+q
d, q + 1 < t ≤ n− q.
(b) Si d es impar, la ventana hacia atras y hacia delante la determinamos por d = 2q + 1 y la tendenciala calculamos como
mt =xt−q + . . .+ xt + . . .+ xt+q
d, q + 1 < t ≤ n− q.
3. A la serie original le quitamos la parte de la tendencia
zt = xt − mt, para q + 1 < t ≤ n− q.
4. Con la serie auxiliar zt vamos a crear un ciclo promedio que estimará de la parte estacional, es decir,calcularemos, wk con k ∈ 1, . . . , d, igual que como lo hicimos en el método S1,
5.
zq+1 zq+2 zq+3 . . . zq+1+d
zq+2+d zq+3+d zq+4+d . . . zq+1+2d
zq+2+2d zq+3+2d zq+4+2d . . . zq+1+3d
......
......
zn−q−d+1 zn−q−d+2 zn−q−d+3 . . . zn−q↓promedio ↓promedio ↓promedio ↓promedio
w1 w2 w3 wd
6
Series de tiempo CNSF - IIMAS UNAM
6. Para que se cumpla con la condición de que
d∑k=1
sk = 0, ajustamos el ciclo obtenido en la serie wj12j=1 de
la siguiente forma
sk = wk −
d∑i=1
wi
d, k ∈ 1, . . . , d
Ojo si la serie es anual entonces s1 representa el ciclo promedio en julio, s7 representa el ciclo promedio enenero, entonces conviene reordenar el arreglo de la siguente forma V ecciclo = (s7, s8, . . . , s12, s1, s2, . . . , s6).
7. Ahora vamos a repetir el vector V ecciclo, tantos ciclos tengamos St =
V ecciclo, . . . , V ecciclo︸ ︷︷ ︸k veces
.
8. Podemos calcular la parte aleatoria como
yt = zt − St, para q + 1 < t ≤ n− q.
7000
8000
9000
1100
0
obse
rved
8400
8800
9200
9600
tren
d−
1500
−50
00
500
1500
seas
onal
−40
00
200
400
600
1973 1974 1975 1976 1977 1978 1979
rand
om
Time
Decomposition of additive time series
7
Series de tiempo CNSF - IIMAS UNAM
Método S3
El método de diferenciación puede ser adaptado cuando existe una parte ciclica de periodo d. Introduzcamos lasiguiente notación
∇dXt =(1−Bd
)Xt = Xt −Xt−d
Ahora aplicando ∇d a Xt = mt + st + Yt tenemos que
∇dXt =(1−Bd
)Xt
= (mt + st + Yt)− (mt−d + st−d + Yt−d)
= (mt −mt−d) + (Yt − Yt−d) .
para ∇dXt notamos que (mt −mt−d) es el componente de tendencia y (Yt−d − Yt−d) es el componente aleatorio.Entonces podemos eliminar la tendencia usando algúna podencia del operador diferencia simple ∇.
Modelo probabílistico de las series de tiempo
Procesos Estocásticos
Un procesos estocásticos es una sucesión de variables aleatorias que evolucionan en función de otra variable,generalmente el tiempo. Cada una de las variables aleatorias del proceso tiene su propia función de distribuciónde probabilidad y entre las variables aleatorias, pueden estar correlacionadas o no. Una serie de tiempo de n datosla pensaremos como una muestra extraída (una realización) de un vector de n variables aleatorias (Xt1 , . . . , Xtn)que forman parte de un proceso estocástico.
Denición
Un proceso estocástico es una colección de variables aleatorias Xtt∈T indexadas a un conjunto de índices Tdenida sobre el mismo espacio de probabilidad (Ω,A, P ) y toma valores en (R,B (R)).
Donde T es el conjunto de indices y en nuestro caso será N ∪ 0 o Z.
Un proceso estocástico lo podemos pensar como una aplicación de dos argumentos
X : T × Ω → R(t, ω) → X (t, ω) = Xt (ω) .
Si dejamos jo a t y dejamos variar ω ∈ Ω entonces tenemos una variable aleatoria denida en (Ω,A, P )y toma valores en (R,B (R)).
Si dejamos jo a ω y dejamos variar t ∈ T entonces tenemos una trayectoria o realización del procesoasociada a ω.
8
Series de tiempo CNSF - IIMAS UNAM
Llamaremos función de medias del proceso Xtt∈T a la aplicación
t ∈ T → µt = E [Xt] .
Llamaremos función de varianzas del proceso Xtt∈T a la aplicación
t ∈ T → σ2t = V ar [Xt] = E
[(Xt − µt)2
].
La estructura de dependencia lineal entre las variables aleatorias del proceso se representa mediante las funcionesde covarianza y correlación, siempre y cuando los momentos de orden uno y dos existan.
Llamaremos función de autocovarianzas del proceso Xtt∈T a la aplicación
(t1, t2) ∈ T × T → γt1,t2 = Cov (Xt1 , Xt2) = E [(Xt1 − µt1) (Xt2 − µt2)] .
Llamaremos función de autocorrelación del proceso Xtt∈T a la aplicación
(t1, t2) ∈ T × T → ρt1,t2 = Cor (Xt1 , Xt2) =γt1,t2√σ2t1σ
2t2
.
Procesos Estacionarios
Denición
Diremos que Xtt∈T es un proceso estrictamente estacionario si para cualquier τ > 0, n ≥ 1 y ti, ti+τ ∈ T ,i ∈ 1, . . . , n, entonces (Xt1 , . . . , Xtn) y (Xt1+τ , . . . , Xtn+τ ) tiene la misma distribución conjunta, es decir
Ft1,t2,...,tn(a1, a2 . . . , an) = P(Xt1 ≤ a1, Xt2 ≤ a2, . . . , Xtn ≤ an)
= P(Xt1+τ ≤ a1, Xt2+τ ≤ a2, . . . , Xtn+τ ≤ an)
= Ft1+τ,t2+τ,...,tn+τ (a1, a2, . . . , an).
Un ejemplo de un proceso estrictamente estacionario es una muestra aleatoria.
Denición
Diremos que Xtt∈T es un proceso estacionario de primer orden o en media si la función de medias esconstante, es decir, µt no depende de t, es decir
E (Xt1) = µt = k, una constante ∀ t ∈ T.
Denición
Diremos que Xt es un proceso débilmente estacionario o estacionario de segundo orden si ∀n ≥ 1, ∀t1, t2, . . . tn ∈ T y ∀τ ∈ T tal que ∀t1 + τ, t2 + τ, . . . tn + τ ∈ T , los momentos de orden 1 y2 del vector (Xt1 , Xt2 , . . . Xtn) son iguales a los correspondientes momentos de orden 1 y 2 del vector(Xt1+τ , Xt2+τ , . . . Xtn+τ ), es decir
E(Xr1t1 ·X
r2t2 · . . . ·X
rntn
)= E
(Xr1t1+τ ·X
r2t2+τ · . . . ·X
rntn+τ
),
con ri ∈ 0, 1, 2 y∑ni=1 ri ≤ 2.
9
Series de tiempo CNSF - IIMAS UNAM
Observación
Un proceso estrictamente estacionario + momentos de segundo orden nitos implica tener un proceso estacinariode segundo orden.
Otra manera de decir lo anterior es la siguiente
Denición
Diremos que Xtt∈T es un proceso estacionario de segundo orden o débilmente estacionario si
1. La función de medias es constante (estacionario en media),
2. La función de autocovarianzas tiene la propiedad de que γt,t+h es independiente de t para cada h, es decirque γs,t = γs+h,t+h para todo s, t, s+ h, t+ h ∈ T .
La condición 2, quiere decir que Cov (Xs, Xt), sólo depende de la distancia en el tiempo entre estas, |s− t|.
Por lo tanto la funciones de autocovarianza y de autocorrelación de un proceso estacionario son denotadas porγh = γt,t+h y ρh = γh
γ0respectivamente.
Propiedades de las funciones de autocovarianzas y autocorrelación
γ0 ≥ 0
Las funciones de autocovarianza y autocorrelación son simétricas con respecto al cero, es decir Cov (Xt, Xt+h) =Cov (Xt, Xt−h), y ρh = ρ−h.
ρ0 = 1
|ρh| ≤ 1
Estimación de las funciones de momentos de procesos estacionarios
La estimación de la media de X1, . . . , Xn es
Xn =1
n
n∑t=1
Xt,
y es un estimador insesgado.
La función de autocovarianza muestral o estimada es
γh =1
n
n−h∑t=1
(Xt+h − Xn
) (Xt − Xn
), 0 ≤ h ≤ n− 1.
La función de autocorrelación muestral o estimada es
ρh =γhγ0, 0 ≤ h ≤ n− 1.
10
Series de tiempo CNSF - IIMAS UNAM
Denición
Un proceso de ruido blanco denotoado por εtt∈T , es un proceso estocástico formado por variables aleatoriasno correlacionadas de media cero y varianza constante σ2
ε
Por lo tanto
γ0 = σ2ε ,
γh = 0 h 6= 0.
y ρh = γhγ0
= 0 para h 6= 0.
TeoremaSea εtt∈T un proceso de ruido blanco formado por variables independientes y ρ
h= (ρ1, ρ2, . . . , ρh)
′. Entonces
para toda h ≥ 1,
√nρ
h
d→Nh (0, Ih×h) ,
cuando n→∞.
En otras palabras, n grande las ρ1, ρ2, . . . , ρh, h ≥ 1 son aproximadamente v.a.i.i.d. Norm(0, 1
n
).
Usando el resultado anterior podemos contrastar si la serie de tiempo X1, . . . , Xn se a generado a partir de unproceso de ruido blanco. Si la serie fue generada a partir de un proceso de ruido blanco entonces el 95% de lasautocorrelaciones muestrales deberían caer en el intervalo [−1.96/
√n, 1.96/
√n].
Procesos estocásticos lineales.
DeniciónUn proceso estocástico Xtt∈T es un proceso lineal si para todo t ∈ Z se puede representar como
Xt =
∞∑j=−∞
ψjεt−j , (1)
donde εtt∈T es un proceso de ruido blanco y ψj∞j=−∞ es una sucesión de constantes reales absolutamente
sumables∑∞j=−∞ |ψj | <∞.
Una forma de escribir (1) a partir de operadores de retraso es la siguiente;
Xt = ψ (B) εt, donde ψ (B) =
∞∑j=−∞
ψjBj .
Observaciones
En la denición de proceso estocástico lineal se pide que∑∞j=−∞ |ψj | <∞, esto es con el n de garantizar
que Xt tenga primero y segundo momento nito con probabilidad 1.
Para ver que E [Xt] existe∑∞j=−∞ |ψj | < ∞, primero notemos que usando la desigualdad de Jensen para la
función ϕ(x) =√x, tenemos que
11
Series de tiempo CNSF - IIMAS UNAM
E [|εt|] = E[√|εt|2
]≤√E [|εt|2] =
√E [ε2t ] = σε.
Entonces
E [|Xt|] = E
| ∞∑j=−∞
ψjεt−j |
≤ E
∞∑j=−∞
|ψj ||εt−j |
=
∞∑j=−∞
|ψj |E [|εt−j |] ≤ σε∞∑
j=−∞|ψj | <∞.
El operador ψ (B) puede ser interpretado como un ltro lineal. En otras palabras el proceso lineal Xtt∈Tes la salida o resultado de aplicarle el lto ψ (B) a la serie de ruido blanco εtt∈T .
Podemos ser un poco más generales si suponemos un proceso lineal Xtt∈T que tiene media µ se puedeexpresar de la forma Xt − µ =
∑∞j=−∞ ψjεt−j .
Veamos un ejemplo de un proceso estocástico lineal. Sea Xtt∈T un proceso estocástico
Xt =φXt−1 + εt, con |φ| < 1.
De manera recursiva podemos escribir la ecuacion anterior como
Xt = φ (φXt−2 + εt−1) + εt = φ2Xt−2 + φεt−1 + εt
= φ2 (φXt−3 + εt−2) + φεt−1 + εt = φ3Xt−3 + φ2εt−2 + φεt−1 + εt...
= φnXt−n + φn−1εt−(n−1) + . . .+ φ2εt−2 + φεt−1 + εt
= limn→∞
φnXt−n +
∞∑j=0
φjεt−j =
∞∑j=0
φjεt−j .
TeoremaSea Ytt∈T un proceso estacionario con media cero, varianza γY (0) = σ2 y función de autocovarianzas γY (h)
para h ≥ 1. Si ψj∞j=−∞ es una serie de reales tales que
∞∑j=−∞
|ψj | <∞ entonces el proceso Xt =
∞∑j=−∞
ψjYt−j
es estacionario con media cero y función de autocovarianzas
γX(h) =
∞∑j=−∞
∞∑k=−∞
ψjψkγY (h− k + j), h ≥ 0.
Demostración. Sea h ≥ 0
12
Series de tiempo CNSF - IIMAS UNAM
γX(h) = Cov (Xt, Xt+h) = E (XtXt+h)− 0 = E
∞∑j=−∞
ψjYt−j
∞∑k=−∞
ψkYt+h−k
= E
∞∑j=−∞
∞∑k=−∞
ψjψkYt−jYt+h−k
=
∞∑j=−∞
∞∑k=−∞
ψjψkE (Yt−jYt+h−k)
=
∞∑j=−∞
∞∑k=−∞
ψjψkγY (h− k + j)
Lo que dice el teorema anterior es que la serie que resulta de aplicarle un ltro lineal a una serie estacionaria estambién una serie estacionaria.
CorolarioCon las hipótesis del teorema anterior y ahora suponiendo que Ytt∈T es ruido blanco, la función de autoco-varianzas del proceso estocástico lineal Xt está dado por
γX(h) = σ2∞∑
j=−∞ψjψj+h, h ≥ 0.
Demostración Si Ytt∈T es ruido blanco entonces γY (h) = 0 si h 6= 0, y γY (0) = σ2, entonces de la ecuación
γX(h) =
∞∑j=−∞
∞∑k=−∞
ψjψkγY (h− k + j),
tenemos que γY (h − k + j) = σ2 si sólo si h − k + j = 0 o equivalentemente k = h + j, y sustituyendo k en laecuación anterior
γX(h) =
∞∑j=−∞
ψjψh+jγY (0) = σ2∞∑
j=−∞ψjψh+j
Teorema
Si Xtt∈T es un proceso lineal con media µ, Xt − µ =∑∞j=−∞ ψjεt−j , con
∞∑j=−∞
ψj 6= 0 donde εtt∈T es ruido
blanco entonces
√nXn − µ√
ν
d→ Norm (0, 1) ,
donde ν =
∞∑j=−∞
γh, y γh es el valor de la función de autocovarianza del proceso Xtt∈T en el retraso h.
Es decir que para n sucientemente grande Xn sigue aproximadamente una distribución Norm(µ, νn
), y esto nos
sirve para hacer intervalos de conanza aproximados para µ con muestras sucientemente grandes.
13
Series de tiempo CNSF - IIMAS UNAM
Si además Xtt∈T es Gaussiano si puede probar que
√n(Xn − µ
)∼ Norm
(0,
n∑h=−n
(1− |h|
n
)γh
).
Promedios moviles
DeniciónDiremos que Xtt∈T es un proceso de media movil de orden q, y lo denotaremos como MA(q), si para q ≥ 1entero y θ1, . . . , θq, µ son constantes reales tales que para todo t ∈ T tenemos
Xt =µ+ εt + θ1εt−1 + . . .+ θqεt−q
=µ+ (1 + θ1B1 + . . .+ θqB
q)εt
=µ+ θq(B)εt
donde εt es un proceso de ruido blanco. (A θq(B) le llamaremos el polinomio de media movil.)
Veamos si este proceso es estacionario (estacionario de segundo orden)
Primero calculemos la esperanza y la varianza de un proceso MA(q)
E [Xt] =E [µ+ εt + θ1εt−1 + . . .+ θqεt−q]
=E [µ] + E [εt] + θ1E [εt−1] + ...+ θqE [εt−q]
=µ.
V ar [Xt] =V ar [µ+ εt + θ1εt−1 + . . .+ θqεt−q]
=V [εt] + θ21V [εt−1] + ...+ θ2
qV [εt−q]
=σ2ε
q∑i=0
θ2i , donde θ0 = 1.
Ahora para calcular la función de autocovarianza recordemos que para un proceso estocástico lineal
Xt − µ =
∞∑j=−∞
ψjεt−j ,
sabemos que podemos encontrar la función de autocovarianza como
γX(h) = σ2∞∑
j=−∞ψjψj+h, h ≥ 0.
En nuestro caso tenemos que el proceso estocástico es
14
Series de tiempo CNSF - IIMAS UNAM
Xt − µ =εt + θ1εt−1 + . . .+ θqεt−q
entonces ψ0 = 1, ψ1 = θ1, ψ2 = θ2, . . . , ψq = θq y ψk = 0 en cualquier otro caso.
Entonces se puede probar que la autocorrelación para h ≥ 0 de un MA(q) es:
γ(h) = Cov (Xt, Xt+h) =
σ2ε
q−h∑i=0
θiθh+i si 0 ≤ h ≤ q
0 h > q.
Notemos que esto último no depende de t, el tiempo donde se está parado, sino de cuanto están separadas lasobservaciones. por lo tanto es un proceso estacionario de segundo orden.
La función de autocorrelación para h ≥ 0 de un MA(q) está dado por
ρ(h) = ρ(Xt, Xt+h) =γhγ0
=
q−h∑i=0
θiθh+i
q∑i=0
θ2i
si 0 ≤ h ≤ q
0 h > q.
Observaciones
Para unaMA(q), denido por Xt = µ+θq(B)εt, si es un proceso de ruido blanco εt es gaussiano, entocesXt también es gaussiano.
En un proceso MA(q) la función de autocorrelacion presenta un rasgo identicativo, puesto que es cero apartir de los lag′s mayores a el orden del proceso.
Notemos que aunque no se requieren restricciones sobre los coecientes, θ1, . . . , θq para que un procesoMA (q) sea estacionario, sí hay un inconveniente que explicaremos a continuación.
La función de autocorrelación ρ(h) es una herramienta que usaremos más para tratar de identicar que procesogeneró nuestra serie de tiempo. Por lo tanto cabe la pregunta ¾Para cada modelo MA existe una única funciónde autocorrelación? Por desgracia la respuesta es no.
Supongamos que tenemos los siguientes procesos MA (1)
Xt = εt + θεt−1 y Yt = εt +1
θεt−1,
donde θ ∈ R\ 0 y εtt∈T y εtt∈T son dos procesos de ruido blanco. Para estos dos procesos tenemos que lafunción de autocorrelación es
ρ(h) =
1 si h = 0θ
1 + θ2 si h = 1
0 si h > 1.
15
Series de tiempo CNSF - IIMAS UNAM
Más aun si V ar (εt) = σ2 y V ar (εt) = σ2
θ2 entonces los proceso tienen la misma función de autocovarianza. Loque nosotros observamos son Xt y Yt y no los procesos de ruido entonces ambos procesos son indistingibles parael observador.
Veamos una forma para elegir entre uno de estos modelos. Del modeloXt = εt+θεt−1 tenemos que εt = Xt−θεt−1
Xt = εt + θεt−1 = εt + θ (Xt−1 − θεt−2)
= εt + θXt−1 − θ2εt−2 = εt + θXt−1 − θ2 (Xt−2 − θεt−3)
= εt + θXt−1 − θ2Xt−2 + θ3εt−3 = εt + θXt−1 − θ2Xt−2 + θ3 (Xt−3 − θεt−4)
= εt + θXt−1 − θ2Xt−2 + θ3Xt−3 − θ4εt−4
...
= εt +
∞∑j=1
(−1)j+1
θjXt−j
Por lo tanto si |θ| < 1, el efecto del pasado cada vez es menor. Por lo tanto si |θ| < 1 tenemos que
εt = Xt −∞∑j=1
(−1)j+1
θjXt−j = Xt +
∞∑j=1
(−1)jθjXt−j
=
∞∑j=0
(−1)jθjXt−j .
Ahora vamos a introducir el concepto de invetibilidad en los procesos MA que nos garantiza que para cadaproceso MA se puede relacionar de manera única con una función de autocorrelación.
Invertibilidad
DeniciónUn procesoMA(q), Xtt∈T denido por θp (B) = 1+θ1B+ . . .+θqB
q se llama invertible si se puede expresar
como un AR(∞), es decir εt =
∞∑j=0
πjXt−j =
∞∑j=0
πjBjXt = ψ (B) εt para toda t ∈ T , donde
∞∑j=0
|πj | < ∞ y
π0 = 1.
El siguietne resultado nos da condiciones necesarias para saber si un proceso MA es invertible o no.
TeoremaUn proceso MA(q), denido por θp (B) εt = Xt, donde θq (B) = 1 + θ1B + . . .+ θqB
q es invertible si solo si lasraíces de la ecuación
θq (B) = 1 + θ1B + . . .+ θqBq = 0,
son en módulo mayores que la unidad
Ejemplo
Para un MA(2), Xt = εt + θ1εt−1 + θ2εt−2 =(1 + θ1B + θ2B
2)εt será invertible si las raíces del polinomio
θ2(B)=1 + θ1B + θ2B2 son en módulo mayores a la unidad, es decir
z1 =
∣∣∣∣∣−θ1 +√θ2
1 − 4θ2
2θ2
∣∣∣∣∣ > 1 y z2 =
∣∣∣∣∣−θ1 −√θ2
1 − 4θ2
2θ2
∣∣∣∣∣ > 1.
16
Series de tiempo CNSF - IIMAS UNAM
Entonces igualando el polinomio θ2(B) con su factorización
1 + θ1B + θ2B2 = θ2(B)=
(1− B
z1
)(1− B
z2
)= 1−B
(1
z1+
1
z2
)+
B2
z1z2
Por lo tanto θ2 = 1z1z2
, y θ1 = −(
1z1
+ 1z2
), con estas condiciones tenemos que la región en R2 donde el proceso
MA(2) es invertible es
−1 < θ2 < 1,θ1 + θ2 < 1, θ2 − θ1 < 1.
Para un MA(2) el conjunto de puntos que hace que sea invertible son
−2 −1 0 1 2
−1.
0−
0.5
0.0
0.5
1.0
theta_1
thet
a_2
Autorregresivo
Diremos que un proceso Xtt∈T es un autorregresivo de orden p, y lo denotaremos como AR(p), si para p ≥ 1un entero y φ1, . . . , φp constantes reales tenemos que
Xt =φ1Xt−1 + . . .+ φpXt−p + εt
donde εt es un proceso de ruido blanco.
En terminos de operadores de retraso tenemos
Xt − φ1Xt−1 − . . .− φpXt−p =εt
(1− φ1B − . . .− φpBp)Xt =εt
φp (B)Xt =εt,
17
Series de tiempo CNSF - IIMAS UNAM
a φp (B) se le conoce como el polinomio autorregresivo.
Un proceso AR(p) puede ser estacionario o no estacionario, eso dependerá de los valor es de φ1, . . . , φp, porejemplo
Para un AR(1) Xt = φXt−1 + εt con |φ| < 1, ya habíamos calculado que
E (Xt) = 0, γ(h) =σ2φh
1− φ2y ρ(h) =
γ(h)
γ(0)= φh.
Notemos de lo anterior que lo anterior concluimos que la función de autocorrelación decrece de formaexponencial y ademas que irá alternado el signo si φ < 0.
Ahora introduciremos el concepto de causalidad para los proceso AR(p). Este concepto es casi identico a ladenición de un proceso estocástico lineal, y recordemos que para ese tipo de proceso sabemos que condicionespedir para que sean estacionarios de segundo orden. En otras palabras, si tenemos un proceso AR(p) causalentonces este será estacionario.
DeniciónUn proceso AR(p), Xt denido por φp (B) = 1− φ1B − . . .− φpBp se llama causal o función causal de εt
si se puede expresar como un MA(∞), es decir Xt =
∞∑j=0
ψjεt−j =
∞∑j=0
ψjBjεt = ψ (B) εt para toda t ∈ T , donde
∞∑j=0
|ψj | <∞ y ψ0 = 1.
El siguiete teorema nos da condiciones necesarias para saber si un proceso AR(p) es causal o no.
TeoremaUn proceso AR(p), denido por φp (B)Xt = ε, donde φp (B) = 1 − φ1B − . . . − φpBp es causal si solo si lassoluciones de la ecuación
φp (B) = 1− φ1B − . . .− φpBp = 0,
son en módulo mayores que la unidad.
Para un AR(2) la región de causalidad es la que se muestra a continuación
18
Series de tiempo CNSF - IIMAS UNAM
Lema
Supongamos que Xtt es proceso causal, Xt =∑∞j=0 ψjεt−j , donde εtt∈T es ruido blanco. Entonces
E [Xt−kεt] =
σ2ε si k = 0,
0 si k > 0.
Demostración
Caso k = 0
E [Xtεt] = E
∞∑j=0
ψjεt−j
εt
=
∞∑j=0
ψjE [εtεt−j ]
= ψ0E [εtεt] = 1 · σ2ε = σ2
ε .
Caso k > 0
E [Xt−kεt] = E
∞∑j=0
ψjεt−k−j
εt
=
∞∑j=0
ψjE [εtεt−k−j ]
=
∞∑j=0
ψj · 0 = 0
Veamos una forma de calcular analíticamente las función de autocovarianza y autocorrelación de un AR(2)suponiedo que es causal y además si perdida de generalidad E (Xt) = 0. Primero tenemos que un AR(2) seescribe como
Xt =φ1Xt−1 + φ2Xt−2 + εt
donde εt es ruido blando con varianza σ2ε . Si multiplicamos esta última ecuación por Xt−k tenemos y tomamos
esperanza de ambos lados tenemos que
E [XtXt−k] =φ1E [Xt−1Xt−k] + φ2E [Xt−2Xt−k] + E [εtXt−k] .
Que es equivalente a
γk =φ1γk−1 + φ2γk−2 + E [εtXt−k] .
19
Series de tiempo CNSF - IIMAS UNAM
Usando el Lema anterior al evaluar para distintas k′s tenemos que
γk =φ1γk−1 + φ2γk−2, k ≥ 1
γ0 =φ1γ1 + φ2γ2 + σ2ε .
Dividiendo estas expresiones por γ0 tenemos que
ρk =φ1ρk−1 + φ2ρk−2, k ≥ 1 (2)
1 =φ1ρ1 + φ2ρ2 +σ2ε
γ0. (3)
Evaluando (2) en k = 1 y 2 tenemos que
k = 1, ρ1 =φ1 + φ2ρ1,⇒ ρ1 =φ1
1− φ2
k = 2, ρ2 =φ1ρ1 + φ2,⇒ ρ2 =φ2
1
1− φ2+ φ2.
Ahora si evaluamos (2) con k = 3 y usando los resultados anteriores obtenemos ρ3, y de manera recursiva usandola ecuación (2) podemos obtener ρu para u ≥ 4.
En general para un proceso AR(p) con p ≥ 3 decrece a cero en formas sinusoidales, pero no se anulan a partirde algún lag como sucede en los procesos MA(q).
Supongamos que Xtt es proceso AR(p) causal,
Xt − φ1Xt−1 − . . .− φpXt−p = εt,
donde E [Xt] = 0, ∀t y εtt∈T es ruido blanco. Si a la ecuación anterior la multiplicamos por Xt−k con k ≥ 0y tomamos esperanza de ambos lados obtenemos
γk − φ1γk−1 − . . .− φpγk−p = E [Xt−kεt] .
De la ecuación anterior si evaluamos para distintas k y usamos el lema anterior podemos obtener el siguientesistema de ecuaciones
γ0 − φ1γ1 − φ2γ2 . . .− φpγp = σ2ε , para k = 0
γ1 − φ1γ0 − φ2γ1 . . .− φpγp−1 = 0, para k = 1γ2 − φ1γ1 − φ2γ0 . . .− φpγp−2 = 0, para k = 2
......
γp − φ1γp−1 − φ2γp−2 . . .− φpγ0 = 0, para k = p.
O visto matricialmente
γ0 − φ′pγp = σ2ε (4)
γp = Γpφp, (5)
20
Series de tiempo CNSF - IIMAS UNAM
donde γp =
γ1
γ2
...γp
Γp =
γ0 γ1 . . . γp−1
γ1 γ0 . . . γp−2
......
. . ....
γp−1 γp−2 . . . γ0
φp =
φ1
φ2
...φp
. A (5) se le conoce como las ecua-
ciones de Yule-Walker.
Si tenemos una realización Xjnj=1 de tamaño n entonces podemos calcular
γp =
γ1
γ2
...γp
, Γp =
γ0 γ1 . . . γp−1
γ1 γ0 . . . γp−2
......
. . ....
γp−1 γp−2 . . . γ0
,
y de esta forma tenemos una manera inicial de estimar φp y σ2ε en el caso de un AR(p) causal usando las
ecuaciones de Yule-Walker. Si pedimos que γ0 > 0 entonces Γp es invertible y entonces de (5) tenemos que
φp = Γ−1
p γp,
sustituyendo esto último en (4) tenemos
σ2ε = γ0 −
(Γ−1
p γp
)′γp
= γ0 − γ′p(Γ−1
p
)′γp
= γ0 − γ′pΓ−1
p γp.
Función de autocorrelación parcial
La función de autocorrelación parcial (PACF) es una herramienta que nos ayudará a identicar de forma sencillael orden p de un proceso AR, puesto que en general no es fácil detectar el orden p, usando sólo la función deautocorrelación (muestral).
Primero notemos que para un AR(1), donde el efecto de Xt−2 sobre Xt no es directo si no a través de Xt−1, enotras palabras, si conocemos Xt−1, el valor que tome Xt−2 es irrelevante para Xt.
A continuación vamos a denir el cociente de correlación parcial de orden k, que denotaremos φk k, como unamedida de relación lineal entre observaciones separas k periodos, eliminando el efecto de las variables intermedias.
Consideremos un proceso estacionario Xtt∈T y sin perdida de generalidad pensemos que E [Xt] = 0.
1. Para eliminar de Xt+k el efecto de las variables Xt+1, Xt+2, . . . , Xt+k−1 consideremos el predictor lineal
óptimo vía mínimos cuadrados y llamemoslo Xt+k es decir que
Xt+k =η1Xt+1+η2Xt+2 + . . .+ ηk−1Xt+k−1,
donde η1, η2, . . . , ηk−1 son números que se obtienen minimizando
E[(Xt+k − Xt+k
)2]=E
[(Xt+k − η1Xt+1 − η2Xt+2 − . . .− ηk−1Xt+k−1)
2].
21
Series de tiempo CNSF - IIMAS UNAM
2. Para eliminar de Xt el efecto de las variables Xt+1, Xt+2, . . . , Xt+k−1 consideremos el predictor lineal
óptimo vía mínimos cuadrados y llamemoslo Xt es decir que
Xt =β1Xt+1+β2Xt+2 + . . .+ βk−1Xt+k−1,
donde β1, β2, . . . , βk−1 son números que se obtienen minimizando
E[(Xt − Xt
)2]=E
[(Xt+k − β1Xt+1 − β2Xt+2 − . . .− βk−1Xt+k−1)
2].
La función de autocorrelación parcial para k ∈ N de un proceso estacionario Xtt∈T es
αk =
ρ1 si k = 1,Cov(Xt−Xt,Xt+k−Xt+k)√
Var(Xt−Xt)√Var(Xt+k−Xt+k)
si k 6= 1.
En general se puede demostrar que para un proceso AR(p) causal, αk = 0 para k ≥ p + 1. Por lo tanto la
PACF es un buen indidador para saber que orden de retraso debe tener el proceso si suponemos que es una
autorregresivo.
La anterior forma de calcular la PACF no es muy sencilla, afortunadamente hay una forma equivalente decalcular la PACF de la siguiente forma: φ1 1 = ρ1, y para k ≥ 2 tenemos que
φ2 2 =
∣∣∣∣ 1 ρ1
ρ1 ρ2
∣∣∣∣∣∣∣∣ 1 ρ1
ρ1 1
∣∣∣∣ , φ2 2 =
∣∣∣∣∣∣1 ρ1 ρ1
ρ1 1 ρ2
ρ2 ρ1 ρ3
∣∣∣∣∣∣∣∣∣∣∣∣1 ρ1 ρ2
ρ1 1 ρ1
ρ2 ρ1 1
∣∣∣∣∣∣, . . . ,φk k =
∣∣∣∣∣∣∣∣∣∣∣
1 ρ1 . . . ρk−2 ρ1
ρ1 1 . . . ρk−3 ρ2
......
. . ....
...ρk−2 ρk−3 . . . 1 ρk−1
ρk−1 ρk−2 . . . ρ1 ρk
∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣
1 ρ1 . . . ρk−2 ρk−1
ρ1 1 . . . ρk−3 ρk−2
......
. . ....
...ρk−2 ρk−3 . . . 1 ρ1
ρk−1 ρk−2 . . . ρ1 1
∣∣∣∣∣∣∣∣∣∣∣
.
Se puede probar que αk = φk k.
Ejemplo 1
Para un AR(1) con |φ| < 1 tenemos que ρh = φh para h ∈ 0, 1, 2, 3, . . .. Ahora para este proceso obtengamossu función de autocorrelación parcial.
Por denición tenemos que φ1 1 = ρ1 = φ.
φ2 2 =
∣∣∣∣ 1 ρ1
ρ1 ρ2
∣∣∣∣∣∣∣∣ 1 ρ1
ρ1 1
∣∣∣∣ =
∣∣∣∣ 1 φφ φ2
∣∣∣∣∣∣∣∣ 1 φφ 1
∣∣∣∣ =φ2 − φ2
1− φ2= 0.
22
Series de tiempo CNSF - IIMAS UNAM
φ3 3 =
∣∣∣∣∣∣1 ρ1 ρ1
ρ1 1 ρ2
ρ2 ρ1 ρ3
∣∣∣∣∣∣∣∣∣∣∣∣1 ρ1 ρ2
ρ1 1 ρ1
ρ2 ρ1 1
∣∣∣∣∣∣=
∣∣∣∣∣∣1 φ φφ 1 φ2
φ2 φ φ3
∣∣∣∣∣∣∣∣∣∣∣∣1 φ φ2
φ 1 φφ2 φ 1
∣∣∣∣∣∣= 0.
Es fácil notar que para un AR(1) con |φ| < 1, φk k = 0 para k ≥ 2.
Ejemplo 2
Para un AR(2) causal habiamos visto que: ρ1 = φ1
1−φ2, ρ2 =
φ21
1−φ2+ φ2 y usando la fórmula recursiva ρ3 =
φ1
(φ21+φ2(2−φ2)
1−φ2
)Por denición tenemos que φ1 1 = ρ1 = φ1
1−φ2.
φ2 2 =
∣∣∣∣ 1 ρ1
ρ1 ρ2
∣∣∣∣∣∣∣∣ 1 ρ1
ρ1 1
∣∣∣∣ =
φ21
1−φ2+ φ2 −
(φ1
1−φ2
)2
1−(
φ1
1−φ2
)2 =φ2
1 (1− φ2) + φ2 (1− φ2)2 − φ2
1
(1− φ2)2 − φ2
1
.
φ3 3 =
∣∣∣∣∣∣1 ρ1 ρ1
ρ1 1 ρ2
ρ2 ρ1 ρ3
∣∣∣∣∣∣∣∣∣∣∣∣1 ρ1 ρ2
ρ1 1 ρ1
ρ2 ρ1 1
∣∣∣∣∣∣= 0, (pruébalo)
Se puede probar que para un AR(2) causal, φk k = 0 para k ≥ 3.
En general se puede demostrar que para un proceso AR(p) causal, φk k = 0 para k ≥ p + 1. Por lo tanto la
PACF es un buen indidador para saber que orden de retraso debe tener el proceso si suponemos que es una
autorregresivo.
Por otro lado, si tenemos un MA(q) invertible, entonces este proceso lo podemos representar como un AR(∞)entonces lo que esperaríamos es que la pacf de un MA(q) no se haga cero a partir de algún momento.
PACF muestral
Supongamos que tenemos un proceso estacionario Xtt∈T , con PACF φk k : k = 1, 2, 3, . . .. Por otro lado,
supongamos que la serie observada X1, X2, . . . , Xn proviene de dicho proceso. El estimador φk k de φk k, loobtendrémos de la siguiente manera:
23
Series de tiempo CNSF - IIMAS UNAM
φ1 1 = ρ1, y φk k =
∣∣∣∣∣∣∣∣∣∣∣
1 ρ1 . . . ρk−2 ρ1
ρ1 1 . . . ρk−3 ρ2
......
. . ....
...ρk−2 ρk−3 . . . 1 ρk−1
ρk−1 ρk−2 . . . ρ1 ρk
∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣
1 ρ1 . . . ρk−2 ρk−1
ρ1 1 . . . ρk−3 ρk−2
......
. . ....
...ρk−2 ρk−3 . . . 1 ρ1
ρk−1 ρk−2 . . . ρ1 1
∣∣∣∣∣∣∣∣∣∣∣
, para k ≥ 2.
TeoremaSea Xtt∈T un proceso AR(p) estacionario con εtt∈T una sucesión de v.a.i.i.d. con E (εt) = 0 y V ar (εt) = σ2
ε
constante. Para k > p,
√nφk k
d→ N (0, 1) .
Proceso mixtos ARMA
Una vez denidos los procesos AR y MA y que conocemos algunas de sus características ahora vamos a combi-narlos para obtener una generalización de los procesos anteriores, a estos procesos se les conoce como modelosautorregresivos de promedios móviles. La idea de hacer esta combinación es que en la práctica tendrémos seriesde tiempo que tienen características tanto de AR como de MA.
Diremos que Xtt∈T es un proceso autorregresivo de medias moviles de orden (p, q), y lo denotamosARMA(p, q)donde p, q ≥ 0 son enteros y φ1, . . . , φp, θ1, . . . , θq. son reales tales que
Xt = φ1Xt−1 + . . .+ φpXt−p +εt + θ1εt−1 + . . .+ θqεt−q,
o equivalentemente
Xt − φ1Xt−1 − . . .− φpXt−p = εt + θ1εt−1 + . . .+ θqεt−q
φp(B)Xt = θq(B)εt.
donde εtt es ruido blanco y los polinomios de retraso φp(·) y θq(·) no tienen ceros en común.
Además para que el proceso ARMA (p, q), φp(B)Xt = θq(B)εt, sea causal e invertible necesitamos que las raícesde los polinomios φp(z) y θq(B) sean en módulo mayores a la unidad.
Ejemplo
La región donde un ARMA (1, 1), Xt−φXt−1 = εt + θεt−1, es invertible y causal es el interior del cuadrado (sinla orilla) que se presenta a continuación
24
Series de tiempo CNSF - IIMAS UNAM
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
theta
phi
Continuando con un proceso ARMA (1, 1), veamos que este proceso es causal.
(1− φB)Xt = εt + θεt−1
Xt =εt
(1− φB)+
θεt−1
(1− φB)
=
∞∑k=0
φkBkεt + θ
∞∑k=0
φkBkεt−1
=
∞∑k=0
φkεt−k + θ
∞∑k=0
φkεt−1−k
= εt +
∞∑k=1
φkεt−k + θ
∞∑k=0
φkεt−1−k
= εt +
∞∑k=0
φk+1εt−1−k + θ
∞∑k=0
φkεt−1−k
= εt +
∞∑k=0
φk+1εt−1−k + θφkεt−1−k
= εt +
∞∑k=0
(φ+ θ)φkεt−1−k
= εt +
∞∑k=1
(φ+ θ)φk−1εt−k.
Entonces ψ0 = 1 y ψk = (φ+ θ)φk−1 con k ≥ 1 para un ARMA(1, 1), y por lo tanto
ρh =
∞∑j=0
ψjψj+h
∞∑j=0
ψ2j
.
25
Series de tiempo CNSF - IIMAS UNAM
Antes habíamos calculado las ecuaciones de Yule-Walker para un AR(p) haciendo los supuestos de que Xttes un proceso causal y que E [Xt] = 0 ∀t. Con los supuesto anteriores, pero si ahora Xtt es un procesoARMA(p, q) entonces las ecuaciones de Yule-Walker son de la siguente forma:
γk − φ1γk−1 − φ2γk−2 . . .− φpγk−p = σ2ε
q∑j=k
θjψj−k para k ∈ 0, 1, . . . , q y θ0 = 1.
γk − φ1γk−1 − φ2γk−2 . . .− φpγk−p = 0 para k ≥ q + 1.
Ejemplo
Para un ARMA (1, 1), Xt = φ1Xt−1 + εt + θ1εt−1 con |φ1| < 1, |θ1| < 1, usemos las ecuaciones de Yule-Walkerpara encontrar γhh≥0.
Usando las ecuaciones de Yule Walker tenemos que
γ0 − φ1γ1 = σ2ε (1 + θ1ψ1) para k = 0
γ1 − φ1γ0 = σ2ε θ1 para k = 1,
como ψk = (φ+ θ)φk−1 entonces ψ1 = (φ+ θ), ahora solucionando el sistema de ecuaciones anterior tenemosque
γ0 = σ2ε
1 + 2θ1φ1 + θ21
1− φ21
γ1 = σ2ε
θ1 + φ1 + θ1φ21 + φ1θ
21
1− φ21
= σ2ε
(1 + φ1θ1) (θ1 + φ1)
1− φ21
.
Como γk = φ1γk−1 para k ≥ 2 por las segunda parte de las ecuaciones de Y-W tenemos que
γ2 = φ1γ1 = φ1
σ2ε
(1 + φ1θ1) (θ1 + φ1)
1− φ21
γ3 = φ1γ2 = φ2
1
σ2ε
(1 + φ1θ1) (θ1 + φ1)
1− φ21
...
γk = φk−11
σ2ε
(1 + φ1θ1) (θ1 + φ1)
1− φ21
, para k ≥ 2.
Hasta aquí hemos presentado modelos de series de tiempo estacionarias, pero en la práctica tenemos series queno son estacionarias ya sea porque:
tienen un compente de tendencia (no tienen una media constante) y/o porque la serie de tiempo presentaun componente estacional con un periodo que puede ser determinístico o no.
la varianza de la serie de tiempo no sea constante.
26
Series de tiempo CNSF - IIMAS UNAM
Modelos no estacionarios
Como dijimos al inicio del curso, cuando tenemos una serie de tiempo observada y gracamos los datos, esposible que notemos que la serie no sea estacionaria, entonces es deseable aplicar alguna trasformación a losdatos para hacerlos estacionarios.
Si en nuestra serie observada solo se aprecia un compontente de tendencia (media no constante)
Xt = mt + Yt,
ésta puede eliminarse mediante la aplicación del operador diferencia ∇d = (1−B)d, con esto buscamos eliminaruna tendencia polinomial de orden d en la serie, este tipo de trasformación da origen a los modelos integrados oARIMA.
DeniciónProcesos ARIMA(p,d,q) (causales e invertible)Sea d ∈ 1, 2, 3, . . .. Diremos que Xtt∈T es un proceso ARIMA(p, d, q) causal e invertible si al diferenciarlo
d veces, es decir, Yt = ∇dXt = (1−B)dXt tenemos un proceso ARMA(p, q) causal e invertible.Dicho de otro modo, si Xt es un proceso ARIMA(p, d, q) se escribe de la siguiente forma
φ∗(B)Xt = φp(B)(1−B)dXt = θq(B)εt,
(1− φ1B − φ2B
2 − . . .− φpBp)
(1−B)dXt =(1 + θ1B + θ2B
2 + . . .+ θqBq)εt,
φp(B)Yt = θq(B)εt,
donde εt es ruido blanco, φp(B) y θq(B) son los polinomios de retraso de grado p y q respectivamente.
Observaciones
1. El polinomio φ∗(z) = φp(z)(1− z)d tiene una raíz de orden d en z = 1, o tiene una raíz unitaria.
2. El proceso es estacionario si solo si d = 0 y ARIMA(p, 0, q) = ARMA(p, q).
3. Aunque los modelos ARIMA(p, d, q) son muy usados para modelar series con tendencia, también puedenser usados para modelar series sin tendencia.
4. La estimación de los parámetros φ = (φ1, φ2, . . . , φp) , θ = (θ1, θ2, . . . , θq) y σ2ε se harán con base en el
proceso estacionario
(1−B)dXt
.
Ejemplo
Si Xt es un proceso ARIMA(1, 1, 1) causal e invertible donde φ ∈ (−1, 1) y θ ∈ (−1, 1)
(1− φB)(1−B)Xt = (1 + θB)εt,
(1− φB)Yt = (1 + θB)εt,
donde Yt = (1−B)Xt es un proceso ARMA(1, 1) causal e invertible.
27
Series de tiempo CNSF - IIMAS UNAM
Modelos estacionales
Ahora nuestro objetivo es poder describir series de tiempo que tengan además1 una componente estacional,
Xt = St + Yt ó
Xt = mt + St + Yt.
donde la parte estacional St se repite en forma determinística en un periodo de tamaño s. Primero vamos ahablar de los modelos estacionales puros, la idea en estos modelos es que sólo existe una dependencia entre lasobservaciones que están separadas un multiplo de s. Por ejemplo, si tenemos una serie mensual y el periodo delcíclo s = 12
MesesAños 1 2 3 . . . 11 121 X1 X2 X3 . . . X11 X12
2 X13 X14 X15 . . . X23 X24
......
......
. . ....
...r − 1 X12(r−2)+1 X12(r−2)+2 X12(r−2)+3 . . . X12(r−2)+11 X12(r−1)
r X12(r−1)+1 X12(r−1)+2 X12(r−1)+3 . . . X12(r−1)+11 X12r
Es importante notar que aunque la estacionaridad se puede considerar como un fenómeno anual, puede existirun comportamiento periodico con duración menor a un año2.
DeniciónDiremos que Xtt∈T es un proceso auto regresivo-medias moviles estacional puro con periodo s deorden (P,Q), y lo denotamos ARMA(P,Q)s donde P,Q ≥ 0 y Φ1, . . . ,ΦP ,Θ1, . . . ,ΘQ. son reales tales que
Xt = Φ1Xt−s + . . .+ ΦPXt−Ps +εt + Θ1εt−s + . . .+ ΘQεt−Qs,
o equivalentemente
(1− Φ1B
s − . . .− ΦpBPs)Xt =
(1 + Θ1B
s + . . .+ ΘQBQs)εt
ΦP (Bs)Xt = ΘQ(Bs)εt,
donde εtt es ruido blanco y los polinomios de retraso ΦP (·) y ΘQ(·) no tienen ceros en común.
Para que el proceso ARMA(P,Q)s sea causal e invertible necesitamos que las raíces de los polinomios ΦP (·) yΘQ(·) sean en módulo mayores a la unidad.
Algunos ejemplos de este tipo de procesos son:
1. ARMA(0, 1)s = MA(1)s, de la forma Xt = εt+Θ1εt−s, donde la función de autocorrelación está dada por
ρh =γhγ0
=
1 h = 0
Θ1
1 + Θ21
si h = s
0 c.o.c.
1Con o sin un compontente de tendencia mt.2Semestral o trimestral por ejemplo.
28
Series de tiempo CNSF - IIMAS UNAM
2. ARMA(1, 0)s = AR(1)s, es decir, Xt = Φ1Xt−s + εt, donde la función de autocorrelación está dada por
ρh =γhγ0
=
1 h = 0
Φhs1 si h = s, 2s, 3s, . . .
0 c.o.c.
3. ARMA(1, 1)s, de la forma Xt = Φ1Xt−s + εt + Θ1εt−s, y la función de autocorrelación está dada por
ρh =γhγ0
=
1 h = 0(1+Φ1Θ1)(Θ1+Φ1)
1+Θ21−2Θ1Φ1
h = s
Φ1ρh−s si h = 2s, 3s, . . .
0 c.o.c.
Modelos estacionales multiplicativos y estacionarios
En la mayor parte de los casos los datos no sólo están correlacionados con observaciones que están separadas porun múltiplo de s, sino que también pueden estar correlacionados con observaciones más cercanas. A continuacióndeniremos una familia de modelos que combinen efectos estacionales y no estacionales.
DeniciónDiremos que Xttes un proceso estacional multiplicativo, con periodo s, y lo denotamos como ARMA(p, q)×ARMA(P,Q)S si el proceso se escribe como
φp(B)ΦP (Bs)Xt = θq(B)ΘQ(Bs)εt,
donde εtt es ruido blanco y los polinomios de retraso son los siguientes:φp(z) = 1− φ1B − · · · − φpBp,ΦP (z) = 1− Φ1B
s − · · · − ΦPBPs,
θq(z) = 1 + θ1B + · · ·+ θqBq,
ΘQ(z) = 1 + Θ1Bs + · · ·+ ΘQB
Qs.
Modelos estacionales no estacionarios
Si tenemos una serie de la forma Xt = mt+St+Yt, vimos que vía dierencias simples ∇d = (1−B)dpodíamos
eliminar la componente mt y hablamos del uso de la diferencia estacional ∇Ds = (1−Bs)D, para eliminar lacomponente St
Estos los operadores los usaremos para describir el modelo más general, es decir, una serie que tiene tanto unacomponente de tendencia como el de una parte estacional.
29
Series de tiempo CNSF - IIMAS UNAM
DeniciónSean d,D ∈ Z enteros no negativos. Diremos que Xttes un proceso auto-regresivo de promedios moviles
integrado estacional multiplicativo de periodo s, denotado por ARIMA(p, d, q) × ARIMA(P,D,Q)s oSARIMA(p, d, q)× (P,D,Q)S si el proceso
Yt = (1−B)d (
1−BS)D
Xt,
es un proceso ARMA(p, q)×ARMA(P,Q)S causal
φp(B)ΦP (Bs)Yt = θq(B)ΘQ(Bs)εt,
donde εtt es ruido blanco.
Metodología de Box-Jenkins para modelos ARIMA
Etapa de identicación de los órdenes p, d, q, P,D y Q.
Una vez que hemos introducido una familia de proceso nuestro objetivo será, dada una serie de tiempo observadaxtNt=1, encontrar un(os) modelo( de esa familia del cual podamos suponer que nuestra serie observada sea unelemento muestral. Usando el principio de parsimonia, es decir usar el modelo con el menor número de parámetrosposibles.
Etapa 1Identificación delos parámetrosd,D,p,P,q y Q
Etapa 2 Estimación de los coeficientes
Etapa 3Verificación delos supuestos
El modelo cumple con
los supuestos
Usar el modelopara hacerpredicción
sí
No
Identicación del modelo, esta parte la podemos dividir en dos partes:
1. Buscamos la estructura no estacionaria (si es que la hay), es decir ltrar la parte de tendencia y/o parteestacional, para quedarnos con la parte estacionaria.
2. Una vez obtenida la parte estacionaria buscarémos cuál es la estructura estacionaria
En otras palabras buscamos encontrar una transformación de los datos originales de tal forma que obtengamosuna serie estacionaria. Aquí tenemos dos posibles tipos de trasformaciones posibles
30
Series de tiempo CNSF - IIMAS UNAM
Cuando gracamos la serie de tiempo observada y notamos que la varianza no es constante, una forma decorregir este problema es aplicar una transformación del tipo Box Cox a los datos, es decir
T (Xt) =
Xλt −1λ si λ 6= 0
log (Xt) si λ = 0.
Cuando gracamos la serie de tiempo observada y notamos que no tiene una media costante es recomendableaplicarle el operador diferencia ∇; anteriormente habíamos platicado que el operador diferencia eliminabatendencias lineales, mt = a0 + a1t, y que el operador diferenica aplicado dos veces, ∇2, elimina tendenciascuadráticas, mt = a0 + a1t + a2t
2. En la práctica no hacen falta diferenciar más de dos veces una seriepara quitarle el componente de tendencia.Algunas veces las series de tiempo veces presentan un componente estacional St con periodo s, esto lopodemos notar de manera gráca a partir de la acf muestral, ya que las autocorrelaciones son muysignicativa en los lag´s s, 2s, 3s, 4s, . . . y decrece de manera lenta. En estos casos es aconsejable aplicarlea la serie una diferencia estacional ∇s = (1−Bs), no es común que se requiera aplicar una diferencia másde una vez.
1. Encontrar d y D tal que la serie Yt = (1−B)d
(1−Bs)D T (Xt) tenga aspecto estacionario. Notemosque la serie la serie de tiempo original Xt corre de los índices t ∈ 1, 2, . . . , N, mientras que la serieestacionaria Yt corre de los índices t ∈ d+ sD + 1, . . . , N.
2. Examinar la ACF y la PACF muestrales asociadas a Ytt para aquellos enteros que son multiplos de s,(identicar los ordenes de P y Q del modelo).
Si ρ(·) y φk k son la ACF y la PACF muestral respectivamente de la serie Ytt, entonces P y Q pueden
seleccionarse de forma tal que, ρ(ks) y φsk sk con k = 1, 2, . . .sea compatible con la ACF y la PACFteóricas del modelo ARMA(P,Q).
3. Los ordenes de p y q deben ser seleccionados de forma tal que:ρ(1), . . . , ρ(s − 1) sea complatible con la ACF teorica y φ1 1, . . . , φs−1 s−1 sea complatible con la PACFla teórica de un proceso ARMA(p, q).
En las aplicaciones es usual que d ∈ 0, 1, 2 y D ∈ 0, 1.
Estimación de los parámetros
Estimación máximo verosimil.
Primero hagamos el supuesto distribucional3 de que εtt son v.a.i.i.d. N(0, σ2
ε
), y que tenemos una realización
de tamaño N , es decir, X1, X2, . . . , XN de un ARMA(p, q) entonces
εt = Xt − φ1Xt−1 − . . .− φpXt−p − θ1εt−1 − . . .− θqεt−q. (6)
Sea t∗ = max(p, q) y usando el supuesto distribucional del ruido blanco tenemos que
3Noten que hasta este momento estamos haciendo este supuesto.
31
Series de tiempo CNSF - IIMAS UNAM
fε (εt∗+1, εt∗+2, . . . , εN ) =
N∏t=t∗+1
fε (εt) (por independencia de εt)
=
N∏t=t∗+1
1√2πσε
exp
− ε2t
2σ2ε
(puesto que εt ∼ N
(0, σ2
ε
))
= (2π)−N−t∗
2 σ−(N−t∗)ε exp
−
N∑t=t∗+1
ε2t
2σ2ε
.
Nosotros queremos la función de densidad conjunta del vector X∗ = (Xt∗+1, Xt∗+2, Xt∗+3, . . . , XN ), que es laverosimilitud y la vamos a obtenemos con el cambio de variable dado por (6), es decir
fε(X∗|φp,θq, σ2
ε
)= fε (εt∗+1, εt∗+2, . . . , εN ) |T |−1
= (2π)−N−t∗
2 σ−(N−t∗)ε exp
−S(φp,θq
)2σ2
ε
= g
(σ2ε
)h(φp,θq, σ
2ε
)(7)
donde
S(φp,θq
)=
N∑t=t∗+1
(Xt − φ1Xt−1 − . . .− φpXt−p − θ1εt−1 − . . .− θqεt−q)2, y |T |−1 = 1.
φp = φ1, . . . , φp,
θq = θ1, . . . , θq,
Es importante notar que para maximizar la verosimilitud (7) necesitamos minimizar S(φp,θq
).
Supongamos que φp y θq4 son los valores que minimizan S
(φp,θq
), y evaluemos la verosimilitud en estos valores,
es decir, fε
(X∗|φp, θq, σ2
ε
).
Ahora para terminar nos falta encontrar el estimador máximo verosimil de σ2ε , para facilitar los calculos, tomemos
el logaritmo de la verosimilitud
l(X∗|φp, θq, σ2
ε
)= log
[fε
(X∗|φp, θq, σ2
ε
)]= log
[(2π)
−N−t∗2 σ−(N−t∗)
ε exp
−S(φp,θq
)2σ2
ε
]
= −N − t∗
2
[log (2π) + log
(σ2ε
)]−S(φp, θq
)2σ2
ε
.
De esta ecuación derivamos con respecto a σ2ε
4Encontrar estos valores es un problema de análisis numérico.
32
Series de tiempo CNSF - IIMAS UNAM
∂l(X∗|φp, θq, σ2
ε
)∂σ2
ε
= −N − t∗
2σ2ε
+S(φp, θq
)2σ4
ε
, (8)
al igualar a cero obtenemos el punto crítico
σ2ε =
S(φp, θq
)N − t∗
.
Es fácil ver que al derivar (8) nuevamente con respecto a σ2ε , y después evaluar en σ2
ε , es negativo, por lo tantoσ2ε es el estimador máximo verosímil.
Propiedades asintóticas de estimadores
Supongamos que tenemos un un proceso ARMA(p, q) causal e invertible Xtt con media cero
Xt − φ1Xt−1 − . . .− φpXt−p = εt + θ1εt−1 + . . .+ θqεt−q,
donde εtt son v.a.i.i.d. con E(εt) = 0 y V ar(εt) = σ2ε ∀t ∈ T y los polinomios φp(·) y θq(·) no tienen ceros en
común.
Como notación denamos a βt = (φtp,θtq) = (φ1, . . . , φp, θ1, . . . , θq) como el vector de los coecientes, y a
βt
= (φt
p, θt
q) = (φ1, . . . , φp, θ1, . . . , θq) como el vector de estimadores máximo verosimiles. Entonces si n → ∞tenemos que
n12
(β − β
)d→ Np+q(0,V (β)),
donde 0t =
(0, . . . , 0︸ ︷︷ ︸
)p+q veces
y (V (β))−1
es una matriz de varianzas-covarianzas de dimensión (p+ q)× (p+ q),
V (β) = σ2ε
(Γφφ ΓφθΓθφ Γθθ
)−1
.
Intervalos de conanza para los coecientes φ1, . . . , φp, θ1, . . . , θq
Si Vjj(β) es el j-ésimo elemento de la diagonal V (β) entonces podemos dar un intervalo de conanza (aproxi-mado) al nivel (1− α)× 100% para βj de la siguente manera
βj ∈ R | |βj − βj | ≤ n−
12 Φ1−α2 V
12jj (β)
,
donde Φ1−α2 representa el cuantil 1 − α2 de una N(0, 1). Un parámetro es signicativo al 95% de conanza si el
cero no está en el intervalo(βj − 1.96× s.eβj , βj + 1.96× s.eβj
).
33
Series de tiempo CNSF - IIMAS UNAM
Diagnósicos del modelo vía los residuales
Si tenemos una serie Xtnt=1 y proponemos que proviene de un proceso ARIMA con ordenes p, d y q es decir
(1− φ1B − φ2B
2 − . . .− φpBp)
(1−B)dXt =(1 + θ1B + θ2B
2 + . . .+ θqBq)εt,
φp(B)Yt = θq(B)εt.
Una vez que obtenemos los estimadores de los parámetros φp =(φ1 φ2 . . . φp
), θp =
(θ1 θ2 . . . θq
)y σ2
ε , calculamos los residuales de la siguiente manera: εu = E [εu] = 0, para u ∈ 1, 2, . . . , t∗ + d y
εt = Yt − φ1Yt−1 − . . .− φpYt−p − θ1εt−1 − . . .− θq εt−q,
para t ∈ t∗ + d+ 1, t∗ + d+ 2, . . . , n con t∗ = max(p, q).
Y que queremos ver si εt es una realización de un proceso de ruido blanco. Para ver esto procedamos a hacerlos siguentes pasos
Ver si los los residuales son no correlación para esto usaremos:
la acf ρ2ε(k), y la pacf de los residuales
También hay una prueba de hipótesis, conocida como el contraste de Box-Ljung-Pierce, que consideralas magnitudes de las autocorrelaciones de los residuales en grupo con el siguiente estadístico
Q (h) = n (n+ 2)
h∑k=1
ρ2ε(k)
n− kd→ χ2
(h−r),
donde r es el número de parámetros estimados en el modelo. Y por lo tanto rechazamos la hipótesis deque los primeros de que los primeros h coecientes de autocorrelación son cero al nivel de signicanciaα si
Q (h) ≥ χ21−α,(h−r),
donde χ21−α,(h−r) es el cuantil 1− α de una χ2
(h−r).
Varianza constante
Para checar que los residuales tienen media cero: Primero calculamos ¯ε =∑nk=1
εkn y después S2
ε =∑nk=1
(εk−¯ε)n−r . Concluimos que E [εt] 6= 0 si
|¯ε|√S2ε
n
≥ Φ1−α2 ,
donde Φ1−α2 es el cuantil(1− α
2
)× 100% de una N (0, 1).
Por último, para concluir que los residuales provienen de una normal, podemos proceder con
Un análisis gráco, es decir con un histograma sobre los residuales o un qqplot,
Una prueba de hipótesis como la de Kolmogorov-Smirnov entre otras.
34
Series de tiempo CNSF - IIMAS UNAM
Selección del modelos y predicción
Para una serie de tiempo observada puede ocurrir que existan varios modelos que los representen bien, por estarazón, vamos a introducir el criterio de información de Akaike (AIC). Este criterio es simplemente evaluar la
log-verosimilitud en los estimadores máximo verosimiles φp, θq y σ2ε , más un factor que involucre la cantidad de
parámetros estimados, es decir
AIC = −2 log(l(φp, θq, σ
2ε
))+
2(p+ q + 1)
n.
Notemos que cuando la verosimilitud aumenta, −2 log(l(φp, θq, σ
2ε
))disminuye, por lo tanto el modelo con
mayor verosimilitud será el que minimice a −2 log(l(φp, θq, σ
2ε
)). Por otro lado el factor adicional 2(p+q+1)
n ,
penaliza la cantidad de parámetros en el modelo. Por lo tanto nuestra regla de decisión será tomar el modelo5
que minimiza el AIC.
5De entre los modelos que pasan todos los supuestos de los residuales.
35