Üzleti előrejelzések készítésének módszerei
Post on 21-Nov-2021
10 Views
Preview:
TRANSCRIPT
MISKOLCI EGYETEM
Gazdaságtudományi Kar
Üzleti Információgazdálkodási és
Módszertani Intézet
Üzleti előrejelzések készítésének módszerei
Polyák Andrea
2013
2
Tartalomjegyzék 1. Bevezetés .................................................................................................................3
2. Alapfogalmak ..........................................................................................................5
2.1. Idősorok sajátosságai .........................................................................................6
2.2. Az idősorok elemzésének egyszerűbb eszközei .................................................9
2.2.1. Számtani átlag .......................................................................................... 10
2.2.3. Átlagos változás mutatói ........................................................................... 11
2.2.4. Szóródásmutatók ...................................................................................... 12
2.3. Kiválasztott idősoraim jellemzői és vizsgálata egyszerűbb számításokkal. ...... 13
3. Az idősorelemzés modelljei ................................................................................... 17
3.1. A dekompozíciós modellek ............................................................................. 18
3.1.1. Trendszámítás........................................................................................... 19
3.1.1.1. Analitikus trendszámítás ........................................................................ 20
3.1.1.2. A mozgóátlagolású trendszámítás .......................................................... 27
3.1.2. A szabálytalan ciklus ................................................................................ 31
3.1.3. A szezonális ingadozások ......................................................................... 32
3.2. A simító eljárások ........................................................................................... 38
3.2.1. Egyszeres exponenciális simítás ............................................................... 39
3.2.2. Kettős exponenciális simítások ................................................................. 41
3.2.3. Brown féle korrigált kettős exponenciális simítás ..................................... 43
3.3. AutoRegresszív- és MozgóÁtlag- modellek .................................................... 47
3.3.1. Az autokorreláció ..................................................................................... 50
3.3.2. Mozgóátlag-folyamatok ............................................................................ 51
3.3.3. Az egyváltozós modellek autoregresszív modellje .................................... 52
3.3.4. AutoRegresszív MozgóÁtlag folyamatok ................................................. 57
4. Összegzés, véleményezés ....................................................................................... 69
Summary ................................................................................................................... 72
Irodalomjegyzék ........................................................................................................ 73
Melléklet .................................................................................................................... 74
3
1. Bevezetés
Az embereket mindig érdekelte a jövőbeni események alakulása, a jövő megismerése,
hiszen ezáltal felkészülhettek és könnyebben alkalmazkodhattak az újdonságokhoz.
Nincs ez másként a közgazdaság területén sem. A tudományos jövőkutatás célja a
várható fejlődési tendenciák, jövőképek feltárása, hatásainak, következményeinek
elemzése, valamint alternatívák képzése az egyes felmerülő problémák kezelésére.
Terveket készíteni, elérhető célokat kitűzni és azokat elérni csakis megfelelő
előrejelzések alapján lehet, s ez jelentheti a siker kulcsát is egyben.
A múlt eseményeit tartalmazó adatok, megfigyelések különösen hasznos
információkkal szolgálhatnak. A bizonytalan gazdasági környezet felerősítette a
múltbéli adatok elemzésének és a (pontosabb) előrejelzések készítésnek igényét, éppen
ezért választottam szakdolgozatom témájául az előrejelzési modellek bemutatását,
összehasonlítását.
Az általam vizsgált idősorok ugyanis olyan információkat nyújthatnak a jövőre nézve,
melyeknek minden gazdasági szereplő döntéshozatalában jelentős szerepe lehet.
Megvizsgáltam, hogyan is alkalmazhatóak az egyes idősor modellek minden szakmai
és háttér információ nélkül, mennyire eltérőek vagy éppen hasonlóak az egyes
technikák lépései és milyen eredményekre vezetnek.
A módszerek bemutatása a kialakulásuk sorrendjét tükrözi, hiszen mint minden
tudományágban az egyes modellek folyamatosan fejlődnek, finomodnak, törekedve
minél megbízhatóbb előrejelzések előállítására. Az idősorokkal kapcsolatos
alapismeretek áttekintése után a determinisztikus, majd a sztochasztikus idősorelemzés
legismertebb és leggyakrabban alkalmazott technikáit mutatom be. Sokféle
csoportosítású modellel találkozunk majd, melyek mind a finomodás, tökéletesedés
eredményeként jöttek létre.
A hazai és a nemzetközi szakirodalom olykor eltérő módon osztályozza az egyes
előrejelzési modelleket, ezért megpróbáltam dolgozatomban egységessé tenni őket.
4
A módszerek csupán elméleti leírása nem elégséges a technikák megértéséhez, éppen
ezért az idősorelemzés modelljeit két idősor megfigyelésein fogom lefuttatni. A
gyakorlati bemutatás célja az, hogy teljesebb képet kapjunk az egyes módszerek
előnyeiről, hátrányairól, alkalmazhatóságainak feltételeiről. Az előrejelzési módszerek
tárgyául két teljesen különböző idősort választottam, hogy a különböző technikákat
értelemszerűen vagy egyik, vagy másik idősor segítségével megismertethessem.
Célom tehát, hogy az általam bemutatott modellekről a lehető legteljesebb kép álljon
elő az olvasó számára.
A szakdolgozatom keretei természetesen sokszor nem teszik lehetővé a bonyolultabb
statisztikai, matematikai összefüggések bizonyítását. A módszerek fejlődésével olyan
kritériumok, feltételek állnak elő, melyeknek részletes magyarázata és bizonyítása
túlmutat a dolgozatom célján, ezért ott el kell fogadnunk az egyes kritériumokat.
Szintén lehetetlen lenne a dolgozat keretein belül bemutatni az összes előrejelzési
technikát, de úgy gondolom, az általam kiválasztottak megértésével leegyszerűsödik a
bonyolultabb módszerek megismerése.
Szükségünk lesz a témakörhöz tartozó alapvető statisztikai ismeretekre, amelyeket a
következő fejezet első felében azonnal fel is frissítünk.
5
2. Alapfogalmak
Szakdolgozatomban tehát az idősoros adatok elemzési és előrejelzési technikáit fogom
bemutatni, azonban ehhez szükséges bizonyos alapfogalmak ismerete. Felmerül az
első kérdés: mi is az idősor?
A választ megkapjuk, ha a közgazdászok által gyakran használt adatokat az alábbi
csoportokba osztjuk:
Idősoros adatok
Keresztmetszeti adatok
Paneladatok
Az idősorok adatai olyan mennyiségekre vonatkoznak, melyeket rendszeresen,
meghatározott időközönként figyelnek meg. Lehetnek makroökonómiai adatok (GDP,
kamatláb, stb.) vagy pénzügyi adatok (például részvények árváltozása) és gyűjthetőek
évente, akár havonta, naponta, óránként, stb. A legfontosabb, hogy az adatoknak
időben rendezettnek kell lenniük, sorrendjük meghatározott, ezért nevezzük idősoros
adatoknak.
A megfigyelt idősort Y-nal jelölhetjük, és Y-nak a t-edik időszaki értékét Yt-vel
azonosítjuk. A teljes időszak t=1 –től t=T –ig tart, ahol T jelenti az adatbázisban
található időszakok számát.
Az idősoroktól merőben eltérőek a keresztmetszeti adatok. Az adatok e csoportja a
gazdaság egyéni szereplőit jellemzi, melyek, mint megfigyelési egységek lehetnek
például emberek, vállalatok vagy országok. Gyakori, hogy a csoport tagjainak
valamilyen jellemzője az elemzés tárgya, úgy, mint adott iparág dolgozóinak a bére. A
keresztmetszeti adatok megfigyelései általában i=1 –től N-ig futnak és N jelöli a
megfigyelések számát.
Vannak olyan adatbázisok, melyek ötvözik az idősorok és a keresztmetszeti adatok
sajátosságait, ezek a paneladatok. Ha például 10 európai ország GDP-jét vizsgáljuk
1960-tól 2012-ig, akkor paneladatokkal dolgozunk. Ha T jelöli az éveket, míg N az
6
egyes országokat, akkor az elemzés során T*N Y-ra vonatkozó megfigyelés áll
rendelkezésre.
Felmerül azonban az újabb kérdés: honnan gyűjthetőek be az adatok? A források
tárháza majdhogynem végtelen. Például különböző nemzeti statisztikai hivatalok
adatbázisai, ahonnan az egyes országok nemzeti számláinak rendszerén keresztül
előállított makroökonómiai adatokat szerezhetjük meg. A mikroökonómiai adatokat
pedig cégek, háztartások megkeresésével állítják elő az erre szakosodott szervek. Az
adatbegyűjtés módjára a számos forrás és téma miatt nem is lehet általános érvényű
tanácsot adni.
2.1. Idősorok sajátosságai
Mint már korábban kiemeltem a megfigyelések sorrendjének kitüntetett szerepe van!
Az egyes társadalmi, gazdasági jelenségek leírásánál elengedhetetlen, hogy a
megfigyeléseket hozzárendeljük egy időponthoz vagy időtartamhoz, melyeket nem
lehet felcserélni, ugyanis ez a megfigyelés szempontjából fontos információt hordoz. „
Ennek a szigorúbb módszertani kötöttségnek köszönhetően az idősorok elemzése a
statisztika többé-kevésbé különálló területe lett.”1
A megfigyelések elvben ugyan egymástól különböző távolságra lehetnek, de a
továbbiakban feltételezzük, hogy bármely két egymást követő megfigyelés közti
távolság azonos, tehát ekvidisztans idősorról beszélünk. Az időpontnak, időtartamnak
olyan szempontból is nagy szerepe van, hogy az adatok újbóli felvétele (azonos
körülmények között, ugyanazon pillanatban, intervallumban) lehetetlen,
megismételhetetlen.
A társadalmi-gazdasági jelenségek ekvidisztans időpontokban vagy időszakokban
megfigyelt értékei alkothatnak állapot- vagy tartamidősorokat. Ezt a vizsgált jelenség
természete határozza meg. Az állapotidősorok egy állósokaság időbeli változását
mutatják, az egyes időpontokra vonatkozó állapotfeltételek eredményét rögzítik (tehát
a jelenség pillanatnyi állapotát jellemzik). Példa lehet az ilyen idősorokra a népesség,
1 Domán Cs.-Szilágyi R.- Varga B.: Statisztikai elemzések alapjai II. 120. oldal
7
állatállomány, készlet, stb., melyet egy kiválasztott, eszmei időpontban mérünk. Az
állapotidősor adatai nem csoportosítás útján jönnek létre, összegzésüknek nincs
értelme.
A tartamidősor, mint azt a neve is jelzi, időtartamra vonatkozik, tehát olyan
jelenségeket ír le, melyek csak adott időintervallumon mérhetőek (például
házasságkötések száma 2010-ben).
De miért is használunk idősoros adatokat?
Az idősoros adatok használatának célja tulajdonképpen valamilyen modell
segítségével elemezi az idősort, vagy regressziós modell felállítása, amivel két esetleg
több változó közötti kapcsolatot vizsgálhatjuk, számszerűsíthetjük.
1. ábra: Az idősorelemzés lépései
Forrás: Saját szerkesztés
Az elemzések lépései a következők:
1. Első lépésként leírjuk, rekonstruáljuk az idősort. Egyszerű vagy bonyolult
modell segítségével próbáljuk megragadni az idősorban rejlő tendenciát, valamint
megkeressük a visszatérő szabályosságokat. A belső összefüggések lehetnek
nyilvánvalóak, azonban számolni kell a rejtett belső kapcsolatokkal is. Továbbá külön
kell választani a törvényszerűségeket és a véletlennek tekinthető zavaró hatásokat.
2. Az idősor leírását a magyarázat követi. Ebben a lépésben magyarázatot
keresünk az idősor viselkedésére. Ekkor leírjuk az időben lezajló események
kapcsolatát, egyfajta oksági modellt segítségével (például regressziós modellekkel).
Idősor leírása, rekonstruálása Magyarázat Előrejelzés
8
3. Az idősorelemzés talán legjellemzőbb feladata azonban az előrejelzés! „A
leírt és feltárt összefüggések, valamint a mögöttes magyarázó tényezők együttes
mérlegelésével megkíséreljük az idősor várható alakulását előrevetíteni.”2
Dolgozatom tárgya egy szeparált jelenség (továbbiakban változó) vizsgálatára
alkalmas módszerek összehasonlítása. (A terjedelemmel kapcsolatos követelmények
nem teszik lehetővé, hogy a több változót egyszerre elemző módszereket, a
többváltozós idősorelemzés módszereit bemutassam. )
Egy jelenség vizsgálata tehát egy változóra, egy idősorra vonatkozik. Sokféle módszer
áll a rendelkezésünkre, ha az idősor adataiból további információt szeretnénk kinyerni.
Mint már a bevezetőben említettem, az egyszerűbb módszerektől haladok majd az
összetettebbekig, többek közt azért, mert a látszólag egyszerű, kevés információ
nyújtására képes technikák képezik a bonyolultabb eljárások alapjait.
Nem elegendő azonban, hogy „pusztán” kinyerjünk bizonyos információkat az
idősorból. Fontos, hogy azok tartalmát tudjuk értelmezni és összefoglalni. Nagy
segítséget jelentenek ilyenkor a táblázatok és grafikonok.
Grafikus ábrázolás
Sok helyen találkozunk majd grafikonokkal, melyek az idősor és az adott módszer
hatásának szemléltetését szolgálják. Ideális esetben nagy mennyiségű megfigyeléssel
rendelkezünk, amely túlontúl sok ahhoz, hogy azok önmagukban értelmezhetőek
legyenek. A grafikon segítségével azonban sokkal áttekinthetőbb a folyamat alakulása
és kivehetők annak legfőbb jellemzői. Informatív is egyben, hiszen megmutatja, hogy
egy változó hogyan alakul időben.
(Keresztmetszeti adatok esetében más technikákat kell alkalmazni, úgy, mint
hisztogram vagy pontdiagram, de mivel a későbbiek nem lesz szó keresztmetszeti
adatokról, így nem találkozhatunk az előbb említett ábrázolási technikákkal sem.)
A grafikus ábrák előállítására tökéletesen alkalmasak az Excel nyújtotta eszközök,
azonban bizonyos számításoknál, módszerek lefuttatásánál nagy segítségünkre
2 Hunyadi L.- Vita L.: Statisztika I. Aula Kiadó 2008., 259. oldal
9
lehetnek statisztikai programcsomagok. Az általam használt GRETL (Gnu Regression,
Econometrics and Time-series Library) ökonometriai szoftver segítségével jelentősen
leegyszerűsödött az adatbázis tagjainak kezelése,
valamint grafikonok készítésének folyamata és az
összefoglaló adatok kinyerése. A program bárki számára
ingyenesen hozzáférhető és a felhasználók segítségével
folyamatos fejlesztés alatt áll. Leegyszerűsített
megjelenítése és a folyamatos fejlesztések eredményeként
rendkívül hasznos programot alkalmazhatunk (többek közt)
az idősorok elemzésére és előrejelzésére. A programcsomag alkalmazása tehát
egyszerű, a különösen bonyolult módszerek eredményeit is könnyen előállíthatjuk és
ábrázolhatjuk vele, amint azt majd a dolgozat későbbi részében látni is fogjuk.
A következő pontban bemutatom az idősorok elemzésére, magyarázatára és
előrejelzésére alkalmas módszerek statisztikai hátterét. Igyekszem minél több
grafikonnal illusztrálni a technikákat az általam választott idősorok felhasználásával,
hogy a lehető legtisztább képet kapjuk a kidolgozott módszerek alkalmazhatóságáról
és különbözőségéről.
2.2. Az idősorok elemzésének egyszerűbb eszközei
A vizsgálat tárgya tehát csak egyetlen jelenség, egy mutatóval leírható időbeli
alakulásának vizsgálata. Minden egyes időpontban/ időszakban a vizsgált mutató (Yt)
különböző értékeket vehet fel. Más megközelítésből kijelenthetjük, hogy Yt
valószínűségi változó, hiszen értéke sok, egyenként számba nem vehető tényezőtől
függ, vagyis véletlen. A továbbiakban vizsgáljuk tehát Y-T, Y-T+1, …, Yt, YT sorozatot,
melyet elméleti idősornak nevezünk. A gyakorlatban az elméleti idősor nem áll
rendelkezésünkre, hanem csak a megfigyelt értékei, melyek a következő elemekből
állnak:
y1, y2,…, yt,…, yn
amely jelenti a megfigyelt idősort, továbbiakban egyszerűen csak idősort.
2. ábra: GRETL programcsomag logója
Forrás: http://gretl.sourceforge.ne
t/index.html
10
Az idősorok legegyszerűbb feladata a megfigyelt értékek átlagának meghatározása.
Mielőtt hozzákezdenénk a módszer használatához, meg kell állapítanunk a vizsgált
idősorról, hogy az tartam- vagy állapotidősor. Előbbi esetében a számtani, utóbbi
vizsgálatakor a kronologikus átlagot használjuk.
2.2.1. Számtani átlag
Tartamidősor esetében tehát a számtani átlagot alkalmazzuk, az alábbi képletbe való
behelyettesítéssel:
푦 =∑ 푦푛
(1.1)
Pl. megmutatja egy hónapra jutó átlagos beruházások értékét. Vagyis egy időszakra
jutó átlagos értéket mutat, az alapadattal azonos mértékegységben.
Kronologikus átlag
Mint azt már tisztáztuk az állapotidősor adatai egy időpontra vonatkoznak, melyet egy
eszmei időpontban figyeltünk meg ebből következik, hogy az idősor átlaga az átlagos
állománynagyságot jelöli majd. Ha csak két időpontot vizsgálnánk, akkor ez nyitó és
záró állomány egyszerű számtani átlaga, több esetén pedig a két-két időpont közötti
időszakra vonatkozó átlagos állományok egyszerű számtani átlagával közelítjük.
푦 =푦 + 푦
2 (1.2)
Két időpont esetén tehát y1 és y2 értékek számtani átlaga adja meg a két időpont
közötti időszak átlagos állományát. Ezt a módszert tovább folytatva kapjuk y2-t:
푦 =푦 + 푦
2 (1.3)
Míg az (n-1)- edik időszakra vonatkozóan adódik:
푦 =푦 + 푦
2 (1.4)
11
Ebből pedig egész időszakra vonatkozó átlagos állományt meg tudjuk határozni,
melynek képlete:
푦( ) =푦 + 푦 +⋯+ 푦
푛 − 1=푦2 + ∑ 푦 + 푦
2푛 − 1
(1.5)
Első pillantásra a kapott adatok nem túl beszédesek, felhasználásuk nem széleskörű, a
módszerek egyetlen előnye látszólag csakis az egyszerűségben rejlik. Azonban az
átlag és (majd a későbbiekben látni fogjuk) a szóródásmutatók rendkívül fontos
szerepet játszanak az idősor elemzésben, hiszen a bemutatott alkalmazás bonyolultabb
elemzések részeiként is megjelenik, vagy bizonyos feltételeket közölhetnek.
Az idősorok további egyszerű, specifikus jellemzői az átlagos változás mutatói,
nevezetesen a változás átlagos mértéke (푑̅) és a változás átlagos üteme (푙)̅. Ezek a
mutatók próbálják megragadni az idősorok lényeges tulajdonságát kifejező fő
tendenciát.
2.2.3. Átlagos változás mutatói
A változás átlagos mértékét megkapjuk, ha az egymást közvetlenül követő
időszakokra kiszámítjuk a változás dt=yt-yt-1 mértékét, majd azokból egyszerű
számtani átlagot számolunk:
푑̅ =∑ 푑푛 − 1
=푦 − 푦푛 − 1
(1.6)
Tehát 푑̅ mutató az egy időszakra jutó átlagos változást adja meg és mértékegysége az
idősor adatainak mértékegységével megegyező. Ez a módszer az időszakról időszakra
nagyjából azonos mértékben változó, azaz közelítőleg lineáris fejlődést leíró idősorok
alaptendenciáinak tömör jellemzésére használható, mivel azt feltételezi, hogy a
mögötte lévő szóródás kicsi, az egymást követő időszakok változása nagyjából
hasonló. Látható, hogy csak az idősor első és utolsó adatától függ, azokra
nagymértékben érzékeny. Ha az első és/vagy utolsó adat lényegesen eltér az idősor
12
alapirányzatától, akkor a mutató nem lesz jól jellemző és ezt a hátrányt a használat
során szem előtt kell tartani.
A változás átlagos ütemét (푙)̅ úgy számíthatjuk ki, hogy az egymást követő időszakok
lt =yt / yt-1 változási ütemeit vesszük, és ezekből számítunk mértani átlagot.
Ekkor l2 =y2/y1, l3 =y3/y2,…,ln = yn/yn-1
푙 ̅ = 푙 =푦푦+푦푦+ ⋯+
푦푦
=푦푦
(1.7)
Az 푙 ̅ mutató a változás átlagos ütemét mértékegység nélküli viszonyszámmal adja
meg, amit általában százalékos formában szoktunk kifejezni. Akkor hasznos
számítása, ha az idősor értéke időszakról időszakra nagyjából azonos ütemben
változik, közelítőleg exponenciális fejlődést mutat. Ez a mutató is érzékeny az idősor
első és utolsó értékére.
Ha már egy változót vizsgálunk, és annak tulajdonságait akarjuk minél tömörebben
megfogalmazni, akkor nem hagyhatjuk ki a legfontosabb szóródás mutatókat.
Szóródáson az idősor adatainak különbözőségét értjük.
2.2.4. Szóródásmutatók
A legáltalánosabban használt mértéke a szórás, mely az egyes értékek számtani
átlagtól vett eltérésének négyzetes átlaga:
휎 =∑ (푦 − 푦)
푁 − 1 (1.8)
Ahol yt az adott időponthoz tartozó változó értéke, 푦 pedig a sor számtani átlaga. A
szórás megmutatja, hogy az egyes (ismérv) értékek átlagosan mennyivel térnek el az
átlagtól. Jelölhetjük s-sel vagy σ-val.
Az elemzés során a későbbiekben rendkívül fontos szerepet kap a szórás négyzete is,
amit varianciának nevezünk (σ2).
13
Szükség lehet arra is, hogy az yt értékek nagyságrendjétől és mértékegységétől
elvonatkoztatott mérőszámmal mérjük és tegyük összehasonlíthatóvá a szóródást. Erre
nyújt megoldást a relatív szórás, melynek jele a V és képlete:
푉 =휎푦
(1.9)
A relatív szórás azt fejezi ki, hogy a szórás az átlagnak hányad része, ezért %-os
formában adjuk meg.
Ezen „alap”mutatók ismerete, átismétlése elengedhetetlen a dolgozat tárgyát képző
technikák megértéséhez. De ne rohanjunk még ennyire előre. Először ismerkedjünk
meg az általam választott idősorokkal, melyek segítségével bemutatom az idősorok
elemzési- előrejelzési technikáit.
2.3. Kiválasztott idősoraim jellemzői és vizsgálata egyszerűbb számításokkal.
Az általam választott idősorok adatai a www.eia.gov honlapról elérhető adatbázisból
származnak. Az Independent Statistics and Analysis, U.S. Energy Information
Administration honlapjáról az energiaszektorra vonatkozó információkat szerezhetünk
régiónként, országonként, kontinensenként vagy akár gazdasági társulásonként.
Elérhetőek a fogyasztásra, előállításra, árakra vonatkozó információk természetesen
különböző alapanyagokra, vagy már „feldolgozott” termékekre egyaránt.
A dolgozatomban bemutatásra kerülő első idősor a közlekedési ágazat összes
kőolajfogyasztását tartalmazza. A megfigyelések éves rendszerességgel készültek,
1949 és 2011 között, így összesen 63 adat áll a rendelkezésünkre. A fogyasztás
mértékegysége pedig millió hordó.
A második idősor, amellyel a későbbiek folyamán foglalkozunk részletesebben, a WTI
árakat tartalmazza, havi rendszerességgel. A WTI (West Texas Intermediate) olyan
nyersolajfajta, melyet referenciaként használnak az olajkereskedelemben és a
hordónkénti ár alakulását mutatja be. Az idősor 1994 januárjától 2012 novemberéig
szolgáltat, összesen 227 megfigyelést.
14
Az idősorok tárgyának tulajdonképpen most nincs jelentősége, hiszen nem bányászati
vagy kereskedelmi szempontból van szükségünk az idősor adataira, hanem a
bemutatott módszerek lefuttatása miatt. De most vessünk egy pillantást az idősorok
grafikonjaira.
A közlekedési ágazat kőolajfogyasztását tartalmazó idősor alakulását összefoglalóan
az alábbi grafikon szemlélteti:
1. grafikon: a közlekedési ágazat kőolajfogyasztása
Forrás: http://www.eia.gov/totalenergy/data/annual/index.cfm#consumption
A fenti idősorral és grafikonnal a következő fejezet első felében fogunk foglalkozni.
Az idősor tulajdonságai lehetővé teszik, hogy a viszonylag egyszerűbb elemzési,
előrejelzési módszerekkel ismerkedhessünk meg a gyakorlatban.
A 2. grafikon a West Texas Intermediate, mint a New York-i árupiac egyik
alaptermékének árának alakulását szemlélteti.
0100020003000400050006000
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70
Mill
ió h
ordó
t időpontok
A közlekedési ágazat kőolajfogyasztása (1949-2011)
Kőolaj fogyasztás
15
.
2. grafikon: WTI árak alakulás
Forrás: http://www.eia.gov/dnav/pet/hist/LeafHandler.ashx?n=pet&s=rwtc&f=d
Már ránézésre is megállapítható, hogy jelentős különbségek vannak a két idősor
szerkezetét illetően. A különbözőséget magyarázó okokkal és definíciókkal a 3. fejezet
második felében foglalkozunk részletesen.
Mielőtt megismernénk az elemzési, előrejelzési módszereket tekintsük meg a
kiválasztott idősorok egyszerűbb mutatóit, melyeket az alábbi táblázat tartalmaz.
1. táblázat: Idősorok mutatói
Idősor/ Mutatók Közlekedési szektor kőolajfogyasztása
Mértékegység WTI hordónkénti
ára
Mértékegység
Számtani átlag 3 336, 121 Millió hordó - Kronologikus átlag - 46,74 Dollár/hordó Átlagos változás mutatói
Változás átlagos mértéke
59,6885 Millió hordó 0,316372 Dollár/hordó
Változás átlagos üteme
1,0237 % 1,019072 %
Módusz - 15,03 Dollár/hordó Medián 3493,965 Millió hordó 32,13 Dollár/hordó Minimum 1125,796 Millió hordó 11,35 Dollár/hordó
0
20
40
60
80
100
120
140
160
1994
.01.
1994
.11.
1995
.09.
1996
.07.
1997
.05.
1998
.03.
1999
.01.
1999
.11.
2000
.09.
2001
.07.
2002
.05.
2003
.03.
2004
.01.
2004
.11.
2005
.09.
2006
.07.
2007
.05.
2008
.03.
2009
.01.
2009
.11.
2010
.09.
2011
.07.
2012
.05.
Ár (D
ollá
r/ho
rdó)
Időpont
WTI ár alakulása (1994-2012)
16
Maximum 5214,663 Millió hordó 133,88 Dollár/hordó Szóródás mutatók Szórás 1 215,5905 Millió hordó 30,20092 Dollár/hordó Variancia (Szórásnégyzet)
1 477 660, 230 912,0954
Relatív szórás 0,364372 % 0,646193 % Tartamidősor Állapotidősor
Forrás: saját szerkesztés
A táblázat által összefoglalt adatok részletesebb elemzésére most nem kerül sor, a
számítások egyszerűen elvégezhetőek a megadott képletekbe való behelyettesítéssel.
Ezen mutatók a későbbiekben bemutatásra kerülő technikák alapját képzik,
kiszámításuk ott nyer értelmet, hiszen így még nem közölnek túl sok információt.
A 3. fejezetben tehát olyan elemzési, előrejelzési eszközöket (és azoknak gyakorlati
alkalmazásait) ismerünk meg, melyek alkalmazkodnak az idősorok sajátosságaihoz,
így már-már külön ágán képezik a statisztika tudományának. Lássuk tehát az
idősorelemzés modelljeit.
17
3. Az idősorelemzés modelljei
Az idősorok modelljeit két teljesen különböző, szélsőségesnek tekinthető
modellcsaládba sorolhatjuk, melyeket determinisztikus és sztochasztikus
idősorelemzésnek hívunk. A későbbiekben látni fogjuk, hogy a statisztika fejlődése
során megjelentek e módszereknek kombinációi, de előtte definiáljuk a két fogalmat.
„A determinisztikus idősorelemzés alapelve az, hogy az idősorok előre adott, hosszú
távon érvényesülő, eleve determinált pályát követnek.”3 Az idősort ekkor tartósan
érvényesülő tendencia, más néven trend, valamint tartósan ható, szabályos, jól
modellezhető hullámmozgás (szezonalitás) határozza meg. Az elemzés célja ennek a
pályának a leírása, az egyes elemek elkülönítése és ez által az idősor várható
alakulásának hosszabb távú előrejelzése. A véletlent ugyan elfogadja, de zavaró
elemnek tekinti, igyekszik annak hatását minél jobban kiszűrni, tehát megszabadulni a
véletlen elemektől. Elmondható, hogy ez az irányzat inkább leíró, mintsem
következtető szemléletet képvisel.
Ezzel szemben a sztochasztikus idősorelemzés a rövid távú hatások elemzésével
foglalkozik elsődlegesen. Alapelve az, hogy minden idősort sztochasztikus
folyamatnak tekint, melynek pillanatnyi alakulását saját korábbi állapotából és a
véletlen hatásokból lehet magyarázni. A véletlen szerves alkotóeleme a
folyamatoknak, a jelenség fő mozgatójává válik. Ez a megközelítés felhasználja az
intervallumbecslés és a hipotézisvizsgálat eszköztárát.
A két irányzat a gyakorlatban persze nem válik mereven szét, s mint már említettem,
ötvözve őket önálló modell- és módszercsaládok alakultak ki.
Az így kialakult modellcsaládok közül a következőek a leggyakrabban alkalmazottak:
Dekompozíciós idősormodellek
Simító eljárások
ARMA modellek
3 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó 1997., 535. oldal
18
Dekompozíciós modellek
Trendszámítás
Analitikus trendszámítás
Mozgóátlagolású trendszámítás
Szabálytalan ciklus kimutatása
Szezonális ingadozások
3.1. A dekompozíciós modellek
A legkorábban kialakult és az egyik legnépszerűbb modellezési eljárásokat értjük
alatta.
A dekompozíciós modellek alapfeltételezése, hogy az idősorok négy fő, egymástól
szétválasztható komponensre bonthatóak, ezáltal külön is vizsgálhatók:
Hosszú távú irányzatot kifejező trend (푦),
Az ettől szabályos (havi, negyedéves) ingadozásokkal eltérő szezonális
komponens (s),
A (többnyire hosszabb távú) szabálytalan ingadozást, hullámzást kifejező
ciklikus komponens (c),
Véletlen összetevő (ε).
Az összetevők összeg- illetve sorozatszerűen kapcsolódhatnak egymáshoz, az előbbi
az ún. additív, az utóbbi a multiplikatív modellekhez vezet.
Az additív forma azt feltételezi, hogy a ciklus, a szezonális hatás és a véletlen tag is
állandó, a trendtől független ingadozásokat végez:
3. ábra: Dekompozíciós modellek csoportosítása
Forrás: Saját szerkesztés
19
푦 = 푦 + 푠 + 푐 + 휀 (1.10)
Multiplikatív modell szerint a ciklus, a szezonális trend és a véletlen tag ingadozásai a
trendhez viszonyítva, annak arányában állandók:
푦 = 푦 ∙ 푠∗ ∙ 푐∗ ∙ 휈 (1.11)
Ahol tehát: ŷ a hosszú távú alapirányzat vagy trend,
s, illetve s* a szabályos rövidtávú (szezonális) ingadozást leíró komponens,
c, illetve c* a szabálytalan hosszabb távú ingadozásokat leíró ciklikus
komponens, és
ε illetve ν a zavaró hatásokat leíró véletlen változók, melyekről többnyire csak
azt feltételezik, hogy 0, illetve 1 körül ingadoznak, azaz várható értékük 0 vagy 1.
A gyakorlati idősorok esetében sokszor egy vagy két komponens hiányozhat. Rövid
idősorok esetében a hosszabb ciklusok többnyire nem mutathatók ki, ezért a
módszertan elsősorban trend, illetve szezonális komponens meghatározására irányul.
A determinisztikus idősorelemzés fő célja azonban a hosszú távú, tartós tendenciák
megadása, melynek elengedhetetlen része a trendszámítás.
3.1.1. Trendszámítás
A gondolatmenete nagyon egyszerű: az idősor alkotta pontokra valamilyen, előre
meghatározott típusú függvényt illesztünk úgy, hogy az a lehető legjobban illeszkedjék
a pontokra, azaz a lehető legjobban leírja a pontok által hordozott tendenciát.
Azonban tisztázni kell
o Milyen típusú függvénnyel akarjuk leírni az idősort?
o Hogyan mérjük az illeszkedést és mikor tekintjük azt jónak?
Elvben bármilyen függvény alkalmas arra, hogy trendfüggvényként használjuk, azt az
idősor által leírt folyamat jellege határozza meg. A tendenciát legjobban leíró
függvényre az idősor adatai és annak grafikus ábrája alapján következtethetünk.
20
Az illeszkedés mérésére a statisztika leginkább a legkisebb négyzetek módszerét
alkalmazza, melynek lényege, hogy olyan függvényt keresünk, mely esetén a
megfigyelt és a modell által számított értékek közti eltérés négyzetösszege minimális.
(Az illesztett függvény és a megfigyelések közti pontonként vett távolságok előjele
változhat. Nekünk csak az eltérés nagysága lényeges, így az eltéréseket négyzetre
emeljük, és ezt minimalizáljuk.)
A megfigyelési pontok és a trendértékek közötti eltérések/ távolságok a reziduumok. A
trend egyenesét tehát úgy kell megválasztani, hogy az eltérések négyzetösszege
minimális, a lehető legkisebb legyen. (A későbbiekben, a regressziószámítás
áttekintésénél a 3.3. fejezet, 50. oldalán, külön kitérek a reziduumok bemutatására)
Visszakanyarodva a trendszámítás módszeréhez, először is két trendszámítási
„családot” kell megkülönböztetnünk.
Analitikus trendszámítás esetén tudjuk, vagy legalábbis feltételezzük, hogy a
tartós irányzat valamilyen analitikusan jól leírható függvény szerint alakul
(vagy ilyennel megközelíthető). A cél tehát a függvény előállítása.
Mozgóátlagolású trendszámítás esetén is feltételezzük a tartós trendet és a cél
ismét annak meghatározása, azonban a trendet csak a megfigyelt idősor
értékeinek különféle átlagolásával állítjuk elő. (Nem feltételezünk analitikusan
leírható függvényt.)
Most vizsgáljuk meg kicsit közelebbről a két trendszámítási módszert.
3.1.1.1. Analitikus trendszámítás
„Az analitikus trendszámítás a determinisztikus idősorelemzés legkorábban kialakult,
legnépszerűbb és a számítógépek által is leginkább támogatott fajtája. Az analitikus
trendszámítás az idősorban lévő tartós tendenciát alkalmasan választott analitikus
függvénnyel írja le.”4
4 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó, 1997. 539.oldal
21
A továbbiakban ez a fogalom is két féle csoportra oszlik, mivel meg kell
különböztetnünk lineáris és nemlineáris trendszámítást.
Ha olyan jelenség időbeli változását vizsgálva azt tapasztaljuk, hogy az
időegységenként bekövetkezett változás (lehet növekedés vagy csökkenés egyaránt)
abszolút értelemben közel állandó, a változás egyenletes, az alapirányzat értékeit
lineáris trenddel határozhatjuk meg.
Ekkor az idősort a következő függvénnyel írhatjuk le:
푦 = 훽 + 훽 ∙ 푡 + 휀 (1.12)
(t=1,2,…,n)
Ahol: t= az időváltozót kifejező, egymástól egyenlő távolságra lévő értékek sorozata
훽 é푠훽 pedig a lineáris trendfüggvény ismeretlen paraméterei
휀 a t-edik időponthoz tartozó véletlen változó, melyről feltételezzük, hogy
várható értéke 0.
Feladatunk tehát 훽 é푠훽 paraméterek becslése, mely a legkisebb négyzetek
módszerével történik. A legkisebb négyzetek módszer megadja majd azokat a 훽 és 훽
paramétereket, melyek mellett a maradék, vagyis a véletlen változó hatása minimális,
tehát a függvény a lehető legjobban leírja az idősort.
Az egyenlet a becsülni kívánt paraméterekkel felírva:
푦 = 훽 + 훽 ∙ 푡 + 푒 (1.13)
Tehát minimalizálni akarjuk a véletlen változó ∑ 푒 értékét. Az egyenletet ez
alapján rendendezzük és négyzetre emeljük, ekkor megkapjuk a minimalizálandó
értéket:
∑ 푦 − 훽 − 훽 ∙ 푡 2 (1.14)
majd deriváljuk és a deriváltakat 0-val egyenlővé tesszük, akkor megkapjuk az
úgynevezett normálegyenleteket:
22
푦 = 푛 ∙ 훽 + 훽 푡 (1.15)
푡 ∙ 푦 = 훽 푡 + 훽 푡 (1.16)
A számítógépes programcsomagok meglehetősen leegyszerűsítik a lineáris
trendfüggvény paramétereinek becslését, hiszen kész eljárásokat adnak az
egyenletrendszer megoldására. A paraméterek közül 훽 jelenti majd a t=0 időponthoz
tartozó trendértéket, vagyis a tengelymetszetet, míg 훽 a trendfüggvény konstans
meredekségét jelöli (időegység alatt mennyivel változik a trend). Megmutatja, hogy
időegység alatt mekkora az egy időszakra jutó átlagos változás (növekedés/ csökkenés)
mértéke. Mind a 훽 mind a 훽 mértékegysége az eredeti megfigyelések
mértékegységével azonos. A 훽 mutató figyelembe veszi az idősor valamennyi értékét,
így kevésbé érzékeny a szélső megfigyelési adatokra.
A becsült paraméterek segítségével a megfigyelési időszakra könnyen előállíthatók a
trendfüggvény értékei (푦 ) a kívánt t értékek behelyettesítésével:
푦 = 훽 + 훽 푡 (1.17)
(푦 ) segítségével minden időpontra kiszámíthatók a véletlen változó tapasztalati
értékei, melyeket reziduumnak nevezünk:
푦 − 푦 = 푒 (1.18)
Minél kisebbek tehát a reziduumok értékei abszolút értelemben, annál sikeresebb a
lineáris függvény illesztése.
Az illeszkedés jóságát meghatározhatjuk az alábbi képletbe való behelyettesítéssel:
푠 =∑ 푒
푛 (1.19)
Ez a mutató a reziduális variancia. Alsó korlátja 0, (ekkor tökéletes az illeszkedés),
felső korlátja pedig nincs és nagyobb értékei rosszabb illeszkedésre utalnak.
23
Amennyiben a megfigyelési időszakon kívüli, t=n+1, n+2… értékeket helyettesítjük az
(1.17.) egyenletbe, akkor tulajdonképpen a megfigyelési időszakon túlnyúló időszakra
kiterjesztjük a trendfüggvényt, vagyis előrejelzéseket készítünk.
Ekkor azt is feltételezzük, hogy a véletlen változó tulajdonságai változatlanok
maradnak, nem változnak a megfigyelési időszak után, ami rendkívül súlyos
kijelentés. A lineáris trenddel (és a többi trenddel is) ezért óvatosan kell bánni, mivel
az előrejelzések feltételesek, szakmai ismeretek alapján feltételezzük, hogy a
megfigyelt viselkedés a jövőben is megmarad és hasonlóképpen halad tovább.
Most vizsgáljuk meg, hogyan működik a módszer az első, a közlekedési ágazat
kőolajfogyasztását bemutató idősor esetében. Először is kijelenthetjük, hogy az
idősorunk determinisztikus, hosszútávon érvényesülő trend és jól jellemezhető
szezonalitás figyelhető meg, ezért a dekompozíciós módszerek alkalmasak az idősor
leírására, méghozzá additív módon.
3. grafikon: A közlekedési ágazat kőolajfogyasztása lineáris trenddel
Forrás: Saját szerkesztés
A lineáris trend könnyen megadható az Excel segítségével, mint az látható is a
grafikon területén. Az illeszkedés jóságáról R2 segítségével kapunk információt. R2
értéke ugyanis 0 és 1 között mozoghat és nagyobb értékei jobb illeszkedést jeleznek.
Azonban felírható az egyenlet az egyenletrendszerek segítségével is. Ha az
y = 65,451x + 1241,7R² = 0,9741
0100020003000400050006000
1 3 5 7 9 111315171921232527293133353739414345474951535557596163
Mill
ió h
ordó
Időpont
A közlekedési ágazat kőolaj fogyasztása (1949-2011)
Kőolaj fogyasztás Lineáris (Kőolaj fogyasztás)
24
alapadatokat behelyettesítjük a (1.15) és (1.16) képletekbe, az alábbi egyenletrendszert
kapjuk:
210175,652 = 63 ∙ 훽 + 훽 ∗ 2016 (1.20)
8089091,287 = 2016 ∗ 훽 + 훽 ∗ 85344 (1.21)
Az egyenletrendszer megoldásával természetesen megkapjuk a keresett 훽 és
훽 együtthatók értékeit és fel tudjuk írni a keresett trendegyenletet:
푦 = 1241,698 + 65,451 ∗ 푡 (1.22)
A trendegyenletbe t időszakok behelyettesítésével megkapjuk az 푦 becsült értékeket,
melyeket, ha összevetjük a valódi megfigyelésekkel és négyzetre emeljük, akkor
megkapjuk a reziduumok négyzetösszegét és a reziduális varianciát, amik, mint már
tudjuk az illeszkedés jóságáról adnak információt. Esetünkben:
∑푒 ≈ 2374746,361 푠 ≈ 37694,39
Ezek a mutatók önmagukban kevésbé értelmezhetők, az illeszkedés jóságáról úgy
adhatnak képet, ha más, (nem lineáris) függvények reziduális varianciájával
hasonlítjuk össze.
A trendegyenletet felhasználhatjuk előrejelzések készítéséhez is, ha a megfigyelési
időszakon túli t-vel dolgozunk a képletben. Jelezzünk most előre csak a lineáris trend
segítségével 5 évre (t=63+1, 63+2,…,63+5).
25
4. grafikon: A közlekedési ágazat kőolajfogyasztásának előrejelzése lineáris trenddel
Forrás: Saját szerkesztés
A számítás menete:
푦 = 1241,7 + 65,451 ∗ 64 = 5430,562Millió hordó
푦 = 1241,7 + 65,451 ∗ 65 = 5496,013Millió hordó
푦 = 1241,7 + 65,451 ∗ 66 = 5561,464Millió hordó
푦 = 1241,7 + 65,451 ∗ 67 = 5626,915Millió hordó
푦 = 1241,7 + 65,451 ∗ 68 = 5692,366Millió hordó
Ha csak a trend alapján próbáljuk megbecsülni az értékeket, félrevezető adatokat
kapunk. A lineáris trend ugyan jól illeszkedik az idősor folyamatára, azonban nem
tudja korrigálni az értékeket a grafikonon is látható hullámmozgással. A trendegyenlet
megadja, hogy milyen érték körül fognak elhelyezkedni, de részletesebben nem
szolgál információval. Önmagában inkább a tendencia leírására szolgál, mintsem
pontosabb becslések elkészítésére.
Azt is látnunk kell, hogy a lineáris trendfüggvény olyan elemzésekhez alkalmazható
sikerrel, ahol az idősor alaptendenciája lineáris. Azonban a társadalmi-gazdasági
jelenségek vizsgálatakor sűrűn találkozhatunk ettől eltérő jellegű idősoroktól. Ezeket
nemlineáris trendfüggvényekkel „írhatjuk le”, melyek között kiemelkedő jelentőséggel
01000200030004000
50006000
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70
Mill
ió h
ordó
t időpont
A közlekedési ágazat kőolajfogyasztásának előrejelzése
Kőolajfogyasztás Becsült kőolajfogyasztás
26
bír az exponenciális trend. Mivel az azonos ütemben való növekedés elég gyakori a
társadalmi-gazdasági idősorok esetében (például a népesség nagyságának alakulása,
gazdasági növekedések mutatói is exponenciális növekedést/ csökkenést mutatnak)
ezért foglalkozunk vele részletesebben.
Exponenciális trendegyenlet felírására (csak a megfigyelt idősorra) a következő
alapmodellt használhatjuk:
푦 = 훽 훽 푣 (1.23)
(t=1,2,…,n),
Ahol t= az időváltozót kifejező, egymástól egyenlő távolságra lévő értékek sorozata
훽 é푠훽 az exponenciális trendfüggvény ismeretlen paraméterei
a vt pedig véletlen tényező, ami 1 körül ingadozik.
Itt kapcsolódunk vissza a multiplikatív alapmodellhez, hiszen az exponenciális trend
ebből származtatható, míg a lineáris trend az additív modellből.
Az exponenciális trend paramétereit szintén a legkisebb négyzetek módszerével
tudjuk becsülni. Az egyszerűbb és átláthatóbb lépések kedvéért nem eredeti formában
alkalmazzuk a legkisebb négyzetek módszerét, hanem mindkét oldal logaritmusát
véve.
푙표푔푦 = 푙표푔훽 + 푡 ∙ 푙표푔훽 + 푙표푔푣 (1.24)
Ekkor majdnem olyan egyenlettel dolgozunk, mintha lineáris trenddel lenne dolgunk, s
bizonyos behelyettesítések után végezetül megkapjuk a becsült exponenciális trendet:
푦 = 훽 훽 (1.25)
A paraméterek értelmezései is a lineáris trend paramétereivel azonosak, tehát 훽
jelenti majd a t=0 időponthoz tartozó trendértéket, vagyis a tengelymetszetet, míg 훽 a
trend szerinti növekedési ütemet adja az eredeti mértékegységtől függetlenül,
százalékos formában.
27
„Az exponenciális trendet olyan idősorok leírásához és simításhoz használjuk,
amelyek növekvő vagy csökkenő ütemben nőnek, illetve csökkennek. A 훽 paraméter
értéke adja meg az exponenciális trendfüggvény jellemző alakját.”5
Az exponenciális trenddel készített előrejelzések, csakúgy, mint a lineárisak, óvatosan
kezelendők, mivel a függvény sajátossága, hogy érzékeny mind 훽 paraméterre, mind t
kitevőre. A 훽 becslésénél elkövetett kis hiba is erősen torzíthatja az eredményeket,
hangsúlyozott szerepéből kifolyólag.
Egyéb nemlineáris trendek
Fontos megjegyeznünk, hogy a valóságban az exponenciális jellegű trendek jelentős
része nem valódi exponenciális trend. Egyfajta telítődési folyamatot írnak le, mivel a
gyakorlatban az exponenciális jellegű növekedés gyakran korlátokba ütközik, lelassul
és elveszti exponenciális jellegét. Ezeket s-görbének nevezi a szakirodalom. Az s-
görbe kezdetben megegyezik az exponenciális trenddel, de egyszer aztán megtorpan és
lelassul a növekedés. Tipikusan ilyen folyamat egy járvány terjedése vagy a
mobiltelefonok elterjedése, közösségi oldalak felhasználóinak számának alakulása. S-
görbe alakú korlátos növekedési folyamatot logisztikus függvény, Gompertz- és
Johnston-görbe segítségével lehet közelíteni.
Az analitikus trendszámítás esetén feltételeztük tehát, hogy a trendfüggvény típusát
meg tudjuk adni és meg is adtuk. De mit tehetünk akkor, ha ettől a feltevéstől
eltekintünk?
3.1.1.2. A mozgóátlagolású trendszámítás
Amennyiben a vizsgálandó folyamat analitikus függvényének meghatározását közép-
vagy hosszú távú ciklusok zavarják, valamint nincs kellő információnk az adott
folyamatról, érdemes a mozgóátlagolású trendszámítás módszerét alkalmazni.
Gyakran használják a fő tendencia meghatározására, mivel egyszerű és kevés kiinduló
adat szükséges a használatához.
5 Hunyadi L.-Vita L.: Statisztika I. Aula Kiadó, Budapest, 2008, 279.o.
28
„A mozgóátlagolású trendszámítás lényege, hogy az idősor t-edik eleméhez úgy
rendelünk trendértéket, hogy átlagoljuk az idősor t-edik elemének bizonyos
környezetében lévő elemeket.”6
A legegyszerűbb, ha a t–edik elemet megelőző és követő értékeket vesszük
figyelembe, s ekkor a mozgóátlagolású trend a következő formulából adódik:
푦 =푦 + 푦 + 푦
3 (1.26)
(t=2,3, … ,n-1)
Minden lehetséges t-re kiszámítva az átlagokat 3 tagú mozgóátlagot kapunk. Fontos
látni, hogy nem lehet minden megfigyeléshez mozgóátlagolású trendet kapcsolni,
hiszen az eredeti idősor eleje és vége élvész, mivel ekkor nem tudunk értéket rendelni
az átlag kiszámításához!
A továbbiakban ne 3, hanem m tagból számítsunk mozgóátlagot. Attól függően, hogy
m páros vagy páratlan, különböző képleteket kell használnunk.
Ha m páratlan, akkor m felírható m=2k+1 alakban, s az egyenlet a következőképpen
alakul:
푦 =푦 + 푦 + ⋯+ 푦 + ⋯+ 푦
2푘 + 1 (1.27)
Fontos, hogy t-k≥1 és t+k≤n legyen!
(Az első, legegyszerűbb esetben m=3 és k=1 volt, tehát a t-edik időponthoz tartozó
trendértéket a t-edik, a t-ediket megelőző és követő k számú megfigyelt értékek
számtani átlagaként határoztuk meg.) Látható, hogy az idősor elején és végén lévő
időszakokra nem lehetséges mozgóátlag számítása. A rövidülést k segítségével
fejezzük ki: 2k=m-1.
6 Korpás: Általános statisztika II., Nemzeti Tankönyvkiadó, 1997, 248.oldal
29
Amennyiben m páros, akkor m=2k. Egyszerű számtani átlag használatával ekkor nem
tudjuk biztosítani, hogy yt-k előtt és után azonos számú tag szerepeljen az átlagolásban,
ezért súlyozott számtani átlagot használunk. Az alábbi képletbe helyettesítsünk be:
푦 =12푦 + 푦 +⋯+ 푦 +⋯+ 푦 + 1
2푦2푘
(1.28)
A t-k≥1 és t+k≤n egyenlőtlenségeknek ekkor is fenn kell állniuk. A rövidülés ekkor
pedig 2k=m.
A mozgóátlagolású trendek- amennyiben nincs lényeges információnk az idősorról-
alkalmazása hasznos lehet, hiszen a legegyszerűbb módon simítják az idősort. Az
átlagolás útján tulajdonképpen csökkentjük a véletlen tag szerepét, de t mozgatásával
biztosítjuk az alaptendencia megmaradását. Ha m-et növeljük (vagyis több tagból
számolunk átlagot), akkor tudnunk kell, hogy csökken a véletlen szerepe, egyre
rövidebb lesz a trend és maga a tendencia felismerése is nehezebbé válik.
A mozgóátlagolás fontos kérdése tehát a tagszámok helyes megválasztása. Ez már a
dekompozíciós modellek másik csoportjához, a szezonalitás vizsgálatához vezet.
Szezonalitás alatt rövidtávú ingadozást értünk, amelyet a korábbiakban s-sel jelöltünk
és feltételezzük az időben állandó hullámhosszat és szabályos amplitúdót. Ez általában
éven belüli folyamatokra jellemző, és ha ismert a hullámhossza, akkor befolyásolja a
mozgóátlag tagszámának megválasztását. „Kimutatható ugyanis, hogy ha a
mozgóátlagolás tagszáma (m) a periódus hosszának (p) egészszámú többszöröse,
akkor a mozgóátlagolás kisimítja a periódust, míg más esetekben a mozgóátlagolás
vagy nem simít elegendően, vagy újabb, esetleg az eredetitől eltérő hullámhosszú
periódust generál, azaz nem létező ciklikus hatásokat vihet az idősorba.”7
A mozgóátlagolás módszere tehát egyszerű, a simítás sikeressége azonban függ az m
megválasztásától, aminek jó meghatározására nincs egzakt kritérium. m nem lehet
kicsi, hiszen akkor az idősorban megmarad a véletlen hatás, de m nem lehet túl nagy
sem a sok trendérték vesztés miatt. A periodicitás (p) vizsgálatával megadható olyam
7 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó, 1997. 557.oldal
30
m, amely helyes információt „közöl” az idősorról. (p ismeretében a tagszámot a
periodicitás hullámhosszával tegyük egyenlővé)
Lássuk, hogyan valósul meg mindez a gyakorlatban. Számítsunk először 3 tagú
mozgóátlagot. Már megfogalmaztuk, hogy ekkor 2k=m-1 a rövidülés, vagyis ha m=3,
akkor 2 tagot vesztünk, méghozzá az idősorhoz tartozó első és utolsó tagjához nem
tudunk értéket kapcsolni.
5. grafikon: A közlekedési ágazat kőolajfogyasztása 3 tagú mozgóátlaggal
Forrás: Saját szerkesztés
Látható, hogy a 3 tagú mozgóátlag enyhén simítja az idősor adatait, ugyanakkor az
alaptendencia szépen megmarad.
Vegyünk most 10 tagú mozgóátlagot. Ekkor m=10=2k, súlyozott számtani átlaggal
számítjuk ki az egyes értékeket a már korábban megadott képlet segítségével:
푦 =12푦 + 푦 +⋯+ 푦 +⋯+ 푦 + 1
2푦2 ∗ 5
(1.29)
Az első értéket a 6. időponthoz tudjuk rendelni, s tovább folytatva kapjuk meg a 10
tagú mozgóátlagolású trendet, mely az X. grafikonon látható:
1000
2000
3000
4000
5000
6000
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70
Mill
ió h
ordó
t időpont
A közlekedési ágazat kőolajfogyasztása 3 tagú mozgóátlaggal
Kőolajfogyasztás 3 tagú mozgóátlag
31
6. grafikon: A közlekedési ágazat kőolajfogyasztása 10 tagú mozgóátlaggal
Forrás: Saját szerkesztés
A mozgóátlagok tagszámának ily módon történő emelése láthatóan nagyobb simítást
eredményez. A tendencia még leolvasható, azonban az idősor enyhe hullámmozgása
már kevésbé figyelhető meg. Számolnunk kell a rövidüléssel is, amely 2k=m=10, tehát
az idősor első 5 és utolsó 5 eleméhez nem tudunk értéket csatolni. Ajánlatosabb ezért
rövidebb idősort és rövidebb mozgóátlagokkal vizsgálni, ha pontosabban szeretnénk
leírni az idősort.
De mi történik akkor, ha hosszabb távú, esetleg nem szabályos ciklusok
meghatározása a feladat? Az analitikus trendszámítás és a mozgóátlagolású
trendszámítás külön-külön nem képesek kezelni a megfigyelt adatokat, célszerű tehát
összevetni őket!
3.1.2. A szabálytalan ciklus
A szabálytalan természetű, közép- és hosszú távú ciklus (C) meghatározható az előbb
bemutatott két módszer egymást kiegészítő, kombináló alkalmazásával. Ez a
dekompozíciós módszer család második tagja. Az eljárás kétféleképpen történhet:
1000
2000
3000
4000
5000
6000
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70
Mill
ió h
ordó
t időpont
A közlekedési ágazat kőolajfogyasztása 10 tagú mozgóátlaggal
Kőolajfogyasztás 10 tagú mozgóátlag
32
Először elkészítjük az idősor mozgóátlagolású trendjét, majd abból analitikus
trendet számítunk. Ekkor a mozgóátlagolású trend és az arra épített analitikus
trend különbsége kiadja a ciklust.
Másik lehetőség az analitikus trend illesztése az idősorra. Ezt a következő
lépésben le kell vonni az idősor elemeiből és ekkor megkapjuk a maradék
ciklust, periodikus ingadozást és a véletlen komponenst. A ciklusból, a
periodikus ingadozásból és a véletlen komponensből mozgó átlagolás
segítségével már meg lehet határozni a ciklus értékeit.
Bármelyik módszer használható, bár eltérőek, a folyamat végén általában egymáshoz
közel álló eredményekre jutnak.
A mozgóátlagolású trendszámítás kapcsán már szükségünk volt a szezonális
ingadozások definíciójának bevezetésére, most viszont kicsit részletesebben is
bemutatnám a dekompozíciós modellek e tagját.
3.1.3. A szezonális ingadozások
Mint már korábban megfogalmaztam, szezonális ingadozásnak a rendszeresen
ismétlődő, azonos periodicitású = hullámhosszú, szabályos amplitúdójú és leginkább
rövid távú ingadozásokat nevezzük.
Ez az elnevezés csak az éven belüli, leginkább évszakok változásával kapcsolatos
ingadozások esetében indokolt. (Más periodicitású, de szintén rendszeresen ismétlődő
ingadozásokra inkább az idényszerű kifejezést használjuk.)
Feladatunk az S, vagy S* komponens értékeinek becslése a megfigyelt idősor alapján.
A módszer első lépése a trend (ideiglenes) kiszűrése az idősorból. Feltételezzük
továbbá a középtávú ciklus hiányát, tehát a szezonális és a véletlen hatás kapcsolatát
kell megvizsgálnunk. A szezonalitásról kijelentettük, hogy állandó hullámhosszal és
szabályos amplitúdóval kezeljük, így S-ről átlagolással megszűrhetjük a véletlen
komponenst.
33
Mielőtt elemeznénk az idősort, a megfigyelt elemeket két indexszel lássuk el: legyen i
az egyes periódusok sorszáma, míg j a periódusokon belüli időszakok sorszáma.
Legyen továbbá a perióduson belüli időszakok száma p, vagyis j=1,2,…,p. Ez alapján
a megfigyelt idősor periódusainak száma lesz, vagyis i=1,2,… . Legyen egész
szám, hiszen ekkor feltételezzük, hogy idősorunk csak teljes periódusokból áll.
Visszatér itt is az additív vagy multiplikatív modell választásának problémája. A
választás kulcsa a szezonalitás jellege. Ha feltételezzük, hogy minden periódusban
azonos mértékű a kilengések nagysága, akkor az a szezonalitás mértékével egyenlő,
azzal jellemezhető, az additív modell itt alkalmazható.
Ekkor a megfigyelt idősorra felírható egyenlet:
푦 = 푦 + 푆 + 푒 (1.30)
És ahogy korábban megadtuk, (i=1,2,… ) és (p=1,2,…, p).
푦 a korábban bemutatott módszerek egyikével maghatározott trendfüggvény becsült
értéke, eij pedig a véletlen komponens trendszámítás után megmaradt értéke. A
szezonalitás állandóságát feltételezzük, tehát S indexében csak j található. Ha a
következő lépésben a trendértékeket levonjuk és leválasztjuk a véletlen komponenst is,
akkor megkapjuk a nyers szezonális eltéréseket:
푠 =∑ 푦 − 푦
푛푝
(1.31)
Az sj, vagyis a becsült nyers szezonalitás eltérés azt mutatja, hogy a megfigyelt idősor
a j-edik szezonban átlagosan mennyivel tér el a trendértéktől a szabályosan ismétlődő
szezonhatás következtében. Követelményünk az, hogy egy perióduson belül a
szezonális eltérések kiegészítsék egymást, ezért sj nyers szezonális eltérések helyett a
korrigált szezonális eltéréseket alkalmazzuk, hogy bemutassuk a szezonhatásokat:
푠̃ = 푠 − 푠̅ (1.32)
34
Látható, hogy a nyers szezonális eltéréseket a saját átlaguktól vett eltéréssel
helyettesítjük.
De hogyan is értelmezzük a kiszámított értékeket? Hogyan működik a mi idősorunk
esetében?
Eddig éves szinten meghatározott fogyasztásokat vizsgáltunk az idősorunk esetében,
most térjünk át a havi megfigyelésekre és határozzuk meg a korábbiakban megismert
trendegyenletek közül a legjobban illeszkedőt. Ragadjuk ki az idősorunkból a 2001.
március- 2006. március időszakot és vizsgáljuk meg havi bontásban! Az eredményt az
alábbi grafikonon láthatjuk:
7. grafikon: A közlekedési ágazat kőolajfogyasztása (2001.03-2006.03)
Forrás: Saját szerkesztés
Láthatjuk, hogy exponenciális trendegyenletet használunk majd. Ha az 푦 =
12,752 , exponenciális trendegyenletbe behelyettesítünk és képezzük az eredeti
megfigyelésektől vett eltéréseket, akkor, mint már tudjuk, megkapjuk a nyers
szezonális eltéréseket.
Ha az adott idő intervallumban havi adatok helyett a szezonok hosszát 3 hónapban
(egy évben tehát 4 szezonnal számolunk) adjuk meg, akkor az eredmény így alakul:
y = 12,774e0,0016x
1111,5
1212,5
1313,5
1414,5
15
1 11 21 31 41 51 61
Mill
ió h
ordó
t időpont
A közlekedési ágazat kőolajfogyasztása (2001.03-2006.03)
Valós kőolajfogyasztás Expon. (Valós kőolajfogyasztás)
35
8. grafikon: Szezonális kőolajfogyasztás
Forrás: Saját szerkesztés
Mit is látunk a fenti grafikonon? A 2001. március és 2006. március között vizsgált
időszakot 20 szezonra bonthatjuk, melyek egyenként 3 hónapot ölelnek fel. Az így
előállított idősor megfigyeléseire szintén felírhatunk egy trendegyenletet, ahol az
푦 = 38,24 + 0,1894 ∗ 푡 lineáris trend esetén lesz az eltérések négyzetösszege
minimális. Ha összevetjük a valós és a trend által előállított, becsült kőolajfogyasztást,
akkor különbözetül, mint már tudjuk, a nyers szezonális eltérést (Sj) kapjuk. Az összes
megfigyelésünk száma n=20, míg a szezonok száma évente p=4.
푠 =∑
képletünk ekkor ezeket az értékeket tartalmazza:
푠 =(37,78 − 38,43) + (39,37 − 38,62) + ⋯+ (41,18 − 42,028)
204
= 0,0012
Ekkor Sj nyers szezonális eltérés értékére 0,0012 millió hordó-t kapunk. Ez nem
meglepő, hiszen természetes követelmény az, hogy a szezonális hatások egy
perióduson belül kiegyenlítsék egymást!
Gyakran e tulajdonság fennállása miatt használatos Sj nyers szezonális eltérés helyett,
az 푠̃ = 푠 − 푠̅ korrigált szezonális eltérés. A könnyebb értelmezéshez tekintsünk meg
az alábbi táblázatot:
353637383940414243
1 2 3 4 5 6 7 8 9 10 1112 13 1415 1617 1819 20
Mill
ió h
ordó
n (szezon)
Szezonális kőolajfogyasztás (2001-2006)
Szezonális kőolajfogyasztás
Becsült szezonális kőolajfogyasztás
36
2. táblázat: Szezonális eltérések
Szezonok
Évek j=1 j=2 j=3 j=4 i=1 -0,6494 0,7512 0,8718 -0,4776 i=2 -1,097 0,8836 0,7142 -0,0452 i=3 -1,6246 -0,054 0,6066 -0,1528 i=4 -0,8722 0,6084 0,749 0,1096 i=5 -0,8298 0,6108 0,7514 -0,848 Összesen -5,073 2,8 3,693 -1,414 Átlag -1,0146 0,56 0,7386 -0,2828
Forrás: Saját szerkesztés
S1 esetében a számítások alapján elmondhatjuk, hogy az általunk megfigyel idősor, a
közlekedési ágazat kőolajfogyasztása az első szezonban (j=1) átlagosan 1,0146 millió
hordóval tért el a trendértéktől a szabályosan ismétlődő szezonhatás következtében.
푠̅ -ot megkapjuk, ha a négy szezon értékeit a szezonok számával elosztjuk, vagyis:
푠̅ =−1,0146 + 0,56 + 0,7386 − 0,2828
4= 0,003 (1.33)
Ezzel az értékkel kell módosítanunk az egyes szezonok értékeit, tehát:
푠̃ = 푠 − 푠̅ = −1,0146 − 0,003 = −1,0176 (1.34)
Az első negyedév korrigált szezonális eltérése így 1,0176 millió hordó (1,0176 millió
hordóval kevesebb), a második szezonra a számítás ismételt elvégzésével 푠̃ =0,557
millió hordó értéket kapunk, míg 푠̃ = 0,7356 millió hordó és 푠̃ = 0,2825 millió
hordó. A szezonális hatások itt is kiegyenlítik egymást, más idősor esetén
természetesen jóval nagyobb szezonális eltérések állhatnak fenn.
A mi idősoruk jellegzetességei miatt az additív modellt használtuk a szezonalitás
elemzésére, de mikor választható a multiplikatív modell? Akkor, ha a szezonalitás
amplitúdója a trendértékkel arányosan változik (vagyis alacsonyabb szinten kisebbek,
magasabb szinten nagyobbak a kilengések), a kilengések trendhez viszonyított aránya
pedig nagyjából állandó.
37
A megfigyelt idősorra felírható egyenlet multiplikatív modell esetében:
푦 = 푦 ∙ 푆∗ ∙ 푢 (1.35)
Az additív modellnél alkalmazottaknál hasonlóan itt is meghatározható 푆∗becsült
szezonindex:
푠∗ =∑
푦푦
푛푝
(1.36)
A becsült nyers szezonindex kifejezi, hogy a j-edik szezonban a megfigyelt idősor
átlagosan hányszorosa a trendértéknek a szezonalitás következtében.
A nyers szezonindex számtani átlagával való osztásával könnyedén megkaphatjuk a
korrigált szezonindexet:
푠̃∗ =푠∗
푠̅∗ (1.37)
A kiszámított szezonális eltérések és szezonindexek értelmezésünk nem bonyolult és
jól jellemzik a szezonalitás sémáját. Ha az idősort megtisztítjuk a szezonalitási
mutatókkal, akkor azt szezonális kiigazításnak nevezzük, az idősort pedig szezonálisan
kiigazított idősornak.
A szezonális elemzés meglehetősen erős feltételezésekhez kötött, ezáltal nem képes a
gyakorlatban előforduló esetek mindegyikét leírni. Hátrányai, hogy nem tudja kezelni
a változó amplitúdót, változó hullámhosszú ciklusokat, és a valóságban nem egy,
hanem kettő vagy több ciklus komponens eredőjeként állnak elő az idősorok.
A hosszú távú idősorelemzés egyre inkább eltávolodik a statisztika klasszikus
eszközeitől, azok az esetek nagy részében nem alkalmazhatóak. Éppen ezért, a
dekompozíciós modellek után, most ismerkedjük meg az idősor elemzések
módszereinek másik, nagy csoportjával. Korábban már a mozgóátlagolású
trendszámításnál érintettük a simító eljárásokat, de külön fejezetrészt kell szentelnünk
e technikáknak.
38
3.2. A simító eljárások
A sztochasztikus idősormodellek alapfilozófiája az igazodás, az előrejelzés hibáiból
való szisztematikus tanulás és a folyamatos pályakorrekció. A simító eljárások e
sztochasztikus és a korábban tárgyalt determinisztikus modellek között helyezkednek
el. Nem fogadják el az eleve elrendelt pályát, legalábbis nem erre alapozzák
filozófiájukat. Az eredményeket fokozatosan, lépésenként felülvizsgálják és az újabb
információkkal korrigálják, kiszűrve a véletlen ingadozásokat. A simító eljárásokat,
vagy más néven kiegyenlítő módszereket, prognózisok, előrejelzések készítéséhez
dolgozták ki. A modellek becsléseit egyszer kell csak elvégezni, a későbbiekben az új
információkkal korrigálni, helyesbíteni kell a már felállított modellt, tehát rugalmas,
nem igényel újraszámítást. Ismerkedjünk meg most ezekkel a módszerekkel.
A simító eljárásokat prognózisok készítésére használják, amit korrigálnak a hibákkal:
푦 = 푦 + 훼푓(푒 ) (1.38)
( 0 ≤ α ≤ 1)
Ahol α igazodást, simítást kifejező paraméter
푓(et) a hibakorrekciós függvény
Mit is fejez ki a fenti egyenlet? A következő, t+1-edik időszakra vonatkozó
előrejelzést megkapjuk, ha t-edik időszakra vonatkozó előrejelzést korrigáljuk szintén
t-edik időszakban elkövetett et hibával.
Az α, mint az igazodást/simítást kifejező paraméter határozza meg, hogy milyen
mértékben vesszük figyelembe az elkövetett hibát. Ha α 0 körüli, vagyis csaknem
eltekintünk tőle, akkor nem tükrözi a tanulás folyamatát, hiszen az előrejelzésünk
majdnem megegyezik az előző időszakra vonatkozó becsléssel. Ekkor túlságosan is
kisimítja az idősort, eltüntetve annak ingadozásait. Ha α nagy, 1 körüli, az sem
hatékony, hiszen erősen kalkulál a hibával, s nem szűri ki a véletlen ingadozásokat és
nem rajzolja ki a tendenciát. Az α szerepe és annak helyes megválasztása
kulcsfontosságú.
39
Az egyenletben még konkretizálnunk kell a hibakorrekciós függvény alakját. Az a
legegyszerűbb, ha 푓 konstans. Ekkor a korrekciós tagban a simító paraméter az
elkövetett hibával szorzódik, s ez az összefüggés lesz majd a Brow-féle exponenciális
simítású modellek alakja. Ha az előbbi kijelentés érvényesül, akkor a következő
alapegyenletet írhatjuk fel:
푦 = 푦 + 훼(푦 − 푦 ) = (1 − 훼)푦 + 훼푦 (1.39)
A képlet jobb oldalából kidomborodik, mennyire nagy szerepe van α-nak: ha kicsi,
akkor erősen simít, megmerevedik az előrejelzés, ellenkező esetben az előző időszak
megfigyelései értékeihez igazodik, késéssel követi a folyamatot.
Amennyiben alakítunk az alapképleten (beszorozzuk mindkét oldalt (1-α)-val,
kiemelünk, rendezzük az egyenletet), akkor a következő képletet kapjuk:
푦 = 푤 푦 (1.40)
Ahol wi=α(1-α)i, i=0,1,2,… és ∑ 푤 = 1, valamint wi ≥0
A fenti egyenletnél t-t végtelennek tekintjük (csak átmenetileg), ezáltal feltételezve az
idősor hosszúságát és homogenitását, így az utolsó tag eltűnik, s a folyamat
függetlenné tesszük az induló értéktől.
A következőekben ismerjük meg a Brown féle exponenciális simítás két
legegyszerűbb alkalmazását.
3.2.1. Egyszeres exponenciális simítás
„Az exponenciális simítás legegyszerűbb esetét az jelenti, ha olyan idősorra
alkalmazzuk, amely nem tartalmaz sem trendet, sem szezonalitást és az ingadozásai is
tendenciában állandónak tekinthetők.”8 Ezt a tulajdonság halmazt összefoglalóan
stacionaritásnak, az ilyen idősort pedig stacionárius idősornak nevezzük.
Tehát feltételezzük, hogy az általunk vizsgált idősor yt=β0+εt alakú. 8 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó, 1997. 578. oldal
40
β0 jelenti az átlagot kifejező konstanst, εt pedig 0 várható értékű, egymástól független,
σ2 varianciájú valószínűségi változók sorozata.
A kezdeti megfigyelési yt értékeket esetenként az idősor átlagával helyettesítik (푦).
Ekkor kimutatható, hogy a t+1-edik időpontra vonatkozó előrejelzés torzítatlan:
퐸(푦 ) = 훽 (1.41)
Az érték független α-tól.
Más esetben azonban fenn áll alfa választásának problémája, mert az előrejelzés
varianciája (Var(푦 )) ismét függ az α-tól:
A nagy α-k nagyobb varianciát eredményeznek, ezáltal kevésbé simítanak
Ha α=1, akkor az eljárás nem simít, mivel a variancia megegyezik az eredeti y
változók varianciájával
Amennyiben α kicsi, vagyis 0 körüli, tökéletesen simít, mert a variancia
határértékben 0-hoz tart.
Az alapeljárást és a hozzá megadott feltételeket, tulajdonságokat nevezzük Brown féle
egyszeres simításnak. Trendmentes, hosszú idősorra torzítatlan előrejelzést ad,
valamint α értékétől függően képes kisimítani az idősort.
Az exponenciális simítás érdemben csak egy időszakra képes előrejelzést adni, hiszen
alapelve az, hogy a mindenkori előrejelzések folyamatos felülvizsgálatából épül fel. És
ha nem áll rendelkezésre az yt+1, akkor jobb híján a becsült 푦 -et használnánk, akkor
egy pont mindig önmagát ismétlő sort kapnánk!
푦 = 훼푦 + (1 − 훼)푦 = 푦 (1.42)
Milyen módon válasszuk meg α-t az optimális előrejelzés biztosításához? Nincs
meghatározott módszer α megadására. A legkisebb négyzetek módszere (, mint azt
már tudjuk, az eredeti sortól vett eltérés négyzetösszegének minimálissá tétele a cél) az
egyik leggyakrabban alkalmazott módszer, azonban nem bizonyított, hogy a
legalkalmasabb α megadására. Lehet az átlagos abszolút, vagy százalékos átlagos
41
abszolút hiba minimalizálást alkalmazni, de tulajdonképpen lehet ezektől eltérő
módszert is választani.
Az egyszeres exponenciális simítás gyakorlatát külön nem mutatom be, mivel a
lépésekkel találkozunk a kettős exponenciális simítás metodikájánál is.
3.2.2. Kettős exponenciális simítások
Az előző módszer hiányosságát az adta, hogy nem volt képes a trenddel rendelkező
sorokat simítani és ez által előre jelezni.
Adódik a kérdés: a vélhetően lineáris trendet követő idősorok esetén hogyan
készítsünk előrejelző becsléseket? Erre a kérdésre dolgozták ki a simító eljárásoknak
összetettebb formáit, például a Brown féle kettős simítás módszerét.
A kétszeres simítás az egyszeresen kisimított sor újbóli egyszeres simítását takarja, ez
a módszer kulcseleme, az egyszeres simításnál bemutatott előrejelzési módszer tehát
megmarad.
Az egyszeres simítás képlete így módosul:
푆( ) = 훼푦 + (1 − 훼)푆( ) (1.43)
Az első simított értéket St(1) jelenti, ahol az (1) index utal az egyszeres simításra. Ebből
következik a kétszeres simítás egyenlete:
푆( ) = 훼푆( ) + (1 − 훼)푆( ) (1.44)
Ahol St(2) a kétszeresen simított értéket jelöli. Látható, hogy a kezdeti értéket most is
az előző időszaki értéket tekintjük, összegezve a fenti két egyenletet, megkapjuk a
kétszeres exponenciális simítás előrejelzését:
푦 = 2푆( ) − 푆( ) (1.45)
42
Lássuk, hogyan is alkalmazható a gyakorlatban. Térjünk vissza 63 megfigyelésből
álló, a közlekedési ágazat kőolajfogyasztás évenkénti alakulását bemutató
idősorunkhoz.
9. grafikon: A közlekedési ágazat kőolajfogyasztása simítással
Forrás: Saját szerkesztés
A grafikonon kivehető, hogy a különböző α értékek hogyan simítják az idősort. Az α
értékének magasabbra vétele jobb lekövetést eredményez. Az α különböző eseteinek
kiszámítását most nem mutatom be részletesen, de az első 3 értéket α=0,1 esetében az
alábbi módon kapjuk meg:
S0(1) kezdőértékünk y1= 1125,796 millió hordó értékkel egyenlő, mellyel az első 3
egyszeresen simított érték (millió hordó):
S1(1)= 0,1*1125,796+0,9*1125,796=1125,796
S2(1)= 0,1*1225+0,9*1125,796=1135,716
S3(1)= 0,1*1347,707+0,9*1135,716=1156,915
Láthatjuk, hogyan korrigál a tényadatokkal és az előzőleg kiszámolt, becsült
értékekkel.
500
1500
2500
3500
4500
5500
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64
Mill
ió h
ordó
t időpont
A közlekedési ágazat kőolajfogyasztása-simítással (1949-2011)
Kőolajfogyasztás α=0,1 α=0,4 α=0,8
43
Most az egyszeresen simított értékekből állítsuk elő a kétszeresen kisimított sor első
néhány értékét (millió hordóban):
S0(2)= S1
(1)= 1125,796 lesz a kezdő értékünk
S1(2)= 0,1*1125,796+0,9*1125,796=1125,796
S2(2)= 0,1*1135,716+0,9*1125,796=1126,788
S3(2)= 0,1*1156,915+0,9*1126,788=1129,801
Ezt a folyamatot kell folytatni az összes y és 푦 értékkel. Amint minden St(1) és St-1
(2)
értéket előállítottunk, az (1.45) számú képletbe behelyettesítve megkaphatjuk az
előrejelzést:
푦 = 2 ∗ 4681,3 − 4150,591 = 5212,009 (1.46)
Az előrejelzett 5212,009 millió hordónyi kőolajfogyasztás meglehetősen torz érték,
amely a módszer hiányosságait egyértelműen megmutatja és ez a torzulás csak
halmozódik a későbbi becsült értékekben.
A kettős exponenciális simítás módszere hiába egy továbbfejlesztett módszer, azonban
itt is fenn állnak a α megválasztásának következményei: kicsi α esetén, mint láthatjuk,
torzítással számolhatunk és érzékenyen reagál a kezdő értékekre, míg nagy α túlzottan
követi az induló értéket.
Hogy e hibákat orvosolják, kifejlesztésre került a Brown féle korrigált kettős
exponenciális simítás módszere. Ez a technika már nem csak az egyszeres simítás
lépéseinek ismétléséből áll, hanem a mindenkori trendértéken kívül a trendértéket
előállító két paramétert is felülvizsgálja, és újra meghatározza az újabb megfigyelések
birtokában. Összegezve elmondhatjuk, hogy a trendfüggvény illesztése, fokozatos
módosítása adja az előrejelzések helyes értékeit.
3.2.3. Brown féle korrigált kettős exponenciális simítás
Először is ismernünk kell természetesen a trendfüggvény kezdő paramétereit. Itt
szintén lineáris trend illesztésével nyerünk adatokat, majd e paramétereket fogjuk
44
lépésről lépésre módosítani. A korábban felírt 푆( )é푠푆( ) értékeket használjuk, de az
alábbi módon előállítva:
푆( ) = 훽 −1− 훼훼
훽 (1.47)
푆( ) = 훽 − 21 − 훼훼
훽 (1.48)
Az előállított paraméterek értékének meghatározása után minden egyes t időszakra
újra megbecsüljük a trend szintjét (훽 ) és meredekségét (훽 ).
Amint minden adat előállt, már megadhatók a mindenkori simított vagyis előrejelzett
értékek:
푦 = 훽 , + 훽 , ∙ 푇 (1.49)
Ahol T jelenti az előrejelzés hosszát.
Lássuk mennyiben tér el a kettős exponenciális simítás módszerétől.
A számítások első lépéseként írjuk fel az idősor lineáris trendegyenletét. A
dolgozatban már korábban találkoztunk vele:
푦 = 1241,7 + 65,451 ∗ 푡 (1.50)
Most határozzuk meg, mely alfa esetén minimális az eltérések négyzetösszege. Tegyük
fel, hogy ez α=0,8 esetében valósul meg. Ekkor már az (1.47) és (1.48) egyenletek
alapján meghatározhatjuk a simított sorok kezdeti értékeit, millió hordóban:
푆( ) = 1241,7 −0,20,8
65,451 = 1225,34
푆( ) = 1241,7 − 2 ∗0,20,8
65,451 = 1208,9745
Tudjuk, hogy a 훽 paraméterek induló értékei megegyeznek a trendegyenlet
paramétereivel, így adódik is az első időszak becslése:
푦 = 1241,7 + 65,451 = 1307,151 millió hordó
45
Most felhasználjuk a simító egyenleteket a soron következő simított értékek
előállításához:
푆( ) = 0,8 ∗ 1125,796 + 0,2 ∗ 1225,34 = 1145,7048
푆( ) = 0,8 ∗ 1145,7048 + 0,2 ∗ 1208,9745 = 1158,36
Ezek segítségével meg is kaphatjuk a korrigált trendparamétereket.
훽 , = 2 ∗ 1145,7048 − 1158,36 = 1133,0496
훽 , =0,80,2
(1145,7048 − 1158,36) = −50,6208
Számítsuk ki ezek után az 푦 értéket: 1133,0496-50,6208= 1082,4288 millió hordó.
Ezek tulajdonképpen a Brown féle korrigált kettős exponenciális simítás alaplépései.
Ha a megfigyelési időszakon túli időpontokra akarunk előrejelezni, akkor az utolsó
megfigyeléshez tartozó, jelen esetben 훽 , = 4892,717 és 훽 , = −13,4787
értékekkel megtehetjük azt, s az alábbi becsléseket kaphatjuk, például a következő 5
évre:
푦 = 4892,717 + (−13,4787) = 4879,238 millió hordó
푦 = 4892,717 + 2 ∗ (−13,4787) = 4865,759 millió hordó
푦 = 4892,717 + 3 ∗ (−13,4787) = 4852,281 millió hordó
푦 = 4892,717 + 4 ∗ (−13,4787) = 4838,802 millió hordó
푦 = 4892,717 + 5 ∗ (−13,4787) = 4825,323 millió hordó
A Brown féle korrigált kettős exponenciális simítást és előrejelzéseket is tartalmazó
sort az alábbi grafikonon szemléltetem:
46
10. grafikon: A közlekedési ágazat kőolajfogyasztása Brown féle korrigált kettős exponenciális simítással Forrás: Saját szerkesztés
A fenti grafikonon látható az eredeti megfigyeléseket tartalmazó idősor és a Brown
féle korrigált kettős exponenciális simítással készült érékek összehasonlítása. Látjuk,
hogy az előrejelzett adatok jól lekövetik az idősort, ami nem csak α magasabb értéke,
hanem a módszer technikája miatt sikeres. A becslések nem lesznek a lehető
legmegbízhatóbbak, de a módszer jelentős fejlettséget mutat a korábbi technikák
előrejelzési képességeihez képest.
A simító eljárások közül most csak a leggyakrabban alkalmazottakat mutattam be. A
fentieknél jóval bonyolultabb eljárások is léteznek, melyek a nemlineáris idősorok,
szezonális sorok, üzleti ciklusok illetve a változó szezonalitás vizsgálatára is
alkalmasak. Szakdolgozatom keretei sajnos nem teszik lehetővé bonyolultabb
módszerek további bemutatását, azok sokrétűsége és összetettsége miatt.
A fejezet eddigi részeiben a determinisztikus és determinisztikus-sztochasztikus
modell között átmenetet képző technikákkal ismerkedtünk meg. A következő
alfejezetben új idősor szemlélteti majd az előrejelzési technikák lépéseit,
alkalmazhatóságát, amely már csak tisztán sztochasztikus idősorokkal foglalkozik.
0
1000
2000
3000
4000
5000
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65
Mill
ió h
ordó
t időpont
A közlekedési ágazat kőolajfogyasztása Brown féle korrigált kettős exponenciális
simítással
Tényeleges kőolajfogyasztás
Előrejelzés
47
3.3. AutoRegresszív- és MozgóÁtlag- modellek
Mint már olvashattuk, az idősorokat két szélsőséges csoportba sorolhatjuk. Lehetnek
ugyanis determinisztikus vagy sztochasztikus idősorok. Megállapítottuk, hogy a
determinisztikus idősorok valamilyen eleve elrendelt, hosszú távon érvényesülő pályát
követnek. Az ilyen sorok vizsgálatára alkalmaztuk a dekompozíciós modelleket. A
sztochasztikus és determinisztikus modellek közötti ingadozó idősorok elemzésére,
előrejelzésére használtuk a simító eljárásokat. Most pedig elérkeztünk a tisztán
sztochasztikus idősor elemzéséhez. Az ilyen idősorok esetén a véletlen szerves
alkotóeleme a folyamatoknak, s a véletlen változóra szigorú és pontos feltételezéseket
kell alkalmaznunk. A legegyszerűbb és legelterjedtebb sztochasztikus
idősormodellezési technikák, melyek szakdolgozatomban helyet foglalnak: az
AutoRegresszív és MozgóÁtlagolású (ARMA) modellek.
Mielőtt részletesen megismerkednénk az idősorelemzési modellek harmadik
csoportjával, röviden elevenítsük fel, mit is tudunk a korreláció és regresszió
számításról. E témakör ismerete ugyanis elengedhetetlen az autoregresszív és
mozgóátlagolású módszerek megértéséhez.
Korreláció- és Regresszió számításról általánosságban
A társadalmi-gazdasági folyamatok elemzése sokszor terjed ki két változó közötti
összefüggések vizsgálatára. A két változó kapcsolatának számszerűsítéséhez fontos a
korreláció. A korreláció általánosításaként definiálhatjuk a regressziót, mely lényeges
jellemzője, hogy egyszerre több változót is képes kezelni és foglalkozik a változók ok-
okozati összefüggéseivel.
Korreláció
X és Y változók vizsgálata esetén, (ha t=1,…N különböző megfigyelési egységek) a
két változó közötti korrelációt az alábbi képlettel adhatjuk meg:
푟 =∑ (푌 − 푌)(푋 − 푋)
∑ (푌 − 푌) ∑ (푋 − 푋) (1.51)
48
Ahol Yt és Xt a változók egyes megfigyelési időpontban felvett értékei, míg 푌és 푋 az
egyes változók átlagai. A gyakorlatban a számítógépes programcsomagok
természetesen tartalmazzák ezt a képletet, mert meglehetősen időigényes lenne a
korreláció kiszámítása egy-egy hosszabb idősor esetén. Az eredményül kapott r érték
mindig -1 és 1 között mozog. A pozitív értékek pozitív kapcsolatot, míg a negatív
értékek ellentétes kapcsolatot jelentenek. Ha r=0, akkor X és Y nem korrelálnak
egymással, míg 1 tökéletesen pozitív, -1 pedig tökéletesen negatív kapcsolatot takar.
(X és Y valamint Y és X közötti korreláció ugyanazt jelenti.)
Az r korrelációs együtthatót még felírhatjuk ilyen formában is:
푟 =퐶
휎 휎 (1.52)
A fenti képletben a X és Y ismérvek szórását vizsgálja a kovarianciával (C). A
kovariancia tulajdonképpen a változók együtt-ingadozásának összefoglaló
mutatószáma. Szintén jelzi a változók közötti kapcsolat meglétét, illetve irányát,
ugyanolyan formában, mint az „r”, vagyis a korrelációs együttható esetében láttuk.
Viszont a kapcsolat szorosságáról a kovariancia csak a szóródás ismerétében adhat
információt, önmagában nem.
Fontos a korreláció vizsgálatánál elgondolkodni az okság kérdésén. Sokszor
kíváncsiak vagyunk és kutatjuk azt, hogy valóban az egyik változó alakulása okozza-e
a másik alakulását. Ezt nem csak a kapott eredmények megfelelő értelmezésével kell
elvégeznünk, hanem a józanészre, a logikára hagyatkozva. Szeretünk ugyanis az
oksági kapcsolat és a korreláció közé egyenlőségjelet tenni, amely sok esetben nem
indokolt.
Mint már említettem az elemzések során nem csak két változóval dolgozhatunk. A
regressziós számítások alkalmasabbak a több változó közötti kapcsolat elemzésére, de
előfordul, hogy az empirikus kutatók, hogy minden pár közötti korrelációt
kiszámítanak. Foglalkozzunk a továbbiakban egy kicsit a regressziószámítással.
49
Regressziószámítás
Sok változó és a közöttük lévő összetett kapcsolat elemzésének fontos eszköze a
regresszió. Ha csak két változót tekintünk (X és Y) akkor a regressziót egyváltozósnak
nevezzük. (Ne zavarjon meg minket, hogy az idősorok esetén Y, mint egyedüli változó
vizsgálatakor is az „egyváltozós” idősor elemezés kifejezést használjuk) Vegyük most
a két változó közötti legegyszerűbb, lineáris kapcsolatot, melyet a következő módon
írhatjuk fel:
푌 = 훼 + 훽푋 (1.53)
Ahol α konstans (ha grafikusan ábrázolnánk, akkor az egyenes tengelymetszete), β
pedig a meredekséget jelöli. Így kapjuk meg a regressziós egyenest. ( Tulajdonképpen
az egyenes felállításának módja, az analitikus trendszámításnál bemutatottakkal
megegyezik.) A valóságban természetesen nem ismerjük α és β együtthatók valódi
értékét, így Y és X közötti regressziós modellünk mindig csak a valódi összefüggésnek
közelítése lehet. Az emiatt keletkezett hibával együtt az alábbi regressziós modellt
írhatjuk fel:
푌 = 훼 + 훽푋 + 푒 (1.54)
Ahol α és β regressziós együtthatók, e jelöli a hibát, Y-t függő, X-et pedig magyarázó
változónak nevezzük. Mivel „e” itt is jelen van, mint hiba és az együtthatókat nem
tudjuk pontosan megadni, ezért becsült értékeket rendelünk hozzájuk: 훼 és 훽
együtthatók formájában, melyek közelítsenek a legjobban az eredeti értékekhez.
Ha grafikusan ábrázolnánk pontdiagramon a változókat, akkor a regressziós modell
feladata úgyis megfogalmazható, hogy a pontokra leginkább illeszkedő egyenest keresi
(csak úgy, mint a trendszámítás során láthattuk). Korábban már találkoztunk a
reziduum kifejezéssel, de most azonban ki kell térnünk a hiba és a reziduum közötti
különbségre! A hiba egy adott adatpont, megfigyelés és a valódi regressziós egyenes
között mérhető távolság. Ezzel szemben, az 훼 és 훽 együtthatók által felírt regressziós
egyenes és az adatpontok közötti távolság a reziduum (vagy maradéktag).
Maradéktagot „u”-val jelöljük és az (1.55.) képlet alapján ki is számíthatjuk.
50
ut = Yt − 훼 + 훽Xt (1.55)
A reziduumok nagyságát a reziduumok négyzetösszegével mérjük (푆푆푅 = ∑ 푢 ).
Célunk tehát a legjobban illeszkedő egyenes megtalálása, amely akkor következik be,
ha a maradéktagok négyzetösszege (SSR) a lehető legkisebb.
A dekompozíciós modellnél megismert legkisebb négyzetek módszerét lehet itt is
alkalmazni a lehető legkisebb maradéktag négyzetösszegének megadására.
E rövid elméleti áttekintés célja tulajdonképpen az, hogy átvezessen minket a
sztochasztikus idősorok vizsgálatára, melyek összetettebb, hosszabb matematikai és
statisztikai lépések elvégzését igénylik. Azért, hogy ezen technikák lépéseit
könnyebben megértsük, új idősor megfigyeléseit kell alkalmaznunk. Eddig a
közlekedési ágazat kőolajfogyasztását vizsgáltuk, mert annak sajátosságai lehetővé
tették a dekompozíciós és a simító eljárások egy részének bemutatását. Mivel a
továbbiakban sztochasztikus idősorra vonatkozó módszerekkel ismerkedünk meg,
ezért értelemszerűen sztochasztikus idősor lesz a vizsgálatunk tárgya. A későbbiekben
tehát a 2. fejezetben már említett W(est) T(exas) I(ntermediate) hordónkénti árának
havi alakulásával foglalkozunk, 1994.01 és 2012.11 hó között.
3.3.1. Az autokorreláció
A továbbiakban olyan technikákat fogok bemutatni, amelyek nem a hagyományos
korrelációszámítást keretében két idősor elemei közötti az összefüggést keresik, hanem
egy idősor megfigyelései közötti korrelációt. Úgyis mondhatnánk, hogy csak
egyváltozós idősorelemzést végzünk, ahol megvizsgálunk egy idősor változóját és
annak késleltetettje közötti kapcsolatot.
Konkrétan az adott Y változó és annak saját, p időszakkal való késleltetettje közötti
korrelációt keressük. Ezt a korrelációt rp-vel jelöljünk és „p-edik késleltetettjéhez
tartozó autokorrelációnak” nevezzük. Az rp p függvényeként megadja az
autokorrelációs függvényt, ami meglehetősen gyakran használt eszköz, mert igen sok
51
információval szolgál az idősorról, ezáltal megkönnyíti az idősorok jellegének
elemzését.
Az autokorrelációs függvény minden p =1,2,…, P értékhez kiszámolja rp értékét, ahol
P jelenti a leghosszabb késleltetést, például havi gyakoriságú adatok esetén P=12.
Megjegyzendő, a késleltetett korrelációjának kiszámításánál is „vesztünk” adatot,
mivel r1 meghatározásánál Y1 és Y0-ra lenne szükségünk, viszont ez utóbbit nem
ismerjük. Ezért r1 és Y késleltetettjének meghatározásához csak t=2,… ,T időszakokat
használhatjuk. Tehát amikor rp-t szeretnénk kiszámítani, akkor elhagyjuk az első p
megfigyelést! Így hosszú késleltetés esetén igencsak kevés megfigyelésünk lesz, ha
pedig p=T értelemszerűen nem marad egy megfigyelés sem.
Az autokorrelációs függvény segítségével jól jellemezhetőek az idősorok
tulajdonságai, de célszerű az adott változót és késleltetettjének értékeit kifinomultabb
eszközökkel is megvizsgálni, melyekkel később ismerkedünk meg.
Az idősorok vizsgálatának egyik módszere a Mozgóátlag folyamatok. A módszert nem
fogom olyan részletességgel bemutatni, mint az autoregresszív módszereket, viszont a
későbbiekben bemutatásra kerülő ARMA modellek alapját képezi, ezért ismerete
feltétlenül szükséges.
3.3.2. Mozgóátlag-folyamatok
A módszer alapját a tisztál véletlen folyamatok képezik. Tisztán véletlen folyamatról
beszélünk akkor, ha az idősor független, azonos eloszlású valószínűségi változókból
áll és diszkrét időközönként lett megfigyelve. Ekkor a várható értékek és a variancia
konstans, míg az autokovariancia-függvény így adható meg:
γ (k)=cov(Yt, Yt+k)= 0 (k ≠ 0)
A tisztán véletlen folyamatokra a műszaki alkalmazásokból származóan fehér zaj
kifejezést is használjuk.
A Mozgóátlag folyamat használatához a későbbiekben is gyakran hasznosított εt
véletlen változókról kijelentjük, hogy tisztán véletlen folyamat. Mi lesz azonban a
52
különbség? Nem fehér zaj folyamatok esetén εt véletlen változóról annyit állítunk,
hogy várható értéke 0 [E(Yt)=μ=0] és a varianciája állandó (σ2), most viszont
kiegészítjük azzal, hogy a különböző időpontokhoz tartozó εt változók korrelálatlanok
[Cov(εt, εt-k)=0]!
A mozgóátlag folyamatok úgyis értelmezhetők, mint különböző időpontokhoz tartozó
fehér zajok lineáris kombinációja, amely az idősor jelenlegi értékét a jelenlegi és a
megelőző időpontok véletlen változóiként írja le.
Az alapelvet megadva most már felírhatjuk a Mozgóátlag folyamatok képletét:
Ahol θ, mint együttható és ε, mint a tisztán véletlen folyamat elemei szerepelnek.
Képlettel definiált yt folyamatot q-ad rendű mozgóátlagolású folyamatnak nevezzük és
MA(q)-mel jelöljük.
ε- okról kijelentettük, hogy minden t-re 0 a várható értékük, E(εt)=0, ebből pedig az
következik, hogy Y várható értéke is 0 [E(Yt)=0] és Yt varianciája ezért var(Yt)=
(∑ 휃 )휎 . A kovariancia megadható γk =cov(Yt, Yt-k) formában (k=0,1,2,…m). Az
MA(q) folyamat független θ együtthatók értékeitől, tehát mindig stacionárius (a
stacionaritás definícióját nemsokára kifejtem) lesz, azonban most ennek bizonyítása a
dolgozatban nem kap helyet.
A gyakorlatban a mozgóátlag folyamatokkal a trendek kiszűrésére alkalmas
módszerek használatánál találkozhatunk. Most nem kap helyet a MA(q) folyamat
gyakorlati bemutatása, haladjunk inkább tovább a komplexebb, ARMA folyamatok
megismeréséhez, ahol majd egyben látjuk a „rész”módszerek alkalmazásait.
3.3.3. Az egyváltozós modellek autoregresszív modellje
Eljutottunk az autoregresszív modellekhez, melyek olyan regressziós modellek, ahol a
magyarázó változók az eredményváltozó késleltetettjei. Rövidítése: AR.
푦 = 휀 + 휃 휀 + ⋯+ 휃 휀 (1.56)
53
Az AR(1) modell (ahol tehát a magyarázóváltozó a függő változó egy időszakos
késleltetettje) képlete az alábbi módon írható fel:
Ahol α regressziós együttható és a korábbiakkal ellentétben most nem β, hanem ϕ a
másik együttható, mely leírja a tagok kapcsolatát.9 A magyarázó változót yt-1 jelöli.
Fontos, hogy y1 időszakos késletetése y0 lenne, ami viszont nem megfigyelhető, ezért
itt is a t=2,…,T időszakokat használjuk a késleltetett y meghatározásához.
Most kanyarodjuk el egy kicsit a stacionaritás fogalmához, ugyanis AR(1) modell ϕ
együtthatója közeli kapcsolatban van a felvezetésnél említett autokorrelációs
függvénnyel és a nem stacionaritás fogalmával. Ha ugyanis │ϕ│< 1, akkor Y-t
stacionáriusnak nevezzük, míg ha│ϕ│=1 akkor nem stacionáriusnak. ( │ϕ│>1 esetet
nem vizsgáljuk a közgazdaságtudományban, mert ezek robbanásszerű viselkedéseket
írnak le, melyek csak rendkívüli helyzetben figyelhetőek meg (például hiperinfláció).
De mit is jelent a stacionaritás és miért vizsgáljuk?
Stacionaritás
A sztochasztikus idősorelemzés modelljeinek vannak feltételei, amely új fogalmakkal
most megismerkedünk. A stacionaritás, mint az idősor egyik jellemzője ugyanis
alapvetően meghatározza a későbbi módszerek alkalmazásának menetét.
A stacionaritást legérthetőbben úgy értelmezhetjük, mint az idősort alkotó változók fő
jellemzőinek egyfajta időbeli stabilitása. E fő jellemzők:
Az egyes változók várható értéke: 퐸(푌 ) = 휇
Az egyes változók varianciája: 푉푎푟(푌 ) = 휎
A különböző időpontokhoz tartozó változó kapcsolatát kifejező
(auto)kovariancia: 퐶표푣(푌 , 푌 ) = 훾
9 A regressziós modell együtthatóit is görög betűkkel jelöljük. Bármilyen görög betű alkalmas erre a célra, de érdemes a különböző magyarázó változóknál illetve képleteknél, kiterjesztéseknél külön görög betűt használni, az esetleges félreértések elkerülése érdekében.
푦 = 훼 + 휙푦 + 푒 (1.57)
54
A stacionaritás meglétének, milyenségének megállapításához a fenti 3 jellemzőt és
azok kapcsolatát kell megvizsgálnunk és ezek alapján beszélhetünk szigorú vagy
gyenge stacionaritásról, illetve nem stacionárius folyamtokról.
Szigorú stacionaritás
A vizsgálat első lépéseként meghatározzuk yt változó első és második értékeit,
momentumait. Ha t1=t2=t, akkor az autokovariancia egyszerűen σ2. Másképp kifejezve,
ha y1, y2, …, yn n-elemű megfigyeléseinek eloszlása megegyezik az y1+k, y2+k, …,yn+k
megfigyelések együttes eloszlásaival, akkor az idősor szigorúan stacionárius, minden n
és k esetén. Ekkor μt=μ és σt2= σ2 vagyis a várható érték és a variancia t-től független.
Mivel az együttes eloszlások megegyeznek, az eloszlás végső soron kizárólag k
megválasztásától függ és k=t2-t1 különbséget késleltetésnek nevezzük. Szigorú
stacionaritás esetében γ(t1, t2) autokovariancia függvényt megadhatjuk γ(k) formában,
ahol k ismét a késleltetést jelöli. A γ(k) függvényt autokovariancia-függvénynek
nevezzük, és ennek segítségével megkaphatjuk az autokorreláció függvényt, ρ(k)-t:
휌(푘) =훾(푘)훾(0)
(1.58)
Ahol γ(k) az autokovariancia-függvény, γ(0) pedig megegyezik a σ2 varianciával.
Ha ρ(k)-t k függvényében ábrázoljuk, akkor korrelogramot kapunk.
A szigorú stacionárius idősorok esetében az y(t) változók valószínűségi eloszlása t-től
független. Nem csak a várható érték és a variancia állandó, hanem az összes magasabb
rendű momentum is. Ezek a feltételezések azonban rendkívül erősek, nézzük mi
jellemzőbb inkább a gyakorlatban.
Gyenge stacionaritás
Széles értelemben véve stacionárius vagy kovariancia stacionárius idősoroknak is
nevezzük őket. A várható érték ekkor állandó és autokovariancia-függvény csak a
késleltetések számától függ, magasabb rendű momentumokról pedig nem feltételezünk
semmit. Az autokovariancia-függvény ekkor így írható fel:
55
퐸[푌(푡)] = 휇é푠푐표푣[푌(푡), 푌(푡 + 푘)] = 훾(푘) (1.59)
Az idősorelemzés azonban nem merül ki a stacionárius idősorok vizsgálatával, sőt a
gyakorlatban „előforduló” idősorok többsége nem stacionárius.
Nem stacionárius folyamatok
Nem stacionárius idősor esetén a μt várható érték időben változik, lehet t például
lineáris vagy négyzetes trend. A stacionárius és nem stacionárius idősorok
megkülönböztetése rendkívül fontos, mert nem stacionárius idősort regressziós
modellben szerepeltetni tilos.
A nem stacionárius idősorok esetén (amennyiben α=0 és│ϕ│=1) az AR(1) modell így
írható fel:
푌 = 푌 + 푒 (1.60)
Ezt nevezzük véletlen bolyongásnak. Véletlen bolyongás esetén olyan idősorral van
dolgunk, amelyet nem tudunk valamilyen jól leírható logika szerint jellemezni,
legfőképpen nem előre jelezni. Jó példa erre egy részvény árfolyama. A részvény mai
árfolyama a tegnapi ár egy hibatag összege. Ha a részvényárfolyamok nem véletlen
bolyongás szerint alakulnának, akkor változásuk előre jelezhető lenne (és például a
befektetők számára arbitrázslehetőség nyílna meg). De a részvényárak esetén
feltételezhetjük, hogy véletlen bolyongás szerint alakulnak, ezt pedig értelem szerint ki
kell küszöbölnünk, hogy az autoregressziós modellt alkalmazni tudjuk.
Másképp megfogalmazva az egységgyökkel rendelkező idősorok sztochasztikus
trendszerű viselkedést mutatnak. Az egységgyök megléte a következő problémákat
okozza a módszer alkalmazása során:
Nem csak a ϕ értéke 1, hanem az autokorrelációi is egyhez közeliek lesznek,
melyek a késleltetés hosszának növelésével alig csökkennek
Y „emlékszik a múltra” vagyis erősen korrelál a saját korábbi értékeivel, az
idősornak hosszú távú emlékezete van (A stacionárius soroknak nincs hosszú
távú emlékezete)
56
a sorozat trendszerű viselkedést mutat, méghozzá sztochasztikus trendet (a
stacionárius idősorok is tartalmazhatnak trendet, de csakis determinisztikus
trendet, ekkor trendstacionáriusnak nevezve őket)
Az idősor trendszerű viselkedése önmagában tehát még nem jelenti azt, hogy
egységgyököt tartalmazó idősorral van dolgunk. Az egységgyök meglétét azonban
nem lehet csak az idősorra rápillantva megállapítani. A teszteléshez ki kell
számítanunk y differenciáltjait, amelynek eredményeképpen megkapjuk ∆y idősort. Ez
a lépés nem csak a tesztelésre alkalmas, mivel ∆y idősor elemei egyúttal stacionárius
idősort eredményeznek, ezáltal az idősor alkalmas lesz az autoregressziós modell
alkalmazására is. (Az egységgyökkel rendelkező idősorokat ezért gyakran
differenciastacionárius idősoroknak.)
Az egységgyök tesztelését a teljes ARMA folyamat bemutatásánál ismertetem, ahol
már a konkrét idősorral és több elméleti háttérrel könnyebben megérthetjük majd a
stacionaritás vizsgálatát. Most viszont a ∆y idősor előállítása után haladjunk tovább
egyelőre az autoregressziós modell alkalmazásával.
AR(1) modell kiterjesztései
Az AR(1) modellt eddig egyszerű regresszióként értelmeztük, ahol y előző időszaki
értéke a magyarázó változó. Ám célszerű és megoldható y több késleltetését is
magyarázó változóként szerepeltetni, amit a modell p-ed rendű autoregresszióra való
kiterjesztésével végzünk el, amit AR(p)-vel jelölünk:
푦 = 훼 + 휙 푌 +⋯+휙 푌 + 푒 (1.61)
Ahol t=p+1,…,T és α,ϕ pedig már az ismert együtthatók.
Alakítsuk át az egyenletet a differenciált y értékek segítségével, vagyis vonjunk le
mindkét oldalból yt-1-et. Ekkor, némi átrendezés és leegyszerűsítés után a következő
egyenletet kapjuk:
∆푦 = 훼 + 휌푌 + 훾 ∆푌 +⋯+ 훾 ∆푌 + 푒 (1.62)
57
A ρ és γ1,…, γp-1… együtthatók a kiinduló egyenlet ϕ1,… ϕp együtthatóinak egyszerű
függvényei, Yt-p helyett pedig ∆Yt-p+1 taggal találkozunk. A fenti egyenlet szinte
megegyezik AR(p)-vel, csupán a felírás formája különbözik.
Az utóbbi képletben ρ mutatja majd a stacionaritást, mivel ha ρ= 0, akkor y AR(p)
idősornak egységgyöke van, míg ha -2< ρ < 1, akkor az idősor stacionárius. Láthatjuk,
hogy ρ=0 esetén Yt-1 eltűnik, csak ∆Y-t és annak késleltetettjeit tartalmazza a képlet,
tehát a differenciákkal stacionáriussá tettük az idősort.
Amennyiben AR(p) modellhez determinisztikus trendet adunk, akkor az egyváltozós
idősorelemzések során igen gyakran használt modellt kapunk:
∆푌 = 훼 + 휌푌 + 훾 ∆푌 +⋯+ 훾 ∆푌 + 훿 + 푒 (1.63)
A két képlet megegyezik, azzal a kivétellel, hogy utóbbit a δt determinisztikus trenddel
kiegészítettük.
Most, hogy már megismerkedtünk az autoregresszív és mozgóátlag folyamatokkal,
legalábbis az elméleti alapokkal, lépjünk tovább a sztochasztikus idősorok elemzési
módszereinek vizsgálatával és a gyakorlati lefuttatással.
3.3.4. AutoRegresszív MozgóÁtlag folyamatok
Az AR- és a MA-modellek egyesítéseként új módszert használhatunk, melyet
autoregresszív-mozgóátlag modelleknek (röviden ARMA) nevezünk. A módszer
keretein belül a p és q- ad rendű autoregresszív és mozgóátlagolású modellek
magasabb rendű folyamatait vizsgáljuk. Mivel a két módszer egyesítéséről beszélünk,
így logikus, hogy a következő képlet adja az ARMA(p,q) modellt:
푌 = 휙 푌 + 휙 푌 + ⋯+ 휙 푌 + 휀 + 휃 휀 +⋯
+ 휃 휀 (1.64)
A képletben p és q időpontokat a különböző együtthatókra vonatkozóan használjuk, εt
a MA modell során megismert, nulla várható értékű és σ2 varianciájú, tehát tisztán
véletlen folyamat.
58
A modell használatához kialakítottak egy interaktív modellépítési stratégiát, melyet
kidolgozóik után Box-Jenkins modellezésnek is nevezünk. A modell népszerűségét
annak köszönheti, hogy bármely idősorra alkalmazható, függetlenül attól, hogy
stacionárius-e vagy sem, tartalmaz-e szezonális komponenst és a legtöbb statisztikai-
ökonometriai programcsomag (mint az általam használ Gretl program is) által
alkalmazható. A stratégia első lépései használhatók az AR(p) módszernél felvezetett
egységgyök vizsgálatra, ahol külön nem tértünk ki rá, ezt a hiányosságot most
pótolom.
A Box-Jenkins-féle modellezés lépéseit a 4. ábra mutatja.
4. ábra: Az ARMA modellezés Box-Jenkins-féle módszere
Forrás: G. S. Maddala: Bevezetés az ökonometriába, 595.oldal
Hogyan is működik a modell?
1. Első lépésben, ha nem stacionárius idősorral van dolgunk, addig
differenciáljuk az idősort, míg stacionáriussá nem válik. Mi alapján dönthető el, hogy
egy idősor stacionárius? Többféleképpen megtehetjük, különböző próbák segítségével.
A dolgozatomban most a talán legismertebb stacionaritás vizsgálatra alkalmas teszt, a
59
Dickey-Fuller-próba kap helyet, melyet kifejlesztőikről neveztek el. Alapegyenlete így
írható fel:
푦 = 휌 ∗ 푦 + 휀 (1.65)
Ahol ρ>0.
Ezután felállítjuk a hipotézist, miszerint H0: ρ=1. Ekkor egységgyök van az idősorban.
Értelemszerűen H1: ρ ≠1 , ekkor stacionárius idősorral van dolgunk. A fenti egyenlet
és hipotézis akkor alkalmazható, ha sem konstans, sem trend nincs az idősorunkban.
Konstans tagot tartalmazó idősornál ugyanis az egyenletünk:
∆푦 = 푐 + 휆 ∗ 푦 + 휀 (1.66)
Ahol c a konstans tag, λ=ρ-1 képpen adható meg.
Konstans tagot és trendet tartalmazó idősor esetén pedig:
Δ푦 = 푐 + 훿 ∗ 푡 + 휆 ∗ 푦 + 휀 (1.67)
egyenletet alkalmazzuk (AR(1)-nél már láthattuk, hogy δ jeleníti meg a trendet).
Foglalkozzunk most a véletlen bolyongásnál összetettebb folyamatok egységgyök
vizsgálatával. Ekkor az előbb felírt 3 egyenletet ki kell bővítenünk.
Sem konstans tagot, sem trendet nem tartalmaz az idősor:
Δ푦 = 휆 ∗ 푦 + 휃 ∗ Δ푦 + 휃 ∗ Δ푦 +⋯휃 ∗ Δ푦
+ 휀 (1.68)
Konstans tagot tartalmazó idősor:
Δ푦 = 푐 + 휆 ∗ 푦 + 휃 ∗ Δ푦 + 휃 ∗ Δ푦 + ⋯휃
∗ Δ푦 + 휀 (1.69)
60
Konstans tagot és trendet is tartalmazó idősor:
Δ푦 = 푐 + 훿 ∗ 푡 + 휆 ∗ 푦 + 휃 ∗ Δ푦 + 휃 ∗ Δ푦
+⋯휃 ∗ Δ푦 + 휀 (1.70)
Ahol k a késleltetések száma.
A kibővített egyenleteket összefoglalóan kiterjesztett Dickey-Fuller tesztnek nevezzük
(Augmented Dickey Fuller test), röviden: ADF.
A k késleltetések számának megválasztása problémát okozhat, ezért más próbákkal is
tesztelik az idősort, melyek közül a másik legelterjedtebb a Kwiatkowski és
szerzőtársai által kifejlesztett KPSS teszt. A teszt nullhipotézise éppen ellentettje az
ADF-nek, mert itt a stacionaritást nézzük, míg az ellenhipotézis elfogadása esetén
beszélhetünk egységgyökről vagy differencia stacionaritásról.
A KPSS teszt kiinduló modellje:
푦 = 휇 + 휌 ∗ 푦 + 휀 (1.71)
A null és az ellenhipotézis pedig: Ho: 1 és H1: és μ=0
A teszt nehézsége itt is a t értékének megválasztása, de a több módszerrel szerzett
eredmények megerősíthetik a feltevéseinket.
Mind a két teszt esetében össze kell vetni a kapott értékeket a teszt kritikus értékeivel,
melyek megtalálhatóak a Mellékletben. Alapesetben a hipotézisek vizsgálatára a
Student-féle t eloszlást használnánk, de egységgyök jelenléte esetében a kritikus
értékek félrevezetőek lennének. Dickey-Fuller teszt esetében, ha a ρ-hez tartozó t
(teszt statisztika) kisebb, mint az általunk megválasztott szignifikancia szinthez és
megfigyelésekhez tartozó érték, akkor elvetjük az egységgyök létezésének hipotézisét.
( A Dickey-Fuller eloszlás értékei természetesen itt is konstans és trend nélküli,
konstanst tartalmazó vagy konstanst és trendet is tartalmazó idősor szerinti
csoportosításban vannak.) A KPSS teszt eredményeként kapott értéket is össze kell
hasonlítanunk a megfelelő szignifikancia szinthez tartozó kritikus értékkel.
Meg kell azonban jegyeznünk, hogy a Dickey-Fuller-próba hajlamos ott is
egységgyököt találni, ahol nincs, mivel egy trendstacionárius idősor igencsak
61
hasonlíthat egy egységgyököt tartalmazóra. Megtörténhet ugyanakkor az ellenkezője
is, ugyanis sok olyan idősorral találkozhatunk, amelyek még akkor is utalnak
egységgyök jelenlétére, amikor nincs is egységgyökük. (Ezeket strukturális töréseknek
nevezzük, olyan makroökonómiai sorokban fordulnak elő, ahol hirtelen változás,
például háború áll elő.)
Megfigyelhetjük az egységgyök jelenlétét a korrelogram segítségével is. A korreláció
áttekintésénél már megadtuk, hogy a korrelogram a ρ(k) autokorreláció függvény
[휌(푘) = ( )( )
] k (késleltetés szám) szerinti ábrázolása. Stacioner idősor esetén a k
növelésével a korrelogram nullává válik. yt idősor korrelogramját vizsgálva tehát
differenciáljuk addig az idősort, míg a kis késleltetés szám mellett a korrelogram
nullává válik.
Ha megállapítottuk, hogy az idősorunk egységgyököt tartalmaz, akkor képezzük annak
differenciáltját. Általában egy differenciálás után stacionárius idősort kapunk, ha
mégsem, akkor ismételjük meg az eljárást.
2. Vizsgáljuk meg a stacionárius idősort, hogy a megfigyelések milyen p és q
rendű folyamatokból származnak. Ez az identifikáció folyamata, ekkor történik a
kiinduló modell felírása, beazonosítása. Meghatározzuk a megfigyelt idősor jellemzőit
és megkeressük, hogy melyik elméleti modellel mutat legnagyobb hasonlóságot a mi
idősorunk. Tehát felírunk egy előzetesen helyesnek vélt ARMA-modellt. A
korrelogram és a parciális korrelogram segítheti p és q értékek előzetes becslését. A
becslési eljárások bemutatásával most sajnos nem foglalkozunk, mert azok rendkívül
bonyolultak. Viszont a statisztikai/ökonometriai programcsomagok segítségével
leegyszerűsödik a feladatunk.
3. A feltételezett modell alapján meg kell becsülnünk ϕ és θ paramétereket.
Most is alkalmazhatjuk a legkisebb négyzetek módszerét, de tudnunk kell, hogy ezen
esetek bonyolultabbak, mint a korábban felírtak (Többnyire iterációs eljárásokkal
adják meg a paramétereket, de jelen dolgozatban erre szintén nem térek ki.). A cél itt is
az, hogy a becsült paraméterekkel az illeszkedés a lehető legjobb legyen. Lehetséges
62
többször másik becslést készíteni, esetleg túl- vagy alulbecsülni a függvényt, hogy
még jobban meggyőződhessünk az illeszkedés jóságáról.
4. Meg kell vizsgálnunk, hogy megfelelő-e a modell, vagyis a modell
egészében jól írja-e le a valóságot. (Amennyiben jól írja le a valóságot, akkor a
maradéktagok véletlennek tekinthetők.) Ha nemleges választ kapunk, akkor vissza kell
térnünk a második lépéshez és új modellt kell felállítanunk. Amennyiben jól
illeszkedik a modell, akkor továbbléphetünk az utolsó pontra.
5. A modellt felhasználhatjuk előrejelzési célokra, ami tulajdonképpen a
vizsgálatunk célja
A folyamat látszólagos bonyolultságát a stacionaritás problémája, a késleltetések
számának megadása és a megfelelő p, q és a többi paraméter megadása jelentheti. A
gyakorlatban azonban akár az általam használt GRETL programcsomag óriási
segítséget jelentett az adatok és értékek előállításához.
A 11. grafikon ismerős lehet, hiszen a 2. fejezetben már megismertük az idősorunk
alapvető jellemzőit.
11. grafikon: WTI árak alakulás (1994-2012)
Forrás: http://www.eia.gov/dnav/pet/hist/LeafHandler.ashx?n=pet&s=rwtc&f=m
020406080
100120140160
1 17 33 49 65 81 97 113
129
145
161
177
193
209
225
Dollá
r/ h
ordó
t időpont
WTI árak alakulása (1994-2012)
WTI árak (Dollár/ Hordó)
63
Most lássuk, hogyan is működik az ARMA folyamat a WTI hordónkénti árának
vizsgálatánál, a GRETL program segítségével.
1. lépés: Stacionaritás vizsgálata, differenciálás.
Vessük össze a konstans és trend nélküli, konstans tagot tartalmazó, valamint
konstanst és trendet tartalmazó, ADF tesztelt értékeinket a megfelelő kritikus
értékekkel. Mindhárom esetben 12 a késleltetések száma. A GRETL program
segítségével kapott értékeket az alábbi táblázat mutatja:
3. táblázat: Augmented Dickey-Fuller teszt és értékek
Forrás: Saját előállítás, GRETL programcsomag segítségével
Láthatjuk, hogy a konstans nélkül vizsgált t érték 0,500105, mely nagyobb, mint az
5%-os szignifikancia szinthez tartozó kritikus -1,95 érték. A konstans tagot tartalmazó
t= -0,820433 is nagyobb, mint a -2,88 kritikus érték és ugyanez a helyzete áll fenn az
64
utolsó esetben, mert t= -3,04795 nagyobb, mint -3,43. 10 Ezek alapján, mivel a ρ-hoz
tartozó t értékek nagyobbak, mint a kritikus értékek, ezért elfogadjuk a H0 hipotézist,
vagyis az idősornak egységgyöke van. Azért, hogy ezt teljes biztossággal
kijelenthessük, végezzük el a KPSS tesztet is:
4. táblázat: KPSS teszt értékei
A fenti táblázatból azt látjuk, hogy a t statisztikánk minden szignifikancia szinten
nagyobb, mint a kritikus értékek. Mivel a módszer fordítottan működik, mint az ADF
teszt, ezért itt el kell vetnünk a H0 hipotézis, amely szerint az idősornak
stacionáriusnak kellene lennie.
Mindkét teszt megerősítette tehát, hogy egységgyök problémával állunk szemben, s
így nem lehet ARMA modellt illeszteni az idősorunkra.
Hogy orvosoljuk a bajt, képezzük az idősor differenciáltját. Fontos hogy nem csupán q
és p paramétert kell előzetesen megbecsülnünk, hanem itt a differenciálások fokát (d)
is, amely beépül a modellünkbe, amit ezentúl ARIMA( p,d, q) -nak fogunk hívni.
A különbségek alakulását az alábbi grafikonon szemléltetem:
10 Mint már említettem, a kritikus értékeket tartalmazó táblázatok a mellékletben kapnak helyet.
65
12. grafikon: WTI árak első differenciáltja
Forrás: Saját szerkesztés
Azt hogy idő sor esetében, hogy szükséges-e az (újra) differenciálás a korrelogram
(autokorrelációs függvény, ACF ) segítségével dönthetjük el, ami egy sor adatainak és
a múltbeli értékeinek korrelációs együtthatóinak, azaz az autokorrelációs együtthatók
ábrája.
5. ábra: WTI árak auto és parciális autokorrelogramjai
Forrás: Saját előállítás, GRETL programcsomag segítségével
Az első korrelogramon láthatjuk, hogy az ACF értékei lassan közelítenek a 0-hoz,
amely egyértelműen az egységgyökkel rendelkező idősorok jellemzője.
66
Az első differenciálás eredményét a 6. ábra tartalmazza, ahol máris szembetűnő a
különbség, és ez azt jelenti, hogy nem kell tovább differenciálnunk az idősort, ugyanis
a 0-hoz közeledés nem lassú.
6. ábra: Első differenciált auto és parciális autokorrelogram
Forrás: Saját előállítás, GRETL programcsomag segítségével
2. lépés: a feltételezett modell megadása
Az autokorrelációs függvény felrajzolása abban is segítségünkre van, hogy becslést ad
a mozgóátlagolású (MA) tag q -fokára. Ehhez csupán a korrelogram alakját fogjuk
megvizsgálni. Ha a korrelogram q -nál kisebb értékeknél nem mutat semmilyen
határozott alakot, míg q –tól nagyobb értékekre nulla, akkor a késleltetéseknek q -t kell
választani. Például az elsőrendű mozgóátlag (MA(1)) folyamat esetén kizárólag ez
első érték nem nulla, az összes többi pedig nulla.
Amennyiben megfigyeljük az autokorrelációs függvényünket, nem láthatunk
semmilyen határozott alakot, ezért MA (0)- rendű fokkal dolgozunk.
A parciális autokorreláció függvény (PACF) pedig az autoregresszív (AR) tag p
kezdeti értékének eldöntésében segít minket.
67
A parciális korrelogram értéke egy bizonyos késleltetés után nulla körül fog mozogni.
Ez a késleltetés lesz a p kezdeti értéke. Azaz egy elsőrendű autokorrelációs AR (1)
folyamatnál a parciális korrelogram első eleme nem nulla, a többi mind nulla
közelében marad. Pontosan ez az, amit a saját korrelogramunkon is megfigyelhetünk.
Az ACF és a PACF megfigyeléseinek alapján a Box-Jenkins folyamat harmadik
lépését az ARIMA (1,1,0) modellel kezdem.
A folyamat 3. és 4. lépése jelenti a paraméterek becslését és azok leellenőrzését.
Mindkét lépés olyan összetettebb, egymáshoz kapcsolódó kritériumrendszerek
ismeretét igényli, amelyek egyesével történő bemutatására nincs lehetőségem jelen
dolgozat keretein belül. A statisztikai programcsomagok itt is könnyedén elvégzik a
különféle számításokat, melyek kiértékeléséhez több kritikus érték egyszerre történő
vizsgálatára van szükség (például modellszelekció). Ez azonban, mint mondottam
jóval mélyebb és alaposabb statisztikai ismereteket kíván. Ha az ellenőrzés során
alkalmatlannak találjuk a modellt, akkor vissza kell térnünk a modell
identifikációjának lépéséhez. A lépések elvégzésével, a feltételezett modell alul és
túlillesztésével valamint más modellekkel való összemérések eredményeképpen, az
ARIMA (1,1,0) modellt tartom legalkalmasabbnak az előrejelzések készítéséhez.
Az ARIMA (1,1,0) modell egyenlete:
∆푦 = −0,0147009 − 0,364065y (1.72)
5. táblázat: ARIMA (1,1,0) értékei
Forrás: Saját előállítás, GRETL programcsomag segítségével
68
Elérkeztünk az utolsó lépéshez, vagyis az előrejelzések megadásához.
5. lépés: A modell előrejelzési célokra való felhasználása
A 13. grafikon piros vonallal jelzi a megfigyeléseinket, míg kék színnel követhetjük az
előrejelzést. 1 éves, vagyis 12 hónap időtartamra vonatkozó előrejelzést kaptunk. Az
ábrán látható, hogy még viszonylag rövid időtartamra sem tudta a modell a megfelelő
előrejelzéseket előállítani és sajnos nagyon gyorsan tágul a konfidencia intervallum is.
13. grafikon: WTI árak előrejelzése ARMA folyamat segítségével
Forrás: Saját előállítás, GRETL programcsomag segítségével
Az egy évre előrejelzett értékek a következők
2012. dec.. 85,6 dollár/hordó 2013. jún.. 86,68 dollár/hordó 2013. jan.. 85,43 dollár/hordó 2013. júl.. 87,98 dollár/hordó 2013. febr.. 85,56 dollár/hordó 2013. aug.. 87,29 dollár/hordó 2013. márc.. 85,8 dollár/hordó 2013. szept.. 87,6 dollár/hordó 2013. ápr.. 86,08 dollár/hordó 2013. okt.. 87,9 dollár/hordó 2013. máj.. 86,38 dollár/hordó 2013. nov.. 88,21 dollár/hordó
69
4. Összegzés, véleményezés
Elérkeztünk az idősorok elemzési, előrejelzési modellek végéhez, s egyúttal a
szakdolgozatom záró oldalaihoz. Összefoglalásképpen úgy gondoltam szemléletesebb
és hatékonyabb, ha táblázatba foglalom az általam bemutatott módszerek alapelveit,
előnyeit és hátrányait. Remélem, ezáltal még érthetőbbé válnak a módszerek és
azoknak egymásra épülési logikája is. Nézzük tehát sorban a dekompozíciós
modellektől indulva, hogyan jutunk el az autoregressziós és mozgóátlagolású
folyamatokhoz, útba ejtve a simító eljárások lépéseit.
Idősorelemzés típusa Determinisztikus
Dekompozíciós modell
Trendszámítás Szabálytalan ciklus
Szezonális ingadozások
Analitikus Mozgóátlagolású
Alapelv
Tartós irányzat
analitikusan jól leírható függvény
szerint alakul
A trendet csak a megfigyelt idősor
értékeinek különféle átlagolásával állítjuk elő
Az analitikus és mozgó-átlagolású
trendek összegyúrása
A trend kiszűrése után a szezonális
ingadozások vizsgálata
Alapképlet 푦 = 훽 + 훽 푡 푦 + ⋯+ 푦 +⋯+ 푦
2푘 + 1 -
푠
=∑ 푦 − 푦
푛푝
Előny Egyszerű, becslést ad
Kevés induló értéket igényel, ciklusokat
képes kiszűrni
Képes a szabálytalan
ciklus kiszűrésére
Az idősor a j-edik szezonban átlagosan
mennyivel tér el a trendértéktől a
szabályosan ismétlődő
szezonhatás következtében.
Hátrány
A változók értékeit a
későbbiekben változatlannak tekinti, torzít, ciklust nem tud kiszűrni
Nem ad előrejelzés, csupán tendenciát, m
tagszám helyes megadása nehézkes, mivel csökkenhet a véletlen szerepe/
eltűnik a trend
Óvatosan kell bánni az előző
módszerek para-
métereinek megválasztá-
sával
Nem tudja kezelni a változó
amplitúdójú, változó
hosszúságú ciklusokat
Kritikus paraméter 훽 , 훽 m 훽 , 훽 és m n, p Becslés Lehetséges Nem lehetséges Nem
lehetséges Nem lehetséges
70
Idősorelemzés típusa
Determinisztikus-Sztochasztikus
Simító eljárások
Egyszeres
exponenciális simítás Kettős exponenciális simítás Brown féle korrigált kettős exponenciális
simítás
Alapelv
A simító eljárások legegyszerűbb esete, trend és szezonalitás
nélküli idősorra alkalmazható
Lineáris trenddel rendelkező idősor kisimítására alkalmas
A mindenkori trendértéken kívül a
trendértéket előállító két paramétert is
felülvizsgálja, és újra meghatározza az újabb
megfigyelések birtokában
Alapképlet 푦 = = (1 − 훼)푦 + 훼푦
푆( ) = 훼푦 + (1 − 훼)푆( )
푆( ) = 훼푆( ) + (1 − 훼)푆( )
푆( )
= 훽 − 21 − 훼훼
훽
푆( ) = 훽 −1 − 훼훼
훽
Előny Egyszerű az alkalmazása,
Egyszerű alkalmazás a trenddel rendelkező sorokra
Kezelni tudja a trendet,
α értéken kívül más
paraméterekkel is
dolgozik,
Hátrány
Csak egy időszakra adhat előrejelzést, α
megválasztásának nehézsége
Rossz α választása esetén fennálló torzulások:
merevedés, gyenge simítás
Kiszámítása időigényes, az előbbieknél is
nagyobb fokú odafigyelést igényel.
Kritikus paraméter α α α, 훽 , 훽
Becslés Csak egyetlen időszakra
Lehetséges, de óvatosan kell kezelni Lehetséges
Idősorelemzés típusa
Sztochasztikus
AutoRegresszív MozgóÁtlag folyamatok AR MA ARMA
Alapelv
Olyan regressziós modellek, ahol a
magyarázó változók az
eredményváltozó késleltetettjei
A különböző időpontokhoz tartozó fehér zajok lineáris
kombinációja, amely az idősor jelenlegi értékét a jelenlegi és a megelőző
időpontok véletlen változóiként írja le
Az AR és MA módszerek egyesítésével lehetséges a p és q- ad rendű autoregresszív és
mozgóátlagolású modellek magasabb rendű folyamatainak
vizsgálata és ezek alapján pontosabb előrejelzés.
Alapképlet 푦 =
= 훼 + 휙푦 + +푒
푦 = 휀 + 휃 휀 +⋯+ 휃 휀
푦 = 휙 푦 + 휙 푦 + ⋯+
71
+휙 푦 + 휀 + 휃 휀+ ⋯+ 휃 휀
Előny
Remekül leírja az idősor tagjai
közötti kapcsolatot
Trendek kiszűrésére alkalmas, anélkül, hogy
elhagyná a véletlen változókat.
A korábbi modellek előnyös tulajdonságait hasznosítja,
alkalmazza egy módszer keretein belül.
Hátrány
Előzetes számításokat igényel, nem
minden típusú idősornál
alkalmazható. (Stacionaritás)
Nem tud előrejelezni, csak a meglévő adatokból dolgozik
Előzetes számítások szükségesek (Stacionaritás vizsgálata,
differenciálás). A korábbiakhoz képest jóval mélyebb statisztikai,
matematikai ismeretek ajánlottak használatához
Kritikus paraméter α, φ, ε ε, θ, q φ, θ, ε, késleltetések száma
Becslés Lehetséges Önmagában nem lehetséges Lehetséges
A táblázatok segítségével megpróbált átláthatóan összefoglalni mindazt, amit a
szakdolgozatomban bemutattam és kielemeztem. Természetesen a gyakorlatban jóval
több módszerrel találkozhatunk, de úgy gondolom a most megismert technikák
elengedhetetlenek az idősor elemzések és előrejelzések szempontjából.
Láthattuk milyen különbségek vannak az egyes módszerek lépései és az általuk
képzett előrejelzések minősége, megbízhatósága között. A statisztika, mint
tudományág fejlődése természetesen magába foglalja ezen módszerek fejlődését is. Az
autoregresszív és mozgóátlagolású modellek a legfejlettebbek, az általunk vizsgáltak
közül. Ha jobban elmélyülünk a témában, akkor találkozhatunk olyan ARMA
modellekkel, melyek általánosítottak (GARMA), nem lineáris trendet elemeznek
(NARMA), szezonalitást kezelnek (SARIMA) vagy éppen több idősor illesztésével az
„idegen” idősor múltbeli értékeivel is keresik a kapcsolatot (Vektor ARIMA-
VARIMA).
A modellek természetesen sohasem lesznek mentesek a hibáktól, az elkészített
előrejelzéseket mindig bizonyos szintű fenntartással kell kezelni, hiszen láthattuk, a
(nem feltétlenül ismert) valóság és a becsült adatok között mindig lesz eltérés. A
becslések megfelelő kezelése azonban elősegítheti munkánkat, az alkalmazkodás
folyamatát, s az utólagos elemzéssel még pontosabb előrejelzéseket vagy éppen
előrejelzési eljárásokat alakíthatunk ki.
72
Summary
In the last few decades the times series analysis started to be a special part of the
statistic field. The methods became more reliable and give more accurate information
than before. Unfortunately the Hungarian and the international literature are not
aligned. So I decided to write my master thesis about the comparison of the time series
analysis methods.
At first I presented the main informations about the time series. We need this basic
knowledge to understand the complex methods. To make easier the understanding
process I chose two kind of times series which are almost opposite if we want to
categorize them. The first time series gives information about the petroleum
consumpition of the transportation sector. The number of observation are 63 and made
annualy. I analized this time series with the simplier models like analitical trend
calculation, or moving average trend calculation.
The other time series gives information about the WTI spot prices. The number of
observation are 227 and made monthly. This time series was really usefull to
demonstrate the specialty of the ARMA process.
I used the oconometrical program called GRETL to make easier the analysis and
forecasting process in case of the ARMA process.
In the end of the process and methods I calculated forecasts to demonstrate how big is
the difference between models and models. We have to notice we should take these
forecasts carefully!
All of the methods have advantages and disadvantages. I didn’t show all of the time
series modell only few of them but I could say the later models improve these „old”
models to develope more usefull and reliable techniques.
73
Irodalomjegyzék
Domán Csaba- Szilágyi Roland- Dr. Varga Beatrix: Statisztikai elemzések alapjai I.-II., 2009
James D. Hamilton: Time Series Analysis, Princeton University Press, 1994
Dr. Havasy György- Molnár Máténé Dr.- Dr. Szunyogh Zsuzsanna- Tóth Mártonné Dr.:
Általános Statisztika I.-II., Nemzeti Tankönyvkiadó, Budapest, 1996
Hunyadi László- Vita László: Statisztika I.-II., AULA Kiadó Kft., Budapest, 2008
Hunyadi László- Vita László: Statisztika közgazdászoknak, Budapest, 2002
Gary Koop: Közgazdasági adatok elemzése, Osiris Kiadó Kft., Budapest 2009
G. S. Maddala: Bevezetés az ökonometriába, Nemzeti Tankönyvkiadó, Budapest, 2004
Polgárné Hoschek Mónika: Statisztikai idősorelemzés a tőzsdén, Phd értekezés, Sopron, 2011
Webes források:
Wikipédia WTI fogalom
http://hu.wikipedia.org/wiki/West_Texas_Intermediate
Adatok táblázatosan:
Közlekedési ágazat kőolajfogyasztása
http://www.eia.gov/totalenergy/data/annual/index.cfm#consumption
WTI árak alakulása
http://www.eia.gov/dnav/pet/hist/LeafHandler.ashx?n=pet&s=rwtc&f=m
U.S. Energy Information Administration: http://www.eia.gov/
Bevezetés az ökonometriába előadássorozatok: http://www.medstat.hu/eloadas10handout.pdf
Az ADF és KPSS tesztek kritikus értékei táblázatos formában:
http://www.economics.utoronto.ca/jfloyd/book/statabs.pdf
74
Melléklet
1. A közlekedési ágazat kőolajfogyasztása 1949 és 2011 között
2. A WTI hordónkénti árának alakulása 1994 és 2012 között
Dátum WTI árak (Dollár/ Hordó)
1994.01. 15,03 1994.02. 14,78 1994.03. 14,68 1994.04. 16,42 1994.05. 17,89 1994.06. 19,06 1994.07. 19,66 1994.08. 18,38 1994.09. 17,45 1994.10. 17,72 1994.11. 18,07
1994.12. 17,16 1995.01. 18,04 1995.02. 18,57 1995.03. 18,54 1995.04. 19,9 1995.05. 19,74 1995.06. 18,45 1995.07. 17,33 1995.08. 18,02 1995.09. 18,23 1995.10. 17,43 1995.11. 17,99 1995.12. 19,03 1996.01. 18,86
1996.02. 19,09 1996.03. 21,33 1996.04. 23,5 1996.05. 21,17 1996.06. 20,42 1996.07. 21,3 1996.08. 21,9 1996.09. 23,97 1996.10. 24,88 1996.11. 23,71 1996.12. 25,23 1997.01. 25,13 1997.02. 22,18 1997.03. 20,97
1997.04. 19,7 1997.05. 20,82 1997.06. 19,26 1997.07. 19,66 1997.08. 19,95 1997.09. 19,8 1997.10. 21,33 1997.11. 20,19 1997.12. 18,33 1998.01. 16,72 1998.02. 16,06 1998.03. 15,12 1998.04. 15,35 1998.05. 14,91
75
1998.06. 13,72 1998.07. 14,17 1998.08. 13,47 1998.09. 15,03 1998.10. 14,46 1998.11. 13 1998.12. 11,35 1999.01. 12,52 1999.02. 12,01 1999.03. 14,68 1999.04. 17,31 1999.05. 17,72 1999.06. 17,92 1999.07. 20,1 1999.08. 21,28 1999.09. 23,8 1999.10. 22,69 1999.11. 25 1999.12. 26,1 2000.01. 27,26 2000.02. 29,37 2000.03. 29,84 2000.04. 25,72 2000.05. 28,79 2000.06. 31,82 2000.07. 29,7 2000.08. 31,26 2000.09. 33,88 2000.10. 33,11 2000.11. 34,42 2000.12. 28,44 2001.01. 29,59 2001.02. 29,61 2001.03. 27,25 2001.04. 27,49 2001.05. 28,63 2001.06. 27,6 2001.07. 26,43 2001.08. 27,37 2001.09. 26,2 2001.10. 22,17 2001.11. 19,64 2001.12. 19,39 2002.01. 19,72 2002.02. 20,72 2002.03. 24,53
2002.04. 26,18 2002.05. 27,04 2002.06. 25,52 2002.07. 26,97 2002.08. 28,39 2002.09. 29,66 2002.10. 28,84 2002.11. 26,35 2002.12. 29,46 2003.01. 32,95 2003.02. 35,83 2003.03. 33,51 2003.04. 28,17 2003.05. 28,11 2003.06. 30,66 2003.07. 30,76 2003.08. 31,57 2003.09. 28,31 2003.10. 30,34 2003.11. 31,11 2003.12. 32,13 2004.01. 34,31 2004.02. 34,69 2004.03. 36,74 2004.04. 36,75 2004.05. 40,28 2004.06. 38,03 2004.07. 40,78 2004.08. 44,9 2004.09. 45,94 2004.10. 53,28 2004.11. 48,47 2004.12. 43,15 2005.01. 46,84 2005.02. 48,15 2005.03. 54,19 2005.04. 52,98 2005.05. 49,83 2005.06. 56,35 2005.07. 59 2005.08. 64,99 2005.09. 65,59 2005.10. 62,26 2005.11. 58,32 2005.12. 59,41 2006.01. 65,49
2006.02. 61,63 2006.03. 62,69 2006.04. 69,44 2006.05. 70,84 2006.06. 70,95 2006.07. 74,41 2006.08. 73,04 2006.09. 63,8 2006.10. 58,89 2006.11. 59,08 2006.12. 61,96 2007.01. 54,51 2007.02. 59,28 2007.03. 60,44 2007.04. 63,98 2007.05. 63,46 2007.06. 67,49 2007.07. 74,12 2007.08. 72,36 2007.09. 79,92 2007.10. 85,8 2007.11. 94,77 2007.12. 91,69 2008.01. 92,97 2008.02. 95,39 2008.03. 105,45 2008.04. 112,58 2008.05. 125,4 2008.06. 133,88 2008.07. 133,37 2008.08. 116,67 2008.09. 104,11 2008.10. 76,61 2008.11. 57,31 2008.12. 41,12 2009.01. 41,71 2009.02. 39,09 2009.03. 47,94 2009.04. 49,65 2009.05. 59,03 2009.06. 69,64 2009.07. 64,15 2009.08. 71,05 2009.09. 69,41 2009.10. 75,72 2009.11. 77,99
2009.12. 74,47 2010.01. 78,33 2010.02. 76,39 2010.03. 81,2 2010.04. 84,29 2010.05. 73,74 2010.06. 75,34 2010.07. 76,32 2010.08. 76,6 2010.09. 75,24 2010.10. 81,89 2010.11. 84,25 2010.12. 89,15 2011.01. 89,17 2011.02. 88,58 2011.03. 102,86 2011.04. 109,53 2011.05. 100,9 2011.06. 96,26 2011.07. 97,3 2011.08. 86,33 2011.09. 85,52 2011.10. 86,32 2011.11. 97,16 2011.12. 98,56 2012.01. 100,27 2012.02. 102,2 2012.03. 106,16 2012.04. 103,32 2012.05. 94,66 2012.06. 82,3 2012.07. 87,9 2012.08. 94,13 2012.09. 94,51 2012.10. 89,49 2012.11. 86,53
3. A Dickey-Fuller teszt kritikus értékei
4. A Kwiatkowski–Phillips–Schmidt–Shin teszt kritikus értékei
top related