Üzleti előrejelzések készítésének módszerei

MISKOLCI EGYETEM

Gazdaságtudományi Kar

Üzleti Információgazdálkodási és

Módszertani Intézet

Polyák Andrea

Tartalomjegyzék 1. Bevezetés .................................................................................................................3

2. Alapfogalmak ..........................................................................................................5

2.1. Idősorok sajátosságai .........................................................................................6

2.2. Az idősorok elemzésének egyszerűbb eszközei .................................................9

2.2.1. Számtani átlag .......................................................................................... 10

2.2.3. Átlagos változás mutatói ........................................................................... 11

2.2.4. Szóródásmutatók ...................................................................................... 12

2.3. Kiválasztott idősoraim jellemzői és vizsgálata egyszerűbb számításokkal. ...... 13

3. Az idősorelemzés modelljei ................................................................................... 17

3.1. A dekompozíciós modellek ............................................................................. 18

3.1.1. Trendszámítás........................................................................................... 19

3.1.1.1. Analitikus trendszámítás ........................................................................ 20

3.1.1.2. A mozgóátlagolású trendszámítás .......................................................... 27

3.1.2. A szabálytalan ciklus ................................................................................ 31

3.1.3. A szezonális ingadozások ......................................................................... 32

3.2. A simító eljárások ........................................................................................... 38

3.2.1. Egyszeres exponenciális simítás ............................................................... 39

3.2.2. Kettős exponenciális simítások ................................................................. 41

3.2.3. Brown féle korrigált kettős exponenciális simítás ..................................... 43

3.3. AutoRegresszív- és MozgóÁtlag- modellek .................................................... 47

3.3.1. Az autokorreláció ..................................................................................... 50

3.3.2. Mozgóátlag-folyamatok ............................................................................ 51

3.3.3. Az egyváltozós modellek autoregresszív modellje .................................... 52

3.3.4. AutoRegresszív MozgóÁtlag folyamatok ................................................. 57

4. Összegzés, véleményezés ....................................................................................... 69

Summary ................................................................................................................... 72

Irodalomjegyzék ........................................................................................................ 73

Melléklet .................................................................................................................... 74

1. Bevezetés

Az embereket mindig érdekelte a jövőbeni események alakulása, a jövő megismerése,

hiszen ezáltal felkészülhettek és könnyebben alkalmazkodhattak az újdonságokhoz.

Nincs ez másként a közgazdaság területén sem. A tudományos jövőkutatás célja a

várható fejlődési tendenciák, jövőképek feltárása, hatásainak, következményeinek

elemzése, valamint alternatívák képzése az egyes felmerülő problémák kezelésére.

Terveket készíteni, elérhető célokat kitűzni és azokat elérni csakis megfelelő

előrejelzések alapján lehet, s ez jelentheti a siker kulcsát is egyben.

A múlt eseményeit tartalmazó adatok, megfigyelések különösen hasznos

információkkal szolgálhatnak. A bizonytalan gazdasági környezet felerősítette a

múltbéli adatok elemzésének és a (pontosabb) előrejelzések készítésnek igényét, éppen

ezért választottam szakdolgozatom témájául az előrejelzési modellek bemutatását,

összehasonlítását.

Az általam vizsgált idősorok ugyanis olyan információkat nyújthatnak a jövőre nézve,

melyeknek minden gazdasági szereplő döntéshozatalában jelentős szerepe lehet.

Megvizsgáltam, hogyan is alkalmazhatóak az egyes idősor modellek minden szakmai

és háttér információ nélkül, mennyire eltérőek vagy éppen hasonlóak az egyes

technikák lépései és milyen eredményekre vezetnek.

A módszerek bemutatása a kialakulásuk sorrendjét tükrözi, hiszen mint minden

tudományágban az egyes modellek folyamatosan fejlődnek, finomodnak, törekedve

minél megbízhatóbb előrejelzések előállítására. Az idősorokkal kapcsolatos

alapismeretek áttekintése után a determinisztikus, majd a sztochasztikus idősorelemzés

legismertebb és leggyakrabban alkalmazott technikáit mutatom be. Sokféle

csoportosítású modellel találkozunk majd, melyek mind a finomodás, tökéletesedés

eredményeként jöttek létre.

A hazai és a nemzetközi szakirodalom olykor eltérő módon osztályozza az egyes

előrejelzési modelleket, ezért megpróbáltam dolgozatomban egységessé tenni őket.

A módszerek csupán elméleti leírása nem elégséges a technikák megértéséhez, éppen

ezért az idősorelemzés modelljeit két idősor megfigyelésein fogom lefuttatni. A

gyakorlati bemutatás célja az, hogy teljesebb képet kapjunk az egyes módszerek

előnyeiről, hátrányairól, alkalmazhatóságainak feltételeiről. Az előrejelzési módszerek

tárgyául két teljesen különböző idősort választottam, hogy a különböző technikákat

értelemszerűen vagy egyik, vagy másik idősor segítségével megismertethessem.

Célom tehát, hogy az általam bemutatott modellekről a lehető legteljesebb kép álljon

elő az olvasó számára.

A szakdolgozatom keretei természetesen sokszor nem teszik lehetővé a bonyolultabb

statisztikai, matematikai összefüggések bizonyítását. A módszerek fejlődésével olyan

kritériumok, feltételek állnak elő, melyeknek részletes magyarázata és bizonyítása

túlmutat a dolgozatom célján, ezért ott el kell fogadnunk az egyes kritériumokat.

Szintén lehetetlen lenne a dolgozat keretein belül bemutatni az összes előrejelzési

technikát, de úgy gondolom, az általam kiválasztottak megértésével leegyszerűsödik a

bonyolultabb módszerek megismerése.

Szükségünk lesz a témakörhöz tartozó alapvető statisztikai ismeretekre, amelyeket a

következő fejezet első felében azonnal fel is frissítünk.

2. Alapfogalmak

Szakdolgozatomban tehát az idősoros adatok elemzési és előrejelzési technikáit fogom

bemutatni, azonban ehhez szükséges bizonyos alapfogalmak ismerete. Felmerül az

első kérdés: mi is az idősor?

A választ megkapjuk, ha a közgazdászok által gyakran használt adatokat az alábbi

csoportokba osztjuk:

Idősoros adatok

Keresztmetszeti adatok

Paneladatok

Az idősorok adatai olyan mennyiségekre vonatkoznak, melyeket rendszeresen,

meghatározott időközönként figyelnek meg. Lehetnek makroökonómiai adatok (GDP,

kamatláb, stb.) vagy pénzügyi adatok (például részvények árváltozása) és gyűjthetőek

évente, akár havonta, naponta, óránként, stb. A legfontosabb, hogy az adatoknak

időben rendezettnek kell lenniük, sorrendjük meghatározott, ezért nevezzük idősoros

adatoknak.

A megfigyelt idősort Y-nal jelölhetjük, és Y-nak a t-edik időszaki értékét Yt-vel

azonosítjuk. A teljes időszak t=1 –től t=T –ig tart, ahol T jelenti az adatbázisban

található időszakok számát.

Az idősoroktól merőben eltérőek a keresztmetszeti adatok. Az adatok e csoportja a

gazdaság egyéni szereplőit jellemzi, melyek, mint megfigyelési egységek lehetnek

például emberek, vállalatok vagy országok. Gyakori, hogy a csoport tagjainak

valamilyen jellemzője az elemzés tárgya, úgy, mint adott iparág dolgozóinak a bére. A

keresztmetszeti adatok megfigyelései általában i=1 –től N-ig futnak és N jelöli a

megfigyelések számát.

Vannak olyan adatbázisok, melyek ötvözik az idősorok és a keresztmetszeti adatok

sajátosságait, ezek a paneladatok. Ha például 10 európai ország GDP-jét vizsgáljuk

1960-tól 2012-ig, akkor paneladatokkal dolgozunk. Ha T jelöli az éveket, míg N az

egyes országokat, akkor az elemzés során T*N Y-ra vonatkozó megfigyelés áll

rendelkezésre.

Felmerül azonban az újabb kérdés: honnan gyűjthetőek be az adatok? A források

tárháza majdhogynem végtelen. Például különböző nemzeti statisztikai hivatalok

adatbázisai, ahonnan az egyes országok nemzeti számláinak rendszerén keresztül

előállított makroökonómiai adatokat szerezhetjük meg. A mikroökonómiai adatokat

pedig cégek, háztartások megkeresésével állítják elő az erre szakosodott szervek. Az

adatbegyűjtés módjára a számos forrás és téma miatt nem is lehet általános érvényű

tanácsot adni.

2.1. Idősorok sajátosságai

Mint már korábban kiemeltem a megfigyelések sorrendjének kitüntetett szerepe van!

Az egyes társadalmi, gazdasági jelenségek leírásánál elengedhetetlen, hogy a

megfigyeléseket hozzárendeljük egy időponthoz vagy időtartamhoz, melyeket nem

lehet felcserélni, ugyanis ez a megfigyelés szempontjából fontos információt hordoz. „

Ennek a szigorúbb módszertani kötöttségnek köszönhetően az idősorok elemzése a

statisztika többé-kevésbé különálló területe lett.”1

A megfigyelések elvben ugyan egymástól különböző távolságra lehetnek, de a

továbbiakban feltételezzük, hogy bármely két egymást követő megfigyelés közti

távolság azonos, tehát ekvidisztans idősorról beszélünk. Az időpontnak, időtartamnak

olyan szempontból is nagy szerepe van, hogy az adatok újbóli felvétele (azonos

körülmények között, ugyanazon pillanatban, intervallumban) lehetetlen,

megismételhetetlen.

A társadalmi-gazdasági jelenségek ekvidisztans időpontokban vagy időszakokban

megfigyelt értékei alkothatnak állapot- vagy tartamidősorokat. Ezt a vizsgált jelenség

természete határozza meg. Az állapotidősorok egy állósokaság időbeli változását

mutatják, az egyes időpontokra vonatkozó állapotfeltételek eredményét rögzítik (tehát

a jelenség pillanatnyi állapotát jellemzik). Példa lehet az ilyen idősorokra a népesség,

1 Domán Cs.-Szilágyi R.- Varga B.: Statisztikai elemzések alapjai II. 120. oldal

állatállomány, készlet, stb., melyet egy kiválasztott, eszmei időpontban mérünk. Az

állapotidősor adatai nem csoportosítás útján jönnek létre, összegzésüknek nincs

értelme.

A tartamidősor, mint azt a neve is jelzi, időtartamra vonatkozik, tehát olyan

jelenségeket ír le, melyek csak adott időintervallumon mérhetőek (például

házasságkötések száma 2010-ben).

De miért is használunk idősoros adatokat?

Az idősoros adatok használatának célja tulajdonképpen valamilyen modell

segítségével elemezi az idősort, vagy regressziós modell felállítása, amivel két esetleg

több változó közötti kapcsolatot vizsgálhatjuk, számszerűsíthetjük.

1. ábra: Az idősorelemzés lépései

Forrás: Saját szerkesztés

Az elemzések lépései a következők:

1. Első lépésként leírjuk, rekonstruáljuk az idősort. Egyszerű vagy bonyolult

modell segítségével próbáljuk megragadni az idősorban rejlő tendenciát, valamint

megkeressük a visszatérő szabályosságokat. A belső összefüggések lehetnek

nyilvánvalóak, azonban számolni kell a rejtett belső kapcsolatokkal is. Továbbá külön

kell választani a törvényszerűségeket és a véletlennek tekinthető zavaró hatásokat.

2. Az idősor leírását a magyarázat követi. Ebben a lépésben magyarázatot

keresünk az idősor viselkedésére. Ekkor leírjuk az időben lezajló események

kapcsolatát, egyfajta oksági modellt segítségével (például regressziós modellekkel).

Idősor leírása, rekonstruálása Magyarázat Előrejelzés

3. Az idősorelemzés talán legjellemzőbb feladata azonban az előrejelzés! „A

leírt és feltárt összefüggések, valamint a mögöttes magyarázó tényezők együttes

mérlegelésével megkíséreljük az idősor várható alakulását előrevetíteni.”2

Dolgozatom tárgya egy szeparált jelenség (továbbiakban változó) vizsgálatára

alkalmas módszerek összehasonlítása. (A terjedelemmel kapcsolatos követelmények

nem teszik lehetővé, hogy a több változót egyszerre elemző módszereket, a

többváltozós idősorelemzés módszereit bemutassam. )

Egy jelenség vizsgálata tehát egy változóra, egy idősorra vonatkozik. Sokféle módszer

áll a rendelkezésünkre, ha az idősor adataiból további információt szeretnénk kinyerni.

Mint már a bevezetőben említettem, az egyszerűbb módszerektől haladok majd az

összetettebbekig, többek közt azért, mert a látszólag egyszerű, kevés információ

nyújtására képes technikák képezik a bonyolultabb eljárások alapjait.

Nem elegendő azonban, hogy „pusztán” kinyerjünk bizonyos információkat az

idősorból. Fontos, hogy azok tartalmát tudjuk értelmezni és összefoglalni. Nagy

segítséget jelentenek ilyenkor a táblázatok és grafikonok.

Grafikus ábrázolás

Sok helyen találkozunk majd grafikonokkal, melyek az idősor és az adott módszer

hatásának szemléltetését szolgálják. Ideális esetben nagy mennyiségű megfigyeléssel

rendelkezünk, amely túlontúl sok ahhoz, hogy azok önmagukban értelmezhetőek

legyenek. A grafikon segítségével azonban sokkal áttekinthetőbb a folyamat alakulása

és kivehetők annak legfőbb jellemzői. Informatív is egyben, hiszen megmutatja, hogy

egy változó hogyan alakul időben.

(Keresztmetszeti adatok esetében más technikákat kell alkalmazni, úgy, mint

hisztogram vagy pontdiagram, de mivel a későbbiek nem lesz szó keresztmetszeti

adatokról, így nem találkozhatunk az előbb említett ábrázolási technikákkal sem.)

A grafikus ábrák előállítására tökéletesen alkalmasak az Excel nyújtotta eszközök,

azonban bizonyos számításoknál, módszerek lefuttatásánál nagy segítségünkre

2 Hunyadi L.- Vita L.: Statisztika I. Aula Kiadó 2008., 259. oldal

lehetnek statisztikai programcsomagok. Az általam használt GRETL (Gnu Regression,

Econometrics and Time-series Library) ökonometriai szoftver segítségével jelentősen

leegyszerűsödött az adatbázis tagjainak kezelése,

valamint grafikonok készítésének folyamata és az

összefoglaló adatok kinyerése. A program bárki számára

ingyenesen hozzáférhető és a felhasználók segítségével

folyamatos fejlesztés alatt áll. Leegyszerűsített

megjelenítése és a folyamatos fejlesztések eredményeként

rendkívül hasznos programot alkalmazhatunk (többek közt)

az idősorok elemzésére és előrejelzésére. A programcsomag alkalmazása tehát

egyszerű, a különösen bonyolult módszerek eredményeit is könnyen előállíthatjuk és

ábrázolhatjuk vele, amint azt majd a dolgozat későbbi részében látni is fogjuk.

A következő pontban bemutatom az idősorok elemzésére, magyarázatára és

előrejelzésére alkalmas módszerek statisztikai hátterét. Igyekszem minél több

grafikonnal illusztrálni a technikákat az általam választott idősorok felhasználásával,

hogy a lehető legtisztább képet kapjuk a kidolgozott módszerek alkalmazhatóságáról

és különbözőségéről.

2.2. Az idősorok elemzésének egyszerűbb eszközei

A vizsgálat tárgya tehát csak egyetlen jelenség, egy mutatóval leírható időbeli

alakulásának vizsgálata. Minden egyes időpontban/ időszakban a vizsgált mutató (Yt)

különböző értékeket vehet fel. Más megközelítésből kijelenthetjük, hogy Yt

valószínűségi változó, hiszen értéke sok, egyenként számba nem vehető tényezőtől

függ, vagyis véletlen. A továbbiakban vizsgáljuk tehát Y-T, Y-T+1, …, Yt, YT sorozatot,

melyet elméleti idősornak nevezünk. A gyakorlatban az elméleti idősor nem áll

rendelkezésünkre, hanem csak a megfigyelt értékei, melyek a következő elemekből

állnak:

y1, y2,…, yt,…, yn

amely jelenti a megfigyelt idősort, továbbiakban egyszerűen csak idősort.

2. ábra: GRETL programcsomag logója

Forrás: http://gretl.sourceforge.ne

t/index.html

Az idősorok legegyszerűbb feladata a megfigyelt értékek átlagának meghatározása.

Mielőtt hozzákezdenénk a módszer használatához, meg kell állapítanunk a vizsgált

idősorról, hogy az tartam- vagy állapotidősor. Előbbi esetében a számtani, utóbbi

vizsgálatakor a kronologikus átlagot használjuk.

2.2.1. Számtani átlag

Tartamidősor esetében tehát a számtani átlagot alkalmazzuk, az alábbi képletbe való

behelyettesítéssel:

푦 =∑ 푦푛

Pl. megmutatja egy hónapra jutó átlagos beruházások értékét. Vagyis egy időszakra

jutó átlagos értéket mutat, az alapadattal azonos mértékegységben.

Kronologikus átlag

Mint azt már tisztáztuk az állapotidősor adatai egy időpontra vonatkoznak, melyet egy

eszmei időpontban figyeltünk meg ebből következik, hogy az idősor átlaga az átlagos

állománynagyságot jelöli majd. Ha csak két időpontot vizsgálnánk, akkor ez nyitó és

záró állomány egyszerű számtani átlaga, több esetén pedig a két-két időpont közötti

időszakra vonatkozó átlagos állományok egyszerű számtani átlagával közelítjük.

푦 =푦 + 푦

2 (1.2)

Két időpont esetén tehát y1 és y2 értékek számtani átlaga adja meg a két időpont

közötti időszak átlagos állományát. Ezt a módszert tovább folytatva kapjuk y2-t:

푦 =푦 + 푦

2 (1.3)

Míg az (n-1)- edik időszakra vonatkozóan adódik:

푦 =푦 + 푦

2 (1.4)

Ebből pedig egész időszakra vonatkozó átlagos állományt meg tudjuk határozni,

melynek képlete:

푦( ) =푦 + 푦 +⋯+ 푦

푛 − 1=푦2 + ∑ 푦 + 푦

2푛 − 1

Első pillantásra a kapott adatok nem túl beszédesek, felhasználásuk nem széleskörű, a

módszerek egyetlen előnye látszólag csakis az egyszerűségben rejlik. Azonban az

átlag és (majd a későbbiekben látni fogjuk) a szóródásmutatók rendkívül fontos

szerepet játszanak az idősor elemzésben, hiszen a bemutatott alkalmazás bonyolultabb

elemzések részeiként is megjelenik, vagy bizonyos feltételeket közölhetnek.

Az idősorok további egyszerű, specifikus jellemzői az átlagos változás mutatói,

nevezetesen a változás átlagos mértéke (푑̅) és a változás átlagos üteme (푙)̅. Ezek a

mutatók próbálják megragadni az idősorok lényeges tulajdonságát kifejező fő

tendenciát.

2.2.3. Átlagos változás mutatói

A változás átlagos mértékét megkapjuk, ha az egymást közvetlenül követő

időszakokra kiszámítjuk a változás dt=yt-yt-1 mértékét, majd azokból egyszerű

számtani átlagot számolunk:

푑̅ =∑ 푑푛 − 1

=푦 − 푦푛 − 1

Tehát 푑̅ mutató az egy időszakra jutó átlagos változást adja meg és mértékegysége az

idősor adatainak mértékegységével megegyező. Ez a módszer az időszakról időszakra

nagyjából azonos mértékben változó, azaz közelítőleg lineáris fejlődést leíró idősorok

alaptendenciáinak tömör jellemzésére használható, mivel azt feltételezi, hogy a

mögötte lévő szóródás kicsi, az egymást követő időszakok változása nagyjából

hasonló. Látható, hogy csak az idősor első és utolsó adatától függ, azokra

nagymértékben érzékeny. Ha az első és/vagy utolsó adat lényegesen eltér az idősor

alapirányzatától, akkor a mutató nem lesz jól jellemző és ezt a hátrányt a használat

során szem előtt kell tartani.

A változás átlagos ütemét (푙)̅ úgy számíthatjuk ki, hogy az egymást követő időszakok

lt =yt / yt-1 változási ütemeit vesszük, és ezekből számítunk mértani átlagot.

Ekkor l2 =y2/y1, l3 =y3/y2,…,ln = yn/yn-1

푙 ̅ = 푙 =푦푦+푦푦+ ⋯+

푦푦

=푦푦

Az 푙 ̅ mutató a változás átlagos ütemét mértékegység nélküli viszonyszámmal adja

meg, amit általában százalékos formában szoktunk kifejezni. Akkor hasznos

számítása, ha az idősor értéke időszakról időszakra nagyjából azonos ütemben

változik, közelítőleg exponenciális fejlődést mutat. Ez a mutató is érzékeny az idősor

első és utolsó értékére.

Ha már egy változót vizsgálunk, és annak tulajdonságait akarjuk minél tömörebben

megfogalmazni, akkor nem hagyhatjuk ki a legfontosabb szóródás mutatókat.

Szóródáson az idősor adatainak különbözőségét értjük.

2.2.4. Szóródásmutatók

A legáltalánosabban használt mértéke a szórás, mely az egyes értékek számtani

átlagtól vett eltérésének négyzetes átlaga:

휎 =∑ (푦 − 푦)

푁 − 1 (1.8)

Ahol yt az adott időponthoz tartozó változó értéke, 푦 pedig a sor számtani átlaga. A

szórás megmutatja, hogy az egyes (ismérv) értékek átlagosan mennyivel térnek el az

átlagtól. Jelölhetjük s-sel vagy σ-val.

Az elemzés során a későbbiekben rendkívül fontos szerepet kap a szórás négyzete is,

amit varianciának nevezünk (σ2).

Szükség lehet arra is, hogy az yt értékek nagyságrendjétől és mértékegységétől

elvonatkoztatott mérőszámmal mérjük és tegyük összehasonlíthatóvá a szóródást. Erre

nyújt megoldást a relatív szórás, melynek jele a V és képlete:

푉 =휎푦

A relatív szórás azt fejezi ki, hogy a szórás az átlagnak hányad része, ezért %-os

formában adjuk meg.

Ezen „alap”mutatók ismerete, átismétlése elengedhetetlen a dolgozat tárgyát képző

technikák megértéséhez. De ne rohanjunk még ennyire előre. Először ismerkedjünk

meg az általam választott idősorokkal, melyek segítségével bemutatom az idősorok

elemzési- előrejelzési technikáit.

2.3. Kiválasztott idősoraim jellemzői és vizsgálata egyszerűbb számításokkal.

Az általam választott idősorok adatai a www.eia.gov honlapról elérhető adatbázisból

származnak. Az Independent Statistics and Analysis, U.S. Energy Information

Administration honlapjáról az energiaszektorra vonatkozó információkat szerezhetünk

régiónként, országonként, kontinensenként vagy akár gazdasági társulásonként.

Elérhetőek a fogyasztásra, előállításra, árakra vonatkozó információk természetesen

különböző alapanyagokra, vagy már „feldolgozott” termékekre egyaránt.

A dolgozatomban bemutatásra kerülő első idősor a közlekedési ágazat összes

kőolajfogyasztását tartalmazza. A megfigyelések éves rendszerességgel készültek,

1949 és 2011 között, így összesen 63 adat áll a rendelkezésünkre. A fogyasztás

mértékegysége pedig millió hordó.

A második idősor, amellyel a későbbiek folyamán foglalkozunk részletesebben, a WTI

árakat tartalmazza, havi rendszerességgel. A WTI (West Texas Intermediate) olyan

nyersolajfajta, melyet referenciaként használnak az olajkereskedelemben és a

hordónkénti ár alakulását mutatja be. Az idősor 1994 januárjától 2012 novemberéig

szolgáltat, összesen 227 megfigyelést.

Az idősorok tárgyának tulajdonképpen most nincs jelentősége, hiszen nem bányászati

vagy kereskedelmi szempontból van szükségünk az idősor adataira, hanem a

bemutatott módszerek lefuttatása miatt. De most vessünk egy pillantást az idősorok

grafikonjaira.

A közlekedési ágazat kőolajfogyasztását tartalmazó idősor alakulását összefoglalóan

az alábbi grafikon szemlélteti:

1. grafikon: a közlekedési ágazat kőolajfogyasztása

Forrás: http://www.eia.gov/totalenergy/data/annual/index.cfm#consumption

A fenti idősorral és grafikonnal a következő fejezet első felében fogunk foglalkozni.

Az idősor tulajdonságai lehetővé teszik, hogy a viszonylag egyszerűbb elemzési,

előrejelzési módszerekkel ismerkedhessünk meg a gyakorlatban.

A 2. grafikon a West Texas Intermediate, mint a New York-i árupiac egyik

alaptermékének árának alakulását szemlélteti.

0100020003000400050006000

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70

t időpontok

A közlekedési ágazat kőolajfogyasztása (1949-2011)

Kőolaj fogyasztás

2. grafikon: WTI árak alakulás

Forrás: http://www.eia.gov/dnav/pet/hist/LeafHandler.ashx?n=pet&s=rwtc&f=d

Már ránézésre is megállapítható, hogy jelentős különbségek vannak a két idősor

szerkezetét illetően. A különbözőséget magyarázó okokkal és definíciókkal a 3. fejezet

második felében foglalkozunk részletesen.

Mielőtt megismernénk az elemzési, előrejelzési módszereket tekintsük meg a

kiválasztott idősorok egyszerűbb mutatóit, melyeket az alábbi táblázat tartalmaz.

1. táblázat: Idősorok mutatói

Idősor/ Mutatók Közlekedési szektor kőolajfogyasztása

Mértékegység WTI hordónkénti

Mértékegység

Számtani átlag 3 336, 121 Millió hordó - Kronologikus átlag - 46,74 Dollár/hordó Átlagos változás mutatói

Változás átlagos mértéke

59,6885 Millió hordó 0,316372 Dollár/hordó

Változás átlagos üteme

1,0237 % 1,019072 %

Módusz - 15,03 Dollár/hordó Medián 3493,965 Millió hordó 32,13 Dollár/hordó Minimum 1125,796 Millió hordó 11,35 Dollár/hordó

Ár (D

Időpont

WTI ár alakulása (1994-2012)

Maximum 5214,663 Millió hordó 133,88 Dollár/hordó Szóródás mutatók Szórás 1 215,5905 Millió hordó 30,20092 Dollár/hordó Variancia (Szórásnégyzet)

1 477 660, 230 912,0954

Relatív szórás 0,364372 % 0,646193 % Tartamidősor Állapotidősor

Forrás: saját szerkesztés

A táblázat által összefoglalt adatok részletesebb elemzésére most nem kerül sor, a

számítások egyszerűen elvégezhetőek a megadott képletekbe való behelyettesítéssel.

Ezen mutatók a későbbiekben bemutatásra kerülő technikák alapját képzik,

kiszámításuk ott nyer értelmet, hiszen így még nem közölnek túl sok információt.

A 3. fejezetben tehát olyan elemzési, előrejelzési eszközöket (és azoknak gyakorlati

alkalmazásait) ismerünk meg, melyek alkalmazkodnak az idősorok sajátosságaihoz,

így már-már külön ágán képezik a statisztika tudományának. Lássuk tehát az

idősorelemzés modelljeit.

3. Az idősorelemzés modelljei

Az idősorok modelljeit két teljesen különböző, szélsőségesnek tekinthető

modellcsaládba sorolhatjuk, melyeket determinisztikus és sztochasztikus

idősorelemzésnek hívunk. A későbbiekben látni fogjuk, hogy a statisztika fejlődése

során megjelentek e módszereknek kombinációi, de előtte definiáljuk a két fogalmat.

„A determinisztikus idősorelemzés alapelve az, hogy az idősorok előre adott, hosszú

távon érvényesülő, eleve determinált pályát követnek.”3 Az idősort ekkor tartósan

érvényesülő tendencia, más néven trend, valamint tartósan ható, szabályos, jól

modellezhető hullámmozgás (szezonalitás) határozza meg. Az elemzés célja ennek a

pályának a leírása, az egyes elemek elkülönítése és ez által az idősor várható

alakulásának hosszabb távú előrejelzése. A véletlent ugyan elfogadja, de zavaró

elemnek tekinti, igyekszik annak hatását minél jobban kiszűrni, tehát megszabadulni a

véletlen elemektől. Elmondható, hogy ez az irányzat inkább leíró, mintsem

következtető szemléletet képvisel.

Ezzel szemben a sztochasztikus idősorelemzés a rövid távú hatások elemzésével

foglalkozik elsődlegesen. Alapelve az, hogy minden idősort sztochasztikus

folyamatnak tekint, melynek pillanatnyi alakulását saját korábbi állapotából és a

véletlen hatásokból lehet magyarázni. A véletlen szerves alkotóeleme a

folyamatoknak, a jelenség fő mozgatójává válik. Ez a megközelítés felhasználja az

intervallumbecslés és a hipotézisvizsgálat eszköztárát.

A két irányzat a gyakorlatban persze nem válik mereven szét, s mint már említettem,

ötvözve őket önálló modell- és módszercsaládok alakultak ki.

Az így kialakult modellcsaládok közül a következőek a leggyakrabban alkalmazottak:

Dekompozíciós idősormodellek

Simító eljárások

ARMA modellek

3 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó 1997., 535. oldal

Dekompozíciós modellek

Trendszámítás

Analitikus trendszámítás

Mozgóátlagolású trendszámítás

Szabálytalan ciklus kimutatása

Szezonális ingadozások

3.1. A dekompozíciós modellek

A legkorábban kialakult és az egyik legnépszerűbb modellezési eljárásokat értjük

alatta.

A dekompozíciós modellek alapfeltételezése, hogy az idősorok négy fő, egymástól

szétválasztható komponensre bonthatóak, ezáltal külön is vizsgálhatók:

Hosszú távú irányzatot kifejező trend (푦),

Az ettől szabályos (havi, negyedéves) ingadozásokkal eltérő szezonális

komponens (s),

A (többnyire hosszabb távú) szabálytalan ingadozást, hullámzást kifejező

ciklikus komponens (c),

Véletlen összetevő (ε).

Az összetevők összeg- illetve sorozatszerűen kapcsolódhatnak egymáshoz, az előbbi

az ún. additív, az utóbbi a multiplikatív modellekhez vezet.

Az additív forma azt feltételezi, hogy a ciklus, a szezonális hatás és a véletlen tag is

állandó, a trendtől független ingadozásokat végez:

3. ábra: Dekompozíciós modellek csoportosítása

푦 = 푦 + 푠 + 푐 + 휀 (1.10)

Multiplikatív modell szerint a ciklus, a szezonális trend és a véletlen tag ingadozásai a

trendhez viszonyítva, annak arányában állandók:

푦 = 푦 ∙ 푠∗ ∙ 푐∗ ∙ 휈 (1.11)

Ahol tehát: ŷ a hosszú távú alapirányzat vagy trend,

s, illetve s* a szabályos rövidtávú (szezonális) ingadozást leíró komponens,

c, illetve c* a szabálytalan hosszabb távú ingadozásokat leíró ciklikus

komponens, és

ε illetve ν a zavaró hatásokat leíró véletlen változók, melyekről többnyire csak

azt feltételezik, hogy 0, illetve 1 körül ingadoznak, azaz várható értékük 0 vagy 1.

A gyakorlati idősorok esetében sokszor egy vagy két komponens hiányozhat. Rövid

idősorok esetében a hosszabb ciklusok többnyire nem mutathatók ki, ezért a

módszertan elsősorban trend, illetve szezonális komponens meghatározására irányul.

A determinisztikus idősorelemzés fő célja azonban a hosszú távú, tartós tendenciák

megadása, melynek elengedhetetlen része a trendszámítás.

3.1.1. Trendszámítás

A gondolatmenete nagyon egyszerű: az idősor alkotta pontokra valamilyen, előre

meghatározott típusú függvényt illesztünk úgy, hogy az a lehető legjobban illeszkedjék

a pontokra, azaz a lehető legjobban leírja a pontok által hordozott tendenciát.

Azonban tisztázni kell

o Milyen típusú függvénnyel akarjuk leírni az idősort?

o Hogyan mérjük az illeszkedést és mikor tekintjük azt jónak?

Elvben bármilyen függvény alkalmas arra, hogy trendfüggvényként használjuk, azt az

idősor által leírt folyamat jellege határozza meg. A tendenciát legjobban leíró

függvényre az idősor adatai és annak grafikus ábrája alapján következtethetünk.

Az illeszkedés mérésére a statisztika leginkább a legkisebb négyzetek módszerét

alkalmazza, melynek lényege, hogy olyan függvényt keresünk, mely esetén a

megfigyelt és a modell által számított értékek közti eltérés négyzetösszege minimális.

(Az illesztett függvény és a megfigyelések közti pontonként vett távolságok előjele

változhat. Nekünk csak az eltérés nagysága lényeges, így az eltéréseket négyzetre

emeljük, és ezt minimalizáljuk.)

A megfigyelési pontok és a trendértékek közötti eltérések/ távolságok a reziduumok. A

trend egyenesét tehát úgy kell megválasztani, hogy az eltérések négyzetösszege

minimális, a lehető legkisebb legyen. (A későbbiekben, a regressziószámítás

áttekintésénél a 3.3. fejezet, 50. oldalán, külön kitérek a reziduumok bemutatására)

Visszakanyarodva a trendszámítás módszeréhez, először is két trendszámítási

„családot” kell megkülönböztetnünk.

Analitikus trendszámítás esetén tudjuk, vagy legalábbis feltételezzük, hogy a

tartós irányzat valamilyen analitikusan jól leírható függvény szerint alakul

(vagy ilyennel megközelíthető). A cél tehát a függvény előállítása.

Mozgóátlagolású trendszámítás esetén is feltételezzük a tartós trendet és a cél

ismét annak meghatározása, azonban a trendet csak a megfigyelt idősor

értékeinek különféle átlagolásával állítjuk elő. (Nem feltételezünk analitikusan

leírható függvényt.)

Most vizsgáljuk meg kicsit közelebbről a két trendszámítási módszert.

3.1.1.1. Analitikus trendszámítás

„Az analitikus trendszámítás a determinisztikus idősorelemzés legkorábban kialakult,

legnépszerűbb és a számítógépek által is leginkább támogatott fajtája. Az analitikus

trendszámítás az idősorban lévő tartós tendenciát alkalmasan választott analitikus

függvénnyel írja le.”4

4 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó, 1997. 539.oldal

A továbbiakban ez a fogalom is két féle csoportra oszlik, mivel meg kell

különböztetnünk lineáris és nemlineáris trendszámítást.

Ha olyan jelenség időbeli változását vizsgálva azt tapasztaljuk, hogy az

időegységenként bekövetkezett változás (lehet növekedés vagy csökkenés egyaránt)

abszolút értelemben közel állandó, a változás egyenletes, az alapirányzat értékeit

lineáris trenddel határozhatjuk meg.

Ekkor az idősort a következő függvénnyel írhatjuk le:

푦 = 훽 + 훽 ∙ 푡 + 휀 (1.12)

(t=1,2,…,n)

Ahol: t= az időváltozót kifejező, egymástól egyenlő távolságra lévő értékek sorozata

훽 é푠훽 pedig a lineáris trendfüggvény ismeretlen paraméterei

휀 a t-edik időponthoz tartozó véletlen változó, melyről feltételezzük, hogy

várható értéke 0.

Feladatunk tehát 훽 é푠훽 paraméterek becslése, mely a legkisebb négyzetek

módszerével történik. A legkisebb négyzetek módszer megadja majd azokat a 훽 és 훽

paramétereket, melyek mellett a maradék, vagyis a véletlen változó hatása minimális,

tehát a függvény a lehető legjobban leírja az idősort.

Az egyenlet a becsülni kívánt paraméterekkel felírva:

푦 = 훽 + 훽 ∙ 푡 + 푒 (1.13)

Tehát minimalizálni akarjuk a véletlen változó ∑ 푒 értékét. Az egyenletet ez

alapján rendendezzük és négyzetre emeljük, ekkor megkapjuk a minimalizálandó

értéket:

∑ 푦 − 훽 − 훽 ∙ 푡 2 (1.14)

majd deriváljuk és a deriváltakat 0-val egyenlővé tesszük, akkor megkapjuk az

úgynevezett normálegyenleteket:

푦 = 푛 ∙ 훽 + 훽 푡 (1.15)

푡 ∙ 푦 = 훽 푡 + 훽 푡 (1.16)

A számítógépes programcsomagok meglehetősen leegyszerűsítik a lineáris

trendfüggvény paramétereinek becslését, hiszen kész eljárásokat adnak az

egyenletrendszer megoldására. A paraméterek közül 훽 jelenti majd a t=0 időponthoz

tartozó trendértéket, vagyis a tengelymetszetet, míg 훽 a trendfüggvény konstans

meredekségét jelöli (időegység alatt mennyivel változik a trend). Megmutatja, hogy

időegység alatt mekkora az egy időszakra jutó átlagos változás (növekedés/ csökkenés)

mértéke. Mind a 훽 mind a 훽 mértékegysége az eredeti megfigyelések

mértékegységével azonos. A 훽 mutató figyelembe veszi az idősor valamennyi értékét,

így kevésbé érzékeny a szélső megfigyelési adatokra.

A becsült paraméterek segítségével a megfigyelési időszakra könnyen előállíthatók a

trendfüggvény értékei (푦 ) a kívánt t értékek behelyettesítésével:

푦 = 훽 + 훽 푡 (1.17)

(푦 ) segítségével minden időpontra kiszámíthatók a véletlen változó tapasztalati

értékei, melyeket reziduumnak nevezünk:

푦 − 푦 = 푒 (1.18)

Minél kisebbek tehát a reziduumok értékei abszolút értelemben, annál sikeresebb a

lineáris függvény illesztése.

Az illeszkedés jóságát meghatározhatjuk az alábbi képletbe való behelyettesítéssel:

푠 =∑ 푒

푛 (1.19)

Ez a mutató a reziduális variancia. Alsó korlátja 0, (ekkor tökéletes az illeszkedés),

felső korlátja pedig nincs és nagyobb értékei rosszabb illeszkedésre utalnak.

Amennyiben a megfigyelési időszakon kívüli, t=n+1, n+2… értékeket helyettesítjük az

(1.17.) egyenletbe, akkor tulajdonképpen a megfigyelési időszakon túlnyúló időszakra

kiterjesztjük a trendfüggvényt, vagyis előrejelzéseket készítünk.

Ekkor azt is feltételezzük, hogy a véletlen változó tulajdonságai változatlanok

maradnak, nem változnak a megfigyelési időszak után, ami rendkívül súlyos

kijelentés. A lineáris trenddel (és a többi trenddel is) ezért óvatosan kell bánni, mivel

az előrejelzések feltételesek, szakmai ismeretek alapján feltételezzük, hogy a

megfigyelt viselkedés a jövőben is megmarad és hasonlóképpen halad tovább.

Most vizsgáljuk meg, hogyan működik a módszer az első, a közlekedési ágazat

kőolajfogyasztását bemutató idősor esetében. Először is kijelenthetjük, hogy az

idősorunk determinisztikus, hosszútávon érvényesülő trend és jól jellemezhető

szezonalitás figyelhető meg, ezért a dekompozíciós módszerek alkalmasak az idősor

leírására, méghozzá additív módon.

3. grafikon: A közlekedési ágazat kőolajfogyasztása lineáris trenddel

A lineáris trend könnyen megadható az Excel segítségével, mint az látható is a

grafikon területén. Az illeszkedés jóságáról R2 segítségével kapunk információt. R2

értéke ugyanis 0 és 1 között mozoghat és nagyobb értékei jobb illeszkedést jeleznek.

Azonban felírható az egyenlet az egyenletrendszerek segítségével is. Ha az

y = 65,451x + 1241,7R² = 0,9741

0100020003000400050006000

1 3 5 7 9 111315171921232527293133353739414345474951535557596163

Időpont

A közlekedési ágazat kőolaj fogyasztása (1949-2011)

Kőolaj fogyasztás Lineáris (Kőolaj fogyasztás)

alapadatokat behelyettesítjük a (1.15) és (1.16) képletekbe, az alábbi egyenletrendszert

kapjuk:

210175,652 = 63 ∙ 훽 + 훽 ∗ 2016 (1.20)

8089091,287 = 2016 ∗ 훽 + 훽 ∗ 85344 (1.21)

Az egyenletrendszer megoldásával természetesen megkapjuk a keresett 훽 és

훽 együtthatók értékeit és fel tudjuk írni a keresett trendegyenletet:

푦 = 1241,698 + 65,451 ∗ 푡 (1.22)

A trendegyenletbe t időszakok behelyettesítésével megkapjuk az 푦 becsült értékeket,

melyeket, ha összevetjük a valódi megfigyelésekkel és négyzetre emeljük, akkor

megkapjuk a reziduumok négyzetösszegét és a reziduális varianciát, amik, mint már

tudjuk az illeszkedés jóságáról adnak információt. Esetünkben:

∑푒 ≈ 2374746,361 푠 ≈ 37694,39

Ezek a mutatók önmagukban kevésbé értelmezhetők, az illeszkedés jóságáról úgy

adhatnak képet, ha más, (nem lineáris) függvények reziduális varianciájával

hasonlítjuk össze.

A trendegyenletet felhasználhatjuk előrejelzések készítéséhez is, ha a megfigyelési

időszakon túli t-vel dolgozunk a képletben. Jelezzünk most előre csak a lineáris trend

segítségével 5 évre (t=63+1, 63+2,…,63+5).

4. grafikon: A közlekedési ágazat kőolajfogyasztásának előrejelzése lineáris trenddel

A számítás menete:

푦 = 1241,7 + 65,451 ∗ 64 = 5430,562Millió hordó

푦 = 1241,7 + 65,451 ∗ 65 = 5496,013Millió hordó

푦 = 1241,7 + 65,451 ∗ 66 = 5561,464Millió hordó

푦 = 1241,7 + 65,451 ∗ 67 = 5626,915Millió hordó

푦 = 1241,7 + 65,451 ∗ 68 = 5692,366Millió hordó

Ha csak a trend alapján próbáljuk megbecsülni az értékeket, félrevezető adatokat

kapunk. A lineáris trend ugyan jól illeszkedik az idősor folyamatára, azonban nem

tudja korrigálni az értékeket a grafikonon is látható hullámmozgással. A trendegyenlet

megadja, hogy milyen érték körül fognak elhelyezkedni, de részletesebben nem

szolgál információval. Önmagában inkább a tendencia leírására szolgál, mintsem

pontosabb becslések elkészítésére.

Azt is látnunk kell, hogy a lineáris trendfüggvény olyan elemzésekhez alkalmazható

sikerrel, ahol az idősor alaptendenciája lineáris. Azonban a társadalmi-gazdasági

jelenségek vizsgálatakor sűrűn találkozhatunk ettől eltérő jellegű idősoroktól. Ezeket

nemlineáris trendfüggvényekkel „írhatjuk le”, melyek között kiemelkedő jelentőséggel

01000200030004000

50006000

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70

t időpont

A közlekedési ágazat kőolajfogyasztásának előrejelzése

Kőolajfogyasztás Becsült kőolajfogyasztás

bír az exponenciális trend. Mivel az azonos ütemben való növekedés elég gyakori a

társadalmi-gazdasági idősorok esetében (például a népesség nagyságának alakulása,

gazdasági növekedések mutatói is exponenciális növekedést/ csökkenést mutatnak)

ezért foglalkozunk vele részletesebben.

Exponenciális trendegyenlet felírására (csak a megfigyelt idősorra) a következő

alapmodellt használhatjuk:

푦 = 훽 훽 푣 (1.23)

(t=1,2,…,n),

Ahol t= az időváltozót kifejező, egymástól egyenlő távolságra lévő értékek sorozata

훽 é푠훽 az exponenciális trendfüggvény ismeretlen paraméterei

a vt pedig véletlen tényező, ami 1 körül ingadozik.

Itt kapcsolódunk vissza a multiplikatív alapmodellhez, hiszen az exponenciális trend

ebből származtatható, míg a lineáris trend az additív modellből.

Az exponenciális trend paramétereit szintén a legkisebb négyzetek módszerével

tudjuk becsülni. Az egyszerűbb és átláthatóbb lépések kedvéért nem eredeti formában

alkalmazzuk a legkisebb négyzetek módszerét, hanem mindkét oldal logaritmusát

véve.

푙표푔푦 = 푙표푔훽 + 푡 ∙ 푙표푔훽 + 푙표푔푣 (1.24)

Ekkor majdnem olyan egyenlettel dolgozunk, mintha lineáris trenddel lenne dolgunk, s

bizonyos behelyettesítések után végezetül megkapjuk a becsült exponenciális trendet:

푦 = 훽 훽 (1.25)

A paraméterek értelmezései is a lineáris trend paramétereivel azonosak, tehát 훽

jelenti majd a t=0 időponthoz tartozó trendértéket, vagyis a tengelymetszetet, míg 훽 a

trend szerinti növekedési ütemet adja az eredeti mértékegységtől függetlenül,

százalékos formában.

„Az exponenciális trendet olyan idősorok leírásához és simításhoz használjuk,

amelyek növekvő vagy csökkenő ütemben nőnek, illetve csökkennek. A 훽 paraméter

értéke adja meg az exponenciális trendfüggvény jellemző alakját.”5

Az exponenciális trenddel készített előrejelzések, csakúgy, mint a lineárisak, óvatosan

kezelendők, mivel a függvény sajátossága, hogy érzékeny mind 훽 paraméterre, mind t

kitevőre. A 훽 becslésénél elkövetett kis hiba is erősen torzíthatja az eredményeket,

hangsúlyozott szerepéből kifolyólag.

Egyéb nemlineáris trendek

Fontos megjegyeznünk, hogy a valóságban az exponenciális jellegű trendek jelentős

része nem valódi exponenciális trend. Egyfajta telítődési folyamatot írnak le, mivel a

gyakorlatban az exponenciális jellegű növekedés gyakran korlátokba ütközik, lelassul

és elveszti exponenciális jellegét. Ezeket s-görbének nevezi a szakirodalom. Az s-

görbe kezdetben megegyezik az exponenciális trenddel, de egyszer aztán megtorpan és

lelassul a növekedés. Tipikusan ilyen folyamat egy járvány terjedése vagy a

mobiltelefonok elterjedése, közösségi oldalak felhasználóinak számának alakulása. S-

görbe alakú korlátos növekedési folyamatot logisztikus függvény, Gompertz- és

Johnston-görbe segítségével lehet közelíteni.

Az analitikus trendszámítás esetén feltételeztük tehát, hogy a trendfüggvény típusát

meg tudjuk adni és meg is adtuk. De mit tehetünk akkor, ha ettől a feltevéstől

eltekintünk?

3.1.1.2. A mozgóátlagolású trendszámítás

Amennyiben a vizsgálandó folyamat analitikus függvényének meghatározását közép-

vagy hosszú távú ciklusok zavarják, valamint nincs kellő információnk az adott

folyamatról, érdemes a mozgóátlagolású trendszámítás módszerét alkalmazni.

Gyakran használják a fő tendencia meghatározására, mivel egyszerű és kevés kiinduló

adat szükséges a használatához.

5 Hunyadi L.-Vita L.: Statisztika I. Aula Kiadó, Budapest, 2008, 279.o.

„A mozgóátlagolású trendszámítás lényege, hogy az idősor t-edik eleméhez úgy

rendelünk trendértéket, hogy átlagoljuk az idősor t-edik elemének bizonyos

környezetében lévő elemeket.”6

A legegyszerűbb, ha a t–edik elemet megelőző és követő értékeket vesszük

figyelembe, s ekkor a mozgóátlagolású trend a következő formulából adódik:

푦 =푦 + 푦 + 푦

3 (1.26)

(t=2,3, … ,n-1)

Minden lehetséges t-re kiszámítva az átlagokat 3 tagú mozgóátlagot kapunk. Fontos

látni, hogy nem lehet minden megfigyeléshez mozgóátlagolású trendet kapcsolni,

hiszen az eredeti idősor eleje és vége élvész, mivel ekkor nem tudunk értéket rendelni

az átlag kiszámításához!

A továbbiakban ne 3, hanem m tagból számítsunk mozgóátlagot. Attól függően, hogy

m páros vagy páratlan, különböző képleteket kell használnunk.

Ha m páratlan, akkor m felírható m=2k+1 alakban, s az egyenlet a következőképpen

alakul:

푦 =푦 + 푦 + ⋯+ 푦 + ⋯+ 푦

2푘 + 1 (1.27)

Fontos, hogy t-k≥1 és t+k≤n legyen!

(Az első, legegyszerűbb esetben m=3 és k=1 volt, tehát a t-edik időponthoz tartozó

trendértéket a t-edik, a t-ediket megelőző és követő k számú megfigyelt értékek

számtani átlagaként határoztuk meg.) Látható, hogy az idősor elején és végén lévő

időszakokra nem lehetséges mozgóátlag számítása. A rövidülést k segítségével

fejezzük ki: 2k=m-1.

6 Korpás: Általános statisztika II., Nemzeti Tankönyvkiadó, 1997, 248.oldal

Amennyiben m páros, akkor m=2k. Egyszerű számtani átlag használatával ekkor nem

tudjuk biztosítani, hogy yt-k előtt és után azonos számú tag szerepeljen az átlagolásban,

ezért súlyozott számtani átlagot használunk. Az alábbi képletbe helyettesítsünk be:

푦 =12푦 + 푦 +⋯+ 푦 +⋯+ 푦 + 1

2푦2푘

(1.28)

A t-k≥1 és t+k≤n egyenlőtlenségeknek ekkor is fenn kell állniuk. A rövidülés ekkor

pedig 2k=m.

A mozgóátlagolású trendek- amennyiben nincs lényeges információnk az idősorról-

alkalmazása hasznos lehet, hiszen a legegyszerűbb módon simítják az idősort. Az

átlagolás útján tulajdonképpen csökkentjük a véletlen tag szerepét, de t mozgatásával

biztosítjuk az alaptendencia megmaradását. Ha m-et növeljük (vagyis több tagból

számolunk átlagot), akkor tudnunk kell, hogy csökken a véletlen szerepe, egyre

rövidebb lesz a trend és maga a tendencia felismerése is nehezebbé válik.

A mozgóátlagolás fontos kérdése tehát a tagszámok helyes megválasztása. Ez már a

dekompozíciós modellek másik csoportjához, a szezonalitás vizsgálatához vezet.

Szezonalitás alatt rövidtávú ingadozást értünk, amelyet a korábbiakban s-sel jelöltünk

és feltételezzük az időben állandó hullámhosszat és szabályos amplitúdót. Ez általában

éven belüli folyamatokra jellemző, és ha ismert a hullámhossza, akkor befolyásolja a

mozgóátlag tagszámának megválasztását. „Kimutatható ugyanis, hogy ha a

mozgóátlagolás tagszáma (m) a periódus hosszának (p) egészszámú többszöröse,

akkor a mozgóátlagolás kisimítja a periódust, míg más esetekben a mozgóátlagolás

vagy nem simít elegendően, vagy újabb, esetleg az eredetitől eltérő hullámhosszú

periódust generál, azaz nem létező ciklikus hatásokat vihet az idősorba.”7

A mozgóátlagolás módszere tehát egyszerű, a simítás sikeressége azonban függ az m

megválasztásától, aminek jó meghatározására nincs egzakt kritérium. m nem lehet

kicsi, hiszen akkor az idősorban megmarad a véletlen hatás, de m nem lehet túl nagy

sem a sok trendérték vesztés miatt. A periodicitás (p) vizsgálatával megadható olyam

7 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó, 1997. 557.oldal

m, amely helyes információt „közöl” az idősorról. (p ismeretében a tagszámot a

periodicitás hullámhosszával tegyük egyenlővé)

Lássuk, hogyan valósul meg mindez a gyakorlatban. Számítsunk először 3 tagú

mozgóátlagot. Már megfogalmaztuk, hogy ekkor 2k=m-1 a rövidülés, vagyis ha m=3,

akkor 2 tagot vesztünk, méghozzá az idősorhoz tartozó első és utolsó tagjához nem

tudunk értéket kapcsolni.

5. grafikon: A közlekedési ágazat kőolajfogyasztása 3 tagú mozgóátlaggal

Látható, hogy a 3 tagú mozgóátlag enyhén simítja az idősor adatait, ugyanakkor az

alaptendencia szépen megmarad.

Vegyünk most 10 tagú mozgóátlagot. Ekkor m=10=2k, súlyozott számtani átlaggal

számítjuk ki az egyes értékeket a már korábban megadott képlet segítségével:

푦 =12푦 + 푦 +⋯+ 푦 +⋯+ 푦 + 1

2푦2 ∗ 5

(1.29)

Az első értéket a 6. időponthoz tudjuk rendelni, s tovább folytatva kapjuk meg a 10

tagú mozgóátlagolású trendet, mely az X. grafikonon látható:

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70

t időpont

A közlekedési ágazat kőolajfogyasztása 3 tagú mozgóátlaggal

Kőolajfogyasztás 3 tagú mozgóátlag

6. grafikon: A közlekedési ágazat kőolajfogyasztása 10 tagú mozgóátlaggal

A mozgóátlagok tagszámának ily módon történő emelése láthatóan nagyobb simítást

eredményez. A tendencia még leolvasható, azonban az idősor enyhe hullámmozgása

már kevésbé figyelhető meg. Számolnunk kell a rövidüléssel is, amely 2k=m=10, tehát

az idősor első 5 és utolsó 5 eleméhez nem tudunk értéket csatolni. Ajánlatosabb ezért

rövidebb idősort és rövidebb mozgóátlagokkal vizsgálni, ha pontosabban szeretnénk

leírni az idősort.

De mi történik akkor, ha hosszabb távú, esetleg nem szabályos ciklusok

meghatározása a feladat? Az analitikus trendszámítás és a mozgóátlagolású

trendszámítás külön-külön nem képesek kezelni a megfigyelt adatokat, célszerű tehát

összevetni őket!

3.1.2. A szabálytalan ciklus

A szabálytalan természetű, közép- és hosszú távú ciklus (C) meghatározható az előbb

bemutatott két módszer egymást kiegészítő, kombináló alkalmazásával. Ez a

dekompozíciós módszer család második tagja. Az eljárás kétféleképpen történhet:

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70

t időpont

A közlekedési ágazat kőolajfogyasztása 10 tagú mozgóátlaggal

Kőolajfogyasztás 10 tagú mozgóátlag

Először elkészítjük az idősor mozgóátlagolású trendjét, majd abból analitikus

trendet számítunk. Ekkor a mozgóátlagolású trend és az arra épített analitikus

trend különbsége kiadja a ciklust.

Másik lehetőség az analitikus trend illesztése az idősorra. Ezt a következő

lépésben le kell vonni az idősor elemeiből és ekkor megkapjuk a maradék

ciklust, periodikus ingadozást és a véletlen komponenst. A ciklusból, a

periodikus ingadozásból és a véletlen komponensből mozgó átlagolás

segítségével már meg lehet határozni a ciklus értékeit.

Bármelyik módszer használható, bár eltérőek, a folyamat végén általában egymáshoz

közel álló eredményekre jutnak.

A mozgóátlagolású trendszámítás kapcsán már szükségünk volt a szezonális

ingadozások definíciójának bevezetésére, most viszont kicsit részletesebben is

bemutatnám a dekompozíciós modellek e tagját.

3.1.3. A szezonális ingadozások

Mint már korábban megfogalmaztam, szezonális ingadozásnak a rendszeresen

ismétlődő, azonos periodicitású = hullámhosszú, szabályos amplitúdójú és leginkább

rövid távú ingadozásokat nevezzük.

Ez az elnevezés csak az éven belüli, leginkább évszakok változásával kapcsolatos

ingadozások esetében indokolt. (Más periodicitású, de szintén rendszeresen ismétlődő

ingadozásokra inkább az idényszerű kifejezést használjuk.)

Feladatunk az S, vagy S* komponens értékeinek becslése a megfigyelt idősor alapján.

A módszer első lépése a trend (ideiglenes) kiszűrése az idősorból. Feltételezzük

továbbá a középtávú ciklus hiányát, tehát a szezonális és a véletlen hatás kapcsolatát

kell megvizsgálnunk. A szezonalitásról kijelentettük, hogy állandó hullámhosszal és

szabályos amplitúdóval kezeljük, így S-ről átlagolással megszűrhetjük a véletlen

komponenst.

Mielőtt elemeznénk az idősort, a megfigyelt elemeket két indexszel lássuk el: legyen i

az egyes periódusok sorszáma, míg j a periódusokon belüli időszakok sorszáma.

Legyen továbbá a perióduson belüli időszakok száma p, vagyis j=1,2,…,p. Ez alapján

a megfigyelt idősor periódusainak száma lesz, vagyis i=1,2,… . Legyen egész

szám, hiszen ekkor feltételezzük, hogy idősorunk csak teljes periódusokból áll.

Visszatér itt is az additív vagy multiplikatív modell választásának problémája. A

választás kulcsa a szezonalitás jellege. Ha feltételezzük, hogy minden periódusban

azonos mértékű a kilengések nagysága, akkor az a szezonalitás mértékével egyenlő,

azzal jellemezhető, az additív modell itt alkalmazható.

Ekkor a megfigyelt idősorra felírható egyenlet:

푦 = 푦 + 푆 + 푒 (1.30)

És ahogy korábban megadtuk, (i=1,2,… ) és (p=1,2,…, p).

푦 a korábban bemutatott módszerek egyikével maghatározott trendfüggvény becsült

értéke, eij pedig a véletlen komponens trendszámítás után megmaradt értéke. A

szezonalitás állandóságát feltételezzük, tehát S indexében csak j található. Ha a

következő lépésben a trendértékeket levonjuk és leválasztjuk a véletlen komponenst is,

akkor megkapjuk a nyers szezonális eltéréseket:

푠 =∑ 푦 − 푦

푛푝

(1.31)

Az sj, vagyis a becsült nyers szezonalitás eltérés azt mutatja, hogy a megfigyelt idősor

a j-edik szezonban átlagosan mennyivel tér el a trendértéktől a szabályosan ismétlődő

szezonhatás következtében. Követelményünk az, hogy egy perióduson belül a

szezonális eltérések kiegészítsék egymást, ezért sj nyers szezonális eltérések helyett a

korrigált szezonális eltéréseket alkalmazzuk, hogy bemutassuk a szezonhatásokat:

푠̃ = 푠 − 푠̅ (1.32)

Látható, hogy a nyers szezonális eltéréseket a saját átlaguktól vett eltéréssel

helyettesítjük.

De hogyan is értelmezzük a kiszámított értékeket? Hogyan működik a mi idősorunk

esetében?

Eddig éves szinten meghatározott fogyasztásokat vizsgáltunk az idősorunk esetében,

most térjünk át a havi megfigyelésekre és határozzuk meg a korábbiakban megismert

trendegyenletek közül a legjobban illeszkedőt. Ragadjuk ki az idősorunkból a 2001.

március- 2006. március időszakot és vizsgáljuk meg havi bontásban! Az eredményt az

alábbi grafikonon láthatjuk:

7. grafikon: A közlekedési ágazat kőolajfogyasztása (2001.03-2006.03)

Láthatjuk, hogy exponenciális trendegyenletet használunk majd. Ha az 푦 =

12,752 , exponenciális trendegyenletbe behelyettesítünk és képezzük az eredeti

megfigyelésektől vett eltéréseket, akkor, mint már tudjuk, megkapjuk a nyers

szezonális eltéréseket.

Ha az adott idő intervallumban havi adatok helyett a szezonok hosszát 3 hónapban

(egy évben tehát 4 szezonnal számolunk) adjuk meg, akkor az eredmény így alakul:

y = 12,774e0,0016x

1111,5

1212,5

1313,5

1414,5

1 11 21 31 41 51 61

t időpont

A közlekedési ágazat kőolajfogyasztása (2001.03-2006.03)

Valós kőolajfogyasztás Expon. (Valós kőolajfogyasztás)

8. grafikon: Szezonális kőolajfogyasztás

Mit is látunk a fenti grafikonon? A 2001. március és 2006. március között vizsgált

időszakot 20 szezonra bonthatjuk, melyek egyenként 3 hónapot ölelnek fel. Az így

előállított idősor megfigyeléseire szintén felírhatunk egy trendegyenletet, ahol az

푦 = 38,24 + 0,1894 ∗ 푡 lineáris trend esetén lesz az eltérések négyzetösszege

minimális. Ha összevetjük a valós és a trend által előállított, becsült kőolajfogyasztást,

akkor különbözetül, mint már tudjuk, a nyers szezonális eltérést (Sj) kapjuk. Az összes

megfigyelésünk száma n=20, míg a szezonok száma évente p=4.

푠 =∑

képletünk ekkor ezeket az értékeket tartalmazza:

푠 =(37,78 − 38,43) + (39,37 − 38,62) + ⋯+ (41,18 − 42,028)

= 0,0012

Ekkor Sj nyers szezonális eltérés értékére 0,0012 millió hordó-t kapunk. Ez nem

meglepő, hiszen természetes követelmény az, hogy a szezonális hatások egy

perióduson belül kiegyenlítsék egymást!

Gyakran e tulajdonság fennállása miatt használatos Sj nyers szezonális eltérés helyett,

az 푠̃ = 푠 − 푠̅ korrigált szezonális eltérés. A könnyebb értelmezéshez tekintsünk meg

az alábbi táblázatot:

353637383940414243

1 2 3 4 5 6 7 8 9 10 1112 13 1415 1617 1819 20

n (szezon)

Szezonális kőolajfogyasztás (2001-2006)

Szezonális kőolajfogyasztás

Becsült szezonális kőolajfogyasztás

2. táblázat: Szezonális eltérések

Szezonok

Évek j=1 j=2 j=3 j=4 i=1 -0,6494 0,7512 0,8718 -0,4776 i=2 -1,097 0,8836 0,7142 -0,0452 i=3 -1,6246 -0,054 0,6066 -0,1528 i=4 -0,8722 0,6084 0,749 0,1096 i=5 -0,8298 0,6108 0,7514 -0,848 Összesen -5,073 2,8 3,693 -1,414 Átlag -1,0146 0,56 0,7386 -0,2828

S1 esetében a számítások alapján elmondhatjuk, hogy az általunk megfigyel idősor, a

közlekedési ágazat kőolajfogyasztása az első szezonban (j=1) átlagosan 1,0146 millió

hordóval tért el a trendértéktől a szabályosan ismétlődő szezonhatás következtében.

푠̅ -ot megkapjuk, ha a négy szezon értékeit a szezonok számával elosztjuk, vagyis:

푠̅ =−1,0146 + 0,56 + 0,7386 − 0,2828

4= 0,003 (1.33)

Ezzel az értékkel kell módosítanunk az egyes szezonok értékeit, tehát:

푠̃ = 푠 − 푠̅ = −1,0146 − 0,003 = −1,0176 (1.34)

Az első negyedév korrigált szezonális eltérése így 1,0176 millió hordó (1,0176 millió

hordóval kevesebb), a második szezonra a számítás ismételt elvégzésével 푠̃ =0,557

millió hordó értéket kapunk, míg 푠̃ = 0,7356 millió hordó és 푠̃ = 0,2825 millió

hordó. A szezonális hatások itt is kiegyenlítik egymást, más idősor esetén

természetesen jóval nagyobb szezonális eltérések állhatnak fenn.

A mi idősoruk jellegzetességei miatt az additív modellt használtuk a szezonalitás

elemzésére, de mikor választható a multiplikatív modell? Akkor, ha a szezonalitás

amplitúdója a trendértékkel arányosan változik (vagyis alacsonyabb szinten kisebbek,

magasabb szinten nagyobbak a kilengések), a kilengések trendhez viszonyított aránya

pedig nagyjából állandó.

A megfigyelt idősorra felírható egyenlet multiplikatív modell esetében:

푦 = 푦 ∙ 푆∗ ∙ 푢 (1.35)

Az additív modellnél alkalmazottaknál hasonlóan itt is meghatározható 푆∗becsült

szezonindex:

푠∗ =∑

푦푦

푛푝

(1.36)

A becsült nyers szezonindex kifejezi, hogy a j-edik szezonban a megfigyelt idősor

átlagosan hányszorosa a trendértéknek a szezonalitás következtében.

A nyers szezonindex számtani átlagával való osztásával könnyedén megkaphatjuk a

korrigált szezonindexet:

푠̃∗ =푠∗

푠̅∗ (1.37)

A kiszámított szezonális eltérések és szezonindexek értelmezésünk nem bonyolult és

jól jellemzik a szezonalitás sémáját. Ha az idősort megtisztítjuk a szezonalitási

mutatókkal, akkor azt szezonális kiigazításnak nevezzük, az idősort pedig szezonálisan

kiigazított idősornak.

A szezonális elemzés meglehetősen erős feltételezésekhez kötött, ezáltal nem képes a

gyakorlatban előforduló esetek mindegyikét leírni. Hátrányai, hogy nem tudja kezelni

a változó amplitúdót, változó hullámhosszú ciklusokat, és a valóságban nem egy,

hanem kettő vagy több ciklus komponens eredőjeként állnak elő az idősorok.

A hosszú távú idősorelemzés egyre inkább eltávolodik a statisztika klasszikus

eszközeitől, azok az esetek nagy részében nem alkalmazhatóak. Éppen ezért, a

dekompozíciós modellek után, most ismerkedjük meg az idősor elemzések

módszereinek másik, nagy csoportjával. Korábban már a mozgóátlagolású

trendszámításnál érintettük a simító eljárásokat, de külön fejezetrészt kell szentelnünk

e technikáknak.

3.2. A simító eljárások

A sztochasztikus idősormodellek alapfilozófiája az igazodás, az előrejelzés hibáiból

való szisztematikus tanulás és a folyamatos pályakorrekció. A simító eljárások e

sztochasztikus és a korábban tárgyalt determinisztikus modellek között helyezkednek

el. Nem fogadják el az eleve elrendelt pályát, legalábbis nem erre alapozzák

filozófiájukat. Az eredményeket fokozatosan, lépésenként felülvizsgálják és az újabb

információkkal korrigálják, kiszűrve a véletlen ingadozásokat. A simító eljárásokat,

vagy más néven kiegyenlítő módszereket, prognózisok, előrejelzések készítéséhez

dolgozták ki. A modellek becsléseit egyszer kell csak elvégezni, a későbbiekben az új

információkkal korrigálni, helyesbíteni kell a már felállított modellt, tehát rugalmas,

nem igényel újraszámítást. Ismerkedjünk meg most ezekkel a módszerekkel.

A simító eljárásokat prognózisok készítésére használják, amit korrigálnak a hibákkal:

푦 = 푦 + 훼푓(푒 ) (1.38)

( 0 ≤ α ≤ 1)

Ahol α igazodást, simítást kifejező paraméter

푓(et) a hibakorrekciós függvény

Mit is fejez ki a fenti egyenlet? A következő, t+1-edik időszakra vonatkozó

előrejelzést megkapjuk, ha t-edik időszakra vonatkozó előrejelzést korrigáljuk szintén

t-edik időszakban elkövetett et hibával.

Az α, mint az igazodást/simítást kifejező paraméter határozza meg, hogy milyen

mértékben vesszük figyelembe az elkövetett hibát. Ha α 0 körüli, vagyis csaknem

eltekintünk tőle, akkor nem tükrözi a tanulás folyamatát, hiszen az előrejelzésünk

majdnem megegyezik az előző időszakra vonatkozó becsléssel. Ekkor túlságosan is

kisimítja az idősort, eltüntetve annak ingadozásait. Ha α nagy, 1 körüli, az sem

hatékony, hiszen erősen kalkulál a hibával, s nem szűri ki a véletlen ingadozásokat és

nem rajzolja ki a tendenciát. Az α szerepe és annak helyes megválasztása

kulcsfontosságú.

Az egyenletben még konkretizálnunk kell a hibakorrekciós függvény alakját. Az a

legegyszerűbb, ha 푓 konstans. Ekkor a korrekciós tagban a simító paraméter az

elkövetett hibával szorzódik, s ez az összefüggés lesz majd a Brow-féle exponenciális

simítású modellek alakja. Ha az előbbi kijelentés érvényesül, akkor a következő

alapegyenletet írhatjuk fel:

푦 = 푦 + 훼(푦 − 푦 ) = (1 − 훼)푦 + 훼푦 (1.39)

A képlet jobb oldalából kidomborodik, mennyire nagy szerepe van α-nak: ha kicsi,

akkor erősen simít, megmerevedik az előrejelzés, ellenkező esetben az előző időszak

megfigyelései értékeihez igazodik, késéssel követi a folyamatot.

Amennyiben alakítunk az alapképleten (beszorozzuk mindkét oldalt (1-α)-val,

kiemelünk, rendezzük az egyenletet), akkor a következő képletet kapjuk:

푦 = 푤 푦 (1.40)

Ahol wi=α(1-α)i, i=0,1,2,… és ∑ 푤 = 1, valamint wi ≥0

A fenti egyenletnél t-t végtelennek tekintjük (csak átmenetileg), ezáltal feltételezve az

idősor hosszúságát és homogenitását, így az utolsó tag eltűnik, s a folyamat

függetlenné tesszük az induló értéktől.

A következőekben ismerjük meg a Brown féle exponenciális simítás két

legegyszerűbb alkalmazását.

3.2.1. Egyszeres exponenciális simítás

„Az exponenciális simítás legegyszerűbb esetét az jelenti, ha olyan idősorra

alkalmazzuk, amely nem tartalmaz sem trendet, sem szezonalitást és az ingadozásai is

tendenciában állandónak tekinthetők.”8 Ezt a tulajdonság halmazt összefoglalóan

stacionaritásnak, az ilyen idősort pedig stacionárius idősornak nevezzük.

Tehát feltételezzük, hogy az általunk vizsgált idősor yt=β0+εt alakú. 8 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó, 1997. 578. oldal

β0 jelenti az átlagot kifejező konstanst, εt pedig 0 várható értékű, egymástól független,

σ2 varianciájú valószínűségi változók sorozata.

A kezdeti megfigyelési yt értékeket esetenként az idősor átlagával helyettesítik (푦).

Ekkor kimutatható, hogy a t+1-edik időpontra vonatkozó előrejelzés torzítatlan:

퐸(푦 ) = 훽 (1.41)

Az érték független α-tól.

Más esetben azonban fenn áll alfa választásának problémája, mert az előrejelzés

varianciája (Var(푦 )) ismét függ az α-tól:

A nagy α-k nagyobb varianciát eredményeznek, ezáltal kevésbé simítanak

Ha α=1, akkor az eljárás nem simít, mivel a variancia megegyezik az eredeti y

változók varianciájával

Amennyiben α kicsi, vagyis 0 körüli, tökéletesen simít, mert a variancia

határértékben 0-hoz tart.

Az alapeljárást és a hozzá megadott feltételeket, tulajdonságokat nevezzük Brown féle

egyszeres simításnak. Trendmentes, hosszú idősorra torzítatlan előrejelzést ad,

valamint α értékétől függően képes kisimítani az idősort.

Az exponenciális simítás érdemben csak egy időszakra képes előrejelzést adni, hiszen

alapelve az, hogy a mindenkori előrejelzések folyamatos felülvizsgálatából épül fel. És

ha nem áll rendelkezésre az yt+1, akkor jobb híján a becsült 푦 -et használnánk, akkor

egy pont mindig önmagát ismétlő sort kapnánk!

푦 = 훼푦 + (1 − 훼)푦 = 푦 (1.42)

Milyen módon válasszuk meg α-t az optimális előrejelzés biztosításához? Nincs

meghatározott módszer α megadására. A legkisebb négyzetek módszere (, mint azt

már tudjuk, az eredeti sortól vett eltérés négyzetösszegének minimálissá tétele a cél) az

egyik leggyakrabban alkalmazott módszer, azonban nem bizonyított, hogy a

legalkalmasabb α megadására. Lehet az átlagos abszolút, vagy százalékos átlagos

abszolút hiba minimalizálást alkalmazni, de tulajdonképpen lehet ezektől eltérő

módszert is választani.

Az egyszeres exponenciális simítás gyakorlatát külön nem mutatom be, mivel a

lépésekkel találkozunk a kettős exponenciális simítás metodikájánál is.

3.2.2. Kettős exponenciális simítások

Az előző módszer hiányosságát az adta, hogy nem volt képes a trenddel rendelkező

sorokat simítani és ez által előre jelezni.

Adódik a kérdés: a vélhetően lineáris trendet követő idősorok esetén hogyan

készítsünk előrejelző becsléseket? Erre a kérdésre dolgozták ki a simító eljárásoknak

összetettebb formáit, például a Brown féle kettős simítás módszerét.

A kétszeres simítás az egyszeresen kisimított sor újbóli egyszeres simítását takarja, ez

a módszer kulcseleme, az egyszeres simításnál bemutatott előrejelzési módszer tehát

megmarad.

Az egyszeres simítás képlete így módosul:

푆( ) = 훼푦 + (1 − 훼)푆( ) (1.43)

Az első simított értéket St(1) jelenti, ahol az (1) index utal az egyszeres simításra. Ebből

következik a kétszeres simítás egyenlete:

푆( ) = 훼푆( ) + (1 − 훼)푆( ) (1.44)

Ahol St(2) a kétszeresen simított értéket jelöli. Látható, hogy a kezdeti értéket most is

az előző időszaki értéket tekintjük, összegezve a fenti két egyenletet, megkapjuk a

kétszeres exponenciális simítás előrejelzését:

푦 = 2푆( ) − 푆( ) (1.45)

Lássuk, hogyan is alkalmazható a gyakorlatban. Térjünk vissza 63 megfigyelésből

álló, a közlekedési ágazat kőolajfogyasztás évenkénti alakulását bemutató

idősorunkhoz.

9. grafikon: A közlekedési ágazat kőolajfogyasztása simítással

A grafikonon kivehető, hogy a különböző α értékek hogyan simítják az idősort. Az α

értékének magasabbra vétele jobb lekövetést eredményez. Az α különböző eseteinek

kiszámítását most nem mutatom be részletesen, de az első 3 értéket α=0,1 esetében az

alábbi módon kapjuk meg:

S0(1) kezdőértékünk y1= 1125,796 millió hordó értékkel egyenlő, mellyel az első 3

egyszeresen simított érték (millió hordó):

S1(1)= 0,1*1125,796+0,9*1125,796=1125,796

S2(1)= 0,1*1225+0,9*1125,796=1135,716

S3(1)= 0,1*1347,707+0,9*1135,716=1156,915

Láthatjuk, hogyan korrigál a tényadatokkal és az előzőleg kiszámolt, becsült

értékekkel.

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64

t időpont

A közlekedési ágazat kőolajfogyasztása-simítással (1949-2011)

Kőolajfogyasztás α=0,1 α=0,4 α=0,8

Most az egyszeresen simított értékekből állítsuk elő a kétszeresen kisimított sor első

néhány értékét (millió hordóban):

S0(2)= S1

(1)= 1125,796 lesz a kezdő értékünk

S1(2)= 0,1*1125,796+0,9*1125,796=1125,796

S2(2)= 0,1*1135,716+0,9*1125,796=1126,788

S3(2)= 0,1*1156,915+0,9*1126,788=1129,801

Ezt a folyamatot kell folytatni az összes y és 푦 értékkel. Amint minden St(1) és St-1

értéket előállítottunk, az (1.45) számú képletbe behelyettesítve megkaphatjuk az

előrejelzést:

푦 = 2 ∗ 4681,3 − 4150,591 = 5212,009 (1.46)

Az előrejelzett 5212,009 millió hordónyi kőolajfogyasztás meglehetősen torz érték,

amely a módszer hiányosságait egyértelműen megmutatja és ez a torzulás csak

halmozódik a későbbi becsült értékekben.

A kettős exponenciális simítás módszere hiába egy továbbfejlesztett módszer, azonban

itt is fenn állnak a α megválasztásának következményei: kicsi α esetén, mint láthatjuk,

torzítással számolhatunk és érzékenyen reagál a kezdő értékekre, míg nagy α túlzottan

követi az induló értéket.

Hogy e hibákat orvosolják, kifejlesztésre került a Brown féle korrigált kettős

exponenciális simítás módszere. Ez a technika már nem csak az egyszeres simítás

lépéseinek ismétléséből áll, hanem a mindenkori trendértéken kívül a trendértéket

előállító két paramétert is felülvizsgálja, és újra meghatározza az újabb megfigyelések

birtokában. Összegezve elmondhatjuk, hogy a trendfüggvény illesztése, fokozatos

módosítása adja az előrejelzések helyes értékeit.

3.2.3. Brown féle korrigált kettős exponenciális simítás

Először is ismernünk kell természetesen a trendfüggvény kezdő paramétereit. Itt

szintén lineáris trend illesztésével nyerünk adatokat, majd e paramétereket fogjuk

lépésről lépésre módosítani. A korábban felírt 푆( )é푠푆( ) értékeket használjuk, de az

alábbi módon előállítva:

푆( ) = 훽 −1− 훼훼

훽 (1.47)

푆( ) = 훽 − 21 − 훼훼

훽 (1.48)

Az előállított paraméterek értékének meghatározása után minden egyes t időszakra

újra megbecsüljük a trend szintjét (훽 ) és meredekségét (훽 ).

Amint minden adat előállt, már megadhatók a mindenkori simított vagyis előrejelzett

értékek:

푦 = 훽 , + 훽 , ∙ 푇 (1.49)

Ahol T jelenti az előrejelzés hosszát.

Lássuk mennyiben tér el a kettős exponenciális simítás módszerétől.

A számítások első lépéseként írjuk fel az idősor lineáris trendegyenletét. A

dolgozatban már korábban találkoztunk vele:

푦 = 1241,7 + 65,451 ∗ 푡 (1.50)

Most határozzuk meg, mely alfa esetén minimális az eltérések négyzetösszege. Tegyük

fel, hogy ez α=0,8 esetében valósul meg. Ekkor már az (1.47) és (1.48) egyenletek

alapján meghatározhatjuk a simított sorok kezdeti értékeit, millió hordóban:

푆( ) = 1241,7 −0,20,8

65,451 = 1225,34

푆( ) = 1241,7 − 2 ∗0,20,8

65,451 = 1208,9745

Tudjuk, hogy a 훽 paraméterek induló értékei megegyeznek a trendegyenlet

paramétereivel, így adódik is az első időszak becslése:

푦 = 1241,7 + 65,451 = 1307,151 millió hordó

Most felhasználjuk a simító egyenleteket a soron következő simított értékek

előállításához:

푆( ) = 0,8 ∗ 1125,796 + 0,2 ∗ 1225,34 = 1145,7048

푆( ) = 0,8 ∗ 1145,7048 + 0,2 ∗ 1208,9745 = 1158,36

Ezek segítségével meg is kaphatjuk a korrigált trendparamétereket.

훽 , = 2 ∗ 1145,7048 − 1158,36 = 1133,0496

훽 , =0,80,2

(1145,7048 − 1158,36) = −50,6208

Számítsuk ki ezek után az 푦 értéket: 1133,0496-50,6208= 1082,4288 millió hordó.

Ezek tulajdonképpen a Brown féle korrigált kettős exponenciális simítás alaplépései.

Ha a megfigyelési időszakon túli időpontokra akarunk előrejelezni, akkor az utolsó

megfigyeléshez tartozó, jelen esetben 훽 , = 4892,717 és 훽 , = −13,4787

értékekkel megtehetjük azt, s az alábbi becsléseket kaphatjuk, például a következő 5

évre:

푦 = 4892,717 + (−13,4787) = 4879,238 millió hordó

푦 = 4892,717 + 2 ∗ (−13,4787) = 4865,759 millió hordó

푦 = 4892,717 + 3 ∗ (−13,4787) = 4852,281 millió hordó

푦 = 4892,717 + 4 ∗ (−13,4787) = 4838,802 millió hordó

푦 = 4892,717 + 5 ∗ (−13,4787) = 4825,323 millió hordó

A Brown féle korrigált kettős exponenciális simítást és előrejelzéseket is tartalmazó

sort az alábbi grafikonon szemléltetem:

10. grafikon: A közlekedési ágazat kőolajfogyasztása Brown féle korrigált kettős exponenciális simítással Forrás: Saját szerkesztés

A fenti grafikonon látható az eredeti megfigyeléseket tartalmazó idősor és a Brown

féle korrigált kettős exponenciális simítással készült érékek összehasonlítása. Látjuk,

hogy az előrejelzett adatok jól lekövetik az idősort, ami nem csak α magasabb értéke,

hanem a módszer technikája miatt sikeres. A becslések nem lesznek a lehető

legmegbízhatóbbak, de a módszer jelentős fejlettséget mutat a korábbi technikák

előrejelzési képességeihez képest.

A simító eljárások közül most csak a leggyakrabban alkalmazottakat mutattam be. A

fentieknél jóval bonyolultabb eljárások is léteznek, melyek a nemlineáris idősorok,

szezonális sorok, üzleti ciklusok illetve a változó szezonalitás vizsgálatára is

alkalmasak. Szakdolgozatom keretei sajnos nem teszik lehetővé bonyolultabb

módszerek további bemutatását, azok sokrétűsége és összetettsége miatt.

A fejezet eddigi részeiben a determinisztikus és determinisztikus-sztochasztikus

modell között átmenetet képző technikákkal ismerkedtünk meg. A következő

alfejezetben új idősor szemlélteti majd az előrejelzési technikák lépéseit,

alkalmazhatóságát, amely már csak tisztán sztochasztikus idősorokkal foglalkozik.

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65

t időpont

A közlekedési ágazat kőolajfogyasztása Brown féle korrigált kettős exponenciális

simítással

Tényeleges kőolajfogyasztás

Előrejelzés

3.3. AutoRegresszív- és MozgóÁtlag- modellek

Mint már olvashattuk, az idősorokat két szélsőséges csoportba sorolhatjuk. Lehetnek

ugyanis determinisztikus vagy sztochasztikus idősorok. Megállapítottuk, hogy a

determinisztikus idősorok valamilyen eleve elrendelt, hosszú távon érvényesülő pályát

követnek. Az ilyen sorok vizsgálatára alkalmaztuk a dekompozíciós modelleket. A

sztochasztikus és determinisztikus modellek közötti ingadozó idősorok elemzésére,

előrejelzésére használtuk a simító eljárásokat. Most pedig elérkeztünk a tisztán

sztochasztikus idősor elemzéséhez. Az ilyen idősorok esetén a véletlen szerves

alkotóeleme a folyamatoknak, s a véletlen változóra szigorú és pontos feltételezéseket

kell alkalmaznunk. A legegyszerűbb és legelterjedtebb sztochasztikus

idősormodellezési technikák, melyek szakdolgozatomban helyet foglalnak: az

AutoRegresszív és MozgóÁtlagolású (ARMA) modellek.

Mielőtt részletesen megismerkednénk az idősorelemzési modellek harmadik

csoportjával, röviden elevenítsük fel, mit is tudunk a korreláció és regresszió

számításról. E témakör ismerete ugyanis elengedhetetlen az autoregresszív és

mozgóátlagolású módszerek megértéséhez.

Korreláció- és Regresszió számításról általánosságban

A társadalmi-gazdasági folyamatok elemzése sokszor terjed ki két változó közötti

összefüggések vizsgálatára. A két változó kapcsolatának számszerűsítéséhez fontos a

korreláció. A korreláció általánosításaként definiálhatjuk a regressziót, mely lényeges

jellemzője, hogy egyszerre több változót is képes kezelni és foglalkozik a változók ok-

okozati összefüggéseivel.

Korreláció

X és Y változók vizsgálata esetén, (ha t=1,…N különböző megfigyelési egységek) a

két változó közötti korrelációt az alábbi képlettel adhatjuk meg:

푟 =∑ (푌 − 푌)(푋 − 푋)

∑ (푌 − 푌) ∑ (푋 − 푋) (1.51)

Ahol Yt és Xt a változók egyes megfigyelési időpontban felvett értékei, míg 푌és 푋 az

egyes változók átlagai. A gyakorlatban a számítógépes programcsomagok

természetesen tartalmazzák ezt a képletet, mert meglehetősen időigényes lenne a

korreláció kiszámítása egy-egy hosszabb idősor esetén. Az eredményül kapott r érték

mindig -1 és 1 között mozog. A pozitív értékek pozitív kapcsolatot, míg a negatív

értékek ellentétes kapcsolatot jelentenek. Ha r=0, akkor X és Y nem korrelálnak

egymással, míg 1 tökéletesen pozitív, -1 pedig tökéletesen negatív kapcsolatot takar.

(X és Y valamint Y és X közötti korreláció ugyanazt jelenti.)

Az r korrelációs együtthatót még felírhatjuk ilyen formában is:

푟 =퐶

휎 휎 (1.52)

A fenti képletben a X és Y ismérvek szórását vizsgálja a kovarianciával (C). A

kovariancia tulajdonképpen a változók együtt-ingadozásának összefoglaló

mutatószáma. Szintén jelzi a változók közötti kapcsolat meglétét, illetve irányát,

ugyanolyan formában, mint az „r”, vagyis a korrelációs együttható esetében láttuk.

Viszont a kapcsolat szorosságáról a kovariancia csak a szóródás ismerétében adhat

információt, önmagában nem.

Fontos a korreláció vizsgálatánál elgondolkodni az okság kérdésén. Sokszor

kíváncsiak vagyunk és kutatjuk azt, hogy valóban az egyik változó alakulása okozza-e

a másik alakulását. Ezt nem csak a kapott eredmények megfelelő értelmezésével kell

elvégeznünk, hanem a józanészre, a logikára hagyatkozva. Szeretünk ugyanis az

oksági kapcsolat és a korreláció közé egyenlőségjelet tenni, amely sok esetben nem

indokolt.

Mint már említettem az elemzések során nem csak két változóval dolgozhatunk. A

regressziós számítások alkalmasabbak a több változó közötti kapcsolat elemzésére, de

előfordul, hogy az empirikus kutatók, hogy minden pár közötti korrelációt

kiszámítanak. Foglalkozzunk a továbbiakban egy kicsit a regressziószámítással.

Regressziószámítás

Sok változó és a közöttük lévő összetett kapcsolat elemzésének fontos eszköze a

regresszió. Ha csak két változót tekintünk (X és Y) akkor a regressziót egyváltozósnak

nevezzük. (Ne zavarjon meg minket, hogy az idősorok esetén Y, mint egyedüli változó

vizsgálatakor is az „egyváltozós” idősor elemezés kifejezést használjuk) Vegyük most

a két változó közötti legegyszerűbb, lineáris kapcsolatot, melyet a következő módon

írhatjuk fel:

푌 = 훼 + 훽푋 (1.53)

Ahol α konstans (ha grafikusan ábrázolnánk, akkor az egyenes tengelymetszete), β

pedig a meredekséget jelöli. Így kapjuk meg a regressziós egyenest. ( Tulajdonképpen

az egyenes felállításának módja, az analitikus trendszámításnál bemutatottakkal

megegyezik.) A valóságban természetesen nem ismerjük α és β együtthatók valódi

értékét, így Y és X közötti regressziós modellünk mindig csak a valódi összefüggésnek

közelítése lehet. Az emiatt keletkezett hibával együtt az alábbi regressziós modellt

írhatjuk fel:

푌 = 훼 + 훽푋 + 푒 (1.54)

Ahol α és β regressziós együtthatók, e jelöli a hibát, Y-t függő, X-et pedig magyarázó

változónak nevezzük. Mivel „e” itt is jelen van, mint hiba és az együtthatókat nem

tudjuk pontosan megadni, ezért becsült értékeket rendelünk hozzájuk: 훼 és 훽

együtthatók formájában, melyek közelítsenek a legjobban az eredeti értékekhez.

Ha grafikusan ábrázolnánk pontdiagramon a változókat, akkor a regressziós modell

feladata úgyis megfogalmazható, hogy a pontokra leginkább illeszkedő egyenest keresi

(csak úgy, mint a trendszámítás során láthattuk). Korábban már találkoztunk a

reziduum kifejezéssel, de most azonban ki kell térnünk a hiba és a reziduum közötti

különbségre! A hiba egy adott adatpont, megfigyelés és a valódi regressziós egyenes

között mérhető távolság. Ezzel szemben, az 훼 és 훽 együtthatók által felírt regressziós

egyenes és az adatpontok közötti távolság a reziduum (vagy maradéktag).

Maradéktagot „u”-val jelöljük és az (1.55.) képlet alapján ki is számíthatjuk.

ut = Yt − 훼 + 훽Xt (1.55)

A reziduumok nagyságát a reziduumok négyzetösszegével mérjük (푆푆푅 = ∑ 푢 ).

Célunk tehát a legjobban illeszkedő egyenes megtalálása, amely akkor következik be,

ha a maradéktagok négyzetösszege (SSR) a lehető legkisebb.

A dekompozíciós modellnél megismert legkisebb négyzetek módszerét lehet itt is

alkalmazni a lehető legkisebb maradéktag négyzetösszegének megadására.

E rövid elméleti áttekintés célja tulajdonképpen az, hogy átvezessen minket a

sztochasztikus idősorok vizsgálatára, melyek összetettebb, hosszabb matematikai és

statisztikai lépések elvégzését igénylik. Azért, hogy ezen technikák lépéseit

könnyebben megértsük, új idősor megfigyeléseit kell alkalmaznunk. Eddig a

közlekedési ágazat kőolajfogyasztását vizsgáltuk, mert annak sajátosságai lehetővé

tették a dekompozíciós és a simító eljárások egy részének bemutatását. Mivel a

továbbiakban sztochasztikus idősorra vonatkozó módszerekkel ismerkedünk meg,

ezért értelemszerűen sztochasztikus idősor lesz a vizsgálatunk tárgya. A későbbiekben

tehát a 2. fejezetben már említett W(est) T(exas) I(ntermediate) hordónkénti árának

havi alakulásával foglalkozunk, 1994.01 és 2012.11 hó között.

3.3.1. Az autokorreláció

A továbbiakban olyan technikákat fogok bemutatni, amelyek nem a hagyományos

korrelációszámítást keretében két idősor elemei közötti az összefüggést keresik, hanem

egy idősor megfigyelései közötti korrelációt. Úgyis mondhatnánk, hogy csak

egyváltozós idősorelemzést végzünk, ahol megvizsgálunk egy idősor változóját és

annak késleltetettje közötti kapcsolatot.

Konkrétan az adott Y változó és annak saját, p időszakkal való késleltetettje közötti

korrelációt keressük. Ezt a korrelációt rp-vel jelöljünk és „p-edik késleltetettjéhez

tartozó autokorrelációnak” nevezzük. Az rp p függvényeként megadja az

autokorrelációs függvényt, ami meglehetősen gyakran használt eszköz, mert igen sok

információval szolgál az idősorról, ezáltal megkönnyíti az idősorok jellegének

elemzését.

Az autokorrelációs függvény minden p =1,2,…, P értékhez kiszámolja rp értékét, ahol

P jelenti a leghosszabb késleltetést, például havi gyakoriságú adatok esetén P=12.

Megjegyzendő, a késleltetett korrelációjának kiszámításánál is „vesztünk” adatot,

mivel r1 meghatározásánál Y1 és Y0-ra lenne szükségünk, viszont ez utóbbit nem

ismerjük. Ezért r1 és Y késleltetettjének meghatározásához csak t=2,… ,T időszakokat

használhatjuk. Tehát amikor rp-t szeretnénk kiszámítani, akkor elhagyjuk az első p

megfigyelést! Így hosszú késleltetés esetén igencsak kevés megfigyelésünk lesz, ha

pedig p=T értelemszerűen nem marad egy megfigyelés sem.

Az autokorrelációs függvény segítségével jól jellemezhetőek az idősorok

tulajdonságai, de célszerű az adott változót és késleltetettjének értékeit kifinomultabb

eszközökkel is megvizsgálni, melyekkel később ismerkedünk meg.

Az idősorok vizsgálatának egyik módszere a Mozgóátlag folyamatok. A módszert nem

fogom olyan részletességgel bemutatni, mint az autoregresszív módszereket, viszont a

későbbiekben bemutatásra kerülő ARMA modellek alapját képezi, ezért ismerete

feltétlenül szükséges.

3.3.2. Mozgóátlag-folyamatok

A módszer alapját a tisztál véletlen folyamatok képezik. Tisztán véletlen folyamatról

beszélünk akkor, ha az idősor független, azonos eloszlású valószínűségi változókból

áll és diszkrét időközönként lett megfigyelve. Ekkor a várható értékek és a variancia

konstans, míg az autokovariancia-függvény így adható meg:

γ (k)=cov(Yt, Yt+k)= 0 (k ≠ 0)

A tisztán véletlen folyamatokra a műszaki alkalmazásokból származóan fehér zaj

kifejezést is használjuk.

A Mozgóátlag folyamat használatához a későbbiekben is gyakran hasznosított εt

véletlen változókról kijelentjük, hogy tisztán véletlen folyamat. Mi lesz azonban a

különbség? Nem fehér zaj folyamatok esetén εt véletlen változóról annyit állítunk,

hogy várható értéke 0 [E(Yt)=μ=0] és a varianciája állandó (σ2), most viszont

kiegészítjük azzal, hogy a különböző időpontokhoz tartozó εt változók korrelálatlanok

[Cov(εt, εt-k)=0]!

A mozgóátlag folyamatok úgyis értelmezhetők, mint különböző időpontokhoz tartozó

fehér zajok lineáris kombinációja, amely az idősor jelenlegi értékét a jelenlegi és a

megelőző időpontok véletlen változóiként írja le.

Az alapelvet megadva most már felírhatjuk a Mozgóátlag folyamatok képletét:

Ahol θ, mint együttható és ε, mint a tisztán véletlen folyamat elemei szerepelnek.

Képlettel definiált yt folyamatot q-ad rendű mozgóátlagolású folyamatnak nevezzük és

MA(q)-mel jelöljük.

ε- okról kijelentettük, hogy minden t-re 0 a várható értékük, E(εt)=0, ebből pedig az

következik, hogy Y várható értéke is 0 [E(Yt)=0] és Yt varianciája ezért var(Yt)=

(∑ 휃 )휎 . A kovariancia megadható γk =cov(Yt, Yt-k) formában (k=0,1,2,…m). Az

MA(q) folyamat független θ együtthatók értékeitől, tehát mindig stacionárius (a

stacionaritás definícióját nemsokára kifejtem) lesz, azonban most ennek bizonyítása a

dolgozatban nem kap helyet.

A gyakorlatban a mozgóátlag folyamatokkal a trendek kiszűrésére alkalmas

módszerek használatánál találkozhatunk. Most nem kap helyet a MA(q) folyamat

gyakorlati bemutatása, haladjunk inkább tovább a komplexebb, ARMA folyamatok

megismeréséhez, ahol majd egyben látjuk a „rész”módszerek alkalmazásait.

3.3.3. Az egyváltozós modellek autoregresszív modellje

Eljutottunk az autoregresszív modellekhez, melyek olyan regressziós modellek, ahol a

magyarázó változók az eredményváltozó késleltetettjei. Rövidítése: AR.

푦 = 휀 + 휃 휀 + ⋯+ 휃 휀 (1.56)

Az AR(1) modell (ahol tehát a magyarázóváltozó a függő változó egy időszakos

késleltetettje) képlete az alábbi módon írható fel:

Ahol α regressziós együttható és a korábbiakkal ellentétben most nem β, hanem ϕ a

másik együttható, mely leírja a tagok kapcsolatát.9 A magyarázó változót yt-1 jelöli.

Fontos, hogy y1 időszakos késletetése y0 lenne, ami viszont nem megfigyelhető, ezért

itt is a t=2,…,T időszakokat használjuk a késleltetett y meghatározásához.

Most kanyarodjuk el egy kicsit a stacionaritás fogalmához, ugyanis AR(1) modell ϕ

együtthatója közeli kapcsolatban van a felvezetésnél említett autokorrelációs

függvénnyel és a nem stacionaritás fogalmával. Ha ugyanis │ϕ│< 1, akkor Y-t

stacionáriusnak nevezzük, míg ha│ϕ│=1 akkor nem stacionáriusnak. ( │ϕ│>1 esetet

nem vizsgáljuk a közgazdaságtudományban, mert ezek robbanásszerű viselkedéseket

írnak le, melyek csak rendkívüli helyzetben figyelhetőek meg (például hiperinfláció).

De mit is jelent a stacionaritás és miért vizsgáljuk?

Stacionaritás

A sztochasztikus idősorelemzés modelljeinek vannak feltételei, amely új fogalmakkal

most megismerkedünk. A stacionaritás, mint az idősor egyik jellemzője ugyanis

alapvetően meghatározza a későbbi módszerek alkalmazásának menetét.

A stacionaritást legérthetőbben úgy értelmezhetjük, mint az idősort alkotó változók fő

jellemzőinek egyfajta időbeli stabilitása. E fő jellemzők:

Az egyes változók várható értéke: 퐸(푌 ) = 휇

Az egyes változók varianciája: 푉푎푟(푌 ) = 휎

A különböző időpontokhoz tartozó változó kapcsolatát kifejező

(auto)kovariancia: 퐶표푣(푌 , 푌 ) = 훾

9 A regressziós modell együtthatóit is görög betűkkel jelöljük. Bármilyen görög betű alkalmas erre a célra, de érdemes a különböző magyarázó változóknál illetve képleteknél, kiterjesztéseknél külön görög betűt használni, az esetleges félreértések elkerülése érdekében.

푦 = 훼 + 휙푦 + 푒 (1.57)

A stacionaritás meglétének, milyenségének megállapításához a fenti 3 jellemzőt és

azok kapcsolatát kell megvizsgálnunk és ezek alapján beszélhetünk szigorú vagy

gyenge stacionaritásról, illetve nem stacionárius folyamtokról.

Szigorú stacionaritás

A vizsgálat első lépéseként meghatározzuk yt változó első és második értékeit,

momentumait. Ha t1=t2=t, akkor az autokovariancia egyszerűen σ2. Másképp kifejezve,

ha y1, y2, …, yn n-elemű megfigyeléseinek eloszlása megegyezik az y1+k, y2+k, …,yn+k

megfigyelések együttes eloszlásaival, akkor az idősor szigorúan stacionárius, minden n

és k esetén. Ekkor μt=μ és σt2= σ2 vagyis a várható érték és a variancia t-től független.

Mivel az együttes eloszlások megegyeznek, az eloszlás végső soron kizárólag k

megválasztásától függ és k=t2-t1 különbséget késleltetésnek nevezzük. Szigorú

stacionaritás esetében γ(t1, t2) autokovariancia függvényt megadhatjuk γ(k) formában,

ahol k ismét a késleltetést jelöli. A γ(k) függvényt autokovariancia-függvénynek

nevezzük, és ennek segítségével megkaphatjuk az autokorreláció függvényt, ρ(k)-t:

휌(푘) =훾(푘)훾(0)

(1.58)

Ahol γ(k) az autokovariancia-függvény, γ(0) pedig megegyezik a σ2 varianciával.

Ha ρ(k)-t k függvényében ábrázoljuk, akkor korrelogramot kapunk.

A szigorú stacionárius idősorok esetében az y(t) változók valószínűségi eloszlása t-től

független. Nem csak a várható érték és a variancia állandó, hanem az összes magasabb

rendű momentum is. Ezek a feltételezések azonban rendkívül erősek, nézzük mi

jellemzőbb inkább a gyakorlatban.

Gyenge stacionaritás

Széles értelemben véve stacionárius vagy kovariancia stacionárius idősoroknak is

nevezzük őket. A várható érték ekkor állandó és autokovariancia-függvény csak a

késleltetések számától függ, magasabb rendű momentumokról pedig nem feltételezünk

semmit. Az autokovariancia-függvény ekkor így írható fel:

퐸[푌(푡)] = 휇é푠푐표푣[푌(푡), 푌(푡 + 푘)] = 훾(푘) (1.59)

Az idősorelemzés azonban nem merül ki a stacionárius idősorok vizsgálatával, sőt a

gyakorlatban „előforduló” idősorok többsége nem stacionárius.

Nem stacionárius folyamatok

Nem stacionárius idősor esetén a μt várható érték időben változik, lehet t például

lineáris vagy négyzetes trend. A stacionárius és nem stacionárius idősorok

megkülönböztetése rendkívül fontos, mert nem stacionárius idősort regressziós

modellben szerepeltetni tilos.

A nem stacionárius idősorok esetén (amennyiben α=0 és│ϕ│=1) az AR(1) modell így

írható fel:

푌 = 푌 + 푒 (1.60)

Ezt nevezzük véletlen bolyongásnak. Véletlen bolyongás esetén olyan idősorral van

dolgunk, amelyet nem tudunk valamilyen jól leírható logika szerint jellemezni,

legfőképpen nem előre jelezni. Jó példa erre egy részvény árfolyama. A részvény mai

árfolyama a tegnapi ár egy hibatag összege. Ha a részvényárfolyamok nem véletlen

bolyongás szerint alakulnának, akkor változásuk előre jelezhető lenne (és például a

befektetők számára arbitrázslehetőség nyílna meg). De a részvényárak esetén

feltételezhetjük, hogy véletlen bolyongás szerint alakulnak, ezt pedig értelem szerint ki

kell küszöbölnünk, hogy az autoregressziós modellt alkalmazni tudjuk.

Másképp megfogalmazva az egységgyökkel rendelkező idősorok sztochasztikus

trendszerű viselkedést mutatnak. Az egységgyök megléte a következő problémákat

okozza a módszer alkalmazása során:

Nem csak a ϕ értéke 1, hanem az autokorrelációi is egyhez közeliek lesznek,

melyek a késleltetés hosszának növelésével alig csökkennek

Y „emlékszik a múltra” vagyis erősen korrelál a saját korábbi értékeivel, az

idősornak hosszú távú emlékezete van (A stacionárius soroknak nincs hosszú

távú emlékezete)

a sorozat trendszerű viselkedést mutat, méghozzá sztochasztikus trendet (a

stacionárius idősorok is tartalmazhatnak trendet, de csakis determinisztikus

trendet, ekkor trendstacionáriusnak nevezve őket)

Az idősor trendszerű viselkedése önmagában tehát még nem jelenti azt, hogy

egységgyököt tartalmazó idősorral van dolgunk. Az egységgyök meglétét azonban

nem lehet csak az idősorra rápillantva megállapítani. A teszteléshez ki kell

számítanunk y differenciáltjait, amelynek eredményeképpen megkapjuk ∆y idősort. Ez

a lépés nem csak a tesztelésre alkalmas, mivel ∆y idősor elemei egyúttal stacionárius

idősort eredményeznek, ezáltal az idősor alkalmas lesz az autoregressziós modell

alkalmazására is. (Az egységgyökkel rendelkező idősorokat ezért gyakran

differenciastacionárius idősoroknak.)

Az egységgyök tesztelését a teljes ARMA folyamat bemutatásánál ismertetem, ahol

már a konkrét idősorral és több elméleti háttérrel könnyebben megérthetjük majd a

stacionaritás vizsgálatát. Most viszont a ∆y idősor előállítása után haladjunk tovább

egyelőre az autoregressziós modell alkalmazásával.

AR(1) modell kiterjesztései

Az AR(1) modellt eddig egyszerű regresszióként értelmeztük, ahol y előző időszaki

értéke a magyarázó változó. Ám célszerű és megoldható y több késleltetését is

magyarázó változóként szerepeltetni, amit a modell p-ed rendű autoregresszióra való

kiterjesztésével végzünk el, amit AR(p)-vel jelölünk:

푦 = 훼 + 휙 푌 +⋯+휙 푌 + 푒 (1.61)

Ahol t=p+1,…,T és α,ϕ pedig már az ismert együtthatók.

Alakítsuk át az egyenletet a differenciált y értékek segítségével, vagyis vonjunk le

mindkét oldalból yt-1-et. Ekkor, némi átrendezés és leegyszerűsítés után a következő

egyenletet kapjuk:

∆푦 = 훼 + 휌푌 + 훾 ∆푌 +⋯+ 훾 ∆푌 + 푒 (1.62)

A ρ és γ1,…, γp-1… együtthatók a kiinduló egyenlet ϕ1,… ϕp együtthatóinak egyszerű

függvényei, Yt-p helyett pedig ∆Yt-p+1 taggal találkozunk. A fenti egyenlet szinte

megegyezik AR(p)-vel, csupán a felírás formája különbözik.

Az utóbbi képletben ρ mutatja majd a stacionaritást, mivel ha ρ= 0, akkor y AR(p)

idősornak egységgyöke van, míg ha -2< ρ < 1, akkor az idősor stacionárius. Láthatjuk,

hogy ρ=0 esetén Yt-1 eltűnik, csak ∆Y-t és annak késleltetettjeit tartalmazza a képlet,

tehát a differenciákkal stacionáriussá tettük az idősort.

Amennyiben AR(p) modellhez determinisztikus trendet adunk, akkor az egyváltozós

idősorelemzések során igen gyakran használt modellt kapunk:

∆푌 = 훼 + 휌푌 + 훾 ∆푌 +⋯+ 훾 ∆푌 + 훿 + 푒 (1.63)

A két képlet megegyezik, azzal a kivétellel, hogy utóbbit a δt determinisztikus trenddel

kiegészítettük.

Most, hogy már megismerkedtünk az autoregresszív és mozgóátlag folyamatokkal,

legalábbis az elméleti alapokkal, lépjünk tovább a sztochasztikus idősorok elemzési

módszereinek vizsgálatával és a gyakorlati lefuttatással.

3.3.4. AutoRegresszív MozgóÁtlag folyamatok

Az AR- és a MA-modellek egyesítéseként új módszert használhatunk, melyet

autoregresszív-mozgóátlag modelleknek (röviden ARMA) nevezünk. A módszer

keretein belül a p és q- ad rendű autoregresszív és mozgóátlagolású modellek

magasabb rendű folyamatait vizsgáljuk. Mivel a két módszer egyesítéséről beszélünk,

így logikus, hogy a következő képlet adja az ARMA(p,q) modellt:

푌 = 휙 푌 + 휙 푌 + ⋯+ 휙 푌 + 휀 + 휃 휀 +⋯

+ 휃 휀 (1.64)

A képletben p és q időpontokat a különböző együtthatókra vonatkozóan használjuk, εt

a MA modell során megismert, nulla várható értékű és σ2 varianciájú, tehát tisztán

véletlen folyamat.

A modell használatához kialakítottak egy interaktív modellépítési stratégiát, melyet

kidolgozóik után Box-Jenkins modellezésnek is nevezünk. A modell népszerűségét

annak köszönheti, hogy bármely idősorra alkalmazható, függetlenül attól, hogy

stacionárius-e vagy sem, tartalmaz-e szezonális komponenst és a legtöbb statisztikai-

ökonometriai programcsomag (mint az általam használ Gretl program is) által

alkalmazható. A stratégia első lépései használhatók az AR(p) módszernél felvezetett

egységgyök vizsgálatra, ahol külön nem tértünk ki rá, ezt a hiányosságot most

pótolom.

A Box-Jenkins-féle modellezés lépéseit a 4. ábra mutatja.

4. ábra: Az ARMA modellezés Box-Jenkins-féle módszere

Forrás: G. S. Maddala: Bevezetés az ökonometriába, 595.oldal

Hogyan is működik a modell?

1. Első lépésben, ha nem stacionárius idősorral van dolgunk, addig

differenciáljuk az idősort, míg stacionáriussá nem válik. Mi alapján dönthető el, hogy

egy idősor stacionárius? Többféleképpen megtehetjük, különböző próbák segítségével.

A dolgozatomban most a talán legismertebb stacionaritás vizsgálatra alkalmas teszt, a

Dickey-Fuller-próba kap helyet, melyet kifejlesztőikről neveztek el. Alapegyenlete így

írható fel:

푦 = 휌 ∗ 푦 + 휀 (1.65)

Ahol ρ>0.

Ezután felállítjuk a hipotézist, miszerint H0: ρ=1. Ekkor egységgyök van az idősorban.

Értelemszerűen H1: ρ ≠1 , ekkor stacionárius idősorral van dolgunk. A fenti egyenlet

és hipotézis akkor alkalmazható, ha sem konstans, sem trend nincs az idősorunkban.

Konstans tagot tartalmazó idősornál ugyanis az egyenletünk:

∆푦 = 푐 + 휆 ∗ 푦 + 휀 (1.66)

Ahol c a konstans tag, λ=ρ-1 képpen adható meg.

Konstans tagot és trendet tartalmazó idősor esetén pedig:

Δ푦 = 푐 + 훿 ∗ 푡 + 휆 ∗ 푦 + 휀 (1.67)

egyenletet alkalmazzuk (AR(1)-nél már láthattuk, hogy δ jeleníti meg a trendet).

Foglalkozzunk most a véletlen bolyongásnál összetettebb folyamatok egységgyök

vizsgálatával. Ekkor az előbb felírt 3 egyenletet ki kell bővítenünk.

Sem konstans tagot, sem trendet nem tartalmaz az idősor:

Δ푦 = 휆 ∗ 푦 + 휃 ∗ Δ푦 + 휃 ∗ Δ푦 +⋯휃 ∗ Δ푦

+ 휀 (1.68)

Konstans tagot tartalmazó idősor:

Δ푦 = 푐 + 휆 ∗ 푦 + 휃 ∗ Δ푦 + 휃 ∗ Δ푦 + ⋯휃

∗ Δ푦 + 휀 (1.69)

Konstans tagot és trendet is tartalmazó idősor:

Δ푦 = 푐 + 훿 ∗ 푡 + 휆 ∗ 푦 + 휃 ∗ Δ푦 + 휃 ∗ Δ푦

+⋯휃 ∗ Δ푦 + 휀 (1.70)

Ahol k a késleltetések száma.

A kibővített egyenleteket összefoglalóan kiterjesztett Dickey-Fuller tesztnek nevezzük

(Augmented Dickey Fuller test), röviden: ADF.

A k késleltetések számának megválasztása problémát okozhat, ezért más próbákkal is

tesztelik az idősort, melyek közül a másik legelterjedtebb a Kwiatkowski és

szerzőtársai által kifejlesztett KPSS teszt. A teszt nullhipotézise éppen ellentettje az

ADF-nek, mert itt a stacionaritást nézzük, míg az ellenhipotézis elfogadása esetén

beszélhetünk egységgyökről vagy differencia stacionaritásról.

A KPSS teszt kiinduló modellje:

푦 = 휇 + 휌 ∗ 푦 + 휀 (1.71)

A null és az ellenhipotézis pedig: Ho: 1 és H1: és μ=0

A teszt nehézsége itt is a t értékének megválasztása, de a több módszerrel szerzett

eredmények megerősíthetik a feltevéseinket.

Mind a két teszt esetében össze kell vetni a kapott értékeket a teszt kritikus értékeivel,

melyek megtalálhatóak a Mellékletben. Alapesetben a hipotézisek vizsgálatára a

Student-féle t eloszlást használnánk, de egységgyök jelenléte esetében a kritikus

értékek félrevezetőek lennének. Dickey-Fuller teszt esetében, ha a ρ-hez tartozó t

(teszt statisztika) kisebb, mint az általunk megválasztott szignifikancia szinthez és

megfigyelésekhez tartozó érték, akkor elvetjük az egységgyök létezésének hipotézisét.

( A Dickey-Fuller eloszlás értékei természetesen itt is konstans és trend nélküli,

konstanst tartalmazó vagy konstanst és trendet is tartalmazó idősor szerinti

csoportosításban vannak.) A KPSS teszt eredményeként kapott értéket is össze kell

hasonlítanunk a megfelelő szignifikancia szinthez tartozó kritikus értékkel.

Meg kell azonban jegyeznünk, hogy a Dickey-Fuller-próba hajlamos ott is

egységgyököt találni, ahol nincs, mivel egy trendstacionárius idősor igencsak

hasonlíthat egy egységgyököt tartalmazóra. Megtörténhet ugyanakkor az ellenkezője

is, ugyanis sok olyan idősorral találkozhatunk, amelyek még akkor is utalnak

egységgyök jelenlétére, amikor nincs is egységgyökük. (Ezeket strukturális töréseknek

nevezzük, olyan makroökonómiai sorokban fordulnak elő, ahol hirtelen változás,

például háború áll elő.)

Megfigyelhetjük az egységgyök jelenlétét a korrelogram segítségével is. A korreláció

áttekintésénél már megadtuk, hogy a korrelogram a ρ(k) autokorreláció függvény

[휌(푘) = ( )( )

] k (késleltetés szám) szerinti ábrázolása. Stacioner idősor esetén a k

növelésével a korrelogram nullává válik. yt idősor korrelogramját vizsgálva tehát

differenciáljuk addig az idősort, míg a kis késleltetés szám mellett a korrelogram

nullává válik.

Ha megállapítottuk, hogy az idősorunk egységgyököt tartalmaz, akkor képezzük annak

differenciáltját. Általában egy differenciálás után stacionárius idősort kapunk, ha

mégsem, akkor ismételjük meg az eljárást.

2. Vizsgáljuk meg a stacionárius idősort, hogy a megfigyelések milyen p és q

rendű folyamatokból származnak. Ez az identifikáció folyamata, ekkor történik a

kiinduló modell felírása, beazonosítása. Meghatározzuk a megfigyelt idősor jellemzőit

és megkeressük, hogy melyik elméleti modellel mutat legnagyobb hasonlóságot a mi

idősorunk. Tehát felírunk egy előzetesen helyesnek vélt ARMA-modellt. A

korrelogram és a parciális korrelogram segítheti p és q értékek előzetes becslését. A

becslési eljárások bemutatásával most sajnos nem foglalkozunk, mert azok rendkívül

bonyolultak. Viszont a statisztikai/ökonometriai programcsomagok segítségével

leegyszerűsödik a feladatunk.

3. A feltételezett modell alapján meg kell becsülnünk ϕ és θ paramétereket.

Most is alkalmazhatjuk a legkisebb négyzetek módszerét, de tudnunk kell, hogy ezen

esetek bonyolultabbak, mint a korábban felírtak (Többnyire iterációs eljárásokkal

adják meg a paramétereket, de jelen dolgozatban erre szintén nem térek ki.). A cél itt is

az, hogy a becsült paraméterekkel az illeszkedés a lehető legjobb legyen. Lehetséges

többször másik becslést készíteni, esetleg túl- vagy alulbecsülni a függvényt, hogy

még jobban meggyőződhessünk az illeszkedés jóságáról.

4. Meg kell vizsgálnunk, hogy megfelelő-e a modell, vagyis a modell

egészében jól írja-e le a valóságot. (Amennyiben jól írja le a valóságot, akkor a

maradéktagok véletlennek tekinthetők.) Ha nemleges választ kapunk, akkor vissza kell

térnünk a második lépéshez és új modellt kell felállítanunk. Amennyiben jól

illeszkedik a modell, akkor továbbléphetünk az utolsó pontra.

5. A modellt felhasználhatjuk előrejelzési célokra, ami tulajdonképpen a

vizsgálatunk célja

A folyamat látszólagos bonyolultságát a stacionaritás problémája, a késleltetések

számának megadása és a megfelelő p, q és a többi paraméter megadása jelentheti. A

gyakorlatban azonban akár az általam használt GRETL programcsomag óriási

segítséget jelentett az adatok és értékek előállításához.

A 11. grafikon ismerős lehet, hiszen a 2. fejezetben már megismertük az idősorunk

alapvető jellemzőit.

11. grafikon: WTI árak alakulás (1994-2012)

Forrás: http://www.eia.gov/dnav/pet/hist/LeafHandler.ashx?n=pet&s=rwtc&f=m

020406080

100120140160

1 17 33 49 65 81 97 113

Dollá

t időpont

WTI árak alakulása (1994-2012)

WTI árak (Dollár/ Hordó)

Most lássuk, hogyan is működik az ARMA folyamat a WTI hordónkénti árának

vizsgálatánál, a GRETL program segítségével.

1. lépés: Stacionaritás vizsgálata, differenciálás.

Vessük össze a konstans és trend nélküli, konstans tagot tartalmazó, valamint

konstanst és trendet tartalmazó, ADF tesztelt értékeinket a megfelelő kritikus

értékekkel. Mindhárom esetben 12 a késleltetések száma. A GRETL program

segítségével kapott értékeket az alábbi táblázat mutatja:

3. táblázat: Augmented Dickey-Fuller teszt és értékek

Forrás: Saját előállítás, GRETL programcsomag segítségével

Láthatjuk, hogy a konstans nélkül vizsgált t érték 0,500105, mely nagyobb, mint az

5%-os szignifikancia szinthez tartozó kritikus -1,95 érték. A konstans tagot tartalmazó

t= -0,820433 is nagyobb, mint a -2,88 kritikus érték és ugyanez a helyzete áll fenn az

utolsó esetben, mert t= -3,04795 nagyobb, mint -3,43. 10 Ezek alapján, mivel a ρ-hoz

tartozó t értékek nagyobbak, mint a kritikus értékek, ezért elfogadjuk a H0 hipotézist,

vagyis az idősornak egységgyöke van. Azért, hogy ezt teljes biztossággal

kijelenthessük, végezzük el a KPSS tesztet is:

4. táblázat: KPSS teszt értékei

A fenti táblázatból azt látjuk, hogy a t statisztikánk minden szignifikancia szinten

nagyobb, mint a kritikus értékek. Mivel a módszer fordítottan működik, mint az ADF

teszt, ezért itt el kell vetnünk a H0 hipotézis, amely szerint az idősornak

stacionáriusnak kellene lennie.

Mindkét teszt megerősítette tehát, hogy egységgyök problémával állunk szemben, s

így nem lehet ARMA modellt illeszteni az idősorunkra.

Hogy orvosoljuk a bajt, képezzük az idősor differenciáltját. Fontos hogy nem csupán q

és p paramétert kell előzetesen megbecsülnünk, hanem itt a differenciálások fokát (d)

is, amely beépül a modellünkbe, amit ezentúl ARIMA( p,d, q) -nak fogunk hívni.

A különbségek alakulását az alábbi grafikonon szemléltetem:

10 Mint már említettem, a kritikus értékeket tartalmazó táblázatok a mellékletben kapnak helyet.

12. grafikon: WTI árak első differenciáltja

Azt hogy idő sor esetében, hogy szükséges-e az (újra) differenciálás a korrelogram

(autokorrelációs függvény, ACF ) segítségével dönthetjük el, ami egy sor adatainak és

a múltbeli értékeinek korrelációs együtthatóinak, azaz az autokorrelációs együtthatók

ábrája.

5. ábra: WTI árak auto és parciális autokorrelogramjai

Az első korrelogramon láthatjuk, hogy az ACF értékei lassan közelítenek a 0-hoz,

amely egyértelműen az egységgyökkel rendelkező idősorok jellemzője.

Az első differenciálás eredményét a 6. ábra tartalmazza, ahol máris szembetűnő a

különbség, és ez azt jelenti, hogy nem kell tovább differenciálnunk az idősort, ugyanis

a 0-hoz közeledés nem lassú.

6. ábra: Első differenciált auto és parciális autokorrelogram

2. lépés: a feltételezett modell megadása

Az autokorrelációs függvény felrajzolása abban is segítségünkre van, hogy becslést ad

a mozgóátlagolású (MA) tag q -fokára. Ehhez csupán a korrelogram alakját fogjuk

megvizsgálni. Ha a korrelogram q -nál kisebb értékeknél nem mutat semmilyen

határozott alakot, míg q –tól nagyobb értékekre nulla, akkor a késleltetéseknek q -t kell

választani. Például az elsőrendű mozgóátlag (MA(1)) folyamat esetén kizárólag ez

első érték nem nulla, az összes többi pedig nulla.

Amennyiben megfigyeljük az autokorrelációs függvényünket, nem láthatunk

semmilyen határozott alakot, ezért MA (0)- rendű fokkal dolgozunk.

A parciális autokorreláció függvény (PACF) pedig az autoregresszív (AR) tag p

kezdeti értékének eldöntésében segít minket.

A parciális korrelogram értéke egy bizonyos késleltetés után nulla körül fog mozogni.

Ez a késleltetés lesz a p kezdeti értéke. Azaz egy elsőrendű autokorrelációs AR (1)

folyamatnál a parciális korrelogram első eleme nem nulla, a többi mind nulla

közelében marad. Pontosan ez az, amit a saját korrelogramunkon is megfigyelhetünk.

Az ACF és a PACF megfigyeléseinek alapján a Box-Jenkins folyamat harmadik

lépését az ARIMA (1,1,0) modellel kezdem.

A folyamat 3. és 4. lépése jelenti a paraméterek becslését és azok leellenőrzését.

Mindkét lépés olyan összetettebb, egymáshoz kapcsolódó kritériumrendszerek

ismeretét igényli, amelyek egyesével történő bemutatására nincs lehetőségem jelen

dolgozat keretein belül. A statisztikai programcsomagok itt is könnyedén elvégzik a

különféle számításokat, melyek kiértékeléséhez több kritikus érték egyszerre történő

vizsgálatára van szükség (például modellszelekció). Ez azonban, mint mondottam

jóval mélyebb és alaposabb statisztikai ismereteket kíván. Ha az ellenőrzés során

alkalmatlannak találjuk a modellt, akkor vissza kell térnünk a modell

identifikációjának lépéséhez. A lépések elvégzésével, a feltételezett modell alul és

túlillesztésével valamint más modellekkel való összemérések eredményeképpen, az

ARIMA (1,1,0) modellt tartom legalkalmasabbnak az előrejelzések készítéséhez.

Az ARIMA (1,1,0) modell egyenlete:

∆푦 = −0,0147009 − 0,364065y (1.72)

5. táblázat: ARIMA (1,1,0) értékei

Elérkeztünk az utolsó lépéshez, vagyis az előrejelzések megadásához.

5. lépés: A modell előrejelzési célokra való felhasználása

A 13. grafikon piros vonallal jelzi a megfigyeléseinket, míg kék színnel követhetjük az

előrejelzést. 1 éves, vagyis 12 hónap időtartamra vonatkozó előrejelzést kaptunk. Az

ábrán látható, hogy még viszonylag rövid időtartamra sem tudta a modell a megfelelő

előrejelzéseket előállítani és sajnos nagyon gyorsan tágul a konfidencia intervallum is.

13. grafikon: WTI árak előrejelzése ARMA folyamat segítségével

Az egy évre előrejelzett értékek a következők

2012. dec.. 85,6 dollár/hordó 2013. jún.. 86,68 dollár/hordó 2013. jan.. 85,43 dollár/hordó 2013. júl.. 87,98 dollár/hordó 2013. febr.. 85,56 dollár/hordó 2013. aug.. 87,29 dollár/hordó 2013. márc.. 85,8 dollár/hordó 2013. szept.. 87,6 dollár/hordó 2013. ápr.. 86,08 dollár/hordó 2013. okt.. 87,9 dollár/hordó 2013. máj.. 86,38 dollár/hordó 2013. nov.. 88,21 dollár/hordó

4. Összegzés, véleményezés

Elérkeztünk az idősorok elemzési, előrejelzési modellek végéhez, s egyúttal a

szakdolgozatom záró oldalaihoz. Összefoglalásképpen úgy gondoltam szemléletesebb

és hatékonyabb, ha táblázatba foglalom az általam bemutatott módszerek alapelveit,

előnyeit és hátrányait. Remélem, ezáltal még érthetőbbé válnak a módszerek és

azoknak egymásra épülési logikája is. Nézzük tehát sorban a dekompozíciós

modellektől indulva, hogyan jutunk el az autoregressziós és mozgóátlagolású

folyamatokhoz, útba ejtve a simító eljárások lépéseit.

Idősorelemzés típusa Determinisztikus

Dekompozíciós modell

Trendszámítás Szabálytalan ciklus

Szezonális ingadozások

Analitikus Mozgóátlagolású

Alapelv

Tartós irányzat

analitikusan jól leírható függvény

szerint alakul

A trendet csak a megfigyelt idősor

értékeinek különféle átlagolásával állítjuk elő

Az analitikus és mozgó-átlagolású

trendek összegyúrása

A trend kiszűrése után a szezonális

ingadozások vizsgálata

Alapképlet 푦 = 훽 + 훽 푡 푦 + ⋯+ 푦 +⋯+ 푦

2푘 + 1 -

=∑ 푦 − 푦

푛푝

Előny Egyszerű, becslést ad

Kevés induló értéket igényel, ciklusokat

képes kiszűrni

Képes a szabálytalan

ciklus kiszűrésére

Az idősor a j-edik szezonban átlagosan

mennyivel tér el a trendértéktől a

szabályosan ismétlődő

szezonhatás következtében.

Hátrány

A változók értékeit a

későbbiekben változatlannak tekinti, torzít, ciklust nem tud kiszűrni

Nem ad előrejelzés, csupán tendenciát, m

tagszám helyes megadása nehézkes, mivel csökkenhet a véletlen szerepe/

eltűnik a trend

Óvatosan kell bánni az előző

módszerek para-

métereinek megválasztá-

sával

Nem tudja kezelni a változó

amplitúdójú, változó

hosszúságú ciklusokat

Kritikus paraméter 훽 , 훽 m 훽 , 훽 és m n, p Becslés Lehetséges Nem lehetséges Nem

lehetséges Nem lehetséges

Idősorelemzés típusa

Determinisztikus-Sztochasztikus

Simító eljárások

Egyszeres

exponenciális simítás Kettős exponenciális simítás Brown féle korrigált kettős exponenciális

simítás

Alapelv

A simító eljárások legegyszerűbb esete, trend és szezonalitás

nélküli idősorra alkalmazható

Lineáris trenddel rendelkező idősor kisimítására alkalmas

A mindenkori trendértéken kívül a

trendértéket előállító két paramétert is

felülvizsgálja, és újra meghatározza az újabb

megfigyelések birtokában

Alapképlet 푦 = = (1 − 훼)푦 + 훼푦

푆( ) = 훼푦 + (1 − 훼)푆( )

푆( ) = 훼푆( ) + (1 − 훼)푆( )

푆( )

= 훽 − 21 − 훼훼

푆( ) = 훽 −1 − 훼훼

Előny Egyszerű az alkalmazása,

Egyszerű alkalmazás a trenddel rendelkező sorokra

Kezelni tudja a trendet,

α értéken kívül más

paraméterekkel is

dolgozik,

Hátrány

Csak egy időszakra adhat előrejelzést, α

megválasztásának nehézsége

Rossz α választása esetén fennálló torzulások:

merevedés, gyenge simítás

Kiszámítása időigényes, az előbbieknél is

nagyobb fokú odafigyelést igényel.

Kritikus paraméter α α α, 훽 , 훽

Becslés Csak egyetlen időszakra

Lehetséges, de óvatosan kell kezelni Lehetséges

Idősorelemzés típusa

Sztochasztikus

AutoRegresszív MozgóÁtlag folyamatok AR MA ARMA

Alapelv

Olyan regressziós modellek, ahol a

magyarázó változók az

eredményváltozó késleltetettjei

A különböző időpontokhoz tartozó fehér zajok lineáris

kombinációja, amely az idősor jelenlegi értékét a jelenlegi és a megelőző

időpontok véletlen változóiként írja le

Az AR és MA módszerek egyesítésével lehetséges a p és q- ad rendű autoregresszív és

mozgóátlagolású modellek magasabb rendű folyamatainak

vizsgálata és ezek alapján pontosabb előrejelzés.

Alapképlet 푦 =

= 훼 + 휙푦 + +푒

푦 = 휀 + 휃 휀 +⋯+ 휃 휀

푦 = 휙 푦 + 휙 푦 + ⋯+

+휙 푦 + 휀 + 휃 휀+ ⋯+ 휃 휀

Előny

Remekül leírja az idősor tagjai

közötti kapcsolatot

Trendek kiszűrésére alkalmas, anélkül, hogy

elhagyná a véletlen változókat.

A korábbi modellek előnyös tulajdonságait hasznosítja,

alkalmazza egy módszer keretein belül.

Hátrány

Előzetes számításokat igényel, nem

minden típusú idősornál

alkalmazható. (Stacionaritás)

Nem tud előrejelezni, csak a meglévő adatokból dolgozik

Előzetes számítások szükségesek (Stacionaritás vizsgálata,

differenciálás). A korábbiakhoz képest jóval mélyebb statisztikai,

matematikai ismeretek ajánlottak használatához

Kritikus paraméter α, φ, ε ε, θ, q φ, θ, ε, késleltetések száma

Becslés Lehetséges Önmagában nem lehetséges Lehetséges

A táblázatok segítségével megpróbált átláthatóan összefoglalni mindazt, amit a

szakdolgozatomban bemutattam és kielemeztem. Természetesen a gyakorlatban jóval

több módszerrel találkozhatunk, de úgy gondolom a most megismert technikák

elengedhetetlenek az idősor elemzések és előrejelzések szempontjából.

Láthattuk milyen különbségek vannak az egyes módszerek lépései és az általuk

képzett előrejelzések minősége, megbízhatósága között. A statisztika, mint

tudományág fejlődése természetesen magába foglalja ezen módszerek fejlődését is. Az

autoregresszív és mozgóátlagolású modellek a legfejlettebbek, az általunk vizsgáltak

közül. Ha jobban elmélyülünk a témában, akkor találkozhatunk olyan ARMA

modellekkel, melyek általánosítottak (GARMA), nem lineáris trendet elemeznek

(NARMA), szezonalitást kezelnek (SARIMA) vagy éppen több idősor illesztésével az

„idegen” idősor múltbeli értékeivel is keresik a kapcsolatot (Vektor ARIMA-

VARIMA).

A modellek természetesen sohasem lesznek mentesek a hibáktól, az elkészített

előrejelzéseket mindig bizonyos szintű fenntartással kell kezelni, hiszen láthattuk, a

(nem feltétlenül ismert) valóság és a becsült adatok között mindig lesz eltérés. A

becslések megfelelő kezelése azonban elősegítheti munkánkat, az alkalmazkodás

folyamatát, s az utólagos elemzéssel még pontosabb előrejelzéseket vagy éppen

előrejelzési eljárásokat alakíthatunk ki.

Summary

In the last few decades the times series analysis started to be a special part of the

statistic field. The methods became more reliable and give more accurate information

than before. Unfortunately the Hungarian and the international literature are not

aligned. So I decided to write my master thesis about the comparison of the time series

analysis methods.

At first I presented the main informations about the time series. We need this basic

knowledge to understand the complex methods. To make easier the understanding

process I chose two kind of times series which are almost opposite if we want to

categorize them. The first time series gives information about the petroleum

consumpition of the transportation sector. The number of observation are 63 and made

annualy. I analized this time series with the simplier models like analitical trend

calculation, or moving average trend calculation.

The other time series gives information about the WTI spot prices. The number of

observation are 227 and made monthly. This time series was really usefull to

demonstrate the specialty of the ARMA process.

I used the oconometrical program called GRETL to make easier the analysis and

forecasting process in case of the ARMA process.

In the end of the process and methods I calculated forecasts to demonstrate how big is

the difference between models and models. We have to notice we should take these

forecasts carefully!

All of the methods have advantages and disadvantages. I didn’t show all of the time

series modell only few of them but I could say the later models improve these „old”

models to develope more usefull and reliable techniques.

Irodalomjegyzék

Domán Csaba- Szilágyi Roland- Dr. Varga Beatrix: Statisztikai elemzések alapjai I.-II., 2009

James D. Hamilton: Time Series Analysis, Princeton University Press, 1994

Dr. Havasy György- Molnár Máténé Dr.- Dr. Szunyogh Zsuzsanna- Tóth Mártonné Dr.:

Általános Statisztika I.-II., Nemzeti Tankönyvkiadó, Budapest, 1996

Hunyadi László- Vita László: Statisztika I.-II., AULA Kiadó Kft., Budapest, 2008

Hunyadi László- Vita László: Statisztika közgazdászoknak, Budapest, 2002

Gary Koop: Közgazdasági adatok elemzése, Osiris Kiadó Kft., Budapest 2009

G. S. Maddala: Bevezetés az ökonometriába, Nemzeti Tankönyvkiadó, Budapest, 2004

Polgárné Hoschek Mónika: Statisztikai idősorelemzés a tőzsdén, Phd értekezés, Sopron, 2011

Webes források:

Wikipédia WTI fogalom

http://hu.wikipedia.org/wiki/West_Texas_Intermediate

Adatok táblázatosan:

Közlekedési ágazat kőolajfogyasztása

http://www.eia.gov/totalenergy/data/annual/index.cfm#consumption

WTI árak alakulása

http://www.eia.gov/dnav/pet/hist/LeafHandler.ashx?n=pet&s=rwtc&f=m

U.S. Energy Information Administration: http://www.eia.gov/

Bevezetés az ökonometriába előadássorozatok: http://www.medstat.hu/eloadas10handout.pdf

Az ADF és KPSS tesztek kritikus értékei táblázatos formában:

http://www.economics.utoronto.ca/jfloyd/book/statabs.pdf

Melléklet

1. A közlekedési ágazat kőolajfogyasztása 1949 és 2011 között

2. A WTI hordónkénti árának alakulása 1994 és 2012 között

Dátum WTI árak (Dollár/ Hordó)

1994.01. 15,03 1994.02. 14,78 1994.03. 14,68 1994.04. 16,42 1994.05. 17,89 1994.06. 19,06 1994.07. 19,66 1994.08. 18,38 1994.09. 17,45 1994.10. 17,72 1994.11. 18,07

1994.12. 17,16 1995.01. 18,04 1995.02. 18,57 1995.03. 18,54 1995.04. 19,9 1995.05. 19,74 1995.06. 18,45 1995.07. 17,33 1995.08. 18,02 1995.09. 18,23 1995.10. 17,43 1995.11. 17,99 1995.12. 19,03 1996.01. 18,86

1996.02. 19,09 1996.03. 21,33 1996.04. 23,5 1996.05. 21,17 1996.06. 20,42 1996.07. 21,3 1996.08. 21,9 1996.09. 23,97 1996.10. 24,88 1996.11. 23,71 1996.12. 25,23 1997.01. 25,13 1997.02. 22,18 1997.03. 20,97

1997.04. 19,7 1997.05. 20,82 1997.06. 19,26 1997.07. 19,66 1997.08. 19,95 1997.09. 19,8 1997.10. 21,33 1997.11. 20,19 1997.12. 18,33 1998.01. 16,72 1998.02. 16,06 1998.03. 15,12 1998.04. 15,35 1998.05. 14,91

1998.06. 13,72 1998.07. 14,17 1998.08. 13,47 1998.09. 15,03 1998.10. 14,46 1998.11. 13 1998.12. 11,35 1999.01. 12,52 1999.02. 12,01 1999.03. 14,68 1999.04. 17,31 1999.05. 17,72 1999.06. 17,92 1999.07. 20,1 1999.08. 21,28 1999.09. 23,8 1999.10. 22,69 1999.11. 25 1999.12. 26,1 2000.01. 27,26 2000.02. 29,37 2000.03. 29,84 2000.04. 25,72 2000.05. 28,79 2000.06. 31,82 2000.07. 29,7 2000.08. 31,26 2000.09. 33,88 2000.10. 33,11 2000.11. 34,42 2000.12. 28,44 2001.01. 29,59 2001.02. 29,61 2001.03. 27,25 2001.04. 27,49 2001.05. 28,63 2001.06. 27,6 2001.07. 26,43 2001.08. 27,37 2001.09. 26,2 2001.10. 22,17 2001.11. 19,64 2001.12. 19,39 2002.01. 19,72 2002.02. 20,72 2002.03. 24,53

2002.04. 26,18 2002.05. 27,04 2002.06. 25,52 2002.07. 26,97 2002.08. 28,39 2002.09. 29,66 2002.10. 28,84 2002.11. 26,35 2002.12. 29,46 2003.01. 32,95 2003.02. 35,83 2003.03. 33,51 2003.04. 28,17 2003.05. 28,11 2003.06. 30,66 2003.07. 30,76 2003.08. 31,57 2003.09. 28,31 2003.10. 30,34 2003.11. 31,11 2003.12. 32,13 2004.01. 34,31 2004.02. 34,69 2004.03. 36,74 2004.04. 36,75 2004.05. 40,28 2004.06. 38,03 2004.07. 40,78 2004.08. 44,9 2004.09. 45,94 2004.10. 53,28 2004.11. 48,47 2004.12. 43,15 2005.01. 46,84 2005.02. 48,15 2005.03. 54,19 2005.04. 52,98 2005.05. 49,83 2005.06. 56,35 2005.07. 59 2005.08. 64,99 2005.09. 65,59 2005.10. 62,26 2005.11. 58,32 2005.12. 59,41 2006.01. 65,49

2006.02. 61,63 2006.03. 62,69 2006.04. 69,44 2006.05. 70,84 2006.06. 70,95 2006.07. 74,41 2006.08. 73,04 2006.09. 63,8 2006.10. 58,89 2006.11. 59,08 2006.12. 61,96 2007.01. 54,51 2007.02. 59,28 2007.03. 60,44 2007.04. 63,98 2007.05. 63,46 2007.06. 67,49 2007.07. 74,12 2007.08. 72,36 2007.09. 79,92 2007.10. 85,8 2007.11. 94,77 2007.12. 91,69 2008.01. 92,97 2008.02. 95,39 2008.03. 105,45 2008.04. 112,58 2008.05. 125,4 2008.06. 133,88 2008.07. 133,37 2008.08. 116,67 2008.09. 104,11 2008.10. 76,61 2008.11. 57,31 2008.12. 41,12 2009.01. 41,71 2009.02. 39,09 2009.03. 47,94 2009.04. 49,65 2009.05. 59,03 2009.06. 69,64 2009.07. 64,15 2009.08. 71,05 2009.09. 69,41 2009.10. 75,72 2009.11. 77,99

2009.12. 74,47 2010.01. 78,33 2010.02. 76,39 2010.03. 81,2 2010.04. 84,29 2010.05. 73,74 2010.06. 75,34 2010.07. 76,32 2010.08. 76,6 2010.09. 75,24 2010.10. 81,89 2010.11. 84,25 2010.12. 89,15 2011.01. 89,17 2011.02. 88,58 2011.03. 102,86 2011.04. 109,53 2011.05. 100,9 2011.06. 96,26 2011.07. 97,3 2011.08. 86,33 2011.09. 85,52 2011.10. 86,32 2011.11. 97,16 2011.12. 98,56 2012.01. 100,27 2012.02. 102,2 2012.03. 106,16 2012.04. 103,32 2012.05. 94,66 2012.06. 82,3 2012.07. 87,9 2012.08. 94,13 2012.09. 94,51 2012.10. 89,49 2012.11. 86,53

3. A Dickey-Fuller teszt kritikus értékei

4. A Kwiatkowski–Phillips–Schmidt–Shin teszt kritikus értékei

Üzleti előrejelzések készítésének módszerei

Documents

az árvízvédelem módszerei

a munkapiaci-előrejelzések gyakorlata: kitől tanulhatunk?

mindentudó doboz készítésének tartalmi...

grigorij grabovoj - Összpontosítás módszerei

a pcm módszerei, technikái

mutÁciÓ És kimutatÁsi mÓdszerei

az irodalomtÖrtÉnet mÓdszerei

az oktatás módszerei

agrárszektor modellek, konzisz-tencia vezérelt...

az anyanyelvi nevelés módszerei

pedagÓgiai kutatÁs kvantitatÍv mÓdszerei

a nat készítésének dokumentumai és kronológiája

a szÓbeli prezentÁciÓ kÉszÍtÉsÉnek szabÁlyai

joanna farrow - a mézeskalács készítésének kiskönyve

autoantitestek vizsgáló módszerei, hla tipizálás

földstatikai feladatok megoldási módszerei

a társadalomkutatás módszerei i

a munkaerő piaci előrejelzések nemzetközi gyakorlata ·...

klímastratégia készítésének megalapozó...

májbetegségek klinikai laboratóriumi vizsgáló...