igor satistika

25
Visoka Tehnološka Škola Strukovnih Studija Šabac Odsek: Inženjerski menadžment SEMINARSKI RAD IZ PREDMETA Statistika Tema rada: Dvodimenzionalna regresiona I korelaciona analiza .

Upload: drug-marko-nemac-feger

Post on 19-Jan-2016

52 views

Category:

Documents


3 download

DESCRIPTION

dvodimenzionalna matrica

TRANSCRIPT

Page 1: Igor Satistika

Visoka Tehnološka Škola Strukovnih Studija Šabac Odsek: Inženjerski menadžment

SEMINARSKI RAD IZ PREDMETAStatistika

Tema rada:Dvodimenzionalna regresiona I korelaciona analiza

.

Profesor: Student:Dr. Aleksa Macanović Igor Feger 5-24/2013

Šabac, Januar 2014

Page 2: Igor Satistika

Sadržaj

Sadržaj.......................................................................................................................2

Uvod..........................................................................................................................3

Korelaciona analiza...................................................................................................4

Linearna korelacija....................................................................................................5

Korelacija ranga.........................................................................................................5

Korelacija vremenskih nizova...................................................................................6

Regresiona analiza.....................................................................................................6

Linearna regresija i multipla regresija.......................................................................7

Odnos između varijabli............................................................................................10

Koeficijenti korelacije.............................................................................................11

Pearsonov koeficijent korelacije..............................................................................11

Spearmanov koeficijent korelacije..........................................................................12

Matrica korelacije....................................................................................................13

Primena korelacije...................................................................................................13

Zaključak.................................................................................................................16

Literatura.................................................................................................................17

2

Page 3: Igor Satistika

Uvod

Termin „ korelacija „ potice od latinske reci „ correlatio“ – medjuodnos. Pod pojmom korelacijska analiza se podrazumeva merenje jacine stohastickih meduzavisnosti tj. merenje stepena slaganja varijacija posmatranih pojava u relativnom smislu. Za merenje stepena korelacije ( zavisnosti) izmedu dva obilježja koristi se koeficijent proste linearne korelacije ili indeks korelacija za krivolinijske regresione modele. Za merenje stepena slaganja varijacija koristi se koificijent višestruke linearne korelacije.Izmedu regresione i korelacione analize postoje uske veze. Zahvaljujuci redovima engleskih naucnika Galtona i Persona termini korelacija i regresija su postali opšte statisticki prihvaceni. U praksi se najcešce srecemo sa pojavama koje su u medusobnoj vezi, uticu jedna na drugu kao npr. potrošnja domacinstva zavisi od zarade; prinos pšenice od utroška dubriva, kvalitet pšenice, kvalitet zemljišta; uspjeh studenata od predznanja, ucenja profesora.Prema tome znacajno je ispitivanje medusobnih veza i više pojave. Ispitivanje može da se vrši na bazi osnovnog skupa ili na bazi uzoraka o osnovnom skupu a sve to nosi odreden rizik greške koji se može kontrolisati.Funkcionalna veza izmedu pojava može da bude deterministicka (strogo odredena – matematicka ) ili stohasticka. Stohasticka zavisnost izmedu promenjivih se ispoljava u masi slucajeva, kao prosjecan odnos i ima vecu ili manju varijaciju individualnih slucajeva u odnosu u funkcionalnu vezu.Stohasticka zavisnost izražava se uslovno matematickim funkcijama koje najbolje aproksimiraju data emparijska obilježja uz odredenu grešku izbora. Cilj regresione analize je da se odredi funkcionalna veza izmedu posmatranih pojmova.Za odredivanje oblika regresije najcešce se kao najprikladnije i najjednostavnije sredstvo koristi dijagram rasipanja.Dijagram rasipanja se konstruiše tako što se u kordinatima sistem unoseparovi vrednosti varijabile X i Y, odnosno on se sastoji od tacaka (xi i yi) a iz rasporeda ovih tacaka zakljucujemo o obliku i smeru i jakosti veze.

3

Page 4: Igor Satistika

Korelaciona analiza

Meðu masovnim pojavama postoje meðusobni uticaji u smislu da promena jedne pojave (ili više pojava) ima za posljedicu i promenu neke druge pojave. Ako izmeðu dvaju ili više obilježja X1 , . . ., Xn postoji veza, onda kažemo da su ta obilježja u korelaciji ili da su korelirana. Matematièki zakon koji reprezentira tu vezu nazivamo funkcija regresije, a njen grafik kriva regresije. Korelacionom (korelacijskom) analizom prouèava se uzajamna zavisnost i varijacije meðu pojavama. Ako je x uzrok a y posljedica, vredi:1) Y= f(x), radi se o regresijskom modelu i regresijskoj analizi.2) Kada je svejedno koja se relacija moze napisati, tj. Y = f(x) i X = f(y) govori se o korelacijskom modelu.Veze meðu pojavama mogu biti:a) po obliku: linearna i krivolinijska;b) po smeru: pozitivna ili negativna;c) po intenzitetu: funkcionalna ili stohastièka.

a) Kada promena jedne pojave za jedinicu mere povlaèi za sobom promenu druge pojave za odreðeni jednaki iznos, radi se o linearnoj vezi, tj. linearnoj korelaciji. Kada promena jedne pojave nije praæena jednakim iznosima druge pojave, radi se o krivolinijskoj korelaciji.b) Pozitivni smer veze je kada rast (ili pad) jedne pojave prati rast (pad) druge pojave. Negativni smer je kada jedna pojava pokazuje rast, a druga pad i obratno.c) Veoma jake veze tzv. teoretske veze meðu pojavama zovu se funkcionalne veze. To je kada svakoj vrednosti jedne pojave korespondira taèno odreðena vrednost druge pojave. Labavije veze nazivaju se stohastièke veze.

4

Page 5: Igor Satistika

Linearna korelacija

Linearna korelacija zadana je funkcijamaY = f (x) i X = g (y);

Yc =a+bx, Xc = a’ + b’ y - pravci regresije.Ako su b i b’ pozitivnog predznaka radi se o linearnoj vezi pozitivnog smera i obratno.Prva informacija o postojanju linearne veze najjednostavnije se dobije tako da se u koordinatni sistem na apscisu nanese vrednosti pojave x a na ordinatu pojave y. Svaka tačka je dakle određena parom X, Y. Takav grafikon zovemo dijagram rasipanja. Ako je oblak tačaka zadan uzduž nekog zamišljenog pravca, veza je linearna. Što je oblak tačaka zbijeniji s obzirom na liniju regresije, veza među pojavama je jača i obratno.

Koeficijent determinacije je mera jakosti veza među pojavama izražena u drugom stupnju. To je odnos između protumačenog dela varijanse i ukupne varijanse (r2).

Pearsonov koeficijent korelacije je mera jakosti linearne veze među pojavama izražena u prvom stepenu (r=√r2). Može imati vrednost od –1 do +1. Što je bliži krajnjim granicama, veza je čvršća. Kada je nula između promatranih pojava, ne postoji linearna zavisnost.

r=√bb'

Korelacija ranga

Da bi se ustanovilo postoji li veza između dve pojave istražuje se postojanje veze između rangova promatranih pojava. Jakost veze među rangovima X i Y meri se Spearmanovim koeficijentom korelacije ranga:

Taj koeficijent može imati vrednost od –1 do +1 i što je vrednost bliža svojim granicama, veza među rangovima X i Y je jača.

5

Page 6: Igor Satistika

Korelacija vremenskih nizova

Kod ispitivanja veze između pojava promatranih u vremenu treba provjeriti postojanje trenda kod tih pojava, a to utječe na veličinu koeficijenta korelacije ukoliko trendovi nisu paralelni sa apscisom. Ukoliko postoji djelovanje trenda na koeficijent korelacije, pre izračunavanja koef. korelacije treba eliminirati utjecaj trendova i to se vrši izračunavanjem parcijalnog trenda korelacije.

Regresiona analiza

Regresiona (regresijska) analiza je najvažnija analiza u statistici, a koristi se za utvrđivanje da li promena svojstva jedinice neke serije podataka zavisi od promene svojstva jedinice nekog drugog skupa. Ako postoji paralelnost kretanja promena svojstava jedinica promatranih skupova, onda se može reći da postoji izvjesna zavosnost između ta dva skupa. Zavisnost između dva posmatrana skupa može biti:1. funkiconalna zavisnost - ako svakoj vrednosti jedne promenjive (pojave) odgovara jedna vrednost neke druge promenjive (pojave)2. tohastička zavisnost – ako jednoj vrednosti nezavisne promenjive y odgovara čitav niz mogućih vrednosti zavisne pormenjive x.

Regresiona analiza se bavi istraživanjem varijabiliteta i otkrivanjem funkcionalnog oblika, kojem se najviše približava kvantitativno slaganje varijacija posmatranih pojava.

Linearni model regresije se koristi u situaciji kada empirijski podaci u nekoj seriji pokazuju tendenciju linearnog povećanja ili smanjenja, odnosno, koristi se kada se žele istražiti dve pojave i ustanoviti postoji li linearna veza između njih (linearna veza postoji ako porast jedne pojave izaziva porast druge pojave).

Linearna funkcija regresije je:Y= a + bx

a i b parametri su konstante x i y – odnos između njih predstavljaju sve moguće vrednosti koje zadovoljavaju jednačinu.

6

Page 7: Igor Satistika

∑ y=na+b ∑ x

Σxy=aΣx+bΣ x2

Parametar b u jednačini regresije označava intenzitet očekivanih promena pojave (y), koje nastaju iz promene pojave (x). Intenzitet tih promena apsolutno je određen parametrom b, tako da su mogući slučajevi:

1. b > 0povećanjem pojave (x) doći će do povećanja pojave (y)

2. b < 0povećanjem pojave (x) doći će do smanjenja pojave (y)

3. b = 0promena pojave (x) neće uticati na promenu pojave (y)

Linearna regresija i multipla regresija

Linearna regresija

Regresijska analiza jedna je od metoda multivarijatne analize koja pretpostavlja postojanje najmanje dvaju skupova varijabli, a koristi se za proučavanje i modeliranje povezanosti i razlika između tih skupova varijabli. Regresijskom metodom pokušava se ustanoviti postojanje i razina povezanosti između jedne ili više zavisnih (kriterijskih) varijabli i prediktora ( nezavisnih varijabli ), pri čemu se posebna važnost pridaje mogućnosti prognoziranja ili predikcije vrednosti (ili varijabilnosti) jedne varijable na osnovu drugih.Ako se odnos između parametara u regresijskoj analizi može prikazati nekom linearnom funkcijom, govorimo o linearnom regresijskom modelu.

7

Page 8: Igor Satistika

Prvi oblik linearne regresije pojavio se još početkom 19. stoljeća kao metoda najmanjih kvadrata od strane francuskog matematičara Adrien-Marie Legendrea (1805.) i njemačkog znanstvenika Carla Friedricha Gaussa (1809.), koji su se njome služili pri određivanju orbita nebeskih tela oko sunca. Pojam regresije uveo je sir Francis Galton (1877.), koji je studirajući zajedno sa Karlom Pearsonom nasljeđivanje u biologiji istraživao vezu između visine očeva i sinova, te je ustanovio fenomen koji je nazvao regresijom prema prosjeku, tj. otkrio je da visoki očevi imaju visoke sinove, no u prosjeku ne toliko visoke kao što su oni sami a da niski očevi imaju također niske sinove, ali opet malo više nego što su oni.

Dok je za Galtona ovo otkriće imalo samo biološku važnost, Pearson je kasnije proširio i razradio pojam regresije i uveo ga u statistiku. On je pretpostavio da se ovisnost visine sinova o visini njihovih očeva može izraziti kao funkcija , pri čemu je y zavisna ili kriterijska varijabla (visina sinova), a x nezavisna ili prediktorska varijabla (visina očeva). y=f(x)

Općenito, ukoliko se radi o problemu zavisnosti koji se realno može opisati samo dvjema varijablama, jednom kriterijskom (y) i jednom prediktorskom (x), zavisnost varijable y o varijabli x može se prikazati linearnom funkcijom od x u obliku y=bx+a.

Ta je funkcija ujedno jednadžba regresijskog pravca u kojoj je odsječak na osi y, a b koeficijent regresije, odnosno tangens ugla koji regresijski pravac zatvara s osom x. Pošto jačina povezanosti ne ovisi o konstanti a, pravac se često može pomaknuti u ishodište koordinatnog sistema tako da je a=0, pa funkcija poprima oblik y=bx.

Na osnovu pravca regresije moguće je prognozirati rezultate jedne varijable na osnovi druge. Tako možemo izračunati regresijski pravac za varijablu x na osnovu rezultata varijable y i obrnuto, regresijski pravac za varijablu y na temelju rezultata varijable x. Za dobivanje najtačnijeg prikaza pravca regresije u statistici najčešće se koristi metoda najmanjih kvadrata koja se sastoji od minimiziranja sume kvadrata rezidualnih vrednosti (razlika između dvu vrednosti varijabli). Tako dobiveni pravac je najreprezentativniji jer ima najmanju sumu kvadrata odstupanja pojedinačnih rezultata od stvarnog pravca regresije.

8

Page 9: Igor Satistika

Ovakav model je pogodan za korištenje u slučajevima kad se promatrana pojava može opisati sa samo dvjema varijablama, jednom zavisnom i jednom nezavisnom, dakle ne postoji utjecaj drugih nezavisnih varijabli. Također, opisana metoda najčešće pretpostavlja da je zavisna varijabla kontinuirana, te da su rezultati normalno (gausovski) distribuirani. Ako ti uvjeti nisu zadovoljeni, primenjujemo različite poluparametrijske ili neparametrijske regresijske modele.

Znanstvena istraživanja su, međutim, najčešće mnogo složenija i uključuju više nezavisnih varijabli koje nazivamo prediktorskim skupom, a zavisnost među varijablama prikazujemo generalnim regresijskim modelom. Tada govorimo o multivarijatnoj ili multiploj regresijskoj analizi

Multipla regresija

Jednačinom pravca regresije procjenjuje se zavisna varijabla za određenu vrednost nezavisne varijable. Procjena je to bolja sto je veza među varijablama, tj. pojavama uža, odnosno, što je korelacija jača. Pojedina pojava nije u vezi samo s jednom od pojava, nego je povezana s mnogo njih.Što je veći broj varijabli koje koreliraju s varijablom čiju vrednost procjenjujemo uvrštenih u jednačinu to je procjena te varijable bolja. Uvrštavanjem varijabli u jednačinu linijom regresije izražava se više odnosa (multipli odnosi) a korelaciju među njima nazivamo multipla korelacija.Multipla korelacija zasniva se na istim načelima kao i korelacija između dve pojave, samo je procedura računanja dulja i složenija. U ovom je slučaju varijabla koju procjenjujemo zavisna, a sve ostale pomoću kojih se ona procjenjuje nezavisne varijable.

Jednačina multiple regresije za procjenu jedne pojave kad su poznate vrednosti drugih dvaju pojava s kojima je u vezi glasi:

Xc1.23 = a1.23 + b12.3X2 + b13.2X3

Jednačina takvog oblika je jednačina ravnine koja se najbolje prilagođava originalnim vrednostima geometrijski prikazanim u trodimenzionalnom koordinatnom sistemu. Kad se uvode tri ili više neovisnih varijabli u račun, jednačina multiple korelacije predstavlja jednačinu multidimenzionalne hiperravnine, a ta se geometrijska konfiguracija ne može predočiti. Jednačina tada ima oblik:

9

Page 10: Igor Satistika

Xc1.234 = a1.234 + b12.34X2 + b13.24X3 + b14.23X4-na analogan način računamo vezu između jedne pojave i četiri, pet, šest i više pojava. Imali bismo jednu zavisnu i četiri, pet ili šest nezavisnih varijabli.

Odnos između varijabli

Međusoban odnos između dve varijable, grafički možemo prikazati pomoću dvodimenzionalnog grafa, tzv. scatter dijagram (dijagrama raspršenja). Vrednosti jedne varijable prikazane su na x osi, a druge na y osi dijagrama. Točke presjeka kreću se oko određenog pravca koji se naziva linija regresije. Što su točke bliže pravcu, korelacija je veća. Što su točke raspršenije korelacija je manja. U praksi je vizualno vrlo teško, osim u slučaju savršen korelacije odrediti stupanj povezanosti između varijabli. Ovisno o međusobnom odnosu dve varijabli među kojima postoji korelacija, ona može biti linearna ili nelinearna. Kod linearne korelacije, točke su grupirane oko pravca. Kod nelinearne korelacije, točke su grupirane oko neke druge krivulje.Dve varijable koje promatramo sa ciljem utvrđivanja njihove korelacijske povezanosti mogu biti u 4 različita odnosa:1. kada mala vrednost jedne varijable odgovara maloj vrednosti druge varijable, kao i kada velika vrednost jedne varijable odgovara velikoj vrednosti druge varijable, radi se o pozitivnoj korelaciji.2. kada mala vrednost jedne varijable odgovara velikoj vrednosti druge varijable i obratno, radi se o negativnoj korelaciji.3. kada vrednost jedne varijable u nekim intervalima odgovara maloj vrednosti druge varijable, a u drugim intervalima velikoj vrednosti, radi se o nemonotonoj korelaciji. Ako se korelacija više nego jednom menja od pozitivne prema negativnoj, takva korelacija naziva se ciklička korelacija.4. kada se na osnovu vrednosti jedne varijable ne može zaključiti ništa o vrednosti druge varijable, tada korelacija ne postoji. Točke u takvom grafu su raspršene.

Koeficijenti korelacije

Koeficijenti korelacije izražavaju meru povezanosti između dve varijable u jedinicama neovisnima o konkretnim jedinicama mere u kojima su iskazane vrednosti varijabli. Postoji više koeficijenata korelacije koji se koriste u različitim

10

Page 11: Igor Satistika

slučajevima. U praksi se prilikom rada s linearnim modelima najčešće koristi Pearsonov koeficijent korelacije (produkt moment koeficijent korelacije). Prilikom rada s modelima koji nisu linearni najčešće se koristi Spearmanov koeficijent korelacije (produkt rang koeficijent korelacije).

Pearsonov koeficijent korelacije

Pearsonov koeficijent korelacije koristi se u slučajevima kada između varijabli promatranog modela postoji linearna povezanost i neprekidna normalna distribucija. Vrednost Pearsonovog koeficijenta korelacije kreće se od +1 (savršena pozitivna korelacija) do –1 (savršena negativna korelacija). Predznak koeficijenta nas upućuje na smer korelacije – da li je pozitivna ili negativna, ali nas ne upućuje na snagu korelacije. Pearsonov koeficijent korelacije bazira se na usporedbi stvarnog utjecaja promatranih varijabli jedne na drugu u odnosu na maksimalni mogući utjecaj dvu varijabli. Označava se malim latiničkim slovom r. Za izračun koeficijenta korelacije potrebna su tri različite sume kvadrata (SS): suma kvadrata varijable X, suma kvadrata varijable Y i suma umnožaka varijabli X i Y.Suma kvadrata varijable X jednaka je sumi kvadrata odstupanja vrednosti varijable X od njezine prosječne vrednosti:

Prosječna vrednost varijable X jednaka je:

Prosječna vrednost varijable Y jednaka je:

Suma umnožaka varijabli X i Y jednaka je sumi umnožaka odstupanja vrednosti varijabli X i Y od njihovih prosjeka:

11

Page 12: Igor Satistika

Koeficijent korelacije jednak je omeru:

U slučaju da među varijablama ne postoji linearna povezanost, može se provesti odgovarajuća transformacija kojom se vrednosti varijabli modela svode na linearne.

Spearmanov koeficijent korelacije

Spearmanov koeficijent korelacije (produkt rang korelacije) koristi se za merenje povezanosti između varijabli u slučajevima kada nije moguće primeniti Pearsonov koeficijent korelacije. Bazira se na tome da se izmeri dosljednost povezanosti između poredanih varijabli, a oblik povezanosti (npr. linearni oblik koji je preduvjet za korištenje Pearsonovog koeficijenta) nije bitan. Slučajevi u kojima se koristi Spearmanov koficijent su npr. kada među varijablama ne postoji linearna povezanost, a nije moguće primeniti odgovarajuću transformaciju kojom bi se povezanost prevela u linearnu (npr. veza između seizmičkog atributa i bušotinskog podataka u naftnoj geologiji). Spearmanov koeficijent korelacije kao rezultat daje približnu vrednost koeficijenta korelacije koji se tretira kao njegova dovoljno dobra aproksimacija. Prilikom korištenja Spearmanovog koeficijenta, vrednosti varijabli potrebno je rangirati i na takav način svesti na zajedničku meru. Najjednostavniji način rangiranja je da se najmanjoj vrednosti svake varijable pridjeli rang 1, slijedećoj po veličini rang 2 i tako sve do posljednje kojoj se pridjeljuje maksimalan rang. Izračunavanje koeficenta radi se korištenjem vrednosti prideljenih rangova. Spearmanov koeficijent označavati ćemo sa rS.Formula za izračun Spearmanovog koeficijenta korelacije je:

gdje je d razlika vrednosti rangova dve promatrane varijable, a n je broj različitih serija.

12

Page 13: Igor Satistika

Matrica korelacije

Ponekad nam u istraživanju nije dovoljna informacija o korelaciji dve promatrane varijable, veæ nas zanima na koji naèin više varijabli meðusobno utjeèe jedna na drugu. Nakon što se promatranjem meðusobnog odnosa svih parova dvaju varijabli utvrdi njihova meðusobna korelacija, izraðuje se matrica korelacije. Retci i stupci matrice predstavljaju promatrane varijable, a podatak na presjeku odreðenog retka i stupca predstavlja koeficijent korelacije izmeðu varijabli u odgovarajuæem retku i stupcu. Matrica na dijagonali ima podatak 1 (pošto je svaka varijabla sama sa sobom u potpunoj korelaciji). Dobivena matrica je simetrièna - podaci iznad i ispod dijagonale za isti par varijabli su identièni. Zbog tih svojstava matrica je redundantna i dovoljno je promatrati jedan njezin dio, iznad dijagonale ili ispod dijagonale. Vizualno možemo utvrditi u kojoj meri su dve pojedinaène varijable u korelaciji, koje varijable u meðusobnom odnosu imaju najveæi ili najmanji koeficijent korelacije, te koji skupovi varijabli se istièu sliènim koeficijentima. Vizualno ne možemo utvrditi na koji naèin i u kolikoj meri više varijabli zajednièki utjeèe na drugu pojedinaènu varijablu.

Primena korelacije

Rezultati korelacije imaju brojne praktièke primene, ali se ni u kojem sluèaju ne bi smeli samo na osnovu rezultata utvrðene korelacije donositi zakljuèci o uzroèno-poljediènoj vezi. Korelacija se ne bi trebala koristiti za donošenje zakljuèaka o uzroèno-posljediènoj vezi izmeðu dve varijable pošto je velika vjerojatnost da æe zakljuèak biti kriv. Èest sluèaj je da se promatra odnos izmeðu dve varijable koje su u korelaciji visokog stupnja. Meðutim, postoji i skrivena treæa varijabla koju bi takoðer trebalo staviti u odnos sa promatrane dve, kako bi se ispravno protumaèio uzroèno-posljedièni odnos.Jedan od klasiènih, u literaturi èesto spominjanih primera, je pojava uoèena u Kopenhagenu nekoliko godina posle završetka Drugog svjetskog rata. Zamecena je korelacija izmeðu poveæanja broja novoroðene djece i broja roda koje su se gnezdile u gradu. Ako bi se korelacija bez razmišljanja protumaèila kao uzroèno-posljedièni odnos, moglo bi se zakljuèiti da rode donose djecu. Pravi uzrok leži u tome što se po završetku rata velik dio stanovništva sa sela preselio u grad, što je

13

Page 14: Igor Satistika

uzrokovalo poveæanje broja stanovnika u gradu, a samim tim i poveæanje broja novoroðene djece. Istovremeno, za nove stanovnike grada izgradile su se nove kuæe, tako da su i rode dobile veæi broj dimnjaka za svoja gnezda. Tu je dakle, postojala skrivena varijabla - broj stanovnika, koju je prilikom donošenje zakljuèka o uzroèno-posljediènoj vezi trebalo uzeti u obzir.Naravno, ima i suprotnih primera kada ne postoji skrivena varijabla. Vrlo rano je ustanovljena korelacija izmeðu pušenja i vjerojatnosti da æe osoba oboljeti od raka. Duhanska industrija branila je svoju tezu da se ne može uspostaviti uzroèno-posljedièna veza izmeðu pušenja i vjerojatnosti dobivanja raka. Oni su tezu obrazlagali time da su pušaèi vrlo èesto nervozne osobe, koje zbog toga što su nervozne poèinju pušiti. Istovremeno postoji korelacija izmeðu toga da je osoba nervozna i vjerojatnosti da æe takva osoba dobiti rak. S druge strane, lekari su tvrdili da postoji izravna uzroèno-posljedièna veza izmeðu pušenja i vjerojatnosti da æe osoba dobiti rak, što je kasnije i potvrðeno.Na osnovu utvrđene korelacije ne možemo sa sigurnošću utvrditi uzročno-posljedičnu vezu između dvu varijable. Unatoč tome korelacija nam daje informaciju o tome da su te dve varijable na određeni način povezane. Iako ne shvaćamo u potpunosti mehanizam te povezanosti, znamo da povezanost postoji i prilikom opisa varijabli to možemo uzeti u obzir. Npr. poznato nam je da je povećana tjelesna težina u korelaciji sa povećanom smrtnošću i možemo reći da su te dve varijable u međusobnom odnosu. Korelacija se najčešće koristi za predviđanje vrednosti jedne varijable ovisno o promeni vrednosti druge varijable, u slučaju ako su te dve varijable u korelaciji. Saznanje o korelaciji između dve varijable pomaže nam da s većom sigurnošću predvidimo na koji način će se menjati vrednost druge varijable. Npr. poznato nam je da su količina unesene soli u organizam i visina krvnog tlaka osoba odreðenog spola i dobi u korelacijskom odnosu i taj odnos nam je poznat. Na osnovu tih informacija možemo dozirati unos potrebne kolièine soli u organizam kako bi krvni tlak ostao unutar granica normale, a organizam bi primio dovoljnu kolièinu soli za normalno funkcioniranje.Utvrðivanjem korelacije izmeðu vrednosti dve varijable može se dobiti prva informacija o njihovoj meðusobnoj povezanosti. Nakon toga se utvrðena povezanost može detaljnije istražiti drugim statistièkim metodama. Npr. korelacijom se utvrdi da postoji veza izmeðu korištenje nekog kemijskog sredstva i pojave odreðene bolesti. Nakon toga se može u eksperimentalnim uvjetima, na laboratorijskim životinjama utvrditi da li stvarno postoji uzroèno-posljedièna veza

14

Page 15: Igor Satistika

izmeðu tih varijabli. Korelacija je tu odigrala ulogu da izolira varijable koje meðusobno na neki naèin utjeèu jedna na drugu, a nakon toga druge metode, koje to mogu, potvrðuju ili odbacuju odgovarajuæu uzroèno-posljediènu hipotezu. Korelacija se èesto koristi za provjeru rezultata testiranja. Nakon provednog testiranja utvrðuje se odgovarajuæa korelacija izmeðu testiranja i dobivenih rezultata. Nakon što se testiranje ponovi, ponovno se utvrðuje korelacija izmeðu novih i prethodno dobivenih rezultata. U sluèaju da korelacija ne postoji, obièno se zakljuèuje da je provedeni eksperiment vrlo nestabilan pošto ponovljeni eksperiment ne može ponoviti prethodne rezultate.

15

Page 16: Igor Satistika

Zaključak

Korelacija (lat. con = sa, relatio = odnos) predstavlja suodnos ili međusobnu povezanost između različitih pojava predstavljenih vrednostima dve varijabli. Pri tome povezanost znači da je vrednost jedne varijable moguće sa određenom vjerojatnošću predvidjeti na osnovu saznanja o vrednosti druge varijable. Klasični primeri povezanosti su npr. saznanje o utjecaju količine padalina na urod žitarica, o povezanosti slane hrane i visokog krvnog tlaka i sl. Promena vrednosti jedne varijable utječe na promenu vrednosti druge varijable. Varijabla koja svojom vrednošću ne utječe na drugu varijablu naziva se neovisna varijabla. Varijabla na koju se utiče naziva se ovisna varijabla. Npr. unošenje više soli u organizam utječe na porast krvnog tlaka, dok porast krvnog tlaka ne utječe na povećanje unošenja soli u organizam. U ovom primeru unošenje soli u organizam je neovisna varijabla, a povećanje krvnog tlaka je ovisna varijabla. Mogući su slučajevi da dve varijable istovremeno utječu jedna na drugu, pa su u tom slučaju obe varijable istovremeno i ovisne i neovisne.

16

Page 17: Igor Satistika

Literatura

1. Internet linkovi: www.ef.uns.ac.rs www.nastava.fsk.unsa.ba www.profesorka.wordpress.com

17