antrinė kiekybinių duomenų analizė - lida lietuvos hsm ...€¦ · 1 projektas „lietuvos hsm...

1

Projektas

„Lietuvos HSM duomenų archyvo LiDA plėtra“

SFMIS Nr. VP1-3.1-ŠMM-02-V-02-001

Antrinė kiekybinių duomenų analizė SEMINARO MEDŽIAGA

dr. Eglė Butkevičienė ir dokt. Aida Vaicekauskaitė

(Paslaugų sutartis Nr. SA-684/2010-4, 2010-02-08)

Kaunas, 2010

2

SANTRAUKA

Mokymo kursas „Antrinė kiekybinių duomenų analizė“ susipažindina su antrinės duomenų analizės

samprata ir jos atlikimo principais, reikalingais analizuojant apklausų kiekybinius duomenis; ugdo

gebėjimus analizuoti tyrimų duomenis bei atlikti įvairią duomenų statistinę analizę panaudojant

NESSTAR ir profesionalią statistikos programinę įrangą SPSS, suprasti ir interpretuoti statistinių

skaičiavimų rezultatus, rengti statistinių tyrimų ataskaitas.

Mokymo kurso medžiagą sudaro 3 skyriai: (1) Antrinės duomenų analizės samprata ir jos principai,

(2) Duomenų statistinė analizė panaudojant NESSTAR, (3) Duomenų statistinė analizė panaudojant

SPSS.

3

TURINYS

1 Antrinės duomenų analizės samprata ir jos principai …………………………………. 4

1.1 Antrinės duomenų analizės samprata …………………………………………. 4

1.2 Antrinės duomenų analizės privalumai ir trūkumai …………………………… 4

1.3 Duomenų šaltinių antrinei analizei įvairovė …………………………………… 5

1.4 Naudojimosi duomenų archyvais sąlygos ir etika …………………………….. 9

1.5 HSM internetiniai duomenų archyvai pasaulyje ir Lietuvoje. LiDA

pristatymas ..................................................................................................................... 11

2 Duomenų statistinė analizė panaudojant NESSTAR …………………………………

2.1 NESSTAR programinis paketas, skirtas statistinių duomenų ir metaduomenų

kaupimui, saugojimui ir analizei ................................................................................... 16

2.2 Duomenų ir metaduomenų saugojimo formatai ir sistema NESSTAR

programinėje aplinkoje ................................................................................................. 18

2.3 Duomenų analizės panaudojant NESSTAR galimybės .................................... 19

2.4 Duomenų vaizdavimas NESSTAR programinėje aplinkoje ............................. 21

2.5 NESSTAR duomenų analizės rezultatų perkėlimas į kitus formatus ............... 22

3 Duomenų statistinė analizė panaudojant SPSS ………………………………………. 23

3.1 SPSS programinė įranga statistinių duomenų analizei ………………………. 23

3.2 Aprašomoji statistika …………………………………………………………

3.3 Hipotezių tikrinimas ………………………………………………………….

3.4 Požymių priklausomumo analizė …………………………………………......

3.5 Ryšiai tarp kintamųjų ........................................................................................

Literatūra .................................................................................................................................... 40

4

1. ANTRINĖS DUOMENŲ ANALIZĖS SAMPRATA IR JOS PRINCIPAI

1.1. Antrinės duomenų analizės samprata

Antrinė duomenų analizė plačiai taikyta1 ir tebetaikoma socialiniuose moksluose. Labai dažnai ši

analizė atliekama su statistiniais duomenimis (Frankfort-Nachmias ir Nachmias, 1996, p.316). Antrinė

kiekybinių duomenų analizė – tai analizė, kai tyrėjai analizuoja duomenis, surinktus kitų tyrėjų ir

institucijų.

Kaip pastebi Ch.Frankfort-Nachmias, D.Nachmias (1996, p.292), tokį tyrėjų suinteresuotumą

antrine duomenų analize lemia trys pagrindinės priežastys:

• konceptualiosios priežastys, kada tyrimo hipotezėms patikrinti netinka kiti tyrimo metodai

(pavyzdžiui, studijuojant telegrafo sklaidos tendencijas XIXa. - XXa. pradžioje) arba norima duomenis

lyginti tarp įvairių šalių ir visuomenių;

• ekonominės priežastys, nes analizuoti jau surinktus duomenis pigiau nei atlikti naują tyrimą

(pirminių duomenų rinkimo metodai paprastai reikalauja daug išlaidų).

• metodologinės priežastys, nes:

1. tokiu būdu duomenys yra replikuojami ir plačiau pristatomi visuomenei,

2. galimi pakartotiniai (ir longitiudiniai) tyrimai, kai duomenys yra lyginami su anksčiau atliktų

tyrimų duomenimis,

3. tų pačių duomenų pagrindu atliekamos naujos koreliacijos;

4. paprastai analizuojami reprezentatyvūs duomenys, kurių pagrindu galima daryti platesnius

apibendrinimus.

1.2. Antrinės duomenų analizės privalumai ir trūkumai

Antrinės kiekybinių duomenų analizės privalumai:

• Santykinai maži kaštai (atvira prieiga prie duomenų);

• Santykinai greita analizė;

• Duomenų patikimumas;

• Duomenų palyginamumas (laiko, regionų, šalių atžvilgiu).

1 Kaip pavyzdį galima paminėti klasikinę Emil Durkheim (1951) savižudybių statistikos analizę.

5

Antrinės kiekybinių duomenų analizės trūkumai:

• Reikalauja aukštos tyrėjo kompetencijos ir kiekybinės/statistinės analizės išmanymo;

• Ne visada tinka tyrėjo iškeltai problemai analizuoti.

1.3. Duomenų šaltinių antrinei analizei įvairovė

Kaip teigia Schndelbach (Sarantakos, 2005) žinių ir duomenų šaltiniai žmonijos istorijos eigoje

buvo įvairiausi. Istorinėje perspektyvoje galima išskirti daug “žinių” šaltinius:

• “Sveikas protas” : visi tai žino

• Intuicija : aš tiesiog žinau, nujaučiu

• Įsitikinimai : remiuosi asmeniniu įsitikinimu

• Patirtis: laikas parodė, kad taip yra

• Tradicija: taip buvo visada

• Asmeninis patyrimas: man tai pasitvirtino

• Autoritetas, valdžia, ekspertinė nuomonė: yra taip, nes taip sakė profesorius X

• Antgamtinės jėgos

• Logika: tai yra logiška

• Moksliniai metodai: žinios iš empirinių tyrimų

Žinios iš empirinių tyrimų yra pagrindinis šaltinis antrinei duomenų analizei. Empiriniais

tyrimais susidomėta labai seniai. Dar senovės graikai (pvz. Thales (640-550 pr.Kr.)) taikė stebėjimo

metodą ir pasiūlė jį vadinti “empiriniu-moksliniu” požiūriu į pasaulį. Kiti graikų filosofai, skyrę

ypatingą dėmesį empirikai: Anaximander, Empedocles, Hippocrates (empirinių principų taikymas

eksperimentams medicinos srityje).

Šaltiniu antrinei duomenų analizei gali būti bet kokie duomenys – tiek kiekybiniai, tiek

kokybiniai. Todėl galima kalbėti apie šaltinių antrinei duomenų analizei įvairovę (žr. 1.3.1 pav. ).

Tačiau pagrindinis klausimas – kaip tyrėjams gauti duomenis antrinei analizei?

6

1.3.1 pav. Duomenų šaltinių antrinei analizei įvairovė

Vienas pagrindinių šaltinių – tai socialinių mokslų duomenų archyvai.

Roper viešosios nuomonės tyrimo centras (angl. The Roper Center for Public Opinion

Research) – tai pirmasis socialinių mokslų duomenų archyvas2. Elmo Roper įkūrė šį Centrą po II-ojo

pasaulinio karo, 1946 – 1947 m. Jis ir George Gallup atliko pagrindinius vaidmenis kuriant socialinių

mokslų duomenų archyvą. Elmo Roper įkalbėjo George Gallup bei Archibald Crossley pateikti savo

vykdomų apklausų duomenis į visiems prieinamą archyvą3. Šiuo metu centre sukaupta kelių tūkstančių

apklausų duomenys iš apie 70-ties pasaulio šalių. Dabar šis Centras yra Konektikuto universiteto dalis,

vienas didžiausių visuomenės nuomonės tyrimų duomenų archyvas. Prieiga -

http://www.ropercenter.uconn.edu/.

Vėliau kūrėsi ir kiti Šiaurės Amerikos šalių socialinių duomenų archyvai. Šiuo metu didžiausias

pasaulyje duomenų archyvas, kuriame talpinami tyrimų duomenų rinkiniai, skirti socialinių mokslų

studentams, mokslininkams ir tyrėjams, yra Tarpuniversitetinis politikos ir socialinių tyrimų

2 Šaltinis: http://www.ropercenter.uconn.edu/center/roper_history.html

3 Šaltinis: http://www.ropercenter.uconn.edu/center/elmo_bio.html

7

konsorciumas (angl. The Inter-university Consortium for Political and Social Research ICPSR)4. Šis

archyvas buvo įsteigtas 1962 m. Šiuo metu jame yra apie 500,000 failų iš 700 akademinių institucijų.

Prieiga - http://www.icpsr.umich.edu/icpsrweb/ICPSR/index.jsp (žr. 1.3.2 pav.).

1.3.2 pav. Tarpuniversitetinio politikos ir socialinių tyrimų konsorciumo tinklalapis

Registracija ICPSR vykdoma: https://www.icpsr.umich.edu/cgi-bin/newacct

Praktinė užduotis: Užsiregistruoti ICPSR archyvo vartotoju ir susipažinti su arcyve esančiais duomenų

rinkiniais (žr. 1.3.3 pav.) bei jų online analizės galimybėmis (1.3.4 pav.).

4 Šaltinis: http://www.icpsr.umich.edu/icpsrweb/ICPSR/org/index.jsp

8

1.3.3 pav. Tarpuniversitetinio politikos ir socialinių tyrimų konsorciumo archive esančio duomenų rinkinio

pavyzdys

1.3.4 pav. Tarpuniversitetinio politikos ir socialinių tyrimų konsorciumo archive esančio duomenų rinkinio

online analizės pavyzdys

9

1.4. Naudojimosi duomenų archyvais sąlygos ir etika

Paprastai naudotis duomenimis ir jų dokumentacija archyvai leidžia išimtinai tik pagal jų

naudojimo taisykles. Dažnai archyvai siekia užtikrinti aiškią tyrimo duomenų naudojimo lygių

diferencijavimo sistemą. Leidimas naudotis duomenimis ir dokumentais yra suteikiamas atitinkamai

nustatytiems duomenų prieinamumo lygiams5:

• 0 lygis - duomenimis ir dokumentais leidžiama naudotis visiems.

• A lygis - duomenimis ir dokumentais leidžiama naudotis mokslo ir mokymo tikslais.

• B lygis - duomenimis ir dokumentais leidžiama naudotis mokslo ir mokymo tikslais, jeigu

rezultatai nebus publikuojami. Jeigu planuojamos publikacijos ar bet koks tolesnis darbas su

gautais rezultatais, būtina kreiptis į Archyvą dėl leidimo.

• C lygis - duomenimis ir dokumentais leidžiama naudotis tik mokslo ir mokymo tikslais, gavus

raštišką duomenų savininko (depozitoriaus) leidimą. Šiuo tikslu Archyvas gauna raštišką

leidimą, kuriame nurodomas vartotojas ir duomenų analizės tikslai.

Tarpuniversitetinis politikos ir socialinių tyrimų konsorciumas taip pat turi savitas prieigos

charakteristikas. Lietuvos nacionalinė narystė ICPSR (žr. 1.4.1 pav.) suteikia teisę nemokai parsisiųsti

duomenų rinkinius ar atlikti kai kurių duomenų analizę online.

1.4.1 pav. Lietuvos nacionalinė narystė ICPSR

5 Šaltinis: http://www.lidata.eu/page.php?page=duomenys_taisykles_naudojimas

10

Lietuvos HSM duomenų archyvo LiDA teikia atvirą prieigą prie empirinių duomenų, tačiau

duomenys yra prieinami tik registruotiems vartotojams. Užsiregistravus atsiunčiamas vartotojo vardas

ir slaptažodis, kuriuo galima prisijungti prie archyvo duomenų (žr. 1.4.2 pav.).

1.4.2 pav. LiDA registracijos anketa

Tarpuniversitetinio politikos ir socialinių tyrimų konsorciumo archyvo duomenys prieinami

tik registruotiems vartotojams. Registracija galima tik ICPSR instituciniams nariams (iš visų

institucijos kompiuterių tinklo darbo vietų).

Neregistruotiems nariams galima:

• Peržiūrėti tyrimo anotaciją (aprašą);

• Peržiūrėti ir parsiųsti dokumentaciją (metaduomenis).

Užsiregistravus bei patvirtinus registraciją, kiekvienas vartotojas gali parsisiųsti ICPSR duomenų

rinkinius 6 mėnesius iš eilės iš bet kurios kompiuterinės darbo vietos. Po 6 mėn. galima vėl atnaujinti

registraciją.

11

1.5. HSM internetiniai duomenų archyvai pasaulyje ir Lietuvoje. LiDA pristatymas

Pirmasis empirinių duomenų archyvas Europoje įkurtas 1960 m. Vokietijoje. Zentralarchiv für

Empirische Sozialforschung (Kelne) buvo sukurtas kaip universiteto institutas. Šiuo metu didžiausia

Vokietijoje infrastruktūrų institucija yra Vokietijos socialinių mokslų infrastruktūros tarnyba GESIS

(angl. German Social Science Infrastructure Service). GESIS yra sudarytas iš 5 padalinių, kurių vienas

– socialinių mokslų duomenų archyvas6.

1967 m. įkurtas duomenų archyvas Jungtinėje Karalystėje, 1971 m. – Norvegijoje.

Europoje šiuo metu priskaičiuojama virš 20 nacionalinių socialinių duomenų archyvų7:

• Airijos ISSDA - Irish Social Science Data Archive http://www.ucd.ie/issda/

• Austrijos WISDOM - Wiener Institut fur Sozialwissenschaftliche Dokumentation und Metodik

http://www.wisdom.at/

• Belgijos BASS - Archives Belges en Sciences Sociales http://bass.rspo.ucl.ac.be/bass/

• Danijos DDA - Danish Data Archives http://www.dda.dk/

• Graikijos EKKE - National Centre for Social Science http://www.ekke.gr/

• Ispanijos ARCES - Archivio de Estudio Sociales http://www.cis.es/

• Italijos ADPSS - Data Archive for Social Sciences

http://www.sociologiadip.unimib.it/sociodata/

• Jungtinės karalystės UKDA - UK Data Archive http://www.data-archive.ac.uk/

• Jungtinės karalystės NDAD - UK National Digital Archive of Datasets

http://www.ndad.nationalarchives.gov.uk/

• Liuksemburgo CEPS/INSTEAD - International Networks for Studies in Technology,

Environment, Alternatives, Development http://www.ceps.lu/

• Nyderlandų DANS – Data Archiving and Networked Services http://www.dans.knaw.nl/nl/

• Norvegijos NSD - Norwegian Social Science Data Services http://www.nsd.uib.no/english/

• Prancūzijos BDSP - Banque de Donnees Socio-Politiques http://solcidsp.upmf-grenoble.fr/

• Prancūzijos - Reseau Quetelet http://www.centre.quetelet.cnrs.fr/

• Slovakijos SASD - Slovak Archive of Social Data http://www.sasd.sav.sk/

• Slovėnijos ADP - Arhiv Druzboslovnih Podatkov http://www.adp.fdv.uni-lj.si/

6 Šaltinis: http://www.gesis.org/en/institute/

7 Šaltinis: http://www.lidata.eu/page.php?page=pletra_bendradarbiavimas#Socialini%C5%B3moksl%C5%B3duomen%C5%B3archyvaiEuropojeirpasaulyje

12

• Suomijos FSD - Finnish Social Science Data Archives http://www.fsd.uta.fi/

• Švedijos SSD - Swedish Social Science Data Service http://www.ssd.gu.se/enghome.html

• Šveicarijos SIDOS - Swiss Information and Data Archive Service for the Social Sciences

http://www.sidos.ch/

• Vokietijos ZA - Zentralarchiv für Empirische Sozialforschung http://www.gesis.org/ZA/

• Vokietijos ZUMA - Zentrum für Umfragen, Methoden und Analysen

http://www.gesis.org/ZUMA/

Siekiant sudaryti palankesnes sąlygas lyginamiesiems tyrimams, kūrėsi tarptautiniai duomenų

archyvų tinklai, asociacijos, kurių tikslas – pagerinti ir palengvinti duomenų prieinamumą mokslo

analizės tikslams, skatinti procedūras ir standartus duomenų ir technologijų mainams tarp duomenų

archyvų, propaguoti standartų ir procedūrų laikymąsi visame pasaulyje, padėti kurti naujas duomenų

organizacijas ir jas raginti prisidėti prie keitimosi duomenimis kultūros formavimo institucijose

nacionaliniu ir globaliniu lygmenimis.

Europos šalių socialinių duomenų archyvus vienija Europos Socialinių mokslų archyvų taryba

CESSDA (angl. Council of European Social Science Data Archives). CESSDA - tai 1976 m. įkurta

skėtinė organizacija, kurios tikslas yra keistis darbo su archyvais patirtimi, keistis ekspertais,

organizuoti seminarus. Organizacija priėma svarbius nutarimus dėl duomenų perdavimo iš vienos šalies

į kitą. Iš CESSDA portalo yra patogu patekti į daugelio šalių archyvus (žr. 1.5.1 pav.). Prieiga -

http://www.cessda.org/.

CESSDA uždaviniai:

• kurti lengvą ir greitą prieigą prie Europos socialinių duomenų mokslinei analizei;

• propaguoti projektus ir procedūras, kurios padidintų keitimosi duomenimis ir

technologijomis procesus;

• skatinti naudoti vieningas procedūras;

• raginti naujas duomenų organizacijas prisidėti prie šių tikslų.

13

1.5.1 pav. CESSDA archyvai nariai8

Lietuvos HSM duomenų archyvas LiDA yra nacionalinė mokslinių tyrimų infrastruktūra, atverianti

tyrėjams prieigą prie empirinių duomenų. Lietuvos HSM duomenų archyvo LiDA

kūrimas pradėtas 2006 m. liepos mėn. pradėjus įgyvendinti ES Europos socialinio fondo finansuojamą

projektą „Empirinių duomenų ir informacijos HSM tyrimams kaupimas ir valdymas: Lietuvos HSM

duomenų archyvas (LiDA)"BPD2004-ESF-2.5.0-03-392/BPD -262/F450 BPD-262 pagal Lietuvos

2004–2006 metų bendrojo programavimo dokumento 2 prioriteto „Žmogiškųjų išteklių plėtra" 2.5

priemonę „Žmogiškųjų išteklių kokybės gerinimas mokslinių tyrimų ir inovacijų srityje"9. Šis projektas

sėkmingai baigtas 2008 m. liepos mėn. Nuo 2009 m. vykdomas projektas „HSM duomenų archyvo

LIDA plėtra“.

LiDA tikslas - tobulinti HSM studentų, mokslininkų ir kitų tyrėjų duomenų analizės

kompetenciją bei didinti Lietuvos mokslininkų ir kitų tyrėjų galimybes atlikti kokybiškus tyrimus,

8 Šaltinis: http://www.lidata.eu/page.php?page=pletra_bendradarbiavimas

9 Šaltinis: http://www.lidata.eu/page.php?page=apie_archyvas

14

pagerinant ir išplečiant prieigos prie pirminių HSM tyrimų šaltinių infrastruktūrą bei sukuriant

pirminius tarptautinio lygmens HSM duomenų šaltinius10.

LiDA uždaviniai11:

• Optimizuoti esamas kiekybinių HSM duomenų įgijimo, archyvavimo, dokumentavimo ir

vartotojų prieigos prie LiDA archyve saugomų duomenų sistemas.

• Pildyti LiDA archyvą naujais kiekybinių HSM tyrimų (apklausų) duomenimis.

• Pradėti kurti kokybinių HSM tyrimų, istorinių ir Lietuvos politinės sistemos duomenų įgijimo,

archyvavimo, dokumentavimo bei sklaidos sistemas.

• Rengti ir publikuoti mokslinius leidinius apie pažangius HSM tyrimų duomenų analizės

metodus.

• Vykdyti ir dokumentuoti pažangius tarptautinius empirinius tyrimų projektus Lietuvoje.

Prieiga - www.lidata.eu (1.5.2 pav.).

1.5.2 pav. Lietuvos HSM duomenų archyvo LiDA tinklalapis

LiDA archyve sukaupta nemažai kiekybinių tyrimų duomenų rinkinių: 108 duomenų rinkiniai

lietuvių kalba ir 32 rinkiniai anglų kalba (CCEB: Candidate Countries Eurobarometer; CEEB: Central

and Eastern Eurobarometer; EB: Standard Eurobarometer; EES: European Election Studies; EVS:

European Values Study; NBB: New Baltic Barometer; SEE: Studies from Eastern Europe).



15

Duomenų rinkiniai lietuvių kalba gauti iš visuomenės nuomonės ir rinkos tyrimų centro UAB

„Vilmorus“ bei rinkos analizės ir tyrimų grupės UAB „RAIT“. Duomenų rinkiniai lietuvių kalba yra

sugrupuoti į 10 teminių rinkinių. Teminiai rinkiniai lietuvių kalba12:

• ES: Požiūris į ES. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai, kurių tikslas

yra tirti Lietuvos gyventojų požiūrį į Europos Sąjungą.

• ESP: ES parama. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai, kurių tikslas

yra tirti Lietuvos gyventojų nuomonę apie Europos Sąjungos paramos panaudojimą Lietuvoje.

• KALB: Kalba darbe. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai, kurių

tikslas yra tirti pagrindines kalbų vartojimo Lietuvos verslo aplinkoje tendencijas, išsiaiškinti

verslo vadovų ir darbuotojų kalbines nuostatas darbo santykių srityje.

• PB: Politinis barometras. Teminiam rinkiniui priklauso 35 duomenų rinkiniai. Tai tyrimai,

kurių tikslas yra tirti Lietuvos visuomenės nuomonę aktualiausias politiniais klausimais.

• SLT: Skaitmeninė Lietuva. Teminiam rinkiniui priklauso 3 duomenų rinkiniai. Tai tyrimai, kurių

tikslas yra tirti gyventojų požiūrį į informacinės visuomenės kūrimą Lietuvoje, nustatyti

gyventojų naudojimosi informacinėmis ir komunikacinėmis technologijomis mastą.

• SEB: Socialinis ekonominis barometras. Teminiam rinkiniui priklauso 40 duomenų rinkinių.

Tai tyrimai, kurių tikslas yra tirti Lietuvos visuomenės nuomonę aktualiausiais socialiniais

ekonominiais klausimais.

• VAIK: Požiūris į vaikus. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai, kurių

tikslas yra tirti Lietuvos visuomenės nuomonę apie vaikų auklėjimo stilius, vaikų įgūdžių

lavinimo ypatumus.

• VTT: Valstybės tarnybos tyrimai. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai

tyrimai, kurių tikslas yra tirti Lietuvos valstybės tarnybos įvaizdį visuomenėje, įvertinti

valstybės ir savivaldybių institucijų veiklą, paslaugų teikimą, aptarnavimą, socialinę naudą.

• ZTLT: Žmogaus teisės Lietuvoje. Teminiam rinkiniui priklauso 9 duomenų rinkiniai. Tai

tyrimai, kurių tikslas yra tirti Lietuvos gyventojų požiūrį į žmogaus teisių apsaugos sistemos

būklę Lietuvoje, nustatyti, kaip žmonės gina savo pažeistas teises ir kaip vertina institucijų,

ginančių žmogaus teises Lietuvoje, efektyvumą.

• KITI: Neklasifikuoti tyrimai. Teminiam rinkiniui priklauso 11 duomenų rinkinių. Šiame

teminiame rinkinyje kaupiami vienkartiniai tyrimai.

12 Lietuvos HSM duomenų archyvo naujienlaiškis, 2009, Nr.1.

16

2. KIEKYBINIŲ DUOMENŲ STATISTINĖ ANALIZĖ PANAUDOJANT NESSTAR

2.1. NESSTAR programinis paketas, skirtas statistinių duomenų ir metaduomenų kaupimui,

saugojimui ir analizei

Duomenų kaupimo ir saugojimo sistema NESSTAR yra sudaryta iš 3 paketų: NESSTAR

Publisher, NESSTAR Server ir NESSTAR Web13. Nesstar prieiga - http://www.nesstar.com/ (žr. 2.1.1.

pav).

Nesstar Publisher programinė įranga užtikrina HSM duomenų tvarkymo funkcijas: duomenų

konvertavimą ir redagavimą, publikavimą Nesstar Server-yje.

Nesstar Server programinė įranga užtikrina HSM duomenų talpinimo funkcijas. Ši programinė

įranga užtikrina informacijos pateikimą vartotojams.

Nesstar WebView programinė įranga užtikrina HSM duomenų, patalpintų Nesstar Server-yje,

sklaidą interneto tinkle.

2.1.1 pav. NESSTAR tinklalapis

13 Šaltinis: http://www.nesstar.com/

17

Nesstar WebView leidžia:

• Peržiūrėti tyrimą ir duomenis

• Susipažinti su metaduomenimis

• Atlikti požymių priklausomumo analizę

• Atlikti kintamųjų koreliaciją

• Atlikti grafinį duomenų atvaizdavimą

• Sukurti naujus kintamuosius

• Perkoduoti esamus kintamuosius

• Atsisiųsti duomemis įvairiais formatais (MsExel, SPSS).

LiDA duomenų kaupimui ir saugojimui naudojama Nesstar programinė įranga (žr. 2.1.2 pav.).

2.1.2 pav. LiDA tinklalapis

18

2.2. Duomenų ir metaduomenų saugojimo formatai ir sistema NESSTAR programinėje aplinkoje

Duomenys gali būti kaupiami ir saugojami įvairiais formatais: DDI document (*.xml), SPSS

System (*.sav), SPSS Portable (*.por), SPSS Syntax (*.sps), SAS (*.spl), Stata (*.dta), Statistica

(*.sta), NSDsat (*.nsf), dBase (*.dbf), DIF (*.dif), Text (*.txt) ir kitais.

Metaduomenys – tai struktūriškai apibrėžta informacija, kuri apibūdina tam tikrą dokumentą arba

informacinį išteklių, nurodo jo buvimo vietą. Tai palengvina dokumento ar kito informacinio ištekliaus

suradimą, naudojmą ir valdymą. Kitaip sakant, tai duomenys apie HSM dokumentus.

Metaduomenys Nesstar programinėje aplinkoje yra rengiami naudojant DDI formatą. DDI (angl.

Data Documentation Initiative) yra XML metaduomenų standartas, skirtas socialinių mokslų

duomenims aprašyti14 (žr. 2.2.1 pav.). Tokiu būdu metaduomenys yra rengiami unifikuotoje ir

struktūrizuotoje formoje.

Šis standartas užtikrina efektyvią duomenų paiešką, metaduomenų kokybę ir panaudojamumą.

DDI formato sekcijos:

• Dokumento apibūdinimas (Document description);

• Tyrimo apibūdinimas (Study description);

• Duomenų failų apibūdinimas (Data files description);

• Kintamųjų apibūdinimas (Variables description);

• Kita informacija (Other study-related materials).

2.2.1 pav. DDI aprašo pavyzdys

14 Šaltinis: http://www.icpsr.umich.edu/DDI

19

2.3. Duomenų analizės panaudojant NESSTAR galimybės

Duomenų analizei galima naudoti Nesstar programinę įrangą. Nesstar WebView įgalina duomenų

paiešką ir peržiūrą, leidžia atlikti požymių priklausomumo analizę, kintamųjų koreliaciją, regresiją,

sukurti naujus kintamuosius, perkoduoti esamus kintamuosius.

Nesstar WebView veikia interneto naršyklės aplinkoje, todėl vartotojui jokios papildomos

programinės įrangos į savo kompiuterį diegti nereikia. Kairiojoje internetinio puslapio pusėje išdėstytas

duomenų rinkinių medis (žr. 2.3.1 pav.). Taip pat galima pasinaudoti paieškos funkcija.

2.3.1 pav. Duomenų rinkinių medis

Katalogai paskleidžiami paspaudus (žr. 2.3.2 pav.). Norėdami gauti šsamesnę informaciją

apie duomenų rinkinį, turime spausti . Toliau kataloge galima atverti metaduomenis, tyrimo

aprašymą, duomenų failų apibūdinimą bei kintamųjų apibūdinimą.

2.3.2 pav. Duomenų išdėstymo pavyzdys

20

Paspaudus ant kintamojo, gaunamas jo aprašymas ir tam tikri statistiniai duomenys (žr. 2.3.3

pav.). Šie duomenys pateikiami Nesstar WebView kortelėje DESCRIPTION.

2.3.3 pav. Kintamojo aprašymo pavyzdys

Lentelės formos duomenų analizė atliekama paspaudus kortelę TABULATION ir nurodžius,

kurie kintamieji pasirenkami analizei (žr. 2.3.4 pav.). Kintamieji iš kintamųjų medžio pasirenkami

atsidariusiame meniu paspaudžiant vieną iš komandų – „add to row“ (kintamasis bus pateikiamas

eilutėje) ar „add to column“ (kintamasis bus pattteikiammmas stulpelyje). Pavyzdyje į analizės lentelę

įtraukti du kintamieji – B1 (Domėjimasis politika) ir F2 (Lytis).

2.3.4 pav. Lentelės formos duomenų analizės pavyzdys

21

Kintamųjų koreliacijos arba regresijos analizė galima naudojant kortelę ANALYSIS ir nurodžius,

kurie kintamieji pasirenkami analizei (žr. 2.3.5 pav.). Kintamieji iš kintamųjų medžio pasirenkami

atsidariusiame meniu paspaudžiant komandą „add to correlation“ (kintamasis bus įtrauktas į

koreliaciją). Pavyzdyje į koreliacinę analizę įtraukti du kintamieji – B4 (Pasitikėjimas Seimu) ir B8

(Pasitikėjimas politinėmis partijomis).

2.3.5 pav. Koreliacinės analizės pavyzdys

2.4. Duomenų vaizdavimas NESSTAR programinėje aplinkoje

Nesstar programinė įranga taip pat gali būti naudojama duomenų vizualizacijai. Grafinis

duomenų atvaizdavimas atliekamas paspaudžiant . Galima pasirinkti įvairias grafinio vaizdavimo

formas (žr. 2.4.1 pav. ir 2.4.2 pav.).

2.4.1 pav. Grafinio vaizdavimo pavyzdys Nr.1

22

2.4.2 pav. Grafinio vaizdavimo pavyzdys Nr.2

2.5. NESSTAR duomenų analizės rezultatų perkėlimas į kitus formatus

Nesstar programinė įranga taip pat gali būti naudojama atsisiųsti duomemis įvairiais formatais

(Statistica, SPSS, Stata ir kitais) (žr. 2.5.1 pav.). Paspaudus , atsidaro langas, kuriame reikia

nurodyti, kas ir kokiu formatu bus saugoma.

2.5.1 pav. Duomenų analizės rezultatų perkėlimo į kitus formatus pavyzdys

23

3. DUOMENŲ STATISTINĖ ANALIZĖ PANAUDOJANT SPSS

3.1. SPSS programinė įranga statistinių duomenų analizei

SPSS (angl. Statistical Package for the Social Sciences) – specializuota statistinė programinė

įranga, leidžianti vartotojams atlikti visą duomenų analizės procesą:

• įkelti duomenis iš įvairių šaltinių;

• paruošti duomenis (pvz. atlikti transformacijas, sukurti naujus kintamuosius, užkoduoti

kategorijas ir praleistas reikšmes, apjungti duomenis ir t.t.);

• išanalizuoti duomenis statistiniais metodais ir gauti reikšmingus rezultatus;

• pateikti gautus rezultatus grafikais bei analitinėmis lentelėmis;

• eksportuoti rezultatus įvairiais formatais (žr. 3.1.1 pav.).

Nuo 2009 m. balandžio įsigaliojo nauji SPSS produktų pavadinimai su prierašu PASW

(Predictive Analytics Software - prognozinės analitikos programinė įranga). Lietuvoje šia programine

įranga naudojasi daugiau nei 200 įmonių bei organizacijų.15

3.1.1 pav. SPSS dokumentai

SPSS duomenų redaktorius užtikrina du duomenų rinkmenų pateikimo vaizdus:

• Duomenų peržiūra (Data View). Pateikia duomenų reikšmes arba duomenų apibūdinimo

žymes (žr. 3.1.2 pav.).

• Kintamųjų peržiūra (Variable View). Pateikia kintamuosius apibūdinančią informaciją (žr.

3.1.3 pav.).

o Name – kintamojo vardas o Type – tipas (pvz. skaitmeninis, tekstinis, data, valiuta ir t.t. )

15 Šaltinis: http://www.insol.lt/homepage

24

o Width – duomenų ląstelės plotis – ženklų skaičius o Decimals – skaičius po kablelio, kuris bus rodomas duomenų ląstelėje o Label – kintamojo žymės o Values – kintamojo reikšmių paaiškinimai o Missing – trūkstamų reikšmių kodai o Column – stulpelių plotis o Align – išlygiavimas (dešinėje, kairėje, centruotai) o Measure – skalė (nominalinė, tvarkos, intervalų-santykių).

3.1.2 pav. SPSS duomenų įvesties langas

3.1.3 pav. SPSS kintamųjų parametrai

25

3.2. Aprašomoji statistika

Aprašomoji statistika – tai duomenų sisteminimo ir grafinio vaizdavimo metodai. Vienas iš

didžiausių aprašomosios statistikos privalumų yra tai, kad leidžia koncentruotai užrašyti informaciją,

esančią dideliuose duomenų masyvuose. Aprašomojoje statistikoje stebėtos reikšmės pateikiamos

lentelėmis, dažnių skirstiniais, grafikais (Čekanavičius ir Murauskas, 2000).

Yra skiriamos duomenų padėties ir sklaidos charakteristikos, charakteristikos imties simetriškumui

įvertinti (asimetrijos ir eksceso koeficientai) ir kt. (žr. 3.2.1 pav.).

3.2.1 pav. Skaitinės charakteristikos (Janilionis, 1999-2001)

Pagrindinės duomenų padėties charakteristikos yra – vidurkis, moda ir mediana, kurios apibūdina

duomenų „centrą“, bei kvantiliai. Visos charakteristikos, išskyrus modą, gali būti skaičiuojamos tik

kiekybiniams duomenims (Čekanavičius ir Murauskas, 2000).

Vidurkis (mean) – visų duomenų aibės elementų vidutinė reikšmė. Vidurkis yra labai jautrus

smarkiai besiskiriančioms reikšmėms (Augutis ir Krikštolaitis, 2006). Dažniausiai naudojamas

aritmetinis vidurkis – t.y. reikšmių suma, padalinta iš reikšmių skaičiaus.

Moda (mode) – dažniausiai duomenų aibėje pasikartojanti reikšmė. Galime skaičiuoti tiek

kiekybinių, tiek kokybinių duomenų modą (Čekanavičius ir Murauskas, 2000).

Mediana (median) – tai reikšmė, žemiau kurios yra pusė visų reikšmių ir virš kurios yra kita pusė

reikšmių, jei visos jos išrikiuotos didėjimo tvarka (skaičiuojama tik ranginio ir kiekybinio lygmens

kintamiesiems). Kuomet turime lyginį reikšmių skaičių, mediana – yra vidurinių skaičių vidurkis,

jeigu nelyginį – vidurinis skaičius.

26

Kvantiliai – charakteristika, dalijanti variacinę eilutę į q x 100 ir (1-q) x 100 procentinių dalių; q

įgyja reikšmes iš intervalo (0;1). Pavyzdžiui, 0,5 kvantilis yra mediana (Augutis ir Krikštolaitis, 2006) .

Pagrindinės sklaidos charakteristikos yra duomenų aibės plotis, standartinis nuokrypis, dispersija,

kvartilių skirtumas ir kitimo koeficientas.

Imties aibės plotis (range) – didžiausios ir mažiausios reikšmių skirtumas. Labai jautrus

išskirtims.

Imties dispersija (variance) parodo duomenų sklaidą apie vidurkį. Dispersija plačiai naudojama

siekiant palyginti kelių duomenų aibių sklaidas. Dažniausiai naudojamas sklaidos matas yra –

standartinis nuokrypis (standard deviation), kuris gaunamas ištraukus kvadratinę šaknį iš dispersijos.

Standartinis nuokrypis yra pranašesnis, nes matuojamas tais pačiais vienetais kaip ir patys duomenys

(Čekanavičius ir Murauskas, 2000).

Kvartiliais (quartile) vadinami trys taškai, dalijantys kintamojo reikšmių aibę į keturias grupes,

kurių kiekvienoje yra maždaug po 25% imties reikšmių. Kvartiliai nepriklauso nuo imties variacinės

eilutės kraštinių reikšmių, taigi jie nejautrūs išskirtims. Kvartilinis plotis (Quartile range) viršutinio ir

apatinio kvartilio skirtumas vartojamas imties sklaidai įvertinti. Nejautrus išskirtims (Augutis ir

Krikštolaitis, 2006). Kvartilinis plotis apibūdina vidurinių 50% sluoksnio duomenų reikšmių sklaidą.

Asimetrijos koeficientas (skewness) parodo empirinio skirstinio asimetriškumą. As > 0 –

dešiniosios asimetrijos atvejis, jei As < 0 – kairiosios, jeigu As = 0 – skirstinys yra simetriškas vidurkio

atžvilgiu.

Eksceso koeficientas (kurtosis) apibūdina empirinio skirstinio smailumą (Ek > 0) ir lėkštumą (Ek

< 0) (žr. 3.2.2 pav.).

3.2.2 pav. Asimetrijos ir eksceso koeficientai (Janilionis, 1999-2001)

27

Norint apskaičiuoti duomenų aprašomąsias statistikas SPSS meniu juostoje pasirenkame

Analyze → Descriptive Statistics → Frequencies. Atsidariusiame lange Statistic pažymime norimas

apskaičiuoti skaitines charakteristikas. Gauti rezultatai pateikti 3.2.3 paveiksle kartu su stačiakampe

diagrama.

Stačiakampė diagrama (Boxplot). Iš jos galime spręsti apie bendrą matuojamo kintamojo imties

centro, išsibarstymo bei maksimalios ir minimalios reikšmių vaizdą. Stačiakampėje diagramoje yra

“dėžė” – stačiakampis, braižomas nuo apatinio kvartilio iki viršutinio kvartilio, padalintas brūkšniu į

dvi dalis ties mediana. Nuo stačiakampio šono brėžiami “ūsai” – į viršų iki maksimalios ir į apačią iki

minimalios reikšmės. Išskirčių reikšmės pažymimos tam tikrais simboliais. Išskirtys – tai stebėjimų

reikšmės, kurios yra labai nutolusios nuo duomenų centro (Čekanavičius ir Murauskas, 2000).

SPSS programoje norint nubraižyti stačiakampę diagramą pasirenkame meniu juostoje Graphs

→ Legacy Dialogs → Boxplot. Stačiakampės diagramos leidžia palyginti keleto kintamųjų,

matuojamų tais pačiais vienetais (Summaries of separate variables), ar to paties kintamojo kelių imčių

duomenis (Summaries for groups of cases).

3.2.3 pav. SPSS aprašomoji statistika ir stačiakampė diagrama

Norint apskaičiuoti dažnius ir nubraižyti dažnių pasiskirstymo diagramą SPSS meniu juostoje

pasirenkama Analyze → Descriptive Statistics → Frequencies. Pažymime varnele Display frequency

tables, laukelyje Charts pasirenkame dažnių grafinio atvaizdavimo būdą: histogramą (Histograms),

stulpelinę diagramą (Bar), skritulinę diagramą (Pie)(žr. 3.2.4 pav.).

28

3.2.4 pav. SPSS dažnių skaičiavimas

SPSS gauti rezultatai pateikti 3.2.1 lentelėje ir 3.2.4 paveiksle.

3.2.1 lentelė

SPSS dažnių lentelė

B1|Domejimasis politika

68 3,4 3,4 3,4523 26,1 26,2 29,6994 49,7 49,8 79,4411 20,5 20,6 100,0

1996 99,7 100,06 ,3

2002 100,0

Labai domisiPakankamai domisiMažai domisiVisiškai nesidomiTotal

Valid

NežinoMissingTotal

DažnisFrequency

% nuo bendroapklaustuju skc.

Percent

% nuo atsakiusiujui klausima Valid

Percent

Sukauptasis % Cumulative

Percent

29

3.2.5 pav. SPSS dažnių diagrama

Pasikliautinieji intervalai. Skirtumas tarp tikrųjų populiacijos ir turimų imties atitikmenų rodo

įvertinimo tikslumą. Statistinio įvertinimo tikslumą ir patikimumą nustato vadinamieji pasikliautinieji

intervalai (confidence intervals). Tradiciniai pasikliovimo lygmenys Q = 0,9; 0,95; 0,99.

3.2.4 pav. Pasikliautinieji intervalai su skirtingais pasikliovimo lygmenimis (Augutis ir Krikštolaitis,

2006)

SPSS paketu galima paskaičiuoti vidurkio pasikliautinąjį intervalą meniu pasirinkus

Analyze → Descriptive Statistics → Explore ir nubraižyti jo grafiką Graphs → Legacy Dialogs →

Error Bar. Norint atlikti kintamųjų analizę pagal atskiras stebėjimų grupes, į sąrašą Factor List reikia

įkelti vieną ar kelis kategorinius kintamuosius, pagal kuriuos bus nustatytos stebėjimų grupės.

Atitinkamai braižant vidurkio pasikliautinojo intervalo grafiką atskiroms grupėms pažymime

Summaries for group of cases (žr. 3.2.5-3.2.6 pav.).

30

3.2.5 pav. Vidurkio pasikliautinojo intervalo skaičiavimas SPSS

3.2.6 pav. Vidurkio pasikliautinojo intervalo grafiko braižymas SPSS

31

3.2.7 pav. SPSS vidurkio pasikliautinojo intervalo skaičiavimo rezultatai

Apskaičiuojame populiacijos vidurkio pasikliautinąjį intervalą: PI0,95(µ) = (3,17; 3,39); 3,17<

µ<3,39. Išvada: Su 95 % garantija (pasikliovimu) galime teigti, jog vidutiniškai populiacijoje

pasitikėjimas teisine sistema yra vertinimas intervale nuo 3,17 iki 3,39 (žr. 3.2.7 pav.).

3.3. Hipotezių tikrinimas

Hipoteze statistikoje vadinamas bet koks teiginys apie populiacijos parametro(ų) reikšmę(es).

Statistinę parametrinę hipotezę sudaro du alternatyvūs teiginiai apie galimas parametro reikšmes.

Nulinė hipotezė (Ho) – tikrinamoji hipotezė. Paprastai Ho formuluojama, kad skirtumo nėra.

Dažniausiai, tai teiginys, kad populiacijos parametras yra lygus konkrečiai reikšmei arba skirstiniai

sutampa. Alternatyvioji hipotezė (Ha) – priešinga nulinei hipotezei.

Hipotezės skirstomos į parametrines ir neparametrines (žr. 3.3.1 pav.). Jeigu statistinė hipotezė

tikrinama nežinomų pasiskirstymo dėsnio parametrų atžvilgiu – ji vadinama parametrine (Janilionis,

1999-2001). Kuomet populiacijos parametras lyginamas su kokiu nors skaičiumi, arba tarpusavyje

lyginami kelių populiacijų analogiški parametrai (Čekanavičius ir Murauskas, 2000).

Alternatyvos skirstomos į vienpuses µ < µo ir µ > µo ir dvipuses µ ≠ µo, kurią iš alternatyvų

pasirinkti lemia tiriamoji problema.

32

3.3.1 pav. Hipotezių skirstymas (Janilionis, 1999-2001)

Taisyklė, pagal kurią iš imties rezultatų darome išvadą apie hipotezės teisingumą ar klaidingumą,

vadinama – statistiniu kriterijumi. (Čekanavičius ir Murauskas, 2000). Kriterijaus reikšmingumo

lygmenį galima suprasti kaip klaidos atmetus hipotezę Ho, nors iš tikrųjų ji teisinga, tikimybę. Ši

tikimybė vadinama pirmosios rūšies klaida. Tikrinant hipotezę Ho galima taip pat priimti hipotezę,

nors ji iš tikrųjų yra klaidinga – antrosios rūšies klaida (Pukėnas, 2009) (žr. 3.3.1 lentelę).

3.3.1 lentelė

Hipotezių tikrinimo klaidos

3.3.2 pav. Hipotezių sprendimo priėmimo taisyklė

Statistinės išvados daromos su tam tikra tikimybe (pasikliovimu), priklausomai nuo pasirinkto

reikšmingumo lygmens α (žr. 3.3.2 pav.). Išvadų formuluotės kuomet atmetame/neatmetame Ho yra

pateiktos 3.3.3 pav.

33

3.3.3 pav. Išvadų formulavimas

Vienas iš dažniausiai taikomų statistinės analizės metodų yra hipotezių apie populiacijos vidurkių

lygybę tikrinimas. SPSS meniu Analyze → Compare Means (vidurkių palyginimas) pateikiami

vidurkių palyginimo metodai, kurie yra taikomi kuomet kintamieji turi normalųjį skirstinį. Be nurodytų

t-testų yra pateikiama komanda vidurkiai (Means), kurią pasirinkus galime apskaičiuoti pasirinktų

kintamųjų vidurkius ir kitas skaitines charakteristikas atskirai pagal tam tikras kategorinio kintamojo

kategorijas (Pukėnas, 2005). Plačiau apie t-testus žr. 3.3.4 pav.

3.3.4 pav. Hipotezių tikrinimas SPSS

34

Neparametriniai kriterijai taikomi tais atvejais, kai duomenys nėra pasiskirstę pagal normalųjį

dėsnį arba priklauso rangų, o ne intervalų skalei. Neparametrinių hipotezių atveju dažniausiai lyginami

skirstiniai. SPSS paketas pateikia nemažai neparametrinių testų (žr. 3.3.4 pav.). Populiariausi yra dviejų

ir daugiau priklausomų/nepriklausomų imčių palyginimo kriterijai bei Chi-kvadrato (X²) kriterijus ir

Kolmogorovo-Smirnovo testas (Pukėnas, 2005).

Parametrinių hipotezių tikrinimo pavyzdžiai

1 pavyzdys. Norime patikrinti hipotezę „Populiacijos darbo valandų skaičiaus vidurkis per savaitę

įskaitant viršvalandžius vidurkis yra 42 val.“ Tarkime, kad kintamojo skirstinys yra normalusis.

Reikšmingumo lygmuo α = 0,05.

Formuluojame statistinę hipotezę:

Ho: µ = 42

Ha: µ ≠ 42

SPSS meniu juostoje pasirenkame Analyze → Compare Means → One–Sample T Test... pažymime

kintamąjį F21 ir perkeliame į laukelį Tests variable(s), lauke Test Value įrašome 42 ir spaudžiame OK

(žr. 3.3.5 pav.).

3.3.5 pav. Hipotezės apie vidurkio lygybę skaičiui tikrinimas SPSS

35

Gauti rezultatai pateikti 3.3.2 – 3.3.3 lentelėse.

3.3.2 lentelė Kintamojo F21 aprašomoji statistika

3.3.3 lentelė Nulinės hipotezės tikrinimo rezultatai

Išvada: Kadangi p = 0.000 < 0,05, tai nulinė hipotezė „Populiacijos darbo valandų skaičiaus per

savaitę įskaitant viršvalandžius vidurkis yra 42 val.“ yra atmetama. Tai reiškia, kad vidutinis

populiacijos darbo valandų skaičius per savaitę įskaitant viršvalandžius statistiškai reikšmingai skiriasi

nuo 42 val. Skirtumo tarp tikrosios ir spėjamos populiacijos vidurkio reikšmės 0,95 pasikliautinasis

intervalas PI0,95 (µ-42)=(-1,66; -0,71). Su 95 % garantija galime teigti, kad -1,66 < µ-42 < -0,71 arba

40,34 <µ < 41,29.

2 pavyzdys. Patikrinsime hipotezę „Vyrų ir moterų populiacijose vidutinis darbo valandų skaičius per

savaitę įskaitant viršvalandžius yra vienodas.“ Tarkime, kad kintamieji yra pasiskirstę pagal normalųjį

pasiskirstymo dėsnį. Reikšmingumo lygmuo α = 0,05.

Formuluojame statistinę hipotezę:

Ho: µx = µy

Ha: µx ≠ µy

SPSS meniu juostoje pasirenkame Analyze → Compare Means → Independent–Samples T Test...

kintamąjį F21 ir perkeliame į laukelį Tests variable(s), į laukelį Grouping Variable įkeliame kintamąjį

„Lytis“ (žr. 3.3.6 pav.).

36

3.3.6 pav. Hipotezės apie dviejų nepriklausomų imčių vidurkių palyginimą tikrinimas SPSS

Gauti rezultatai pateikti 3.3.4 – 3.3.5 lentelėse.

3.3.4 lentelė

Kintamųjų aprašomoji statistika

3.3.5 lentelė

Nulinės hipotezės tikrinimo rezultatai

37

Visų stulpelių pirmoji eilutė yra lygių dispersijų atveju (Equal variances assumed), antroji –

nelygių (Equal variances not assumed). Šiuo atveju dispersijų laikyti lygiomis negalime, todėl išvadas

formuluojame pagal antrą eilutę.

Išvada: Kadangi p=0,000<0,05, nulinė hipotezė yra atmetama. Gavome statistiškai reikšmingą

įrodymą, kad vyrų ir moterų vidutinis valandų skaičius per savaitę įskaitant viršvalandžius statistiškai

reikšmingai skiriasi. Skirtumo tarp populiacijos vidurkių pasikliautinasis intervalas PI0,95= (µx-

µy)=(1,932; 3,823). Su 95 % garantija galime teigti, kad vyrų ir moterų darbo valandų skaičius per

savaitę įskaitant viršvalandžius vidutiniškai skiriasi nuo 1,932 iki 3,823 val. (1,932 < µx – µy < 3,823).

3.4. Požymių priklausomumo analizė

Priklausomybės tarp vardinių ir rangų skalės kintamųjų analizei SPSS naudojamos požymių dažnių

lentelės (Crosstabs), taip pat yra didelė testų įvairovė priklausomybės laipsniui tarp kintamųjų įvertinti.

Plačiausiai taikomas iš neparametrinių kriterijų yra Chi-kvadrato (χ 2) kriterijus, kuris naudojamas

hipotezėms apie kintamojo skirstinį populiacijoje tikrinti. Chi-kvadrato kriterijus parodo, ar empirinio

ir teorinio skirstinių skirtumas yra reikšmingas, t.y. tikrinama, ar turimas empirinis skirstinys yra

suderintas su teoriniu modeliu (Čekanavičius ir Murauskas, 2000).

SPSS pakete Chi-kvadrato kriterijus yra skaičiuojamas trejopai: pagal Pirsono (Pearson) formulę, pagal

tikėtinumo santykio (Likelihood Ratio) formulę bei pagal Mantelio-Haenzelio (Linear-by-Linear)

formulę. Kai duomenys aprašomi keturlauke (2x2) dažnių lentele ir kai nors vienas tikėtinas stebėjimų

skaičius mažiau penkių, papildomai skaičiuojamas tikslus Fišerio (Fisher’s) kriterijus (Pukėnas,2009).

Matuojamiems pagal intervalų skalę kintamiesiems yra skaičiuojamas Pirsono (Pearson) koreliacijos

koeficientas. Kai stebimi kategoriniai kintamieji matuojami pagal rangų arba vardinę skalę naudojami

kiti ryšio stiprumo matai (Čekanavičius ir Murauskas, 2000).

Vardinių kintamųjų ryšio matai

• Phi – φ koeficientas skaičiuojamas χ 2 pagrindu eliminuojant imties dydžio įtaką. Naudojamas

tada, kai duomenys aprašomi keturlaukėmis (2x2) kontingencijos lentelėmis, t. y. taikomas

binariniams kintamiesiems. Didesnių lentelių atveju didžiausia φ reikšmė priklauso nuo lentelės

dydžio ir gali viršyti 1.

38

• Contingency Coefficient – kontingencijos koeficientas yra φ modifikacija, pritaikyta didesnėms

kontingencijos lentelėms. Kai kurie tyrėjai rekomenduoja šį koeficientą taikyti 5x5 ir didesnėms

lentelėms.

• Cramer’s V – Kramerio V koeficientas yra dažniausiai naudojamas vardinių kintamųjų ryšio

matas, skaičiuojamas χ 2 pagrindu. Jis nepriklauso nuo lentelės dydžio, kai eilučių skaičius

lygus stulpelių skaičiui. Keturlaukėms lentelėms Kramerio V koeficientas sutampa su φ

koeficientu (Pukėnas, 2009).

Ranginių kintamųjų ryšio matai Be dažniausiai taikomo Spearman‘o ranginės koreliacijos koeficiento dar naudojami Kendall'o τ ir

Gamma ranginės koreliacijos koeficientai. Spearman‘o ir Kendall'o τ koeficientai interpretuojami

skirtingai – Spearman‘o koeficientas analogiškas Pirsono (Pearson), tik skaičiuojamas ranginiams

duomenims (o jei duomenys yra intervaliniai – jie paverčiami ranginiais). SPSS yra pateikiami du Kendall'o ranginės koreliacijos koeficiento skaičiavimo variantai – Kendall’s

tau-b ir Kendall’s tau-c. Kendall'o tau-b koeficientas dažniausiai naudojamas keturlaukių (2x2)

lentelių atveju, Kendall'o tau-c koeficientas naudojamas didesnių negu 2x2 dimensijų lentelių atveju.

SPSS požymių priklausomumo lentelės sudaromos pasirinkus komandą Analyze → Descriptive

Statistics → Crosstabs... Į laukelius Row(s) ir Colum(s) įkeliame kintamuosius, kurių požymių

priklausomumo lentelę norime sudaryti. Dialogo langelyje Statistics pasirenkame Chi-square (χ 2 testą)

ir spaudžiame Continue. Lukelio Cells komandų grupėje Percentages pažymime Row, Colums ir Total

(žr. 3.4.1 pav.):

Row (pagal eilutes): procentinės reikšmės skaičiuojamos pagal eilutes, t. y., kiekvienos ląstelės

reikšmė atžvilgiu eilutės sumos.

Column (pagal stulpelius): procentinės reikšmės skaičiuojamos pagal stulpelius, t.y., kiekvienos

ląstelės reikšmė atžvilgiu stulpelio sumos.

Total (viso): kiekvienos ląstelės reikšmė atžvilgiu bendro stebėjimų skaičiaus. Įkėlus į laukelį

Row(s) kintamąjį, nurodantį respondentų priklausomybę konkrečiai populiacijai, paprastai užtenka

pažymėti Column laukelį – turėsime kiekvieno atsakymo procentinę dalį atskirai kiekvienai

populiacijai (Pukėnas, 2009).

39

3.4.1 pav. SPSS požymių priklausomumo lentelių sudarymas

1 pavyzdys. Norime atsakyti į klausimą: Ar yra priklausomybė tarp lyties ir požiūrio į seksualines

mažumas? Sudarome kintamųjų “Lytis” ir pritarimo teiginiui “Gėjai ir lesbietės gali gyventi gyventi

taip, kaip nori” požymių priklausomumo lentelę. SPSS gauti rezultatai pateikti 3.4.1 – 3.4.2 lentelėse.

3.4.1 lentelė

Kintamųjų „Lytis“ ir „Gėjai ir lesbietės gali gyventi taip kaip nori“ požymių priklausomumo lentelė

40

Išvados:

- 25 respondentai (1,3 proc.) iš 1863 atsakiusių į abu klausimus yra vyrai, kurie labai pritaria, jog

gėjai ir lesbietės gali gyventi taip kaip nori.

- 2,7 proc. respondentų vyrų labai pritaria teiginiui, jog ėjai ir lesbietės gali gyventi taip kaip nori.

- 47,2 proc. Respondentų, labai pritariančių teiginiui, jog gėjai ir lesbietės gali gyventi taip kaip nori,

yra vyrai.

Tikriname hipotezę:

Ho: „Atsitiktinai dydžiai X ir Y yra nepriklausomi“

Ha: „Atsitiktinai dydžiai X ir Y nėra nepriklausomi“

Nepriklausomumo hipotezės tikrinimo rezultatai pateikti 3.4.2 lentelėje.

3.4.2 lentelė

Chi-kvadrato testo rezultatai

41

Išvada: Nulinės hipotezės atmesti neturime pagrindo, kadangi p=0,760>0,05 (Pearson‘o Chi-Square).

Stebėti dydžiai nėra statistiškai reikšmingai priklausomi.

Pastaba!!! Chi-kvadrato kriterijaus taikymas turi apribojimų. Norint taikyti Chi-kvadratą reikia

patikrinti ar tenkinamos tam tikros sąlygos. Chi-kvadrato kriterijaus taikymo schema pateikta 3.4.2 pav.

3.4.2 pav. Chi-kvadrato taikymo schema (Janilionis, 1999-2001)

42

2 pavyzdys. Duota kintamųjų pora „Domėjimasis politika“ ir „Politika atrodo labai sudėtinga“.

Norime patikrinti hipotezę, kad besidomintys politika pritaria teiginiui, kad politika atrodo

nesudėtingai. Rezultatai pateikti 3.4.3 – 3.4.5 lentelėse.

Geriau suprasti priklausomybę tarp kintamųjų padeda teoriškai tikėtinas (expected) stebėjimų skaičius

(pasirodymo dažnis). Lyginant tikėtiną stebėjimų skaičių su eksperimentiniu būdu (observed) nustatytu

galima padaryti tam tikras išvadas apie vieno kintamojo reikšmių priklausomybę nuo kito kintamojo

(Pukėnas, 2009).

3.4.3 lentelė

Kintamųjų „Domėjimasis politika“ ir „Politika atrodo labai sudėtingai“ požymių priklausomumo lentelė

Išvada: Tikėtinos (Expected) reikšmės nėra artimos gautoms (Count) — tai rodo, kad požymiai yra

priklausomi. Kadangi stebėtų dažnių skaičius yra didesnis už tikėtiną dažnį – tai galime teigti, jog tie,

kuriems politika atrodo nesudėtingai, labiau domisi politika.

Patikriname kintamųjų priklausomumo hipotezę.

43

3.4.4 lentelė Chi-kvadrato rezultatai

3.4.5 lentelė Kintamųjų ryšio stiprumo matai

Išvada: Kadangi p=0,000<0,05, tai Ho atmetame ir galime teigti, kad kintamieji yra statistiškai

reikšmingai priklausomi, nors tarp jų yra silpnas ryšys Kramerio (Cramer‘s V) ryšio stiprumo

koeficientas lygus 0,302. Žmonės, kuriems politika atrodo nesudėtingai, statistiškai reikšmingai

daugiau ja ir domisi.

44

3.5. Ryšiai tarp kintamųjų

Koreliacinė analizė naudojama kuomet siekiame atsakyti į klausimus:

• Ar atsitiktiniai dydžiai yra priklausomi?

• Koks yra ryšio stiprumas tarp kintamųjų?

• Kokia kintamųjų priklausomybės išraiška?

Koreliacinėje analizėje statistinio ryšio stiprumas tarp stebėtų kintamųjų, yra išreiškiamas koeficientu.

Koreliacija parodo ryšio kryptį – vieno kintamojo reikšmei didėjant, kito kintamojo reikšmė gali didėti

arba mažėti. Koreliacijos koeficientai įgyja reikšmes nuo –1 iki 1. Teigiama reikšmė – tiesioginė

koreliacija, neigiama reikšmė – atvirkštinė koreliacija. Kuo reikšmė arčiau –1 arba 1, tuo

priklausomybė tarp kintamųjų yra stipresnė (Janilionis, 1999-2001).

Pagrindiniai koreliacijos koeficientai:

• Pirsono (Pearson) – tiesinio ryšio stiprumo matas. Jis gali būti naudojamas, kai stebimų

atsitiktinių dydžių X ir Y skirstiniai yra normalieji (reikšmės yra išmatuotos intervalų arba

santykių skalėje).

• Intervaliniams kintamiesiems, kuriems normalumo prielaida nėra tenkinama, ir ranginiams

kintamiesiems yra skaičiuojamas Spirmeno (Spearman) arba Kendall’o τ-b koreliacijos

koeficientas.

Koreliaciją tarp kintamųjų galima SPSS paskaičiuoti pasirinkus komandą: Analyze →

Correlate... → Bivariate... (žr. 3.5.1 pav.).

45

3.5.1 pav. Koreliacinė analizė SPSS

1 pavyzdys. Atliekame kintamųjų “Gėjai ir lesbietės gali gyventi kaip nori” ir “Religingumas”

koreliacinę analizę.

Tikriname hipotezę:

Ho: „Spearman’o koreliacijos koeficientas lygus nuliui“

Ha: „Spearman’o koreliacijos koeficientas nėra lygus nuliui“

Rezultatai pateikti 3.5.1 lentelėje.

3.5.1 lentelė

Spearman‘o koreliacijos koeficiento skaičiavimo rezultatai

46

Išvada: Kadangi p=0,000<0,01, Ho (kad kintamieji yra nepriklausomi) atmetama. Tarp pritarimo

teiginiui, kad gėjai ir lesbietės gali gyventi taip, kaip nori ir religingumo yra statistiškai reikšmingas

ryšys. Spearman’o koreliacijos koeficientas lygus 0,185 – ryšys tarp kintamųjų yra silpnas.

2 pavyzdys. Atliekame kintamųjų “Saugumo jausmas vaikščiojant naktį savo rajone” ir “Gimimo

metai” koreliacinę analizę. SPSS rezultatai pateikti 3.5.2 lentelėje.

3.5.2 lentelė

Spearman‘o koreliacijos koeficiento skaičiavimo rezultatai

Išvada: Kadangi p=0,000<0,01, Ho (kad kintamieji yra nepriklausomi) atmetama. Tarp kintamųjų yra

statistiškai reikšmingas ryšys. Spearman’o koreliacijos koeficientas lygus -0,225 – ryšys tarp kintamųjų

yra silpnas. Saugumo jausmui didėjant respondentų gimimo metai mažėja t.y. kuo jaunesnis, tuo

saugiau jaučiasi vaikščiodamas vakarais savo rajone.

Atvirkštinė priklausomybė

47

Literatūra: 1. Augutis J., Krikštolaitis R. (2006). Kompiuterinis tyrimo duomenų apdorojimas. – Šiauliai:

Projektas MOKOM.

2. Čekanavičius V., Murauskas G. (2002). Statistika ir jos taikymai, I dalis. – Vilnius: TEV.

3. Janilionis V. Statistika ir duomenų analizės programinė įranga. Distancinio mokymo kursas. –

Kaunas: KTU, 1999-2001. Prieiga per internetą: http://fmf.ktu.lt/janil/stat1.htm.

4. Pukėnas K. (2005). Sportinių tyrimų duomenų analizė SPSS programa: mokomoji knyga. –

Kaunas: LKKA.

5. Pukėnas K. (2009). Kokybinių duomenų analizė SPSS programa: mokomoji knyga. – Kaunas:

LKKA.

antrinė kiekybinių duomenų analizė - lida lietuvos hsm ...€¦ · 1 projektas „lietuvos hsm...

Documents