statistika (statistiČka hipoteza, podaci i rezultati) dr
Post on 03-Nov-2021
4 Views
Preview:
TRANSCRIPT
STATISTIKA (STATISTIČKA HIPOTEZA, PODACI I REZULTATI)
dr. sc. Rudolf Kiralj
I) DIO I: UVOD U STATISTIKU (predavanja 1-4)
II) DIO II: OSNOVNE STATISTIČKE VELIČINE (predavanja 5-10)
III) DIO III: STATISTIČKI TESTOVI (predavanja 11-14)
DIO I: UVOD U STATISTIKU - SADRŽAJ
1. sat: uvod u statistiku i biostatistiku
a) statistika
b) biostatistika
2. sat: opći principi statističkog istraživanja (veze izmeĎu istraživanja i
(bio)statistike)
a) istraživački postupak
b) podaci, varijable i hipoteze
c) izvještaji
d) masovne pojave
3. sat: organizacija i prikaz statističkih podataka i rezultata analiza
a) izvorni medij
b) konačan medij
c) frekvencije
d) prikaz podataka
e) prikaz rezultata
4. sat: vjerojatnost
a) pojam i definicija
b) zadaci
I.1.A. Statistika I.1.A.1. Pojam statistike
Porijeklo riječi statistika:
statistika Njem. Statistik (pojam uveo Gottfried Achenwall 1748. u knjizi
"Vorbereitung zur Staatswissenschaft", sa značenjem: analiza podataka od
drţavnog interesa) Njem. statistich (pridjev: statistički, drţavni) NLat.
statisticus (pridjev: statistički tj. drţavni, koji pripada drţavi) NLat.
statisticum (collegium) (statistički kolegij, predavanja o drţavnim poslovima)
Ital. statista (drţavnik, političar, osoba vješta u drţavnim poslovima)
Sredvj.Lat. status (drţava, politička organizacija neke zemlje, najviša civilna
vlast, vlada) Lat. status rei publicae (postojanje ili stanje republike) PIE
*sta- (stajati, kognat s Hrv. stajati)
Statistika u Engl. – značenje riječi statistics:
-1791. „znanost koja barata s podacima o stanju u nekoj zemlji ili zajednici” –
„politička aritmetika” (npr. stanovništvo, porezi, površine, „drţavni brojevi”);
uveo Sir John Sinclair u 21-volumnom izdanju „Statistical Account of Scotland”
-1829. „sakupljanje i klasifikacija brojevnih podataka”
-1880. „kvantitativna činjenica ili tvrdnja”
-danas: 1) matematička znanost koja se bavi brojevnim podacima –
sakupljanje, organizacija, obrada i tumačenje brojevnih podataka;
2) brojevni podaci ili brojevna činjenica o izučavanom objektu istraživanja
Statistika: empirijska znanstvena disciplina koja proučava masovne
pojave u prirodi i društvu, služeći se sakupljanjem, organiziranjem
(odabirom i grupiranjem tj. klasifikacijom) i obradom (analizom) podataka,
te tumačenjem (interpretacijom) i prikazivanjem (prezentacijom) podataka
i rezultata analize, kao i predviĎanjem (predikcijom) masovne pojave.
Empirijska disciplina podaci su dobiveni isključivo empirijskim
načinom tj. promatranjem, eksperimentom, anketom/upitnikom, iz
dokumentacije i na dr. načine koji nisu teorijski ili računalni (podaci nisu
dobiveni iz gotovih formula, izračunavanjem ili računalnim simulacijama)
Masovna pojava (dogaĎaj): skupina koja sadrži velik broj (konačan broj:
desetke, stotine, tisuće, pa i više; ili beskonačan broj) istovrsnih jedinica
s jednim ili više zajedničkih svojstava, npr. stanovnici Republike Hrvatske;
bolesnici Opće bolnice Bjelovar; promet tereta u hrvatskim lukama; iznos
ostvarenog bruto domaćeg proizvoda u promatranoj vremenskoj jedinici;
autobusi grada Zagreba; stočni fond u Hrvatskoj
Statistička masa ili statistički skup: masovna pojava koja je odabrana za
predmet statističkog istraživanja i koja se ispituje odgovarajućim
statističkim metodama s ciljem odreĎivanja značajki promatrane pojave.
Jedinice (elementi) statističke mase ili statističkog skupa = statističke
jedinice: objekti (stvari), osobe, organizacije, ustanove, poslovni subjekti,
vrijednosnice, općine, drţave, pojave… sa zajedničkim svojstvom ili svojstvima.
Obilježja (svojstva) statističkih jedinica = statistička obilježja ili statističke
varijable: u potpunosti odreĎuju statistički skup 4 vrste obilježja:
1- atributivno obilježje: izražava se riječima nominalne i ordinalne
varijable, npr. spol (M, Ţ) i dobne skupine (dijete, odrastao, osoba starije dobi)
2- numeričko obilježje: izražava se brojevima diskretne i kontinuirane
varijable, npr. navršene godine ţivota i visina (u cm)
3- prostorno obilježje: prostor tj. geografsko područje na koje se odnose
statističke jedinice, npr. grad Bjelovar kategorijska ili metrička varijabla
4- vremensko obilježje: vrijeme na koje se odnose statističke jedinice, npr.
2015. godina kategorijska ili metrička varijabla
Predmet statistike: proučavanje odreĎenih zakonitosti masovnih pojava
na osnovi varijabilnosti (promjenljivosti) obilježja statističkih jedinica.
Zadatak statistike: uočavanje odreĎenih zakonitosti masovnih pojava,
njihovo sažeto i brojčano iskazivanje (prezentacija) – tabelarno i slikovno,
te predviĎanje tih pojava.
Masovne pojave (dogaĎaji) u statistici: pretpostavlja se da su takve pojave i
slučajne, tj. da se ne mogu predvidjeti niti odrediti, koje se mogu ali i ne moraju
dogoditi, a mogu se dogoditi na ovaj ili onaj način, te nisu ničim povezane
uzročno-posljedičnim vezama = slučajne pojave ili slučajni dogaĎaji
Pojedinačna (elementarna) pojava ili elementarni dogaĎaj u statistici:
postojanje statističke jedinice odreĎenih obilježja od statističkog interesa,
na odreĎenom prostoru i u odreĎenom vremenu; npr. elementarna pojava:
zabiljeţen je stanovnik M. M., muškog spola u dobi od 37 godina, u selu F. na
području Bjelovarsko-bilogorske ţupanije, 2011. godine – za vrijeme popisa
stanovništva RH; masovna pojava – zabiljeţeni su svi muškarci u dobi od 37
godina, na području Bjelovarsko-bilogorske ţupanije za vrijeme tog popisa.
Vrste statistike prema informacijama koje daju (1. i 2. su najvažnije):
1. Deskriptivna (opisna) statistika:
-utvrĎuje prve činjenice o masovnim pojavama = početak analize
-brojčano opisuje cijeli statistički skup koji se analizira (statističku
populaciju – teoretski čitav statistički skup, ili statistički uzorak –
proučavani dio populacije), ureĎuje podatke i informacije, te ih tabelarno i
grafički prikazuje (dijagrami raspršenja, histogrami, statističke torte itd.);
-daje frekvencije (učestalosti), mjere središnje tendencije (medijan, mod,
aritmetičku sredinu i dr.), mjere raspršenja (raspon, interkvartilni raspon,
standardnu devijaciju i dr.);
2. Inferencijalna ili induktivna statistika (statistika zaključivanja):
-analizira statistički uzorak tj. dio statističke populacije
-na osnovu uzorka donose se zaključci za cijelu statističku populaciju
-induktivna metoda: kreće se od pojedinačnog slučaja prema općem
pravilu – ekstrapolacija rezultata, statistički testovi, regresija i dr.
3. Bayesova statistika: zasnovana na Bayesovoj ili uvjetnoj vjerojatnosti, a ne
na klasičnoj (frekvencijskoj) vjerojatnosti kao deskriptivna i inferencijalna
statistika
4. Statističko modeliranje s analizom: modeliranje (planiranje) eksperimenata,
prostorno-vremenske statističke analize i dr.; bazira se na uzročno-posljedičnim
vezama među varijablama
5. Statistička analiza eksperimentalnih podataka: analiza eksperimentalnih
podataka; utvrđuje značajne razlike između varijabli.
Vrste statistike prema raspodjeli podataka:
1. Parametrijska statistika:
-za podatke koji obično slijede normalnu (Gaussovu) ili neku drugu raspodjelu
(distribuciju, razdiobu) vjerojatnosti, pri čemu je raspodjela određena skupom
parametara s fiksnim vrijednostima (srednja vrijednost, stand. devijacija i dr.)
-bazira se na pretpostavci da je uzorak dio populacije s utvrĎenom
raspodjelom vjerojatnosti
-za velike uzorke (barem 30-50 jedinica u uzorku)
-za homogenu varijancu (varijanca je slična u podskupovima statističkog skupa)
2. Neparametrijska statistika:
-za podatke za koje nije potrebno znati koju raspodjelu vjerojatnosti
slijede, stoga ne postoje parametri raspodjele s fiksnim vrijednostima
-za male uzorke (najviše 30-50 jedinica u uzorku)
-za nehomogenu varijancu (varijanca nije slična u podskupovima statist. skupa)
I.1.A.2. Značaj i primjena statistike
Statistika u RH (Nacionalno vijeće za znanost, 2009):
-grana: teorija vjerojatnosti i statistika matematička statistika (područje
prirodnih znanosti, polje: matematika)
-grana: ekonomska matematika i statistika ekonomska statistika (područje
društvenih znanosti, polje: ekonomija)
-grana: demografska statistika demografska statistika (područje društvenih
znanosti, polje: demografija)
Primjena statistike:
-matematička statistika: matematika, fizika, kemija, geologija
-ekonomska statistika: ekonomija
-demografska statistika: demografija
-biostatistika: biologija, biomedicinske znanosti, zdravstvo, biotehničke znanosti
-psihologijska statistika: psihologija
-statistika u sociologiji
-pedagoška statistika
i druge specijalizirane statistike za proučavanje prirodnih te društvenih
masovnih pojava.
Na idućim slajdovima dani su primjeri primjene statistike u obliku izvještaja i
godišnjaka u različitim područjima ljudske djelatnosti: demografija, javno
zdravstvo, javna uprava (policija, sudstvo, zapošljavanje, mirovinsko
osiguranje, izbori), promet (zračni), školstvo, gospodarstvo.
Gotovo da i nema područja ljudske djelatnosti u kojem se statistika ne
primjenjuje.
Statistika je nerazdvojna od teorije vjerojatnosti.
Teorija vjerojatnosti: grana matematike koja se bavi slučajnim pojavama.
Teorija vjerojatnosti je matematički temelj statistike. Nastala je u 16./17.st.
I.1.A.3. Povijest statistike s teorijom vjerojatnosti
Razvoj statistike i teorije vjerojatnosti tekao je u više faza.
1) Stari vijek:
-već su prve drţave radile popise stanovništva, što se nastavilo sve do
današnjih dana; npr. Quiriniusov popis stanovništva za rimske provincije Siriju i
Judeju spomenut je u Novom zavjetu
-Tukidid u staroj Grčkoj opisuje u svojoj „Povijest Peloponeskog rata„ kako su
Atenjani procijenili visinu platejanskog zida statističkom metodom
-kralj Rtuparna u Indiji (opisano u epu „Mahabharata”, oko 400 g. pr. Kr.)
statističkim metodama je procijenio broj listova i plodova na granama drveta
bibhitaki
2) Srednji vijek:
-Arapski znanstvenik Al-Kindi (9. st.) u svojoj knjizi „Rukopis o dešifriranju
kriptografskih poruka” koristi statističke metode i analizu frekvencija za
dešifriranje poruka
-kontrola kvalitete kraljevskih zlatnika u Engleskoj od 12. st. („Trial of the Pyx”)
pomoću statističkih metoda, postoji još i danas
3) Europa, znanstvena revolucija (renesansa i prosvjetiteljstvo, 16-18. st.):
-počeci sustavnog skupljanja raznih demografskih podataka u 16-17. st.:
1532. dnevni izvještaj o umrlima u Londonu; 1539. sakupljanja podataka o
rođenim, vjenčanim i umrlima u Francuskoj; 1608. crkveni podaci u Švedskoj po
ţupama itd.
-temelji teorije vjerojatnosti u 16-17. st.: Gerolamo Cardano 1560-tih u svojoj
knjizi „Liber de ludo aleae” bavi se računanjem vjerojatnosti u igrama na sreću
za novce (kockanje, hazard); 1654. Blaise Pascal i Pierre de Fermat u
međusobnom dopisivanju postavljaju matematičke temelje teorije vjerojatnosti;
1657. Christiaan Huygens dorađuje ove temelje u knjizi „De ratiociniis in ludo
aleae”
-temelji statistike kao znanosti u 17. st.: 1662. John Graunt u svojoj knjizi
„Natural and Political Observations Made upon the Bills of Mortality” i 1672. Sir
William Petty u „Political Arithmetick” (izdana posthumno 1690.) razvili su
statističke metode za modernu demografsku znanost
-javljaju se drugi radovi, posebno u 18. st., u kojima se razvijaju statistička
znanost, teorija vjerojatnosti i druge matematičke grane, te se iste primjenjuju
na razne podatke od interesa drţave, ali i na druge podatke; sve se više
skupljaju demografski i različiti drugi podaci pogodni za statističku analizu
Temelji teorije vjerojanosti: „Liber de
ludo aleae” (G. Cardano, 1560-tih g.) i
„De ratiociniis in ludo aleae” (C.
Huygens, 1657.)
Temelji statističke znanosti:
„Natural and Political
Observations Made upon the Bills
of Mortality” (J. Graunt, 1662.) i
„Political Arithmetick” (Sir W.
Petty, 1672/1690.)
4) (uglavnom) Zapadni svijet u moderno doba (19-21. st.):
-osnivanje statističkih društava, već od sredine 19. st.: Manchester Statistical
Society (1833.), Statistical Society of London (1834., današnje Royal Statistical
Society), American Statistical Association (Boston, 1839.), Deutsche
Statistische Gesellschaft (1911.) itd.
-osnivanje statističkih časopisa, već od sredine 19. st.: Journal of the Statistical
Society of Lodon (1839., današnji Journal of the Royal Statistical Society),
Allgemeines Statistisches Archiv (1890.-2008.), Biometrika (1901.) itd.
-razvoj novih statističkih i matematičkih metoda tijekom cijelog razdoblja:
regresija metodom najmanjih kvadrata (1805. Adrien-Marie Legendre, 1806.
Robert Adrain, 1809. Carl Friedrich Gauss); korelacija (1885-1890. Sir Francis
Galton, 1896. Karl Pearson); p-vrijednosti vjerojatnosti (1900. Karl Pearson);
2-test (1900. Karl Pearson); analiza glavnih komponenata (1901. Karl
Pearson, 1933. Harold Hotelling); Studentov ili t-test (1908. William Sealy
Gosset, s pseudonimom Student); Fisherov egzaktni 2-test (1922. Ronald
Fisher); Yatesov 2-test (1934. Frank Yates); Kolmogorovi aksiomi vjerojatnosti
(1933. Andrey Nikolaevič Kolmogorov); Bayesova statistika (1934. Harold
Jeffrey, 1950. Abraham Wald, 1954. Lenard J. Savage) itd.
-razvoj statističkih i matematičkih metodologija u obliku računalnih programa,
već krajem 1950-ih godina: BMDP (1957.), SPSS (1968.), SAS (1972.),
Statgraphics (1980.), Excel (1985.), Statistica (1991.), R (1993.) itd.
I.1.B. Biostatistika I.1.B.1. Pojam i značaj biostatistike
Porijeklo riječi biostatistika:
bio- (od kasnog grč. bios = život) + -statistika, u upotrebi već oko 1936.
(engl. biostatistics); krajem 19. st. postoji slična riječ biometrika (engl.
biometrics), a još od oko 1830. u upotrebi je i riječ biometrija (engl. biometry).
Razlike izmeĎu biostatistike, biometrike i biometrije: nisu jasne, u biti ne
postoje; u engleskom jeziku postoje neke tendencije razlikovanja, ali u
hrvatskom se one gube. Zbog toga se u ovom predavanju sva tri naziva
smatraju jednim pojmom s jednim imenom – biostatistika.
Biostatistika: statistika primjenjena na biološke podatke (podatke o živim
bićima), tj. statistika primjenjena u biologiji (posebno u genetici i
ekologiji), u biomedicinskim znanostima i zdravstvu (medicina, javno
zdravstvo, veterinarska medicina, farmacija, dentalna medicina), u
biotehničkim znanostima (poljoprivreda, šumarstvo, biotehnologija,
prehrambena tehnologija) te u drugim srodnim interdisciplinarnim
područjima (bioinformatika, sistemska biologija, ekoepidemiologija itd.).
Biostatistika nije jedinstvena znanstvena disciplina jer se odnosi na
široku lepezu disciplina koje se bave biološkim podacima.
Biostatistika je već postojala početkom 19. st. Naglo se počela razvijati
početkom 20.st., zahvaljujući najviše uspjesima genetike i moderne statističke
znanosti. Moderna biostatistika koristi računalne metode, statističke programe,
računalne simulacije, suvremene matematičke i statističke metode, te
suvremene eksperimentalne metode sakupljanja podataka.
Postoje različite podvrste biostatistike: medicinska biostatistika, klinička
biostatistika, epidemiološka biostatistika, ekološka biostatistika, farmakološka
biostatistika, poljoprivredna biostatistika, šumarska biostatistika i dr., ovisno o
području u kojem se statističke metode primjenjuju na biološke podatke.
U ovom kolegiju, počevši od ovog slajda, pojam biostatistika ograničit će se na
primjenu statistike u biomedicini i javnom zdravstvu, tj. u:
-medicini, uključivši klinička ispitivanja, medicinu zasnovanu na dokazima,
socijalnu psihologiju, i posebno sestrinstvo;
-javnom zdravstvu, uključivši epidemiologiju, zdravstvenu ekologiju, zdravlje na
radu.
Ovo područje se u Ujedinjenom Kraljevstvu smatra zasebnom disciplinom već
40 godina i zove se medicinska statistika (medical statistics), dok se u
Sjevernoj Americi rabi širi pojam biostatistika (biostatistics). Svaka zemlja ima
svoje shvaćanje biostatistike, sluţbenu klasifikaciju i nazive disciplina, na što
treba obratiti paţnju prilikom proučavanja literature.
I.1.B.2. Primjena biostatistike
Zašto se medicinske sestre i medicinski tehničari općenito boje
(bio)statistike svuda po svijetu?
Mogući razlozi:
1- zato što od drugih čuju zastrašujuće priče o satovima (bio)statistike;
neistine i iskrivljene slike o (bio)statistici
2- zato što su već vidjeli neke (bio)statističke rezultate, ali ih nisu razumjeli jer
za to nisu imali znanja niti iskustva; statistiku je potrebno učiti i vjeţbati
Time su stekli negative predrasude o (bio)statistici, uvjerili sami sebe da im ona
nije potrebna, da je sama po sebi preteška, ili da ju nisu sposobni naučiti, i sl.
Zašto učiti i koristiti (bio)statistiku?
Mogući razlozi:
1- biti sposoban dobiti informacije iz podataka i prikladno ju uporabiti =
a) opis i analiza rezultata istraživanja,
b) poopćavanje tj. zaključivanje iz pojedinačnih slučajeva na opći zakon;
c) planiranje eksperimenata i istraživanja;
2- biti sposoban za praćenje medicinske i dr. znanstvene/stručne literature i
javnih medija = znati što ima smisla, ne dati se zavaravati krivim statistikama,
biti sposoban objavljivati vlastite rezultate prema određenim kriterijima kvalitete;
3- biti sposoban za smisleno odgovaranje na osnovna pitanja statističke
prirode = razumjeti biostatistiku u konkretnom istraţivanju.
Učenjem i stvaranjem samopouzdanja student će uvidjeti da je biostatistika
logična i da ima smisla, i da nije tako teška kao što je izgledala na početku.
Većina znanstvenog i stručnog istraživanja zahtijeva statističku analizu.
Vaţnost statističke analize u istraţivanju lijepo ističe Dr. Robert H. Riffenburgh
(autor knjige „Statistics in Medicine”, Elsevier, 1999. i 2006.) u jednom kratkom
razgovoru:
-liječnik: „Previše sam zauzet liječenjem bolesnika da bih istraţivao.”
-Dr. Riffenburgh: „Kad liječite nekog bolesnika, izliječit ćete samo tog bolesnika.
Ali kada istraţujete, izliječit ćete deset tisuća bolesnika.”
[M. R. Chernick: The Essentials of Biostatistics for Physicians, Nurses, and
Clinicians. John Wiley & Sons, Inc., Hoboken, NJ, 2011, str. 4.]
Na idućim slajdovima dani su primjeri primjene biostatistike u raznim oblicima,
koji su od interesa za studente ovog kolegija. Preporučuje se da studenti
paţljivo prouče primjere, čime će shvatiti suštinu biostatistike i njezinu korisnost
u njihovoj profesionalnoj svakodnevici. Uz svaki primjer dani su statistički
podaci i zaključak koji slijedi iz statističke analize tih podataka.
Primjer 1:
utvrđivanje
činjeničnog stanja o
jednoj rijetkoj
bolesti upotrebom
deskriptivne
statistike, te
preporuke koje
slijede iz rezultata
statističke analize.
Primjer 2:
utvrđivanje
činjeničnog
stanja o
prehrani
djece
upotrebom
deskriptivne i
inferencijalne
statistike, sa
zaključkom
koji proizlazi
is rezultata
statističke
analize.
Primjer 3:
utvrđivanje
činjeničnog stanja o
čimbenicima koji
utječu na duljinu
dojenja upotrebom
deskriptivne
statistike, te
preporuke koje
slijede iz rezultata
statističke analize.
Primjer 4: utvrđivanje činjeničnog
stanja o uspješnosti provođenja
programa ranog otkrivanja raka
dojke upotrebom deskriptivne
statistike za vremenski ovisne
podatke, te preporuke koje slijede
iz rezultata statističke analize.
Primjer 5: utvrđivanje činjeničnog stanja o epidemiologiji HIV-a u RH upotrebom
deskriptivne statistike, te preporuke koje slijede iz rezultata statističke analize.
Primjer 6: utvrđivanje činjeničnog
stanja o stresu medicinskim sestara
upotrebom deskriptivne statistike.
Primjer 7: utvrđivanje činjeničnog stanja
o rupturi prednjeg kriţnog ligamenta
koljena upotrebom deskript. statistike.
Primjer 8:
utvrđivanje
činjeničnog stanja o
utjecaju pušenja na
smrtnost i duljinu
ţivota upotrebom
deskriptivne i
inferencijalne
statistike, u sklopu
programa British
Doctors Study
(1951-2001). Ovaj
program je prvi
ukazao na štetnost
pušenja i bio je
pokretač kampanja
protiv pušenja.
Primjer 9: utvrđivanje činjeničnog stanja o utjecaju pušenja na stopu smrtnosti
upotrebom deskriptivne i inferencijalne statistike (2-testa), na početku
programa British Doctors Study. Program je dokazao statističkim metodama da
pušenje povećava mogućnost nastajanja plućnog karcinoma.
R. Doll, A. B. Hill. The mortality of doctors in relation to their smoking habits; a
preliminary report. British Medical Journal, 1(4877), 1954, 1451-1455.
Deskriptivna
statistika:
standardizi-
rane stope
smrtnosti
Pušenje:
1 g.-
ili 1-14 g,
15 g.- ili
15-25 g,
25.+ ili 25 i
više g duhana
dnevno
Inferencijalna
statistika:
1- razlike između
opaţenih i
očekivanih stopa
smrtnosti –
prikazane su
grafički i tablično
(podaci za
kontingencijsku
tablicu tipa 4×2);
2- rezultati običnog
2-testa i testa s
Yatesovom
korekcijom,
pokazuju statistički
značajnu razliku u
smrtnosti od raka
pluća između 4
skupine liječnika.
top related