cursul i 1.introducere - umfcv.ro mg - cursul i.pdf · biostatistică - cursul i . cursul i ....

10
Biostatistică - Cursul I CURSUL I 1.Introducere Statistica este asociată cu un anumit tip de prelucrare a informaţiilor din lumea înconjurătoare şi anume acel tip de prelucrare care clasifică, centralizează informaţiile în tabele, şi grafice, grupează informaţiile, descoperă legături între ele, descoperă eventuale cauzalităţi, analizează fenomene complexe. În plus, statistica face şi generalizări ale unor ipoteze descoperite de obicei empiric. Chiar dacă nu avem o idee precisă, cu toţii gândim despre această ştiinţă că nu operează cu informaţii referitoare la un pacient sau o plantă sau un obiect sau la un număr foarte restrâns de astfel de entităţi. Ştim că statistica este ştiinţa care prelucrează informaţii care se referă la un număr mare de entităţi cum ar fi pacienţi sau indivizi sănătoşi sau sau plante sau obiecte de altă natură. Utilitatea statisticii este pusă mai bine în evidenţă atunci când trebuie studiate fenomene complexe în care intervin factori sau mărimi care se află în relaţii complexe ce nu pot fi descrise satisfăcător prin ecuaţii sau formule, sau prin relaţii cantitative de dependenţă. De exemplu, în tehnică, dacă suntem la un moment dat interesaţi de consumul de carburant al unui motor, există în mod sigur o determinare destul de exactă a acestuia în funcţie de puterea motorului, tipul său, viteza de deplasare, şi alţi câţiva parametri. Cunoscând parametrii de care depinde consumul, aplicăm o formulă şi obţinem consumul de carburant al acelui motor. Ceea ce obţinem este valabil pentru orice motor de acelaşi tip şi care funcţionează în aceleaşi condiţii. Atunci când vorbim de prelucrarea statistică a informaţiilor, folosim expresia “prelucrare a datelor”. Informaţiile referitoare la un pacient sau la un individ normal sau la orice alt obiect le numim Date. Numele, prenumele, vârsta, sexul, afecţiunea şi celelalte informaţii despre un anume pacient, mărimea sau greutatea unui obiect, productivitatea unei plante, etc, le numim date despre acel pacient, acel obiect sau acea plantă. Informaţiile referitoare la mai mulţi pacienţi sau indivizi sănătoşi, sau animale de experienţă, sau plante, sau alte obiecte pe care le studiem, le vom numi tot date. Când ne referim la prelucrarea informaţiilor, ca scop important al statisticii, vom spune prelucrarea datelor. Când vorbim despre înregistrarea pe calculator a acestor informaţii vom spune înregistrarea datelor. Astfel, statistica are ca unul din scopuri, înregistrarea şi prelucrarea datelor. Totuşi, nu orice tip de înregistrare de date şi orice prelucrare, ţin de obiectul statisticii. Înregistrarea evenimentelor cosmice în astronomie, înregistrarea facturilor în contabilitatea unei firme, înregistrarea poziţiei unui mobil în fizică, şi alte înregistrări asemănătoare, nu sunt legate de statistică şi nu obligă la prelucraări de natură statistică. Definiţie: Statistica este ştiinţa care se ocupă cu descrierea şi analiza numerică a fenomenelor de masă, dezvăluind particularităţile lor de volum, structură, dinamică, conexiune, precum şi regularităţile sau legile care le guvernează. Volumul unui fenomen de masă se referă la amploarea lui numerică, la numărul de indivizi cuprinşi sau afectaţi de fenomenul repectiv. Astfel, o afecţiune foarte răspîndită ca HTA (Hipertensiunea Arterială Esenţială), este un fenomen de un volum mai mare ca o afecţiune rară cum ar fi Sindromul Down. Prin structură a unui fenomen de masă, înţelegem modul în care acesta afectează diferite categorii de indivizi, cum ar fi în cazul studierii unei afecţiuni răspândite, structura afectării pe sexe, rase, religii, grupe de vârstă, ocupaţie, zone geografice, etc. De asemeni, structura reflectă relaţiile de legătură între mărimile prin care descriem fenomenul. 1

Upload: dinhngoc

Post on 06-Feb-2018

218 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: CURSUL I 1.Introducere - umfcv.ro MG - Cursul I.pdf · Biostatistică - Cursul I . CURSUL I . 1.Introducere . Statistica este asociat. ă cu un anumit tip de prelucrare a informaţiilor

Biostatistică - Cursul I

CURSUL I

1.Introducere Statistica este asociată cu un anumit tip de prelucrare a informaţiilor din lumea înconjurătoare şi anume acel tip de prelucrare care clasifică, centralizează informaţiile în tabele, şi grafice, grupează informaţiile, descoperă legături între ele, descoperă eventuale cauzalităţi, analizează fenomene complexe. În plus, statistica face şi generalizări ale unor ipoteze descoperite de obicei empiric. Chiar dacă nu avem o idee precisă, cu toţii gândim despre această ştiinţă că nu operează cu informaţii referitoare la un pacient sau o plantă sau un obiect sau la un număr foarte restrâns de astfel de entităţi. Ştim că statistica este ştiinţa care prelucrează informaţii care se referă la un număr mare de entităţi cum ar fi pacienţi sau indivizi sănătoşi sau sau plante sau obiecte de altă natură.

Utilitatea statisticii este pusă mai bine în evidenţă atunci când trebuie studiate fenomene complexe în care intervin factori sau mărimi care se află în relaţii complexe ce nu pot fi descrise satisfăcător prin ecuaţii sau formule, sau prin relaţii cantitative de dependenţă. De exemplu, în tehnică, dacă suntem la un moment dat interesaţi de consumul de carburant al unui motor, există în mod sigur o determinare destul de exactă a acestuia în funcţie de puterea motorului, tipul său, viteza de deplasare, şi alţi câţiva parametri. Cunoscând parametrii de care depinde consumul, aplicăm o formulă şi obţinem consumul de carburant al acelui motor. Ceea ce obţinem este valabil pentru orice motor de acelaşi tip şi care funcţionează în aceleaşi condiţii.

Atunci când vorbim de prelucrarea statistică a informaţiilor, folosim expresia “prelucrare a datelor”. Informaţiile referitoare la un pacient sau la un individ normal sau la orice alt obiect le numim Date. Numele, prenumele, vârsta, sexul, afecţiunea şi celelalte informaţii despre un anume pacient, mărimea sau greutatea unui obiect, productivitatea unei plante, etc, le numim date despre acel pacient, acel obiect sau acea plantă.

Informaţiile referitoare la mai mulţi pacienţi sau indivizi sănătoşi, sau animale de experienţă, sau plante, sau alte obiecte pe care le studiem, le vom numi tot date. Când ne referim la prelucrarea informaţiilor, ca scop important al statisticii, vom spune prelucrarea datelor. Când vorbim despre înregistrarea pe calculator a acestor informaţii vom spune înregistrarea datelor.

Astfel, statistica are ca unul din scopuri, înregistrarea şi prelucrarea datelor. Totuşi, nu orice tip de înregistrare de date şi orice prelucrare, ţin de obiectul statisticii. Înregistrarea evenimentelor cosmice în astronomie, înregistrarea facturilor în contabilitatea unei firme, înregistrarea poziţiei unui mobil în fizică, şi alte înregistrări asemănătoare, nu sunt legate de statistică şi nu obligă la prelucraări de natură statistică.

Definiţie:

Statistica este ştiinţa care se ocupă cu descrierea şi analiza numerică a fenomenelor de masă, dezvăluind particularităţile lor de volum, structură, dinamică, conexiune, precum şi regularităţile sau legile care le guvernează.

Volumul unui fenomen de masă se referă la amploarea lui numerică, la numărul de indivizi cuprinşi sau afectaţi de fenomenul repectiv. Astfel, o afecţiune foarte răspîndită ca HTA (Hipertensiunea Arterială Esenţială), este un fenomen de un volum mai mare ca o afecţiune rară cum ar fi Sindromul Down.

Prin structură a unui fenomen de masă, înţelegem modul în care acesta afectează diferite categorii de indivizi, cum ar fi în cazul studierii unei afecţiuni răspândite, structura afectării pe sexe, rase, religii, grupe de vârstă, ocupaţie, zone geografice, etc. De asemeni, structura reflectă relaţiile de legătură între mărimile prin care descriem fenomenul.

1

Page 2: CURSUL I 1.Introducere - umfcv.ro MG - Cursul I.pdf · Biostatistică - Cursul I . CURSUL I . 1.Introducere . Statistica este asociat. ă cu un anumit tip de prelucrare a informaţiilor

Biostatistică - Cursul I

De exemplu, în cazul studierii legăturii între starea socială şi intenţiile de vot, structura presupune şi descrierea diferitelor categorii de indivizi pe sexe, rase, stări sociale, ocupaţie, etc, cât şi legăturile între acestea şi intenţia de vot, exprimată numeric, în procente, etc.

Prin dinamică a unui fenomen de masă, înţelegem modul cum evoluează acesta în timp. Conexiunea fenomenelor este indicată de relaţiile de legătură şi, eventual, de relaţiile de dependenţă între ele.

De exemplu, fenomene economice pot influenţa evoluţia incidenţei unor afecţiuni în cadrul unei populaţii. Anumite tendinţe de evoluţie a incidenţei unei maladii, sau de modificare a valorilor normale la pacienţii cu o anumită afecţiune, pot căpăta caracter de regularitate. Statistica este cea care pune în evidenţă aceste regularităţi sau legi, care sunt valabile numai la modul general, ca tendinţă, nu neapărat la fiecare individ în parte. Tot ca exemplu, dacă ştim că o anumită fracţiune leucocitară este crescută în alergii, nu înseamnă neapărat că fiecare alergic are acea fracţiune leucocitară crescută, ci că există numai o tendinţă în acest sens.

Definiţie:

Biostatistica este ştiinţa care se ocupă cu aplicarea metodelor statisticii în ştiinţele vieţii.

Astfel, toate capitolele importante ale statisticii ca: statistica descriptivă, teoria sondajelor, teoria estimaţiei, teoria corelaţiei, regresiile, capitole care vor fi studiate sumar şi în acest curs, au aplicabilitate şi în ştiinţele vieţii ca: medicina, biologia, psihologia, sau discipline mai înguste ca biochimia, biofizica, stomatologia, fizioterapia, farmacologia, etc. Metodele cu aplicabilitate în ştiinţele vieţii au fost impulsionate în dezvoltarea lor chiar de domeniul lor de aplicare. Astfel, capitolul statisticii care se ocupă cu studiul şi estimarea supravieţuirii, are o aplicabilitate largă în medicină şi biologie şi dezvoltarea lui a fost influenţată pozitiv de acest fapt. Aceasta deoarece medicina a avut mereu nevoie de metode mai perfecţionate, pe care statistica a fost nevoită să i le pună la dispoziţie.

În multe situaţii, apar confuzii între două cuvinte care exprimă discipline diferite, şi anume între biostatistică şi statistica medicală. Aceasta din urmă, este un capitol al celei dintâi, şi anume:

Definiţii:

Statistica medicală este ştiinţa care se ocupă cu aplicarea metodelor statisticii în medicină. Biostatistica este ştiinţa care se ocupă cu aplicarea metodelor statisticii în toate ştiinţele vieţii, ca medicină, psihologie, farmacie, agricultură, horticultură, etc.

Medicina modernă este de neconceput fără cercetarea medicală, iar un segment din ce în ce mai consistent al acestei cercetări are la bază statistica. Nu se mai poate face cercetare de laborator sau clinică, iar rezultatele să fie raportate doar prin comparări puerile între numărul de cazuri sau procente sau medii. Fără asigurarea statistică, nici o cercetare nu are valoare. Acele simple comparări între valorile mediilor pot duce la concluzii total greşite. Nici o revistă ştiinţifică medicală serioasă, de 30-40 de ani nu mai publică rezultate neprelucrate statistic, diferenţe de medii între loturi, fără deviaţii standard şi teste de semnificaţie (cel puţin, vezi cursul al şaselea).

* * * Introducem câteva noţiuni specifice cu care operează statistica şi cu care vom lucra în cursurile ce urmează. Fiind o ştinţă care nu lucrează cu fenomene strict deterministe, toate afirmaţiile statisticii se referă nu la evenimente sau obiecte singulare ci sunt deduse prin observarea unei mulţimi cât mai cuprinzătoare de obiecte sau fenomene. Nu se pot face generalizări pripite din studierea unui caz sau a câtorva cazuri şi este destul de clar pentru oricine că o generalizare este cu atât mai valoroasă cu cât au fost observate un număr mai mare de cazuri. Aici însă apare problema de a face o apreciere corectă a numărului de observaţii efectiv realizate, raportat la numărul posibil de observaţii.

Dacă ne propunem să facem un studiu asupra unei afecţiuni foarte răspândite, cum ar fi hipertensiunea arterială esenţială (HTA), concluzii valabile nu se pot trage decât pe baza unui număr de cazuri de cel puţin câteva mii sau zeci de mii, dar în cazul unei maladii rare cum sunt unele din anomaliile cromozomiale de exemplu, un astfel de număr de cazuri pur şi simplu nu poate fi găsit în aria de cercetare considerată, uneori nici pe întregul glob. Oricum, în general vorbind, este bine ca, în limita posibilităţilor, studiul să se facă pe un număr cât mai mare de indivizi.

2

Page 3: CURSUL I 1.Introducere - umfcv.ro MG - Cursul I.pdf · Biostatistică - Cursul I . CURSUL I . 1.Introducere . Statistica este asociat. ă cu un anumit tip de prelucrare a informaţiilor

Biostatistică - Cursul I

1.1 Noţiunile de bază. Cea mai generală noţiune pe care trebuie să o discutăm este cea care se referă la totalitatea cazurilor, elementelor, obiectelor care au în comun trăsătura sau proprietatea studiată de noi.

Definiţie:

Vom numi populaţie statistică o mulţime de elemente care au una sau mai multe însuşiri comune şi care fac obiectul unei cercetări statistice.

De obicei, prin populaţie statistică, în mod empiric, înţelegem o mulţime de persoane umane: • persoanele din judeţul Dolj care suferă de HTA, sau • persoanele din judeţul Dolj de sex feminin care suferă de HTA, sau • persoanele din România care suferă de cancer de colon şi care au fost operate, etc.

Cum de cele mai multe ori, loturile studiate trebuie comparate cu loturi de normali, ne vom mai referi şi la populaţii ca:

• persoanele normale dintr-o arie geografică dată, sau • persoanele de sex feminin din Dolj, sau • copiii normali între 2 şi 14 ani, etc.

Exemplele de populaţii statistice de acest gen pot fi multiplicate practic nelimitat, de fapt fiind necesar să se considere aproape pentru fiecare nou studiu statistic o populaţie specifică la care se referă, numită populaţie ţintă.

Pe de altă parte, de obicei în statistică, o populaţie nu este o mulţime de persoane. De exemplu, în studiile demografice se iau câteodată ca elemente fundamentale grupuri sociale ca: aşezări omeneşti sau instituţii, intreprinderi, populaţia aşezărilor umane din România, populaţia şcolilor dintr-un judeţ, etc. Avem deci în acest caz populaţii de grupuri socio-umane. Ele nu sunt alcătuite din indivizi umani ci din grupuri de indivizi umani.

Mai mult, populaţiile pot să nu aibă o legătură directă cu indivizi umani ci mai degrabă indirectă, şi anume se poate vorbi despre populaţii de evenimente (accidentele de circulaţie dintr-o arie geografică, accidentele cardiace pe o perioadă anume de timp, etc) sau despre populaţii de măsurători (tensiunea arterială a unui pacient considerată la intervale regulate de timp).

Vom avea deci ca tipuri mai importante de populaţii: • Populaţii de indivizi umani (normali, afectaţi de o afecţiune, expuşi la un risc, etc) • Populaţii de grupuri socio-umane (localităţi, şcoli, intreprinderi, spitale, etc) • Populaţii de evenimente (la oameni, la animale de experienţă, la celule, etc) • Populaţii de măsurători (la oameni, la animale, la plante, la alte obiecte, la celule, la gene, la

mitocondrii, etc).

Deci, când vorbim despre o populaţie, nu este vorba neapărat despre populaţia unei ţări sau oraş, adică despre grupuri de oameni.

Indiferent despre ce tip de populaţie discutăm la un moment dat, unitatea fundamentală cu care avem de a face este individul statistic.

Definiţie:

Vom numi individ statistic un element al unei populaţii statistice indiferent de natura acesteia.

Astfel noţiunile de individ uman şi de individ statistic nu se suprapun deoarece aşa cum rezultă din această definiţie, individul statistic poate fi:

• persoană umană (individ sănătos, pacient), • un grup socio-uman (o şcoală, o localitate, un spital, etc), • un eveniment, • o măsurătoare, etc.

Mai mult, nu orice individ uman poate fi şi individ statistic ci, pentru aceasta trebuie să fie cuprins într-o populaţie statistică. Relativ la indivizii statistici, preocuparea fundamentală este studiul anumitor

3

Page 4: CURSUL I 1.Introducere - umfcv.ro MG - Cursul I.pdf · Biostatistică - Cursul I . CURSUL I . 1.Introducere . Statistica este asociat. ă cu un anumit tip de prelucrare a informaţiilor

Biostatistică - Cursul I

caracteristici ale acestora, anume acele caracteristici care au legătură cu cea avută în vedere atunci când am considerat populaţia statistică.

1.2 Caracteristici, variabile, tipuri de date, scale. Organismul uman, cel mai complex sistem existent în natură, nu poate fi descris exact nici prin tomuri întregi de descriere în cuvinte şi nici prin numre oricât de multe am folosi. Omul este capabil să descrie numai anumite trăsături sau proprietăţi ale organismului său.

Trebuie să fim conştienţi că deşi numărul de trăsături ale organismului pe care le studiază anatomia, biochimia, biofizica, fiziologia şi toate celelalte discipline este enorm, niciodată nu vom fi capabili să descriem exact organismul uman, căci numărul de trăsături de care am avea nevoie este practic infinit. Trăsăturile sau proprietăţile organismului uman sunt denumite în statistică caracteristici şi sunt cuprinse în categoria generală de date, aşa cum sunt descrise mai sus.

Definiţie:

Numim caracteristică o proprietate comună tuturor indivizilor dintr-o populaţie statistică dată.

Caracteristicile sunt ceea ce în limbajul obişnuit înţelegem prin atribut, calitate. Atribute ce caracterizează organismul uman şi prezintă interes medical, sunt extrem de multe.

Cele mai simple sunt cele antropometrice, adică înălţime, greutate, circumferinţa toracelui, circumferinţa craniului, culoarea părului, a ochilor, constituţia corporală, şi multe altele.

Altele, caracterizează starea organismului ca fiziologică sau patologică şi sunt de obicei obţinute cu ajutorul instrumentelelor sau analizelor de laborator, însă pot fi aprecieri subiective: tensiunea arterială (presiunea arterială, de fapt), frecvenţa cardiacă, ritmul respirator, glicemia, calcemia, hemoglobina, lipemia, colesterolemia, bilirubina, fosfataza acidă, creatinina, antigenul HBS, prezenţa albuminei în urină, culoarea urinei, consistenţa ficatului, etc.

Din punctul de vedere al statisticii medicale, caracteristicile sunt de două tipuri fundamentale: cantitative şi calitative.

• Caracteristicile cantitative sunt acelea care prin natura lor sunt măsurabile, adică pentru care există unităţi de măsură şi o convenţie de măsurare general acceptată. În această categorie intră toate constantele fiziologice, biochimice, biofizice, unele anatomice, care în general pot fi determinate prin măsurători uzuale sau de laborator: înălţime, greutate, vârstă, glicemie, calcemie, hemoglobină, număr eritrocite, forţă musculară, viteză de reacţie, nivel de inteligenţă (QI), dar şi mărimile referitoare la celule, organite, sinapse, vezicule, membrane, etc. Ele sunt totdeauna exprimate cifric într-un mod precis, obiectiv.

• Caracteristicile calitative, sunt cele care nu pot fi măsurate prin metode obiective, cantitative, ci se exprimă descriptiv prin termeni calitativi: culoare, formă, consistenţă, aspect, etc. Caracteristicile calitative nu au o unitate de măsură general acceptată şi deci nu pot fi exprimate cifric, ca rezultat al unor măsurători. Ele sunt adesea subiective şi de obicei exprimate analogic şi nu numeric.

Variabile. Deşi sunt unele aspecte care se menţin constante la o aceeaşi specie, şi în particular la om, unele se schimbă de la individ la individ, adică sunt variabile. Aşadar, atunci când indivizii statistici sunt oameni, caracteristicile care se studiază sunt de multe ori variabile.

Definiţie:

O caracteristică care se schimbă de la individ la individ sau la acelaşi individ în timp sau ca răspuns la condiţiile de mediu, de boală de medicaţie, etc, se numeşte variabilă.

Un alt criteriu de clasificare, şi cel mai important se referă la simbolurile pe care le folosim pentru a reprezenta datele experimentale pe care dorim să le înregistrăm şi care sunt dependente de natura intrinsecă a datelor. Aceasta înseamnă că, pentru înregistrarea datelor putem folosi fie numai numere (spunem că înregistrăm date numerice), fie numai simboluri consacrate pe plan internaţional sau naţional, ori simboluri convenite local (spunem că înregistrăm date nominale, sau date ordinale), fie simboluri amestecate cu numere (caz în care spunem că înregistrăm date alfanumerice). Datele înregistrate ca numere sau prin simboluri consacrate sau convenite se numesc scalate, în timp ce restul le numim alfanumerice.

4

Page 5: CURSUL I 1.Introducere - umfcv.ro MG - Cursul I.pdf · Biostatistică - Cursul I . CURSUL I . 1.Introducere . Statistica este asociat. ă cu un anumit tip de prelucrare a informaţiilor

Biostatistică - Cursul I

Astfel, scala numerică va permite celui care înregistrează date să scrie numere reale sau întregi. Scala ordinală şi cea nominală, scale asemănătoare, permit înregistrarea după coduri şi prescurtări. De exemplu, grupa sanguină, stadiul evolutiv al unei afecţiuni maligne, tipul de afecţiune, tipul de tumoră, etc sunt de obicei standardizate prin convenţii internaţionale la scară continentală sau mondială.

Scala numerică

Datele înregistrate pe scala numerică descriu acele caracteristici ale pacientului care sunt prin excelenţă cantitative şi se exprimă prin numere întregi sau zecimale. De obicei este stabilită o margine superioară şi inferioară pentru ele (nu putem spune că un pacient are temperatura mai mare ca 44 oC, de exemplu). Măsurătorile pe scala numerică sunt de aşa natură încât o unitate pe scală are aceeaşi magnitudine pe întreaga scală. De exemplu, înregistrarea greutăţii, presupune că o greutate de 40 kg, este de două ori mai mică decât una de 80 kg, iar diferenţa de 1 kg este aceeaşi şi de la 40 kg la 41 kg, dar şi de la 80 kg la 81 kg.

Totuşi, scalele numerice nu permit totdeauna interpretări comparative. Astfel, este greşit să se spună că un pacient cu hemoglobina Hb=8 este de două ori mai anemic decât unul cu Hb=16, bazându-ne pe faptul că hemoglobina le cel de-al doilea are o valoare dublă. La fel cu glicemia, calcemia, tensiunea, colesterolemia şi aproape toate celelalte analize de laborator exprimate numeric şi în general cu caracteristicile cantitative exprimate pe această scală.

Pe scala numerică sunt reprezentate caracteristici cantitative continui şi caracteristici cantitative discrete. De exemplu, numărul de naşteri sau numărul de avorturi la o pacientă se înregistrează numeric, discret, adică din 1 în 1, neavând sens valori zecimale. Majoritatea analizelor de laborator însă, se înregistrează numeric, prin numere zecimale, de obicei cu una sau două zecimale. În cazul înregistrării cu zecimale, se spune că se foloseşte scala continuă.

Scala nominală

Datele înregistrate pe scala nominală descriu o caracteristică sau o variabilă pentru înregistrarea căreia se pot folosi un număr finit de simboluri, alese la întâmplare sau prin convenţie, care reprezintă categoriile posibile, exhaustiv şi mutual exclusiv. De exemplu, pentru grupa sanguină, simbolurile 0, A, B, AB sunt categorii exhaustive (orice individ intră în exact una din ele) şi mutual exclusive (un individ nu poate intra în două categorii în acelaşi timp) şi sunt date de tip nominal; Măsurătorile nominale constau în asignarea pacienţilor la grupuri sau categorii. Nu este înregistrată nici o informaţie cantitativă şi nu există o ordine a categoriilor. Pe scala nominală se înregistrează caracteristici calitative. Exemplu: preferinţe religioase, rasa, sexul, mod de alimentaţie, tip de temperament, culoarea ochilor, a părului, etc.

Pe scala nominală, innddiivviizziiii ssuunntt îîmmppăărrţţiiţţii îînn ccââtteevvaa ccllaassee:: •• EExxhhaauussttiivvee ((ffiieeccaarree iinnddiivviidd aappaarrţţiinnee uunneeii ssiinngguurree ccllaassee)) • Mutual exclusive (nici un individ nu poate aparţine la două clase, simultan) •• Numele claselor sunt simbolice şi de obicei sunt fixate de practica medicală sau de convenţii

internaţionale, naţionale, locale •• DDooii iinnddiivviizzii ddiinn aacceeeeaaşşii ccllaassăă ssuunntt eecchhiivvaalleennţţii ppee ssccaallaa ccoonnssiiddeerraattăă ((cchhiiaarr ddaaccăă ddiinn aallttee ppuunnccttee ddee

vveeddeerree ssuunntt ddiiffeerriiţţii)) •• NNuu aarree sseennss ssăă oorrddoonnăămm ccllaasseellee ccrreessccăăttoorr ssaauu ddeessccrreessccăăttoorr dduuppăă nniiccii uunn ccrriitteerriiuu

DDee eexxeemmpplluu,, ttoott ppee oo ssccaallăă nnoommiinnaallăă eessttee bbiinnee ssăă ssee îînnrreeggiissttrreezzee ooccuuppaaţţiiaa,, ssttaarreeaa cciivviillăă,, ttiippuull ddee aaffeeccţţiiuunnee,, ttiippuull ddee eedduuccaaţţiiee pprriimmiittăă,, eettcc.. PPeennttrruu vvaarriiaabbiillaa ooccuuppaaţţiiee,, uunneeoorrii eessttee ssuuffiicciieenntt ssăă ssee aalleeaaggăă nnuummaaii ccââtteevvaa ccllaassee,, ccaarree aarr ppuutteeaa ffii iinnttiittuullaattee:: mmuunncciittoorr,, iinntteelleeccttuuaall,, ffuunnccţţiioonnaarr,, eelleevv,, ssttuuddeenntt,, ppeennssiioonnaarr,, ffăărrăă ooccuuppaaţţiiee.. AAvveemm aassttffeell 77 ccllaassee.. TTrreebbuuiiee ssăă nnee aassiigguurrăămm ccăă ffiieeccaarree iinnddiivviidd ddiinn cceeii ppee ccaarree îîii ssttuuddiieemm,, aappaarrţţiinnee llaa uunnaa ddiinn aacceessttee ccllaassee.. EEvviiddeenntt nniiccii uunnuull nnuu aappaarrţţiinnee llaa ddoouuăă ccllaassee îînn aacceellaaşşii ttiimmpp.. ÎÎnn ccee pprriivveeşşttee ssttaarreeaa cciivviillăă,, cceell mmaaii ssiimmpplluu eexxeemmpplluu ddee aalleeggeerree aa ccllaasseelloorr eessttee ssăă lluuăămm ddoouuăă:: ccăăssăăttoorriitt şşii nneeccăăssăăttoorriitt.. UUnneeoorrii,, ssee iiaauu ppaattrruu ccllaassee,, ccăăssăăttoorriitt,, nneeccăăssăăttoorriitt,, ddiivvoorrţţaatt şşii vvăădduuvv.. SSee ppoott aalleeggee şşii aallttee sseettuurrii ddee ccllaassee.. ŞŞii îînn aacceesstt ccaazz,, ttrreebbuuiiee uurrmmăărriitt ccaa ffiieeccaarree iinnddiivviidd ssăă aappaarrţţiinnăă eexxaacctt llaa uunnaa ddiinn ccllaasseellee aalleessee.. NNuummeellee ccllaasseelloorr eessttee aalleess dduuppăă ddoorriinnţţăă,, nnuummeellee ppuuttâânndd ffii şşii pprreessccuurrttaattee ppeennttrruu aa eeccoonnoommiissii ttiimmpp ddaaccăă ttrreebbuuiiee îînnrreeggiissttrraaţţii uunn nnuummăărr ffooaarrttee mmaarree ddee ppaacciieennţţii.. DDee eexxeemmpplluu,, îînn ccaazzuull ooccuuppaaţţiiiilloorr,, ppuutteemm ffoolloossii pprreessccuurrttăărriillee:: mmuunncc,, iinntteell,, ffuunncc,, eelleevv,, ssttuudd,, ppeennss,, ffăărrăă.. ÎÎnn ttooaattee ccaazzuurriillee îînnssăă ttrreebbuuiiee aavvuutt îînn vveeddeerree ssăă nnuu aappaarrăă ssiittuuaaţţiiii îînn ccaarree ssee îînnrreeggiissttrreeaazzăă ooddaattăă ccuu nnuummee ccoommpplleett aall ccllaasseeii,, aallttăăddaattăă ccuu nnuummee ssccuurrtt,, ccăăccii aappaarr ccoommpplliiccaaţţiiii..

5

Page 6: CURSUL I 1.Introducere - umfcv.ro MG - Cursul I.pdf · Biostatistică - Cursul I . CURSUL I . 1.Introducere . Statistica este asociat. ă cu un anumit tip de prelucrare a informaţiilor

Biostatistică - Cursul I

Scala ordinală

Descriu o caracteristică pentru înregistrarea căreia se folosesc tot simboluri ce definesc categorii exhaustive şi mutual exclusive, dar care sunt ordonate gradat, de obicei crescător. De exemplu, stadiul evolutiv în anumite afecţiuni ca cele maligne (stadiul 0, 1, 2, 3 şi 4). Deosebirea faţă de caracteristicile nominale, deşi pare neimportantă, conduce la principii diferite de tratare statistică şi de aceea, este important de stabilit dacă o caracteristică o înregistrăm ca nominală sau ordinală. Măsurătorile pe scala ordinală sunt ordonate. Totuşi, intervalele între două clase consecutive nu sunt în mod necesar egale. De exemplu, dacă un pacient apreciază starea de confort indusă de un medicament contra astmului pe o scală de la 0 la 3, diferenţa între 0 şi 1 nu este neapărat egală cu diferenţa între 1 şi 2, sau între 2 şi 3. De altfel nici nu s-ar putea descrie cantitativ aceste diferenţe, ele sunt subiective şi lăsate la latitudinea observatorului care în exemplul de mai sus este chiar pacientul. Nivelul 0 este ales absolut arbitrar, la fel de bine scala putea fi de la 3 la 6 sau de la -1 la 2. Totuşi, este mai intuitiv să se înceapă în aceste cazuri de la nivelul 0. Tot astfel, în cazul stadiilor evolutive în afecţiunile maligne stadiile sunt din ce în ce mai grave, dar diferenţa de gravitate nu este aceeaşi când trecem de la un stadiu la altul.

Pe scala ordinală, innddiivviizziiii ssuunntt îîmmppăărrţţiiţţii îînn ccââtteevvaa ccllaassee:: •• EExxhhaauussttiivvee ((ffiieeccaarree iinnddiivviidd aappaarrţţiinnee uunneeii ssiinngguurree ccllaassee)) •• MMuuttuuaall eexxcclluussiivvee ((nniiccii uunn iinnddiivviidd nnuu ppooaattee aappaarrţţiinnee llaa ddoouuăă ccllaassee,, ssiimmuullttaann)) •• NNuummeellee ccllaasseelloorr ssuunntt ssiimmbboolliiccee şşii ddee oobbiicceeii ssuunntt ffiixxaattee ddee pprraaccttiiccaa mmeeddiiccaallăă ssaauu ccoonnvveennţţiiii

iinntteerrnnaaţţiioonnaallee naţionale, locale •• DDooii iinnddiivviizzii ddiinn aacceeeeaaşşii ccllaassăă ssuunntt eecchhiivvaalleennţţii ppee ssccaallaa ccoonnssiiddeerraattăă ((cchhiiaarr ddaaccăă ppoott ffii ddiiffeerriiţţii ddiinn aallttee

ppuunnccttee ddee vveeddeerree)) •• CCllaasseellee ppoott ffii oorrddoonnaattee ccrreessccăăttoorr ssaauu ddeessccrreessccăăttoorr,, ddaarr ddiiffeerreennţţeellee îînnttrree ccllaassee nnuu eexxpprriimmăă ccaannttiittăăţţii,, nnuu

ccoonntteeaazzăă ddeeccââtt oorrddiinneeaa lloorr

A se observa că primele patru puncte sunt identice la scala ordinală şi respectiv, nominală. Singura diferenţă este dată de posibilitatea ordonării claselor, care la cele ordinale nu este posibilă, în timp ce la cele ordinale este posibilă.

Există o legătură între scala de măsurare şi metodele statistice folosite. De exemplu, este absurd să calculăm media datelor nominale. Folosirea mediei pentru datele ordinale este încă controversată. Pentru calculul mediei sau a altei statistici ce impune calcule, trebuie să avem date numerice.

1.3 Tabele de frecvenţă. Datele culese şi înregistrate pot conţine informaţii despre diverşi parametri care au fost urmărite fie din necesitatea de a face un studiu anume fie, pur şi simplu pentru că urmărirea lor are importanţă pentru indivizii la care au fost măsurate sau pentru cel care face studiul, adică pentru medic.

Tabelele din care este alcătuită o bază de date conţin datele nesistematizate, ele urmează de obicei o ordine aleatoare, sau sunt ordonate după un criteriu cum ar fi cel alfabetic, sau în ordinea codurilor. Un exemplu, la care ne vom opri ceva mai mult este cel din tabelul 1.1. Este un exemplu de tabel, care pentru simplitate nu are dacât câteva linii, adică înregistrări, şi câteva coloane, pe care le vom numi câmpuri, cum se mai spune în limbajul uzual pentru programarea pe calculator.

Tabelul este o mică parte dintr-un tabel mare în care au fost înregistraţi un număr de peste 230 de pacienţi cu afecţiuni hepatice grave (ciroză hepatică, cancer hepatic, etc), trataţi de-a lungul timpului în clinica de boli interne a Spitalului de Urgenţă din Craiova.

Înţelesul câmpurilor este evident pentru aproape toate (FO=Numărul foii de observaţie, Nume, Prenume, Vârsta, Sex, Mediu, Diagcod.= Cod diagnostic, HAV= Dacă pacientul a suferit în trecut de hepatită acută virală). Pe coloana HAV se observă că au fost înregistrate doar două posibilităţi: da = “pacientul a suferit de HAV în trecut" şi nu pentru ceilalţi. În multe programe de calculator este indicată folosirea lui “Y” şi”N” în loc de “da” şi “nu” (Y=yes, N=no, din limba engleză), deoarece aceste câmpuri sunt considerate de unele programe câmpuri speciale, pe care noi le vom numi câmpuri de tip logic, şi sunt tratate prin procedee speciale. Deci, vom numi câmpuri de tip logic, acele coloane pe care este natural ca datele să fie introduse folosind “Da” şi “Nu”.

6

Page 7: CURSUL I 1.Introducere - umfcv.ro MG - Cursul I.pdf · Biostatistică - Cursul I . CURSUL I . 1.Introducere . Statistica este asociat. ă cu un anumit tip de prelucrare a informaţiilor

Biostatistică - Cursul I

Tabelul 1.1. Modul de înregistrare a unor date despre pacienţi (nume fictive)

De multe ori, numărul de linii al unui tabel cu date brute, adică al unei baze de date, este atât de mare, de ordinul sutelor sau miilor, încât înşiruirea elementelor unei serii de valori (de exemplu seria vârstelor), este dificilă şi lipsită de semnificaţie.

Un mod util de clasificare a pacienţilor după vârste este clasificarea pe grupe de vârstă de 5 sau 10 ani şi alcătuirea unui tabel în care în dreptul fiecărei grupe de vârstă să se înscrie numărul de pacienţi din grupa respectivă, în acest fel obţinând de fapt o grupare mai sintetică a datelor. Iată cum arată distribuţia pe grupe de vârstă a pacienţilor din baza de date de care am vorbit mai sus:

Tabelul 1.2 Tabelul de frecvenţă a vârstelor, pe grupe de vârstă de 10 ani,pentru 234 de pacienţi.

Nr.

Clasa

Frecvenţa, Nr. pacienţi

Fi

Frecvenţa relativă,

procentul fi Ficc Ficd ficc ficd

1 25 - 30 5 2.14% 5 234 2.14% 100.00%

2 30 - 35 6 2.56% 11 229 4.70% 97.86%

3 35 - 40 9 3.85% 20 223 8.55% 95.30%

4 40 - 45 26 11.11% 46 214 19.66% 91.45%

5 45 - 50 30 12.82% 76 188 32.48% 80.34%

6 50 - 55 50 21.37% 126 158 53.85% 67.52%

7 55 - 60 53 22.65% 179 108 76.50% 46.15%

8 60 - 65 32 13.68% 211 55 90.17% 23.50%

9 65 - 70 14 5.98% 225 23 96.15% 9.83%

10 70 - 75 5 2.14% 230 9 98.29% 3.85%

11 75 - 80 4 1.71% 234 4 100.00% 1.71%

Total 234 100%

Se observă că prin împărţirea frecvenţelor de apariţie ale vârstelor la numărul de pacienţi, se obţin frecvenţele relative care se exprimă de obicei în procente.

Frecvenţele relative se calculează cu formula:

NFf i

i =

7

Page 8: CURSUL I 1.Introducere - umfcv.ro MG - Cursul I.pdf · Biostatistică - Cursul I . CURSUL I . 1.Introducere . Statistica este asociat. ă cu un anumit tip de prelucrare a informaţiilor

Biostatistică - Cursul I

Este clar că prin adunarea frecvenţelor absolute, se obţine numărul total de indivizi din tabel, în cazul nostru 234:

NFFF m ==++++++=+++ 2344514......965.......21

De asemeni, prin adunarea frecvenţelor relative (sau valorilor lor exprimate în procente), se obţine 1 (sau 100%):

10071,114,298,5....85,356,214,2......21 =++++++=+++ mfff

Pe coloana a cincia a tabelului de frecvenţe, apar aşa-numitele frecvenţe relative cumulate crescător (ficc). Frecvenţa relativă cumulată crescător, de pe o anumită linie, este suma frecvenţelor relative din celulele din coloana frecvenţelor relative, suma făcându-se de la începutul tabelului şi până la linia pe care se află frecvenţa pe care o calculăm.

Astfel, vom avea pentru frecvenţe relative cumulate crescător, formulele:

⇒ f1cc=f1=2,14

⇒ f2cc=f1+f2=2,14+2,56=4,70

⇒ f3cc=f1+f2+f3=2,14+2,56+3,85=8,55, şi aşa mai departe.

Aceste formule ne ajută să găsim procentul de indivizi care au valoarea din serie sub o limită dată. De exemplu, în tabelul 1.2, avem 32,48%% din indivizi sub 50 de ani, deoarece în dreptul valorii 50 pe coloana Vârsta, avem ficc=32,48% care se obţine prin cumularea tuturor procentelor vârstelor sub 50 de ani, inclusiv 50.

Să urmărim şi celelalte coloane şi să încercăm să le subliniem la fiecare din ele utilitatea. Mai întâi să amintim că Fi, reprezintă frecvenţele absolute, sau numărul de indivizi care au vârstele cuprinse în limitele claselor respective. Ficc, sunt frecvenţele absolute, cumulate crescător, adică se obţin după formulele:

iicc FFFF +++= ....21

De exemplu, F4cc = F1 + F2 + F3 + F4 = 5+6+9+26=46, aşa cum se poate vedea în linia a patra a tabelului, pe coloana a cincia. Să remarcăm că aceste frecvenţe cumulează frecvenţele tuturor claselor, până la clasa curentă, şi deci ele răspund la întrebări de tipul : “câţi indivizi mai tineri decât 45 de ani sunt în seria de vârste”? Răspunsul se caută în dreptul clasei 40-45 ani, adică în a patra clasă, pe coloana Ficc : 46.

Frecvenţele de tipul Ficd au o semnificaţie analogă, cu diferenţa că se cumulează descrescător, la fiecare nouă clasă se scade frecvenţa absolută a clasei precedente, iniţial plecându-se de la numărul total de indivizi din lot, în acest caz, 234.

Frecvenţele relative fi, sunt, aşa cum am mai precizat, procentele fiecărei clase, luând întregul lot ca 100%, şi se obţin ca raportul între frecvenţele absolute şi numărul total de indivizi din lot, apoi fiind înmulţite cu 100 pentru a se obţine procente. Frecvenţele ficc şi ficd, sunt obţinute pe acelaşi principiu ca şi Ficc şi Ficd, cu diferenţa că s-au cumulat crescător şi respectiv descrescător, frecvenţele relative şi nu cele absolute.

În sfârşit, câteva cuvinte despre intervalele care constituie clasele. După cum se observă, din cauza faptului că nu s-au înregistrat vârste decât numere întregi, clasele au o lungime uşor de stabilit în mod natural: 25-30, 30-35, etc. Indivizii de 30 de ani se numără în clasa 30-35 şi nu se numără în clasa 25 – 30.

În cazul variabilelor la care înregistrarea se face cu una sau două zecimale, se obişnuieşte ca acest lucru să se reflecte în modul de alcătuire a claselor prin faptul că se ia la dreapta intervalului una sau două zecimale egale cu 9: [13 - 13,9]; [14 - 14,9]; etc pentru înregistrarea hemoglobinei, sau intervale care se termină în 99, sau chiar 999 pentru alte variabile.

Strict matematic, acest mod de lucru nu este foarte corect, deşi este foarte practic. Poate să apară un caz în care într-o bază de date s-au prevăzut intervalele [13 - 13,9] şi [14 - 14,9] şi după un timp ceva mai lung, aparate mai specializate să dea un rezultat la o analiză de 13,92, care nu este încadrabil în nici una din clase. Corect este ca, de exemplu, o clasă să fie reprezentată printr-un interval închis la stânga şi deschis la dreapta, caz în care orice valoare ar apare ea este încadrabilă în exact una din clase.

De exemplu, dacă hemoglobina la o serie de valori este cuprinsă între 9,6 şi 15,9, clasele din 1 în 1 ar fi: [9 - 10), [10 - 11), [11 - 12), [12 - 13), [13 - 14), [14 - 15), [15 - 16). În acest fel, fiecare valoare din serie va intra

8

Page 9: CURSUL I 1.Introducere - umfcv.ro MG - Cursul I.pdf · Biostatistică - Cursul I . CURSUL I . 1.Introducere . Statistica este asociat. ă cu un anumit tip de prelucrare a informaţiilor

Biostatistică - Cursul I

exact în una din clase (intervale). Prima dintre clase, clasa [9 - 10), nu conţine şi valoarea 10, care este conţinută de clasa următoare, şi tot aşa pentru fiecare clasă.

Intervalele trebuie să acopere complet plaja posibilă de valori ale variabilei şi trebuie alese de aşa manieră încât numărul de clase care rezultă să nu fie nici prea mare nici prea mic, astfel ca aprecierea modului cum sunt datele distribuite să fie cât mai uşoară. Este recomandabil ca numărul de intervale pentru un astfel de tabel statistic să fie de la câteva, pentru loturi de câteva zeci de indivizi, până la câteva zeci, dacă lotul este foarte mare, de mai multe sute sau mii de indivizi.

De obicei, programele de calculator realizează aceste tabele după ce utilizatorul a furnizat lungimea clasei. Pentru a nu ajunge în situaţii când un astfel de tabel are un număr total neindicat de clase, de obicei se calculează lungimea aproximativă a unei clase în aşa fel încât numărul de clase să fie cel dorit. Acest lucru se poate realiza dacă se caută cea mai mică şi cea mai mare valoare din seria de date (notate mai jos cu min şi max), şi se ia ca lungime a unei clase, aproximativ rezultatul următorului calcul:

Lnr clase

=−max min

.

De exemplu, pentru tabelul de mai sus, cel mai tânăr pacient are 26 de ani, iar cel mai vârstnic are 78, deci pentru a obţine 6 clase (număr de clase indicat pentru vârste de adulţi), avem L= (78 - 26) / 6 = 8,6. Deci este indicat să se ia clase de 10 ani, prin rotunjire. Dacă însă se doresc mai multe clase, să zicem 10, atunci obţinem: L = (78 - 26) / 10 = 5,2 şi este indicat să se ia clase din 5 în 5 ani. Prima clasă va fi [25,30), iar următoarele: [30, 35), [35, 40),….[75, 80).

Numărul de clase nu este neapărat 10, el se alege de fapt de către cel care face calculul, astfel ca să se piardă cât mai puţină informaţie, dar şi numărul de clase să nu fie prea mare căci atunci luăm în considerare aspecte prea nesemnificative.

Ca regulă generală, este bine să se reţină că: • Se pierde cu atât mai multă informaţie cu cât numărul de clase este mai mic. Nu se recomandă tabele

cu 2-4 clase • Un număr prea mare de clase duce la o ascundere a esenţialului de către aspectele nesemnificative

Întrucât cei care nu au experienţă nu ştiu cum să aleagă numărul de clase, recomandăm: • Pentru câteva zeci de valori, să se aleagă 4 - 6 clase • Pentru câteva sute de valori, să se aleagă între 8 şi 12 clase • Pentru câteva mii de valori, să se aleagă peste 15 clase

Nu se recomandă folosirea a mai mult de 20 – 30 de clase decât în cazuri speciale, în studii cu multe mii de cazuri. Nici mai puţin de 4 – 6 clase nu este recomandat să se folosească. Nu se recomandă folosirea acestor tabele dacă nu avem cel puţin câteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face un tabel de frecvenţă.

Alte exemple:

Dacă avem de clasificat într-un tabel de frecvenţă valorile pentru hemoglobină, iar minimul este 8,13 iar maximul este 16,23, atunci, pentru a obţine 10 clase, vom face calculul:

81,010

1,810

13,823,16.

minmax==

−=

−=

clasenrL

În acest caz, vom rotunji la 1 şi vom lua clasele din 1 în 1, începând de la 8: [8, 9), [9,10), [16,17).

În cazul Imunoglobulinei G, din cei 234 de pacienţi din acelaşi lot ca cel pentru vârste de mai sus, valoarea minimă a fost 112, în timp ce maximul a fost 900. Dacă dorim tot 10 clase, atunci calculul este

8,8810888

10112900

.minmax

==−

=−

=clasenr

L

Vom lua clasele din 100 în 100, începând de la 100: [100,200), [200,300) …. [800,900), [900-1000).

9

Page 10: CURSUL I 1.Introducere - umfcv.ro MG - Cursul I.pdf · Biostatistică - Cursul I . CURSUL I . 1.Introducere . Statistica este asociat. ă cu un anumit tip de prelucrare a informaţiilor

Biostatistică - Cursul I

Informaţia sintetizată într-un astfel de tabel este deosebit de utilă şi este de multe ori completată prin reprezentarea grafică a ei care se face cu ajutorul histogramei. Se poate spune că sintetizarea informaţiei conţinută de o serie de valori într-un tabel de frecvenţă, este primul pas în studiul datelor brute, adică aşa cum au fost inregistrate.

2. Chestiuni de examen:

1. Stadiul evolutiv al unei maladii maligne este indicat să fie înregistrat prin simbolurile 0, I, II, III, IV, adică scala folosită este:

A. Alfanumerică B. Numerică C. Ordinală D. Nominală

2. Consistenţa ficatului este o caracteristică a organismului uman care se înregistrează: A. Numeric, adică folosind numere B. Ordinal, adică folosind simboluri ce urmează o gravitate C. Nominal, adică folosind simboluri care nu au o ordine de gravitate D. Numeric, adică folosind simboluri ce urmează o gravitate

3. Grupa sanguină este o caracteristică ce trebuie înregistrată: A. Alfanumeric B. Numeric C. Ordinal D. Nominal

4. O populaţie statistică poate fi alcătuită din: A. Indivizi umani B. Evenimente C. Grupuri socio-umane D. Măsurători

10