Transcript

Biostatistică - Cursul al IV-lea

CURSUL AL IV-LEA

1 Reprezentarea grafică a datelor statistice - Consideraţii generale

Sunt două metode de bază în statistică: numerică şi grafică. Folosind metoda numerică putem calcula statistici ca media şi deviaţia standard. Aceste statistici poartă informaţie despre tendinţa centrală şi variabilitate, altele poartă alt tip de informaţie. Metoda grafică este mai potrivită decât cea numerică pentru identificarea vizuală a tendinţei datelor. Metoda numerică este mai obiectivă şi mai precisă. De vreme ce se completează una pe alta, este util să le folosim combinat.

Informaţia conţinută în date culese şi înregistrate este după cum s-a văzut în capitolul despre indicatori statistici, greu de sintetizat pentru a avea o imagine cât mai clară despre situaţia pe care acestea o reflectă. Indicatorii statistici oferă o sinteză mai mult sau mai puţin fidelă a informaţiei, pierzând inerent din informaţie. Totuşi, pierderea de informaţie datorată înlocuirii unei serii de valori prin indicatorii săi nu este totdeauna o pierdere de care să ne ferim, din contră, de cele mai multe ori, indicatorii statistici oferă o imagine mai utilă decât datele în sine. De obicei, pierderea de informaţie este un rău necesar.

De la începuturile statisticii, o metodă de sintetizare a informaţiei mult folosită este reprezentarea grafică a datelor. Informaţia prezentată vizual este mult mai penetrantă pentru simţuri şi chiar pentru intelect şi de obicei ″o imagine bună este mai utilă ca o mie de cifre ″. Reprezentarea grafică a datelor se face însă cu mult discernământ căci, aşa cum se va vedea mai jos, nu orice grafic ne spune ceva, iar cantitatea de informaţie care se pierde la reprezentare trebuie foarte atent controlată.

De-a lungul timpului au fost folosite multe tipuri de grafice perntru a reprezenta cât mai bine informaţia conţinută în date. Cele mai des folosite grafice sunt histograma, graficul cu bare, poligonul frecvenţelor, graficul liniar de evoluţie în timp, diagrame, grafice punctuale etc.

Pentru o mai bună înţelegere să discutăm întâi cazul unui tip de grafic care a făcut carieră în toate domeniile de aplicabilitate ale statisticii: histograma.

2. Graficul histogramă Ca şi concept, histograma este de fapt echivalentul grafic al tabelului de frecvenţe. Mai întâi să lucrăm pe un exemplu concret şi apoi să urmărim problemele specifice care pot face din histogramă un instrument util de lucru sau un balast.

Avem mai jos un tabel care sintetizează situaţia parametrului Greutate corporală la 1014 pacienţi cu diferite afecţiuni:

Tabelul 1 Greutatea corporală a 1014 pacienţi cu diferite afecţiuni, pe clase din 5kg în 5kg

Clasa Greutate(Kg)

Frecvenţa

(Nr indivizi) 1 35..40 17 2 40..45 46 3 45..50 84 4 50..55 108 5 55..60 130 6 60..65 136 7 65..70 160 8 70..75 113 9 75..80 106

10 80..85 54 11 85..90 29 12 90..95 12 13 95..100 9

1

Biostatistică - Cursul al IV-lea Acum să privim graficul din figura 1, care reprezintă situaţia din tabel:

Figura 1 Histograma greutăţilor corporale a 1014 pacienţi cu diferite afecţiuni

Mai întâi, ce s-a reprezentat de fapt? Se oservă că pe orizontală sunt figurate clasele din tabel în ordine, fiecăreia fiindu-i alocat un segment de aceeaşi lungime, iar pe verticală, dreptunghiurile au înălţimi proporţionale cu frecvenţele absolute ale claselor. Mulţimea barelor verticale este cea care ne dă impresia vizuală pe care trebuie să o interpretăm în sensul sitetizării informaţiei. Observăm:

Din stânga se începe cu bare scunde care cresc în înălţime pe măsură ce ne apropiem de clasa din centru, după care are loc un proces invers. Este tendinţa naturală la cele mai multe situaţii. Datele au de cele mai multe ori tendinţa de a se situa în stânga şi drepta mediei, din ce în ce mai puţine pe măsură ce ne depărtăm de medie. Pe acest grafic nu este figurată media dar este de bun simţ să ne gândim că este situată undeva în clasele de mijloc.

Indivizii care au sub 35 Kg şi cei peste 100 Kg, probabil foarte puţini, nu au fost luaţi în calcul. Se obişnuieşte totuşi ca ei să fie luaţi în considerare prin introducerea a două clase speciale. În acest caz, clasele speciale de introdus ar fi fost: clasa ″sub 35″ şi clasa ″peste 100″. De obicei aşa este bine să se procedeze.

Modul cum cresc barele este diferit de modul cum descresc. Aceasta este ceea ce se numea la indicatorii statistici asimetria. Această histogramă arată o uşoară asimetrie la dreapta. Dacă indivizii de la care s-au cules datele ar fi fost normali, histograma ar fi avut un aspect mai simetric. Asimetria acestei hitograme ne arată că în clasele de la 40 la 65 kg sunt mai mulţi indivizi decât în clasele simetrice lor de la 75 la 90 kg. Având în vedere că majoritatea lor sunt bărbaţi, acestă asimetrie ne spune că un număr de indivizi au greutatea mai mică decât ar fi normal. Acest lucru este explicabil în acest caz, deoarece cei mai mulţi au afecţiuni hepatice grave ca ciroză hepatică, cancer hepatic, şi sunt într-o stare fizică mult slăbită.

În acest caz, am explicat forma histogramei pe baza realităţii. De obicei însă se întâmplă exact invers. Histograma este aceea care ne ajută să înţelegem mai bine realitatea.

Pentru a realiza diferenţa dintre o distribuţie simetrică şi una asimetrică, să transpunem într-o histogramă situaţia din tabelul 2, care sistematizează situaţia supravieţuirilor în cazurile de cancer mamar pe un lot de 2456 de pacienţi.

Tabelul 2 Situaţia supravieţuirilor în cazurile de cancer mamar. Gruparea în clase de 12 luni Nr.Crt Perioada Nr.cazuri Procent % Procent Cumulat %

1 0..12 luni 672 27.36 27.36 2 12..24 luni 446 18.16 45.52 3 24..36 luni 368 15.00 60.52 4 36..48 luni 249 10.14 70.66 5 48..60 luni 196 8.00 78.66 6 60..72 luni 172 7.00 85.66 7 72..84 luni 126 5.13 90.79 8 84..96 luni 98 4.00 94.79 9 96..108 luni 45 1.83 96.62

10 108..120 luni 31 1.26 97.88 11 Peste 120 luni 52 2.12 100.00

2

Biostatistică - Cursul al IV-lea În figura 2, este reprezentată histograma corespunzătoare pentru tabelul 2. Se observă că barele histogramei au înălţimi descrescătoare întocmai ca şi frecvenţele absolute ale claselor.

Figura 2 Histograma corespunzătoare pentru tabelul 2. Se observă că barele histogramei au înălţimi

descrescătoare întocmai ca şi frecvenţele absolute ale claselor

Se observă la această histogramă că are o asimetrie foarte puternică spre dreapta. Vom considera totdeauna (ca o convenţie), să spunem că o histogramă arată asimetria spre partea unde descreşterea este mai lentă. Tendinţa observată în această histogramă este normală, având în vedere fenomenul surprins. Procesele de supravieţuire sunt de obicei marcate de o distribuţie a valorilor cu excentricitate spre dreapta, adică spre supravieţuiri lungi.

Pentru o familiarizare cu acest tip de grafic foarte important, să urmărim câteva situaţii culese din practica medicală. În figura 3, avem reprezentată histograma tensiunii arteriale la 593 de pacienţi cu diferite afecţiuni. Se observă o excentricitate puternică, spre dreapta. În figura 4 avem histograma valorilor hemoglobinei la 738 de pacienţi cu diferite afecţiuni. Se observă o distribuţie a valorilor mai simetrică decât în figurile 2 şi 3. În figura 5 se vede histograma taliei la 1042 pacienţi pe clase din 5cm în 5cm. Este un exemplu de distribuţie cu o uşoară asimetrie spre stânga, mai rar întâlnită în practică. Figura 6 prezintă histograma vârstelor la 308 pacienţi cu afecţiuni hepatice. Se observă că graficul are două vârfuri. Se spune despre acest tip de distribuţie a datelor că este bimodală. Este un lot neomogen, alcătuit din două subloturi, unul cu maximul în jurul vârstei de 45 – 50 de ani şi celălalt în jurul vârstei de 65 – 70 de ani. În practică se întâlnesc rar astfel de situaţii. În mod normal, într-un asemenea caz, se studiază fiecare sublot în parte din punctul de vedere al vârstei

Figura 3 Histograma tensiunii arteriale la 593 de pacienţi cu diferite afecţiuni. Se observă o

excentricitate puternică, spre dreapta

3

Biostatistică - Cursul al IV-lea

Figura 4 Histograma valorilor hemoglobinei la 738 de pacienţi cu diferite afecţiuni. Se observă o

distribuţie a valorilor ma simetrică decât în figurile 5.2 şi 5.3.

Figura 5 Histograma taliei la 1042 pacienţi pe clase din 5cm în 5cm. Este un exemplu de distribuţie cu o

uşoară asimetrie spre stânga, mai rar întâlnită în practică.

Figura 6 Histograma vârstelor la 308 pacienţi cu afecţiuni hepatice. Se observă că graficul are două vârfuri. Se spune despre acest tip de distribuţie a datelor că este bimodală. Este un lot neomogen, alcătuit din două subloturi, unul cu maximul în jurul vârstei de 45 – 50 de ani şi celălalt în jurul vârstei de 65 – 70 de ani. În practică se întâlnesc rar astfel de situaţii. În mod normal, într-un asemenea caz, se studiază fiecare sublot în parte.

4

Biostatistică - Cursul al IV-lea Poligonul frecvenţelor

Este un grafic care reprezintă frecvenţele absolute dintr-un tabel de frecvenţă printr-o linie frântă. Clasele se realizează ca şi la histogramă. Linia frântă, leagă puncte din plan care au ca ordonate frecvenţele de reprezentat, iar ca abscise, mijloacele claselor. Graficul se poate realiza şi din histogramă, prin unirea mijloacelor laturilor superioare ale barelor.

În figura 7 este reprezentat un exemplu de modul cum se obţine poligonul frecvenţelor din histogramă.

Figura 7 Poligonul frecvenţelor obţinut prin unirea mijloacelor laturilor superioare ale barelor unei histograme.

În figura 8 este reprezentat poligonul frecvenţelor pentru greutatea a 1042 de pacienţi cu diferite afecţiuni, din 5 în 5 Kg.

Figura 8 Poligonul frecvenţelor pentru greutatea a 1042 de pacienţi cu diferite afecţiuni, cu clase din 5 în 5 Kg.

Deşi oferă o imagine vizuală foarte bună a modului cum sunt distribuite valorile din serie pe clase, poligonul frecvenţelor este mai puţin folosit decât histograma, care oferă şi ea tot informaţia despre distribuţia valorilor din serie pe clase. Aceasta deoarece histograma pare ochiului un grafic mai bogat. În realitate, între cele două grafice, nu există o diferenţă calitativă. Ele oferă aceeaşi informaţie.

ATENŢIE! Graficul histogramă şi graficul poligonul frecvenţelor, conţin exact aceeaşi cantitate de informaţie, dacă au la bază acelaşi tabel de frecvenţe.

Semnificaţia statistică a histogramei

Histograma este influenţată de factori aleatori în ce priveşte forma, deci ne poate da o informaţie mai mult sau mai puţin valoroasă în funcţie de aceşti factori. Ca şi în cazul celorlalţi indicatori statisitici, vom considera histograma ca având înmagazinată informaţie cu atât mai corectă cu cât avem un număr mai mare de indivizi în lotul pe care ea îl reprezintă.

În figurile urmatoare sunt reprezentate o serie de histograme construite pe un lot de 738 de pacienţi, la care s-a măsurat hemoglobina.

5

Biostatistică - Cursul al IV-lea În figura 9, este exemplificată influenţa lungimii claselor asupra aspectului unei histograme. La fiecare histogramă, s-au folosit 738 de valori. Ceea ce se modifică de la histogramă la histogramă este lungimea claselor şi, implicit numărul de clase. Se observă că lungimi prea mari (din 5 în 5, din 4 în 4, din 3 în 3, din 2 în 2 şi din 1,5 în 1,5) dau histograme care ascund distribuţia. Lungimi prea mici ( din 0,5 în 0,5, din 0,25 în 0,25) dau prea multe detalii inutile. Cele mai potrivite lungimi în acest caz sunt din 1 în 1 şi din 0,75 în 0,75.

Figura 9 Influenţa lungimii claselor asupra aspectului unei histograme. Lungimea corectă în acest caz

este din 1 în 1

Alegerea numărului de clase. De obicei, programele de calculator realizează histograme după ce utilizatorul a furnizat lungimea clasei. Pentru a nu ajunge în situaţii când un astfel de tabel are un număr total neindicat de clase, de obicei se calculează lungimea aproximativă a unei clase în aşa fel încât numărul de clase să fie cel dorit. Acest lucru se poate realiza dacă se caută cea mai mică şi cea mai mare valoare din seria de date (notate mai jos cu min şi max), şi se ia ca lungime a unei clase, aproximativ rezultatul următorului calcul:

Lnr clase

=−max min

.

De exemplu, dacă în seria vârstelor unor pacienţi, cel mai tânăr pacient are 26 de ani, iar cel mai vârstnic are 78, pentru a obţine 6 clase (număr de clase indicat pentru vârste de adulţi), avem L= (78 - 26) / 6 = 8,6. Deci este indicat să se ia clase de 10 ani, prin rotunjire. Dacă însă se doresc mai multe clase, să zicem 10, atunci obţinem: L = (78 - 26) / 10 = 5,2 şi este indicat să se ia clase din 5 în 5 ani. Prima clasă va fi [25,30), iar următoarele: [30, 35), [35, 40),….[75, 80).

Numărul de clase nu este neapărat 10, el se alege de fapt de către cel care face histograma, astfel ca să se piardă cât mai puţină informaţie, dar şi numărul de clase să nu fie prea mare căci atunci luăm în considerare aspecte prea nesemnificative.

Ca regulă generală, este bine să se reţină că: • Se pierde cu atât mai multă informaţie cu cât numărul de clase este mai mic. Nu se recomandă

histograme cu 2-4 clase • Un număr prea mare de clase duce la o ascundere a esenţialului de către aspectele nesemnificative

6

Biostatistică - Cursul al IV-lea Întrucât cei care nu au experienţă nu ştiu cum să aleagă numărul de clase, recomandăm:

• Pentru câteva zeci de valori, să se aleagă maximum 6 – 8 clase • Pentru câteva sute de valori, să se aleagă între 10 şi 15 clase • Pentru câteva mii de valori, să se aleagă peste 15 clase

Nu se recomandă folosirea a mai mult de 20 – 30 de clase decât în cazuri speciale, în studii cu multe mii de cazuri. Nici mai puţin de 4 – 6 clase nu este recomandat să se folosească. Nu se recomandă folosirea histogramelor dacă nu avem cel puţin câteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face o histogramă.

Alte exemple: Dacă avem de reprezentat printr-o histogramă valorile pentru hemoglobină, iar minimul este 8,13 iar maximul este 16,23, atunci, pentru a obţine 10 clase, vom face calculul:

81,010

1,810

13,823,16.

minmax==

−=

−=

clasenrL

În acest caz, vom rotunji la 1 şi vom lua clasele din 1 în 1, începând de la 8: [8, 9), [9,10), [16,17).

În cazul Imunoglobulinei G, din cei 235 de pacienţi, valoarea minimă a fost 112, în timp ce maximul a fost 900. Dacă dorim tot 10 clase, atunci calculul este

8,8810888

10112900

.minmax

==−

=−

=clasenr

L

Vom lua clasele din 100 în 100, începând de la 100: [100,200), [200,300) …. [800,900), [900-1000).

3. Curba densităţii de probabilitate S-a văzut că histograma este un grafic care dă informaţii despre repartizarea valorilor dintr-o serie de valori, care arată dacă valorile din serie sunt repartizate simetric sau asimetric şi dacă repartiţia are un singur vârf sau este multimodală.

Să ne imaginăm că pe măsură ce mărim indefinit numărul de valori din serie, lungimea claselor scade foarte mult, astfel încât obţinem histograme din ce în ce mai “fine”. Ce se obţine prin acest proces? O apropiere din ce în ce mai accentuată de repartiţia reală a datelor, repartiţie pe care histogramele o aproximează din ce în ce mai bine. Histogramele oferă imaginea repartizării valorilor dintr-o serie, deci o imagine incompletă a realităţii. Într-adevăr, valorile dintr-o serie de date sunt culese pe un eşantion sau lot, care este de obicei extras dintr-o populaţie mult mai numeroasă. Ceea ce ne interesează de obicei însă, este modul cum se repartizează valorile din întreaga populaţie.

În figura 10, este dat un exemplu de serie de valori foarte mare, alcătuită din 10000 de valori. În acest caz, lotul pe care s-au făcut măsurătorile poate fi numit populaţie, numărul de indivizi fiind foarte mare.

Figura 10 Folosind o serie de 10000 de valori, se pot face histograme din ce în ce mai fine, care trec de la aspectul de

″treaptă″, la acela de ″curbă″

7

Biostatistică - Cursul al IV-lea Pe măsură ce histogramele devin din ce în ce mai fine, ele tind să se asemene cu o curbă. Dacă volumul seriei ar fi mult mai mare, asemănarea cu o curbă ar fi atât de clară încât ochiul nu ar mai putea observa aspectul de ″treaptă″. Acest proces este vizibil în special atunci când în locul histogramelor folosim poligoane ale frecvenţelor. În figura 11, sunt reprezentate poligoanele frecvenţelor efectuate pe valorile din seria folosită în figura 10. La fiecare grafic s-au folosit o parte din valorile seriei, anume: la primul grafic 1000 de valori, la al doilea grafic 2000 de valori, şi aşa mai departe până la ultimul grafic, care este executat folosind toate cele 10000 de valori din serie.

Figura 11. Procesul de trecere de la poligonul frecvenţelor la curba de distribuţie

Acest mod de a ajunge la o curbă a densităţii de probabilitate (sau o curbă de repartiţie) este instructiv prin faptul că oferă o imagine intuitivă a diferenţei dintre o histogramă sau un poligon al frecvenţelor şi o curbă de repartiţie. În plus, oferă o ideie despre cum arată curba de repartiţie.

Strict vorbind însă, noţiunea de curbă a densităţii de probabilitate, trebuie introdusă folosind un aparat teoretic mai complex. Deoarece o introducere fundamentată ar depăşi nivelul cursului de faţă, vom considera, intuitiv, fără a pretinde că aceasta este o definiţie riguroasă, că:

O curbă a densităţii de repartiţie este curba care are acelaşi aspect cu curba către care tinde poligonul frecvenţelor relative, atunci când numărul de valori dintr-o serie tinde la infinit, iar lungimea fiecărei clase tinde la 0.

Pentru o exprimare mai clară, atunci când nu există pericolul unor confuzii, în locul termenului de curbă a densităţii de probabilitate, vom folosi termenul de curbă de repartiţie, sau mai simplu, repartiţie.

8

Biostatistică - Cursul al IV-lea În medicină şi biologie, ca şi în celelalte domenii de activitate, există o varietate largă de curbe ale densităţii de probabilitate. În figura 12, sunt prezentate câteva forme de astfel de curbe, simetrice, asimetrice cu asimetri stângă, cu asimetrie dreaptă, etc.

Figura 12 Diverse forme ale curbei densităţii de probabilitate

Pe măsură ce statistica a evoluat ca ştiinţă, s-a demonstrat că unele din curbele densităţii de probabilitate joacă un rol central în ştiinţă în general şi în medicină în special. Astfel, multe fenomene din ştiinţă se petrec astfel încât deviaţiile stânga-dreapta de la medie ale măsurătorilor pe care le facem sunt repartizate simetric şi nu oricum, ci tind să fie repartizate foarte asemănător cu o anumită curbă, mult studiată, care se numeşte curba densităţii normale sau curba Gauss.

Astfel, aşa cum se va vedea în cursul despre eşantionare, media de eşantionare, adică media calculată aşa cum a fost descris în cursul 1, are în anumite condiţii o repartiţie normală. În subcapitolele care urmează vor fi descrise câteva din curbele de repartiţie mai folosite şi mai des întâlnite în practică.

Curbele de repartiţie se bucură de câteva proprietăţi care le fac extrem de utile în statistică, aşa cum se va vedea în capitolele despre eşantionare şi despre testele statistice.

• Aria cuprinsă între curbă şi axa orizontală este 1 sau 100% (vezi figura 13).

• Probabilitatea ca, extrăgând aleator un individ dintr-o populaţie a cărei repartiţie are o curbă cunoscută şi făcând măsurarea pe acel individ, valoarea obţinută x, să fie situată între două numere a şi b fixate (x≥a şi x≤b), este exact aria cuprinsă între curbă, axa orizontală şi cele două verticale în a şi b (Vezi figura 14).

Figura 13. Aria cuprinsă între o curbă de repartiţie şi axa orizontală

este totdeauna 1 sau 100%

Figura 14. Dacă extragem aleator un individ dintr-o populaţie care are curba de repartiţie cunoscută, valoarea măsurată la acel individ este cuprinsă între două numere reale a şi b cu o probabilitate egală cu aria cuprinsă

între curbă, axa orizontală şi cele două verticale în a şi b.

9

Biostatistică - Cursul al IV-lea

4. Densitatea Normală (Gauss) Curba Gauss, sau clopotul lui Gauss a jucat în istoria ştinţei şi joacă şi acum un rol foarte important, iar în medicină foarte mulţi parametri legaţi de organismul uman, de legile fundamentale ale viului, sunt repartizaţi după această curbă. Ce este de fapt această curbă?

Formula curbei lui Gauss, este:

2

2)(

21)( s

mx

es

xf−

−⋅=

π (facultativ!!!)

Se observă că această curbă depinde de doi parametri, m şi s, şi ea este perfect determinată în momentul în care se cunosc aceşti parametri. Deoarece curba descrie repartiţia unei populaţii, cei doi parametri reprezintă media (m) şi abaterea standard (s) ale populaţiei respective.

Graficul din figura 15, care este graficul unei curbe Gauss, ne arată că, spre centru probabilităţile sunt cu atât mai mari cu cât suntem mai aproape de medie, iar spre margini probabilităţile scad apropiindu-se de zero pe măsură ce ne îndepărtăm din ce în ce mai mult de medie. Curba este simetrică, niciodată însă simetria nu este perfectă pe o histograma particulară sau pe un poligon al frecevenţelor, dar curba ideală este perfect simetrică. Subliniem că prin curbă ideală înţelegem curba către care se îndreaptă poligonul frecvenţelor când numărul de cazuri tinde la infinit iar lungimea claselor se apropie de zero. Uneori, graficul funcţiei este denumit “clopotul lui Gauss” datorită formei lui deosebite, asemănătoare unui clopot.

Figura 15 Curba repartiţiei normale, sau curba lui Gauss. Are un maxim în dreptul mediei, două puncte de

inflexiune (în dreptul valorilor m-s şi m+s), tinde la zero pe măsură ce ne îndepărtăm de medie la stânga şi la dreapta.

*** (Facultativ). În analiza matematică se arată că graficul acestei funcţii, cel din figura 15, are un maxim pentru x=m şi două puncte de inflexiune (în care devine din concavă, convexă), la m-s şi la m+s. Curba normală mai este cunoscută sub denumirea de legea Gauss-Laplace sau legea normală şi apare pentru prima dată într-o lucrare a matematicianului Moivre (1667 – 1754), apoi în lucrările lui Pierre Simon de Laplace (1749 – 1827). Celebră este făcută de lucrările matematicianului Gauss (1777 – 1855). Utilitatea acestei repartiţii se datorează mai multor cauze, printre care:

• Multe fenomene aleatoare din natură se supun exact sau aproximativ acestei legi. Astfel, deviaţiile stânga-dreapta de la medie ale erorilor de măsurare urmează această lege simetrică şi cu proprietatea că, erori din ce în ce mai mari sunt din ce în ce mai rare.

10

Biostatistică - Cursul al IV-lea • O teoremă foarte importantă, teorema limită centrală, asigură acestei repartiţii un rol privilegiat prin

faptul că suma unui număr mare de variabile aleatoare independente una de alta, dar identic repartizate, este repartizată Gauss sau aproximativ Gauss. Această teoremă ne asigură de exemplu, de faptul că, media calculată pe un lot are o repartiţie Gauss sau apropiată.

• S-a demonstrat că multe repartiţii empirice întâlnite în practică pot fi aduse la o repartiţie Gauss prin transformări simple şi în felul acesta devin mai uşor de studiat.

*** Trebuie reţinut că repartiţia Gauss are următoarele proprietăţi importante:

• Este simetrică faţă de media m • Are două puncte de inflexiune, la m-s şi m+s • Are maximul pentru x = m • Are două cozi spre + şi – infinit care se apropie din ce în ce mai mult de axa orizontală, fără să o

atingă • Mediana şi modul, coincid cu media • Deoarece mediana coincide cu media, jumătate din aria de sub curbă se află în stânga mediei şi

jumătate în dreapta. Deci, într-o populaţie repartizată Gauss, 50% din indivizi sunt sub medie şi 50% peste medie

• Aria cuprinsă între curbă şi axa orizontală este 1 indiferent de medie şi de deviaţia standard. • Aria cuprinsă între curbă, axa orizontală şi două verticale în dreptul numerelor a şi b, este

probabilitatea ca, extrăgând aleator un individ din populaţie şi făcând măsurătoarea pe acel individ, valoarea obţinută x, să fie între a şi b (Vezi figura 16).

Figura 16 Aria cuprinsă între curbă, axa orizontală şi două verticale în dreptul numerelor a şi b, este

probabilitatea ca, extrăgând aleator un individ din populaţie şi făcând măsurătoarea pe acel individ, valoarea obţinută x, să fie între a şi b

Repartiţia Gauss, este de fapt o famile de repartiţii ce depinde cei doi parametri: media şi deviaţia standard. În figura 17, sunt desenate câteva curbe de repartiţie Gauss, mai mult sau mai puţin aplatizate, după cum deviaţia standard este mai mică sau mai mare.

11

Biostatistică - Cursul al IV-lea

Figura 17 Diferite curbe Gauss mai mult sau mai puţin aplatizate, aplatizarea fiind dată de valoarea deviaţiei standard, s. Cu cât valoarea lui s este mai mare, cu atât curba este mai aplatizată. Când s ia valori mici, curba

este mai înaltă.

Avem de asemenea, o infinitate de curbe Gauss care au aceeaşi deviaţie standard dar au medii diferite. Ele sunt identice ca formă, doar sunt localizate diferit în plan şi pot fi suprapuse prin translaţii stânga-dreapta. În figura 18, sunt desenate câteva curbe Gauss care diferă numai prin medie. Având toate aceeaşi deviaţie standard, au aceeaşi aplatizare.

Figura 18. Curbe Gauss cu aceeaşi deviaţie standard. Ele sunt la fel de aplatizate şi pot fi suprapuse prin

translaţii stânga-dreapta.

Dacă fixăm media dar permitem orice deviaţie standard, există o infinitate de curbe Gauss care au aceeaşi medie. Ele sunt localizate identic stânga-dreapta, dar diferă prin aplatizare mai mult sau mai puţin accentuată. În figura 19, sunt desenate 3 curbe Gauss cu aceeaşi medie şi cu deviaţiile standard 1, 1.2 şi 1.5.

Figura 19. Trei curbe Gauss cu aceeaşi medie şi deviaţii standard diferite

*** (Facultativ). Aşa cum am arătat, repartiţia normală sau Gaussiană este des întâlnită în studiul fenomenelor biologice şi are unele proprietăţi utile. În biologie, una din problemele importante care se pun în legătură cu datele pe care le măsurăm este aceea dacă se încadrează sau nu în limitele de normalitate. Repartiţia normală ne poate ajuta să dăm un răspuns acestei întrebări, cel puţin pentru acele date care sunt distribuite normal. Dacă o variabilă are repartiţie Gauss, atunci se poate stabili cât de plauzibilă este media şi deviaţia standard găsite prin măsurători pe un lot şi se pot face comparaţii cu mediile care ar trebui să fie obţinute şi care sunt cunoscute din literatura de specialitate (vezi cursul despre eşantionare şi cel despre teste statistice pentru amănunte).

Cunoscând despre o variabilă că are repartiţie Gauss, se pot deduce unele afirmaţii despre valorile pe care le poate lua. Cum folosim această repartiţie pentru a deduce anumite concluzii despre variabila care ne interesează? După cum am mai afirmat, pentru o variabilă repartizată normal, procentul din populaţie situat între două limite date este aria cuprinsă între curba Gauss, axa orizontală şi cele două verticale la limitele fixate. De obicei se consideră intervalele în jurul mediei, simetrice, cu limite situate la o distanţă de una sau mai multe abateri standard de medie.

*** Sunt esenţiale următoarele proprietăţi ale curbei Gauss, proprietăţi care nu sunt valabile la alte tipuri de distribuţii:

12

Biostatistică - Cursul al IV-lea În intervalul [m-s, m+s] se află aproximativ 68% din indivizii unei populaţii repartizate normal (vezi figura 20). Aceasta însă nu este o majoritate suficient de mare pentru a fi aproape de siguranţă dacă ne întrebăm între ce limite sunt situate valorile măsurate pentru indivizii din populaţie.

Figura 20. Între [m-s, m+s] se află aproximativ 68% din indivizii unei

populaţii repartizate normal

De aceea se ia cel mai adesea în considerare intervalul [m-2s, m+2s] în care se situează aproximativ 95% din indivizii unei populaţiei repartizate normal. Acest interval este suficient de larg şi cuprinde o majoritate zdrobitoare a populaţiei aşa că este cel mai indicat să fie folosit ca interval de normalitate.

Figura 21. Între [m-2s, m+2s] se află aproximativ 95% din indivizii unei

populaţii repartizate normal

Uneori, se iau intervale mai cuprinzătoare, ca [m-3s, m+3s], interval în care se situează peste 99% din populaţia considerată (vezi figura 22).

Figura 22. Între [m-3s, m+3s] se află peste 99% din indivizii unei

populaţii repartizate normal

Chiar dacă se consideră de obicei că pentru variabilele folosite uzual în practica medicală valorile medii sunt cunoscute şi se cunosc şi aşa-numitele intervale de normalitate, în realitate se cunosc doar foarte bune aproximări ale lor obţinute pe baza unor studii foarte atente, pe loturi largi. Valorile reale ale mediei şi deviaţiei standard pentru o populaţie distribuită normal, notate cu m şi s, sunt aproximate cu X şi σ care sunt indicatorii medie şi abatere standard pentru un lot extras din populaţia respectivă.

Cum se stabileşte cât de bune sunt aceste aproximări, care se mai numesc estimări, se va vedea în cursul despre estimaţii. Oricum, se folosesc din plin proprietăţile distribuţiei Gaussiene.

5 Graficul cu bare

Este graficul care reprezintă prin bare verticale, frecvenţele unui tabel de frecvenţe pentru variabile calitative (date nominale) sau variabile ordinale. Deşi pare asemănător cu histograma, între cele două tipuri de grafice există diferenţe. Ca aspect, histograma are barele lipite, în timp ce graficul cu bare lasă o oarecare distanţă între bare. Nu este recomandată folosirea graficelor unul în locul celuilalt. În figura 9 sunt reprezentate frecvenţele de apariţie a unor afecţiuni maligne, pe stadii.

13

Biostatistică - Cursul al IV-lea

Figura 9 Clasificarea pe stadii a unui număr de pacienţi cu afecţiuni maligne

Pentru a evidenţia diferenţe dintre cele două tipuri de grafic, să luăm tabelul 3, care dă frecvenţele cu care au fost înregistrate decese în timpul operaţiei într-o secţie de spital. Graficele corespunzătoare sunt prezentate în figura 10.

Tabelul 3 Frecvenţele deceselor în timpul operaţiei într-o secţie de spital Anul Nr. Cazuri 1997 3 1998 5 1999 4 2000 2 2001 0 2002 1 2003 0

0

1

2

3

4

5

6

1997 1998 1999 2000 2001 2002 2003

Anul

Frec

venţ

a

0

1

2

3

4

5

6

1997 1998 1999 2000 2002

Anul

Frec

venţ

a

Figura 10 Graficul histogramă şi graficul cu bare, cu datele din tabelul 3

Informaţia conţinută de tabelele de incidenţă se reprezintă de obicei prin grafice cu bare pe perechi sau triplete, în funcţie de tipul tabelului. Pentru tabelele 2x2, graficul are două perechi de bare (vezi graficul 11).

Figura 11. Repartiţia a 190 de pacienţi cu accidente vasculare cerebrale după sex şi după mediul de provenienţă

(rural, urban)

14

Biostatistică - Cursul al IV-lea Uneori, graficul este reprezentat în spaţiul tridimensional, pe câteva rânduri, astfel încât ochiul are o vedere comparativă a categoriilor pe care le reprezintă tabelul (vezi figura 12 şi figura 13).

Figura 12 Clasificarea după grupa de vârstă şi starea civilă a unui număr de pacienţi.

Figura 13 Clasificarea după sex şi fumat a 469 de indivizi

6 Graficul PIE

Este un grafic care reprezintă prin sectoare circulare frecvenţele dintr-un tabel de frecvenţă. Sectoarele sunt proporţionale ca număr de grade cu frecvenţele absolute din tabel, sau cu frecvenţele relative. Pe grafic pot apare în dreptul fiecărui sector, fie frecvenţa absolută, fie cea relativă, fie ambele. Ca formă, pot fi sectoare dintr-un cerc văzut într-un plan, sau sectoare ale unui disc tridimensional (vezi figurile 14 – 17).

Repartizarea tuturor celor 190 de pacienţi pe sexe

masculin56%

feminin44%

10783

Figura 14 Repartiţia a 190 de pacienţi după sex

15

Biostatistică - Cursul al IV-lea

Repartizarea tuturor celor 190 de pacienţi pe mediu de provenienţă

rural39%

urban61%

11575

Figura 15 Repartiţia a 190 de pacienţi după mediul de provenienţă

Masculin97%

Feminin3%

MasculinFeminin

Distribuţia pacienţilor pe sexe

Figura 16 Repartiţia unui număr de pacienţi după sex. Grafic tridimensional

Distribuţia pacienţilor după mediul de provenienţă

Rural63%

Urban37% Rural

Urban

Figura 17 Repartiţia unui număr de pacienţi după mediul de provenienţă. Grafic tridimensional

Chestiuni de examen: 1. Histograma este un grafic ce reprezintă :

A. Frecvenţele absolute ale unui tabel de frecvenţă B. Fiecare valoare în parte dintr-o serie de valori C. Frecvenţa cu care valorile seriei sunt cuprinse în clasele stabilite la construcţia ei D. Indicatorii tendinţei centrale a seriei

16

Biostatistică - Cursul al IV-lea 2. O histogramă reprezintă informaţia dintr-o serie de valori :

A. Fără pierdere de informaţie B. Cu pierdere de informaţie C. Se pierde cu atât mai multă informaţie cu cât sunt mai puţine clase D. Se pierde cu atât mai multă informaţie cu cât clasele au lungimi mai mari

3. Valorile hemoglobinei la 250 de pacienţi sunt cuprinse între un minim de 7,9 şi un maxim de 15,95. Dacă dorim să avem în jur de 9 clase şi deci, 9 bare, vom lua lungimea claselor :

A. Din 2 în 2 B. Din 3 în 3 C. Din 1 în 1 D. Din 0,5 în 0,5

4. Seria de valori ce conţine talia a 1132 de indivizi, are ca minim talia de 1,44m iar ca maxim, talia de 2,06m. Dorind să efectuăm o histogramă cu cel puţin 12 bare (deoarece numărul de indivizi este mare), vom lua lungimea claselor :

A. Din 2 cm în 2 cm B. Din 5 cm în 5 cm C. Din 10 cm în 10 cm D. Din 1 cm în 1 cm

5. Dacă la efectuarea unei histograme, am ales din greşală un număr de clase (şi deci de bare) prea mare, efectul este:

A. Se pierde mai puţină informaţie B. Se văd inclusiv aspecte nesemnificative C. Se pierde prea multă informaţie D. Se vor vedea doar aspectele esenţiale, eliminându-se aspectele nesemnificative

6. Poligonul frecvenţelor este: A. Un indicator statistic care arată dispersia valorilor dintr-o serie de valori B. Un grafic care reprezintă printr-o linie frântă frecvenţele claselor dintr-un tabel de frecvenţă C. Un grafic care conţine exact aceeaşi informaţie ca şi histogram corespunzătoare D. Un grafic care conţine mai puţină informaţie ca şi histograma corespunzătoare

7. Curba lui Gauss este o curbă care este: A. Simetrică faţă de medie B. Simetrică faţă de axa verticală C. Are un maxim în dreptul mediei D. Tinde asimptotic la 0 spre plus infinit şi spre minus infinit

8. În ce priveşte curba Gauss este adevărat că: A. În intervalul [ ]smsm +− , se află aproximativ 68% din indivizii populaţiei B. În intervalul [ ]smsm 2,2 +− se află aproximativ 95% din indivizii populaţiei C. În intervalul [ ]smsm 3,3 +− se află aproximativ 99% din indivizii populaţiei D. În intervalul [ ]smsm 2,2 +− se află aproximativ 90% din indivizii populaţiei

9. Dacă comparăm o histogramă şi poligonul frecvenţelor corespunzător, atunci: A. Conţine mai multă informaţie histograma B. Conţine mai multă informaţie poligonul frecvenţelor C. Conţin amândouă aceeaşi cantitate de informaţie

17


Top Related