biostatistica mg - cursul 5
TRANSCRIPT
![Page 1: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/1.jpg)
Recapitulare - Tipuri de date • Date numerice – vârsta, greutatea, talia, hemoglobina, tensiunea
arterială, calcemia, glicemia, colesterolul, transaminazele etc. valori continue sau discrete numere întregi sau zecimale
• Date ordinale – stadiul evolutiv, gravitatea, starea la externare, gradul de rudenie etc. codurile folosite au o ordine
• Date nominale – codul bolii, grupa sanguină, consistenţa ficatului, culoarea urinei etc. codurile folosite NU au o ordine
• Date alfanumerice – nume, prenume, adresă, loc de muncă, descrierea bolii etc. în general texte sau alte simboluri
![Page 2: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/2.jpg)
Graficul Histogramă Poligonul frecvenţelor
![Page 3: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/3.jpg)
Tipuri de distribuţii
Distribuţie puternic asimetrică Distribuţie asimetrică
Distribuţie simetrică Distribuţie uşor asimetrică
![Page 4: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/4.jpg)
Curba Gauss - curba repartiţiei NORMALE
• Unul din cazurile cele mai importante este acela când repartiţia datelor respectă densitatea ideală - aşa numita repartiţie Gauss sau normală
![Page 5: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/5.jpg)
Curba Gauss
![Page 6: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/6.jpg)
Curba Gauss Coeficientul de inteligenţă
Media=100, Deviaţia standard=15
![Page 7: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/7.jpg)
Cursul 5 Corelaţia statistică
UNIVERSITATEA DE MEDICINĂ ŞI FARMACIE
DIN CRAIOVA
![Page 8: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/8.jpg)
SUMAR
• Noţiunea de corelaţie statistică • Graficul Scatter
• Coeficientul de corelaţie Pearson - r • Interpretarea coeficientului de corelaţie
Karl Pearson (1856-1936) Francis Galton (1822-1911)
![Page 9: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/9.jpg)
Corelaţia - Definiţie • Este un termen general folosit pentru a defini
interdependenţa sau legătura dintre variabilele observate în populaţii statistice.
• Apare uneori cu un înţeles foarte larg, acoperind orice legătură statistică fie între variabile cantitative, fie între variabile calitative, fie între ambele tipuri de variabile.
• În sens restrâns este o măsură a gradului de legătură statistică dintre variabilele cantitative, sub numele de „coeficient de corelaţie”.
• Cel mai des folosit este coeficientul de corelaţie r al lui Pearson (coeficient de corelaţie liniară), care măsoară gradul de legătură între variabile.
![Page 10: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/10.jpg)
Graficul Scatter modalitate de vizualizare a relaţiei dintre 2 parametri
• Selectarea datelor • Meniul INSERT • Opţiunea Chart…
Graficul de tip scatter oferă informaţii privind Corelaţia
Omogenitatea Simetria
datelor reprezentate şi analizate
![Page 11: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/11.jpg)
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 100
VSH
2 or
e
VSH 1 ora
Corelaţia dintre valorile VSH la 1 oră şi 2 ore la pacienţi cu diferite afecţiuni hepato-renale
![Page 12: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/12.jpg)
50
60
70
80
90
100
110
120
130
140
150
80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240
TA d
iast
olic
ă
TA sistolică
Corelaţia dintre TA sistolică si diastolică la pacienţi cu diferite afecţiuni hepato-renale
![Page 13: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/13.jpg)
![Page 14: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/14.jpg)
![Page 15: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/15.jpg)
2.5
3.0
3.5
4.0
4.5
5.0
5.5
115 120 125 130 135 140 145 150
K se
ric
Na seric
Corelaţia dintre sodiul şi potasiul seric la pacienţi cu diferite afecţiuni hepato-renale
![Page 16: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/16.jpg)
Coeficientul de corelaţie • Pentru două serii de date distribuite gaussian, cel
mai sintetic indicator al corelaţiei este coeficientul de corelaţie r al lui Pearson r = RAPORTUL DINTRE COVARIAŢIA SERIILOR ŞI
PRODUSUL DEVIAŢIILOR LOR STANDARD
sau
unde X=x1, x2,…,xn şi Y=y1, y2, ..,yn sunt valorile măsurate, iar
X̅ , Y ̅ sunt mediile de eşantionare ale seriilor respective.
![Page 17: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/17.jpg)
Coeficientul de corelaţie
• Coeficientul de corelaţie r are valori cuprinse între -1 şi 1.
• Pătratul coeficientului de corelaţie, notat r2, reprezintă coeficientul de determinare între cei doi parametri şi are valori între 0 şi 1.
• Putem calcula intervalul de încredere de 95% pentru coeficientul de corelaţie Pearson - se consideră că r este semnificativ atunci când intervalul de încredere nu conţine valoarea 0.
![Page 18: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/18.jpg)
Interpretare
-1 …………………………….0……………………………….1
Corelaţie perfectă inversă-negativă
Corelaţie perfectă directă-pozitivă
Corelaţie nulă inexistentă
Semnul + sau – arată tipul (direcţia) relaţiei Valoarea numerică arată intensitatea relaţiei
![Page 19: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/19.jpg)
Interpretare
• În cazul unui coeficient de corelaţie pozitiv (ex. r = 0,5) avem o corelaţie directă - cele două variabile corelate variază în acelaşi sens (când una creşte, şi cealaltă creşte, respectiv când una scade, şi cealaltă scade).
• În cazul unui coeficient de corelaţie negativ (ex. r = -0,5) avem o corelaţie inversă, cele două variabile corelate variază în sens contrar (când una creşte, cealaltă scade).
![Page 20: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/20.jpg)
IMC=greutate(kg)/ înălţime2(m)
y = 0.208x + 12.245 r = 0.670
15
20
25
30
35
40
45
50
40 60 80 100 120 140 160
IMC
Greutate
Corelaţia dintre greutate si IMC
y = -0.1173x + 48.37 r = - 0.239
15
20
25
30
35
40
45
50
135 145 155 165 175 185 195 205
IMC
Înalţime
Corelaţia dintre înalţime si IMC
![Page 21: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/21.jpg)
Interpretarea rapidă a coeficientului r
r є [0; 0.2] → corelaţie foarte slabă, inexistentă
r є [0.2; 0.4] → corelaţie slabă
r є [0.4; 0.6] → corelaţie rezonabilă
r є [0.6; 0.8] → corelaţie înalta
r є [0.8; 1] → corelaţie foarte înaltă - relaţie foarte strînsă între variabile sau eroare de calcul
![Page 22: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/22.jpg)
Exemple – seturi de date şi valori r
Dacă valoarea absolută a coeficientului de corelaţie este slabă (aproape de 0), nu trebuie să se conchidă neapărat că nu există legătură statistică între cele două variabile - legătura poate să existe, dar nu este liniară.
![Page 23: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/23.jpg)
OBSERVAŢII
• Pentru date care nu au o distribuţie gaussiană, dar care se pot ordona, fără a avea un număr mare de valori egale intre ele, putem folosi coeficientul ρ (rho) Spearman, obţinut prin testul neparametric Spearman de corelaţie a rangurilor.
• În cazul datelor ale căror ranguri egale depăşeşte 25% din numărul lor este indicate folosirea testului τ (tau) al lui Kendall.
![Page 24: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/24.jpg)
Teste statistice • Testele statistice verifică veridicitatea unor ipoteze - inferenţe statistice
ipoteza H0 (sau ipoteza de nul): datele nu prezintă legături între ele, sunt independente / valorile comparate nu diferă între ele
ipoteza H1 (sau ipoteza alternativă): datele prezintă legături între ele, sunt dependente/ valorile comparate diferă între ele
• Rezultatul p al testului, furnizat ca un număr între 0 şi 1, reprezintă probabilitate de a face o eroare dacă respingem ipoteza H0 a testului.
• Dacă p este mai mic decât pragul de semnificaţie α ales – de obicei α=0,05 - respingem ipoteza H0 şi admitem că este adevărată ipoteza H1.
• Interpretarea valorilor p se face la majoritatea testelor statistice astfel: p < 0.05, legătura statistică este semnificativă (S, încredere 95%). p < 0.01, legătura statistică este semnificativă (S, încredere 99%). p < 0.001, legătura statistică este înalt semnificativă (HS, încredere 99.9%). p > 0.05, legătura statistică este nesemnificativă (NS).
![Page 25: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/25.jpg)
Semnificaţie statistică • Pentru a vedea daca valoarea lui r este semnificativă
statistic, deci dacă cei doi parametri sunt corelaţi, se poate calcula parametrul t, care, conform distribuţiei Student, se poate transforma într-o valoare care arată probabilitatea de eroare - p, considerând că avem N-2 grade de libertate (degrees of freedom - df , N = numărul de perechi de valori).
p < 0,05 - corelaţie semnificativă statistic între parametrii analizaţi
MS Excel ----- p=TDIST(t,df,nr_direcţii _ critice)
![Page 26: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/26.jpg)
ATENŢIE! • Ecuaţia de regresie este relaţia matematică care exprimă
dependenţa dintre două sau mai multe variabile. • Frecvent se foloseşte ecuaţia de regresie liniară =
dreapta de regresie: y = a·x +b
unde y este variabila dependentă iar x este variabila independentă.
Parametrul a (panta dreptei de regresie = „slope”) este denumit „coeficient de regresie”
– nu trebuie confundat cu „coeficientul de corelaţie”!!
• Trebuie aleasă ecuaţia de regresie care să descrie cu cea mai mică eroare relaţia dintre variabile
• Estimarea parametrilor a („slope”) şi b („intercept”) se face uzual prin „metoda celor mai mici pătrate”
![Page 27: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/27.jpg)
y = 1.217 x + 10.456 r = 0.965
0
20
40
60
80
100
120
0 10 20 30 40 50 60 70 80 90 100
VSH
2 or
e
VSH 1 ora
Corelaţia dintre valorile VSH la 1 oră şi 2 ore la pacienţi cu diferite afecţiuni hepato-renale
![Page 28: Biostatistica MG - Cursul 5](https://reader034.vdocuments.site/reader034/viewer/2022042500/58667ac31a28ab9b408b4e99/html5/thumbnails/28.jpg)
Întrebări