statistica descriptiva 1. tendinta centrala - phys.ubbcluj.rodana.maniu/biostat/c2.pdf · urma...
TRANSCRIPT
Statistica descriptiva
1. Tendinta centrala
- Media aritmetica
- Median
- Mod
2. Variabilitatea
- Deviatia standard
- Deviatia cvartila
- Domeniul de dispersie
1. Tendinta centrala
Majoritatea seriilor de date au o distributie de frecventa sub forma unui clopot
(se concentreaza in jurul valorii centrale)
Tendinta centrala a unui set de date poate fi exprimat prin:
0
20
40
60
80
100
120
140
160
180
200
Variable X
Fre
qu
en
cy
25 30 35 40 45 50 55 60 65 70 75 80 850
20
40
60
80
100
120
140
160
180
200
Variable X
Fre
qu
en
cy
25 30 35 40 45 50 55 60 65 70 75 80 85
Media aritmetica a valorilor din setul de date
Medianul setului de date
Modul (clasa modala)
Distributia de frecventa se obtine
prin determinarea frecventei de
aparitie a unor valori.
Media aritmetica - masura valorii centrale a setului de date in jurul caruia
fluctueaza datele setului
Proprietati:
- media aritmetica este influentata de valorile extreme
- suma diferentelor dintre valorile individuale ale seriei si medie este
totdeauna zero!
"Media aritmetica modificata" - media aritmetica obtinuta dupa ce s-au exclus
valorile extreme (5%) ce pot denatura valoarea mediei
n
xx
i
01
n
i
i XX
Ex.: xi = 20; 21; 22; 23; 24; 25 5,225
252423222120x
Media aritmetica
lornumarul
valorilorsumamedia
suma valorilor:
=B3+B4+B5+B6+B7+B8
sau
=SUM (B3:B8)
functia SUMIF: aduna doar numerele din celulele care indeplinesc un criteriu dat!
numarul valorilor:
=COUNT (B3:B8)
COUNTA: numara celulele
care nu sunt goale
(in celule pot fi si litere!)
COUNT: numara numai celulele
care contin numere
(numai numere!)
COUNTBLANK: numara celulele goale
media aritmetica:
=(suma valorilor)/(numarul lor)
Activand bara de functie (dupa selectarea unei celule care contine o formula),
fiecare celula implicata in formula poate fi identificata, datorita codului de culoare!
Medianul - reprezinta valoarea centrala din setul de date ordonat
- se ordoneaza datele si se determina valoarea din mijloc
Daca datele sunt grupate in clase de frecventa, clasa mediana este
cea care contine medianul.
Proprietati:
- medianul nu este afectat de valorile extreme
- medianul poate fi nereprezentativ pentru distributie daca valorile
individuale nu se grupeaza in jurul valorii centrale!
date
brute
4
2
5
1
7
10
6
date
ordonate
1
2
4
5
6
7
10
număr impar de date
Medianul
5
date
brute
4
2
5
1
7
10
date
ordonate
1
2
4
5
7
10
Medianul
(4 + 5) / 2 = 4.5
număr par de date
Medianul este: - termenul al (n+1)/2-lea → daca n este impar
- media dintre termenii n/2 si n/2+1 → daca n este par
)(2
1::
1222
1
nneparneimpar XXMnXMn
Medianul este data care are ordinul egal cu (numarul valorilor)/2
Functia RANK indica ordinul unei anumite valori dintr-un set de date!
Daca vrem sa copiem formula in
celelalte celule, domeniul de
referinta trebuie fixat!
n = impar: medianul este
valoarea ce are ordinul: (N+1)/2
n = par: medianul este media
valorilor ce au ordinul: N/2 si
(N/2+1)
Modul - valoarea ce are cea mai mare frecventa in seria de date.
Daca datele sunt grupate in clase de frecventa, modul corespunde
clasei de frecventa maxima.
Distributie - unimodala (un singur maxim)
- multimodala (mai multe maxime)
0
20
40
60
80
100
120
140
160
180
200
Variable X
Fre
qu
en
cy
25 30 35 40 45 50 55 60 65 70 75 80 850
20
40
60
80
100
120
140
160
180
200
Variable X
Fre
qu
en
cy
25 30 35 40 45 50 55 60 65 70 75 80 85
Clasă modală
- în cazul datelor nominale
vorbim de clasă modală
EXCEL: functia MODE
Manual: se ordoneaza
setul de date si se
determina care este
valoarea cea mai
frecventa.
Distributia in frecventa a datelor poate fi analizata folosind Histograma
a) trebuie definit setul de categorii ("bins") in care sa fie grupate valorile
b) se activeaza "unealta" Histogram: "Tools" apoi "Data Analysis
Optiunea "Data Analysis" se
instaleaza din meniul "Tools"
selectand "Add Ins.."
c) se selecteaza setul
de date, setul de
categorii si optiunea
"Chart Output"
2. Variabilitatea
Variabilitatea unui set de date ne spune pe ce domeniu se intinde acel set
de date (cat este de dispersat).
Masura imprastierii (dispersiei) setului de date
- ofera informatii privind extinderea datelor
- este utila in stabilirea reprezentativitatii masurilor de centralitate
- are rol in estimarea parametrilor statistici si in predictia (inferenta) statistica
- Deviatia standard
- Deviatia cvartila
- Domeniul de dispersie
Variabilitatea unui set de date poate fi exprimata prin:
n
XX
s
2n
1i
i2
Unitatea de masura este egala cu patratul unitatii de
masura a valorilor setului de date.
n
XX
s
2n
1i
i
Varianta (s2): raportul dintre suma patratelor abaterilor (erorilor) de la media
aritmetica a seriei si gradul de libertate (df = n-1).
Deviatia standard (s):
abatere standard
- reprezinta "distanta euclidiana" a valorilor fata de media aritmetica
Deviatia standard are aceeasi unitate de masura cu media aritmetica si cu
valorile setului de date.
Pentru un set ce contine un numar mare de date, varianta este patratul deviatiei
standard.
1-n
XX
s
2n
1i
i2
Daca volumul esantionului "n"
este mare (n-1 ≈ n):
n
XX
s
2n
1i
i2
n
XX
s
2n
1i
i
Varianta:
Deviatia standard:
1-n
XX
s
2n
1i
i2
se poate calcula prin scrierea formulei sau folosind
functia dedicata!
functia radical: SQRT()
ridicarea la patrat: ^2
functia suma: SUM()
pentru rotunjire:
ROUND()
ROUNDUP()
ROUNDDOWN()
calcul manual
Deviatia cvartila (DQ): măsoară dispersia datelor aflate in zona de mijloc a
distribuţiei
DQ = (Q3-Q1)/2
Mod de calcul:
- se ordonează datele
- se calculează - valoarea mediana a jumătăţii superioare (Q3=UQ: upper quartile)
- valoarea mediana a jumătăţii inferioare (Q1=LQ: lower quartile)
Indicatori de localizare:
Primul cvartil (Q1) - valoare mai mare (sau egala) decat 25% din datele seriei.
Al doilea cvartil (Q2) - este reprezentat de mediana (50% din datele seriei).
Al treilea cvartil (Q3) - valoare mai mare (sau egala) decat 75% din datele seriei.
EXCEL: functia QUARTILE
nr. crt. Valori nesortate Valori ordonate
1 25 14 LL sau Q0 (min)
2 27 16
3 20 16
4 23 18
5 26 19
6 24 20 LQ sau Q1
7 19 20
8 16 21
9 25 23
10 18 24
11 30 24 Md sau Q2
12 29 25
13 32 25
14 26 26
15 24 26
16 21 27 UQ sau Q3
17 28 27
18 27 28
19 20 29
20 16 30
21 14 32 UL sau Q4 (max)
UL – Upper limit LL – Lower limit
Domeniul de dispersie (DD):
DD = Xmax-Xmin
Xmax valoarea maxima din setul de date (UL - upper limit)
(EXCEL: functia MAX)
Xmin valoarea minima din setul de date (LL - lower limit)
(EXCEL: functia MIN)
Dezavantaj: se bazeaza doar pe valorile extreme.
Domeniul de dispersie:
DD = Xmax-Xmin
minimul unui set de date:
functia MIN
maximul unui set de date:
functia MAX
Coeficientul de variatie (CV) – este o masura relativa a dispersiei datelor.
CV reprezinta evaluarea deviatiei standard in raport cu media aritmetica.
Proprietati:
- CV este independent de unitatile de masura
- CV se foloseste pentru compararea variabilitatii relative a doua seturi de date
- CV intervine in studiul omogenitatii unor populatii:
CV <10% populatie omogena
10% < CV < 20% populatie relativ omogena
20% < CV < 30% populatie relativ eterogena
30% < CV populatie eterogena
x
sCV
Eroarea standard (ES):
se foloseste in inferenta statistica in determinarea intervalelor de
incredere pentru medie.
n
sES
EXCEL: functia SQRT (radacina patrata), ^2 (patrat)
EXCEL: functia SKEW
Asimetria (Skewness):
reprezinta abaterea de la aspectul simetric al distributiei de frecventa.
3 = 0 distributie simetrica
3 > 0 distributie cu coada spre dreapta
3 < 0 distributie cu coada spre stanga
n
s
xxn
i
i
1
3
3
Boltirea (Kurtosis): reprezinta aplatizarea/inaltimea unei distributii in raport cu o
distributie normala.
4 = 0 distributie normala
4 > 0 distributie mai inalta decat cea normala
4 < 0 distributie mai joasa
31
4
4
n
s
xxn
i
i
EXCEL: functia KURT
Importanta statistica a deviatiei standard
Pentru a prezice numarul (procentul) datelor cuprinse intre 2 valori simetrice
in jurul mediei, se foloseste teorema lui Cebasev:
Fractiunea de date cuprinse intre limitele ( ) cu k > 1 va fi
cel putin egala cu (1 - 1/k2)
(s - deviatia standard, - media aritmetica)
skxskx ,
x
Ex: proportia datelor situate de o parte si de alta a mediei la 3 deviatii
standard (k = 3) este egala sau mai mare decat (1-1/9) = 8/9 = 0,89. Deci cel putin
89% dintre date vor fi situate de o parte si de alta a mediei la 3 deviatii standard
Daca distributia este reprezentata prin curba lui Gauss (distributie
normala), media aritmetica, mediana si modul au aceleasi valori.
In acest caz sunt adevarate urmatoarele afirmatii:
- in intervalul se gasesc 68,3 % din valorile seriei
- in intervalul se gasesc 95,5 % din valorile seriei
- in intervalul se gasesc 99,7 % din valorile seriei
sx 1
sx 2
sx 3
P1. Pentru evaluarea eficacitatii unui regim
dietetic vegetarian asupra nivelului seric al
colesterolului, s-a realizat un studiu pe un esantion de
20 persoane, care a furnizat urmatoarele date:
a) Calculati media diferentei nivelului colesterolului in
urma curei vegetariene
b) Calculati varianta si deviatia standard a nivelului
colesterolului in urma curei vegetariene
c) Calculati mediana diferentei nivelului colesterolului
in urma curei vegetariene
d) Stabiliti gradul de omogenitate al esantionului din
punctul de vedere al nivelului colesterolului inainte de
regimul dietetic.
nr colesterol
initial
colesterol
final
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
195
145
205
159
244
166
250
236
192
224
238
197
169
158
151
197
180
222
168
168
146
155
178
146
208
147
202
215
184
208
206
169
182
127
149
178
161
187
176
145
Tema
P2. Urmatoarele date reprezinta varsta inbolnavirii (in ani) de o boala "A"
in 30 cazuri de aparitie a acestei boli (selectate aleator):
26, 45, 71, 51, 40, 51, 62, 63, 36, 54, 43, 67, 45, 34, 44, 52, 48, 55, 57, 43, 54, 47,
39, 50, 33, 40, 55, 29, 45, 42.
a) Calculati cu o zecimala urmatoarele statistici: mediana, modul, media aritmetica,
domeniul de dispersie, deviatia cvartala, varianta, deviatia standard, coeficientul
de variatie
b) Cate din observatii cad in afara urmatoarelor intervale:
c) Determinati nivelul de omogenitate al esantionului din punctul de vedere al
varsei de imbolnavire.
sx 1
sx 2
Tema