Download - 04 Analiza Prelim
-
Analiza preliminar a datelor- verificarea condiiilor -
Marian Popa
2013
-
Direcii de evaluare
1. Corectitudinea datelor2. Valorile excesive3. Valorile lips4. Normalitatea distribuiei5. Liniaritatea6. Homoscedasticitatea
2
-
introducere
Calitatea analizei i calitatea concluziilor depind de calitatea datelor
Toate procedurile statistice presupun ntrunirea unor condiii (presupuneri) teoretice
3
-
De ce este important respectarea condiiilor?
Pentru corectitudinea concluziilor Exemplu
nclcarea condiiilor teoretice afecteaz rata erorilor statistice
de tip I ?...
de tip II ?...
4
-
Analiza exploratorie a datelor (EDA)
J.W. Tukey (1915-2000) nelegerea ct mai exact a datelor
cercetrii (tendina central, mprtierea, forma distribuiei);
detectarea eventualelor erori. descoperirea unor structuri ascunse ale
datelor;
identificarea variabilelor importante; detectarea valorilor excesive; verificarea respectrii condiiilor impuse
de diferite proceduri infereniale5
-
1. Corectitudinea datelor
Valorile unei variabile sunt corecte atunci cnd nu s-au produs erori la introducerea de la tastatur sau la preluarea lor dintr-o alt surs
n faza de recoltare acurateea modelului de investigare calitatea instrumentelor de evaluare rigoarea procedurii de aplicare
n faza de constituire a bazei de date atenie, organizare, motivare... verificarea corectitudinii nainte de prelucrare
listarea valorilor (Analyze/Report/Case Summaries-Summarize-Case Summaries)
analiza de frecvene (Statistics-Descriptive Statistics-Frequencies) 6
-
1. Corectitudinea datelor
Valorile unei variabile sunt valide atunci cnd exprim ceea ce ne ateptm s exprime
Codificarea corect a rspunsurilor 1=DA; 2=NU/1=NU. 2=DA 1=dezacord total; 2=dezacord parial; 3=nici acord/nici dezacord;
4=acord parial; 5=acord total
Transform/Compute Profilul rspunsurilor
Angajare neserioas a subiecilor 1-2-1-2-1-2-
Atenie la scalele de minciun
7
-
2. Valorile excesive (marginale i extreme)
Valorile neobinuite ale unei distribuiei excesive, extreme sau marginale outliers, n englez Valori extreme Valori cu influen (influential cases)
8
-
Surse ale valorilor extreme
Erori umane n colectarea i introducerea datelor de exemplu: 422 n loc de 42)
Valori raportate intenionat greit Atitudinea subiecilor
Valori care exprim alt realitate Timpi mari de reacie, datorit unor factori distractori
Erori de eantionare Subieci care fac parte din alt populaie
Valori care fac parte din variaia normal Salariul efilor
9
-
Impactul valorilor excesive
Efectele negative distorsioneaz indicatorii distribuiilor amplificarea variabilitii i, deci, a erorii standard
diminuarea preciziei estimrii parametrilor reduce puterea testelor statistice
Efectele pozitive scot n eviden situaii semnificative din perspectiva obiectivului
cercetrii
atrag atenia asupra unor aspecte care ies din limitele ipotezei iniiale
10
-
Detecia valorilor excesive
a)La nivel univariatb)La nivel bivariatc)La nivel multivariat
11
-
Detectarea univariat
Metodele grafice Histogram stem-and-leaf box-plot
Metode numerice Transformarea n valori z
N=80: z 2.5 sau mai mare. eantioane mai mari z 3, dar nu mai mult de 4
Teorema Cebiev (1-1/k2) 75% k=2 89% k=3
12
-
Leys et al (2013) Utilizarea mediei pentru detecia valorilor excesive este greit:
Presupune normalitatea distribuiei (incluznd outliers) Outliers modific valoarea mediei Nu funcioneaz corect pe eantioane mici
Soluie alternativ: abaterea absolut de la median (apud Hampel, apud Gauss)
Mediana nu este afectat de outliers
13
-
Procedura SPSS
MAD=1.48*MedV2=5.1891 Criterii de decizie outliers (Miller, 1991)
Mediana 3*MAD (foarte conservator) Mediana 2.5*MAD (moderat conservator) Mediana 2*MAD (puin conservator)
14
COMPUTE
ABS(V1-MedV1)
MedV1=7 MedV2=3.5
-
114
101
H=114-101=13
Percentila 75 (114)
Percentila 25 (101)
Mediana
(Q2)
142 valoare extrem
135 valoare extrem
114+1.5x13=133.5
101-1.5x13=81.5
Limita de sus poate urca pn la 133,5
Cea mai apropiat valoare este 125
Limita de jos este 81.5
Trasm la 86
15
-
Detectarea univariat
Testul Grubb Metodele anterioare nu sunt
aplicabile pe eantioane mici
valorile transformate n z nu pot fi mai mari dect (N-1)/N
16
-
Detectarea bivariat
Outlierbivariat
17
-
Detectarea multivariat
Abaterea excesiv prin raportare la un numr mare de variabile O valoare poate fi neobinuit n raport cu unele variabile, dar
obinuit n raport cu altele
Diagnosticul de valoare excesiv trebuie pus n raport cu toate dimensiunile simultan
Scatter-plot trivariat Metode numerice
Variabile dummy SUM SD
Se transform n scoruri z valori z mai mari de 3 sau 4 sunt excesive multivariate
indicele D al lui Cook (Cook's D statistic) indicele D2 al lui Mahalanobis
18
-
19
-
Tratarea valorilor excesive multivariate
Depinde de natura lor Erori? eliminare Valori valide?... eliminare sau transformare Ambele au avantaje i dezavantaje
Eliminarea valorilor excesive Efectuarea analizelor i raportarea rezultatelor CU i FR
ele
Transformarea tuturor valorilor Trunchierea
20
-
Valori lips
Imposibilitatea recoltrii lor Refuzul subiecilor Rezultate din calcule cu variabile care au valori
lips
Trebuie sa ascund valori cu aceeai semnificaie cu valorile valide
Decesul subiecilor? Non-rspunsuri legitime?
21
-
Natura valorilor lips
Rubin (1976) a fundamentat analiza modern a valorilor lips inferena statistic se bazeaz pe presupunerea distribuiei
aleatoare, neafectate de erori (bias)
acest lucru implic faptul c eventualele valori lips au, la rndul lor, un caracter aleatoriu
nu sunt determinate de un factor care le determin n mod sistematic
Valori lips nealeatorii Valori lips complet aleatorii Valori lips aleatorii
22
-
Impactul valorilor lips
Eliminarea: reducerea eantionului reducerea puterii
Dac nu sunt aleatorii, afecteaz concluziile cercetrii
n context multivariat, efectul se multiplic
23
-
Analiza valorilor lips SPSS
System missing values User defined missing values
SPSS Missing Value Analysis Descrie modelul datelor lips: n ce variabile sunt
localizate; ct de multe sunt; n ce msur anumite perechi de variabile tind s aib valori lips la mai multe cazuri; dac sunt aleatorii.
Estimeaz mediile, abaterile standard, covarianele i corelaiile pentru diferite metode de tratare a valorilor lips.
nlocuiete valorile lips cu alte valori, utiliznd metode avansate.
24
-
Analiza valorilor lips
Soluii bivariate Se creeaz o variabil dummy
0, pentru subiecii care nu au rspuns 1 pentru cei care au rspuns
Se aplic testul t al diferenei dintre medii O valoare semnificativ a testului: valorile lips apar n
legtur cu variabilele testate
O valoare nesemnificativ a testului respinge ipoteza unei astfel de legturi
25
-
Tratarea valorilor lips
Eliminarea valorii casewise deletion pairwise deletion permite exploatarea la maximum a informaiei disponibile
Eliminarea ntregii variabile listwise deletion Reducere a numrului de cazuri analizate produce o estimare neafectat de erori a parametrilor
Cazuri pn la 10%, poate fi tolerat, dar dincolo de acest procent cazul respectiv ar
trebui eliminat
Variabile cele care au cel puin 15% din valori lips sunt candidate la eliminarea valorilor cele cu procente mai mari de att (20-30%) ar putea face obiectul remedierii
valorilor lips 26
-
Tratarea valorilor lips
Transformarea / nlocuirea Transform/Replace
27
-
4. Normalitatea distribuieisimetrie boltire
28
-
Distribuie relativ normal Distribuie asimetric pozitiv i leptokurtic
29
-
Ct de important este normalitatea?
Cu att mai important cu ct volumul eantionului este mai mic
Mai puin important pentru eantioane care se apropie sau depesc 100 subieci
Mai important pentru testele de corelaie Mai puin important pentru diferenele dintre
medii
Mediile grupurilor se raporteaz la distribuia de eantionare
Teorema Limitei Centrale30
-
Normalitatea multivariat
Toate variabilele i toate combinaiile liniare dintre ele sunt normale
Este parial verificat prin verificarea normalitii univariate Non-normalitatea univariat ncalc cert normalitatea multivariat
31
-
Explore (Statistics-Descriptives-Explore)
Statistic Std. Error
Skewness 1,711 ,333
Kurtosis 4,519 ,656
32
-
ExploreTestul Kolmogorov-Smirnov
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Score ,140 51 ,014 ,862 51 ,000
Tests of normality
semnificativ pentru p
-
Procedura P-P plot(Graphs-P-P plots)
Normal P-P Plot of Score
Observed Cum Prob
1,0,8,5,30,0
Exp
ecte
d C
um
Pro
b
1,0
,8
,5
,3
0,0
Relaia dintre proporia cumulativ a distribuiei i proporia cumulativ pentru un numr de diferite distribuii teoretice, inclusiv pentru cea normal
Dac distribuia cercetat se suprapune peste linia dreapt a distribuiei teoretice, sau nu se abate grav de la aceasta, atunci putem
aprecia c variabila investigat este normal.
34
-
Normalizarea distribuiei(Employee data.sav)
Beginning Salary
80000,0
75000,0
70000,0
65000,0
60000,0
55000,0
50000,0
45000,0
40000,0
35000,0
30000,0
25000,0
20000,0
15000,0
10000,0
300
200
100
0
35
-
Soluii de transformare
transformarea situaia recomandat
x3 ridicarea la puterea a
treiaasimetrie negativ
x2
ridicarea la ptrat asimetrie negativ
x - simetrie
radical de ordin 2 asimetrie pozitiv
radical de ordin trei asimetrie pozitiv
log(x) logaritmare asimetrie pozitiv
x
3 x
36
-
Transform-Compute (SQRT)
SQR_SALB
280,0
270,0
260,0
250,0
240,0
230,0
220,0
210,0
200,0
190,0
180,0
170,0
160,0
150,0
140,0
130,0
120,0
110,0
100,090,0
140
120
100
80
60
40
20
0
37
-
NORMAL of SALBEGIN using BLOM
3,002,50
2,001,50
1,00,50
0,00-,50
-1,00
-1,50
-2,00
-2,50
Histogram
Fre
que
ncy
60
50
40
30
20
10
0
Statistic Std. Error
Skewness ,024 ,112
Kurtosis -,115 ,224
38
-
Normalitatea multivariat
Toate variabilele i toate combinaiile liniare dintre ele sunt normale
Este parial verificat prin verificarea normalitii univariate
Non-normalitatea univariat ncalc cert normalitatea multivariat
39
-
Observaii cu privire la normalizare Poate fi foarte util, dar se face pe seama reducerii mai puternice a distanelor dintre
valorile de la extremitatea distribuiilor comparativ cu distanele dintre valorile din partea central a distribuiilor (elasticitate)
Afecteaz semnificaia valorilor Trebuie fcut cu grij i numai cnd este necesar Atenie la valoarea minim!
skewness
originalMin=1 Min=2 Min=3 Min=5 Min=10
Min=10
0
Square
Root1.58 0.93 1.11 1.21 1.31 1.42 1.56
Log(10) 1.58 0.44 0.72 0.88 1.07 1.27 1.54
Inverse 1.58 0.12 0.18 0.39 0.67 1.00 1.5040
-
5. Liniaritatea
msura n care graficul variaiei valorilor a dou variabile se apropie de o linie dreapt
variabile individuale (nivelul anxietii, timpul de reacie, etc.) combinaii ale mai multor variabile (un scor compozit rezultat din
adiionarea mai multor scale ale unui test)
Dou variabile puternic corelate nu sunt utile n aceeai analiz
Dect dac este analizat structura variabilelor (analiza factorial, SEM, Path Analysis)
Variabile cu r=0,70 sau mai mult nu vor fi de regul incluse n aceeai analiz (analiza de regresie, de exemplu)
Corelaia nsi este afectat de particulariti ale datelor 41
-
Metode de investigare a liniaritii
analiza rezidual scoruri a cror variaie nu este explicat prin modelul
liniar
valorile reziduale standardizate sunt raportate grafic la valorile rezultate din predicie
Non-linearitatea... plasarea valorilor reziduale pe o curb n jurul liniei orizontale a valorilor de predicie.
relaie de tip liniar... plasarea valorilor reziduale in jurul liniei de predicie, dup un model aleator
42
-
Statistics-Regression-Linear
Scatterplot
Dependent Variable: Beginning Salary
Regression Standardized Residual
86420-2-4-6
Regre
ssio
n S
tan
dard
ized P
redic
ted V
alu
e
6
5
4
3
2
1
0
-1
-2 43
-
6.) Omogenitatea varianei(homoscedasticitate)
variana valorilor VD pentru fiecare din valorile VI este egal Homoscedasticitate
nclcarea acestei condiii Heteroscedasticitate
ANOVA rezist la nclcarea acestei condiii dac Grupurile sunt suficient de mari Grupurile sunt egale ca numr (nu difer grav)
Raportul dintre grupul cel mai mare si cel mai mic nu depete 4/1 Raportul dintre variana cea mai mare i cea mai mic nu depete 10/1 (Fidell &
Tabachnick, 2003)
Soluii alternative Testarea diferenelor la un nivel alfa mai mic dect 0,05 (0,02 sau 0,01)
Heteroscedasticitatea trebuie raportat!44
-
medii diferite
varian egal
medii egale
variane egale
medii egale
variane diferite
medii diferite
varian diferite
Homoscedasticitate Heteroscedasticitate45
-
variana n jurul liniei de regresie este aceeai pentru toate valorile variabilei predictor?
heterodasticitate
46
-
Concluzii
Statistica multivariat este mai pretenioas sub aspectul respectrii condiiilor impuse de diverse proceduri
Analiza preliminar a datelor i pregtirea lor sunt decisive pentru utilizarea corect a procedurilor statistice.
47