lucrarea nr. 1 — statistică descriptivă...

141
Statistică multivariată Lucrarea nr. 1 — Statistică descriptivă (Excel) A. Noţiuni teoretice Variabilă o caracteristică ale cărei valori se modifică după elementele studiate (este modelată printr-o variabilă aleatorie). Statistica este inutilă în analiza caracteristicilor constante în domeniul observat. Observaţie — valorile unei mulţimi de variabile măsurate pentru un element studiat. Statistică descriptivă — 1. Valoare care reprezintă o sinteză, un rezumat al valorilor unei caracteristici pentru un eşantion sau care evaluează relaţia dintre două variabile. 2. Parte a statisticii care priveşte descrierea variabilelor (calcularea indicatorilor statistici descriptivi – statisticile descriptive –, reprezentări grafice etc.). Statistică inferenţială — Parte a statisticii care cuprinde procedurile prin intermediul cărora se pot obţine aserţiuni asupra populaţiei studiate din observaţiile efectuate asupra unui eşantion din acea populaţie. Măsurare —atribuirea de valori la elemente, observaţii potrivit unei reguli; este procesul prin care se obţin valorile variabilelor. Scală de măsură — regula prin care se atribuie o valoare numerică în procesul de măsurare. Niveluri de măsurare— clasificarea variabilelor după proprietăţile numerice asociate scalelor pe care se măsoară valorile. Variabile nominale (nivelul nominal) variabile care pot lua un număr finit de valori neordonate; variabile calitative, permit doar clasificarea observaţiilor. De observat că nivelul de măsurare nu se modifică prin utilizarea unei codificări numerice. Variabilele calitative care au exact două valori sunt denumite dihotomice sau binare. Codificarea prin 0/1 permite utilizarea acestor variabile în proceduri dedicate nivelurilor mai înalte de măsurare (ordinal, interval). Variabile ordinale (nivelul ordinal) – variabile ale căror valori sunt ordonate dar nu este definită (nu se poate defini) distanţa dintre două valorile posibile. Variabile de interval (nivelul interval) – variabile cu valori ordonate şi pentru care este definită o distanţă (se poate gândi că valorile posibile sunt similare gradaţiilor unei rigle uzuale). Dacă există o valoare zero adevărată, variabila se zice de raport Variabilele de interval sunt cele mai complexe şi majoritatea tehnicilor statistice au fost dezvoltate tocmai pentru aceste variabile. Variabile continue – variabile care odată cu două valori pot lua orice valoare intermediară; pot lua orice valori din domeniul lor. Variabilele de interval (raport) sunt, de regulă, continue. Variabile discrete – variabile care nu sunt continue. Variabilele nominale şi cele ordinale sunt variabile discrete. Distribuţia unei variabile — toate valorile unei variabile pentru fiecare caz (element) studiat/cunoscut. Tipuri de distribuţie: 1. valorile pentru un eşantion sau populaţie (distribuţie empirică), 2. distribuţia de sondaj a unei statistici (distribuţie teoretică), 3. distribuţia privită ca structură a datelor, ilustrată numeric sau grafic. Descrierea distribuţiilor 1. Tabelară a. listarea datelor fără nicio ordonare prealabilă

Upload: duongdat

Post on 30-Jan-2018

235 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 1 — Statistică descriptivă (Excel)

A. Noţiuni teoretice Variabilă — o caracteristică ale cărei valori se modifică după elementele studiate (este modelată printr-o variabilă aleatorie). Statistica este inutilă în analiza caracteristicilor constante în domeniul observat. Observaţie — valorile unei mulţimi de variabile măsurate pentru un element studiat. Statistică descriptivă — 1. Valoare care reprezintă o sinteză, un rezumat al valorilor unei caracteristici pentru un eşantion sau care evaluează relaţia dintre două variabile. 2. Parte a statisticii care priveşte descrierea variabilelor (calcularea indicatorilor statistici descriptivi – statisticile descriptive –, reprezentări grafice etc.). Statistică inferenţială — Parte a statisticii care cuprinde procedurile prin intermediul cărora se pot obţine aserţiuni asupra populaţiei studiate din observaţiile efectuate asupra unui eşantion din acea populaţie. Măsurare —atribuirea de valori la elemente, observaţii potrivit unei reguli; este procesul prin care se obţin valorile variabilelor. Scală de măsură — regula prin care se atribuie o valoare numerică în procesul de măsurare. Niveluri de măsurare— clasificarea variabilelor după proprietăţile numerice asociate scalelor pe care se măsoară valorile. Variabile nominale (nivelul nominal) – variabile care pot lua un număr finit de

valori neordonate; variabile calitative, permit doar clasificarea observaţiilor. De observat că nivelul de măsurare nu se modifică prin utilizarea unei codificări numerice.

Variabilele calitative care au exact două valori sunt denumite dihotomice sau binare. Codificarea prin 0/1 permite utilizarea acestor variabile în proceduri dedicate nivelurilor mai înalte de măsurare (ordinal, interval).

Variabile ordinale (nivelul ordinal) – variabile ale căror valori sunt ordonate dar nu este definită (nu se poate defini) distanţa dintre două valorile posibile.

Variabile de interval (nivelul interval) – variabile cu valori ordonate şi pentru care este definită o distanţă (se poate gândi că valorile posibile sunt similare gradaţiilor unei rigle uzuale). Dacă există o valoare zero adevărată, variabila se zice de raport Variabilele de interval sunt cele mai complexe şi majoritatea tehnicilor statistice au fost dezvoltate tocmai pentru aceste variabile.

Variabile continue – variabile care odată cu două valori pot lua orice valoare intermediară; pot lua orice valori din domeniul lor. Variabilele de interval (raport) sunt, de regulă, continue.

Variabile discrete – variabile care nu sunt continue. Variabilele nominale şi cele ordinale sunt variabile discrete.

Distribuţia unei variabile — toate valorile unei variabile pentru fiecare caz (element) studiat/cunoscut. Tipuri de distribuţie: 1. valorile pentru un eşantion sau populaţie (distribuţie empirică), 2. distribuţia de sondaj a unei statistici (distribuţie teoretică), 3. distribuţia privită ca structură a datelor, ilustrată numeric sau grafic.

Descrierea distribuţiilor 1. Tabelară

a. listarea datelor fără nicio ordonare prealabilă

Page 2: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

b. tablouri ordonate - cu cât numărul de observaţii este mai mare, cu atât este mai greu de intuit structura.

c. distribuţii de frecvenţe absolute - se pot utiliza pentru toate tipurile de variabile, dar utilizarea cea mai frecventă este pentru datele discrete (nominale, ordinale).

d. distribuţii de frecvenţe relative (procentuale) - evidenţiază valorile mai frecvente, sunt utile pentru comparaţii.

e. distribuţii cumulate - atât pentru frecvenţe absolute, cât şi relative. 2. Grafică (tipurile uzuale)

a. grafice cu bare pentru date discrete. b. histograme pentru date continue. c. grafice arie pentru date cumulate.

Caracterizarea unei distribuţii - trebuie să surprindă trei aspecte a. tendinţa centrală (referită uzual ca "medie" deşi poate fi vorba de

indicatori statistici diferiţi) b. împrăştierea (cât de mult sunt repartizate sau depărtate valorile) c. forma distribuţiei (simetria - asimetrie, aplatizare)

Rezumate pentru evaluarea tendinţei centrale - oferă o valoare de prognoză, încrederea depinde de gradul de împrăştiere a valorilor 1. Mod - cea mai frecventă valoare; este utilizată în special pentru date discrete.

Pentru date continue se obişnuieşte gruparea datelor şi mijlocul intervalului modal.

2. Mediana - valoarea care depăşeşte jumătate dintre observaţii (quantila de ordin 0.5); este o valoare "negociată" pentru date ordinale (valoarea care împarte cel mai bine observaţiile). Deoarece presupune ordine între valori, nu se aplică datelor nominale. Este un indicator de tendinţă centrală preferat în locul mediei pentru distribuţii continue asimetrice.

3. Media - este media aritmetică a valorilor măsurate, utilizată pentru date continue.

Rezumate pentru evaluarea împrăştierii 1. IQV (indicele de variaţie calitativă), Entropia - sunt utilizate în cazul datelor

discrete 2. Quantile - utilizate pentru datele ordonate (ordinale, de interval) 3. Domeniul (amplitudinea) - pentru date continue 4. Intervalul interquartilic - adecvat pentru date ordonate (dar utilizat prin abuz

pentru date ordinale), reprezintă domeniul centrat pe mediană şi care conţine jumătate dintre valorile măsurate.

5. Dispersia (varianţa), abaterea standard - sunt indicatorii uzuali de caracterizare a împrăştierii datelor continue. Interpretarea uzuală a abaterii standard este aceea că, pentru o variabilă distribuită normal - această ipoteză se omite uneori, prin exces - , circa 68% dintre valori diferă de medie cu cel mult o abatere standard şi circa 95% dintre valori diferă de medie cu cel mult două abateri standard. Împreună cu media (aritmetică) sunt indicatorii statistici cei mai des invocaţi in analiza datelor continue (de interval sau de raport).

Page 3: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

B. Instrumente Excel Pentru prelucrarea unui set de date memorat într-un document Excel se pot utiliza atât funcţiile statistice ale aplicaţiei, cât şi proceduri obţinute prin Tools – Data Analysis. Funcţiile statistice uzuale sunt (în ordine alfabetică):

AVEDEV – abaterea medie absolută AVERAGE – media aritmetică BINOMDIST – funcţia de repartiţie

binomială CHIDIST – funcţia de repartiţie χ2 CHIINV – inversa funcţiei de repartiţie χ2 CHITEST – aplicarea testului χ2 CONFIDENCE – intervalul de încredere

pentru medie FDIST – funcţia de repartiţie F FINV – inversa funcţiei de repartiţie F FTEST – aplicarea testului F HARMEAN – media armonică KURT – coeficientul de aplatizare MIN, MAX – valorile extreme din listă MEDIAN – mediana MODE – valoarea mod NORMDIST – funcţia de repartiţie

normală

NORMINV – inversa funcţiei de repartiţie normală

NORMSDIST – funcţia de repartiţie normală standard

NORMSINV – inversa funcţiei de repartiţie normală standard

PERCENTILE – quantile QUARTILE – quartile RANK – rangul argumentului într-o listă SKEW – coeficientul de asimetrie STANDARDIZE – valoarea standardizată a

argumentului STDEV – abaterea standard TDIST – funcţia de repartiţie Student, t TINV – inversa funcţiei de repartiţie

Student TTEST – aplicarea testului Student VAR – dispersia

Pentru a utiliza procedurile statistice, trebuie ca prin Tools – AddIns să se verifice dacă este instalat utilitarul Analysis ToolPak. În caz afirmativ, comanda Tools – Data Analysis va deschide dialogul Data Analysis din care sunt accesibile o serie de prelucrări statistice conduse de dialogurile asociate. Astfel, Descriptive Statistics va produce indicatorii statistici ai unei variabile continue.

Tot în partea de descriere statistică poate fi încadrată şi metoda de creare a cuburilor OLAP prin Data – Pivot Table, metodă prin care se obţin distribuţiile simple sau multivariate ale unor variabile discrete sau indicatorii statistici esenţiali ai subpopulaţiilor.

De asemenea, nu trebuie uitat că toate procedurile legate de reprezentările grafice, iniţiate prin Insert - Chart (sau uneltele corespunzătoare) sunt o parte a prelucrării statistice descriptive oferind grafice, histograme etc.

C. Lucrarea practică 1. Se va importa în Excel fişierul de date

http://thor.info.uaic.ro/~val/statistica/Admitere.txt care conţine datele de la un examen de admitere la facultatea de informatică, pe vremea când examenul includea şi o probă scrisă.

2. Se va stabili tipul fiecărei variabile (nominal, ordinal, interval) • Legitimatie - numărul legitimaţiei (eliberate în ordinea

înscrierii) • Bacalaureat - media la bacalaureat • Optiune - proba la alegere (A - analiză matematică, C -

programare C, P - programare Pascal) • Sala - sala de examen • Scris - media la scris

Page 4: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

• Final - media finală • Situatie - situaţia după examen (1 - fără taxa, 2 - cu taxă, 3 -

respins, 4 - în aşteptare) 3. Se vor caracteriza variabilele cu ajutorul indicatorilor statistici

adecvaţi. 4. Se vor realiza grafice de ilustrare a distribuţiilor variabilelor. 5. Se vor identifica subpopulaţiile pentru care este de interes să se

realizeze prelucrări separate. 6. Să se creeze tablourile de frecvenţe încrucişate dintre variabilele

Opţiune şi Situaţie, incluzând şi calculul frecvenţelor relative. 7. Utilizând atât indicatori statistici cât şi reprezentări grafice, se vor

compara subpopulaţiile atât după repartiţiile unor variabile discrete, cât şi a unor variabile continue. Se va decide:

i. dacă a fost mai avantajos să se dea examen la analiză sau la programare; la analiză, la programare C sau la programare Pascal;

ii. care candidaţi şi-au depăşit aşteptarea dată de media la bacalaureat;

iii. dacă s-au obţinut note mai mari la scris de către cei care au susţinut proba în săli de examen mai mari;

iv. dacă se poate spune că acei candidaţi care s-au înscris în primele zile au avut rezultate mai bune.

Page 5: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 2 — Inferenţa statistică. Testarea ipotezelor statistice (Excel)

A. Noţiuni teoretice Fie un spaţiu de probabilitate (Ω,A, P). Se numeşte variabilă aleatoare o

funcţie reală X:Ω→ℜ , care satisface condiţia: . fiar oricare ,)X(| ℜ∈∈≤ xAxωω

Numim funcţie de repartiţie a v.a. X, funcţia reală de variabilă reală, F:ℜ→ℜ, definită prin x),P(X)F( ≤=x unde prin (X ≤ x) s-a notat evenimentul x)X(| ≤ωϖ , adică reuniunea acelor evenimente elementare pentru care v.a. ia valori mai mici sau egale cu x.

Funcţia de repartiţie se zice absolut continuă dacă există o funcţie reală, f:ℜ→ℜ, astfel încât

,d)f()F( ∫∞−

=x

uux

Interpretarea geometrică este cea uzuală de mărime a ariei de sub graficul funcţiei f.

Funcţia f, dacă există, se numeşte densitate de probabilitate a v.a. X. Observaţie. Funcţia de repartiţie conţine toată informaţia necesară pentru

calcularea probabilităţilor cu care o variabilă aleatoare ia valori în anumite intervale şi pentru acest lucru va fi utilizată în ceea ce ne interesează.

Repartiţii teoretice remarcabile

Repartiţia normală Această repartiţie are un rol central, atât din considerente teoretice, cât şi

practice (nu în ultimul rând, uşurinţa aplicării). Teoretic, repartiţia normală reprezintă o repartiţie limită către care tind, în anumite condiţii, celelalte repartiţii.

Prin definiţie, o variabilă continuă X are o repartiţie normală, sau repartiţie Gauss–Laplace, dacă funcţia de repartiţie este dată de:

,0,, , de2

1x)P(XF(x) 2

2

2 >ℜ∈ℜ∈=<= ∫∞−

−−

σµπσ

µ

xtx

σ)(t

unde µ şi σ sunt parametrii funcţiei de repartiţie

Page 6: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Funcţia de repartiţie normală se va nota prin N(µ; σ2) iar faptul că v.a. X este repartizată normal cu parametrii µ şi σ se notează X ~ N(µ; σ2).

Parametrii repartiţiei au semnificaţia unor valori tipice şi anume M(X) = Me(X) = Mo(X) = µ D2(X) = σ2

motiv pentru care se poate vorbi de repartiţia normală cu media µ şi dispersia σ2, ceea ce determină complet repartiţia.

Repartiţia normală N(0,1) se numeşte repartiţia normală redusă, repartiţia normală normată sau repartiţia normală standard. O v.a. repartizată N(0;1) este notată, în mod uzual, cu Z şi este referită drept variabilă Z, variabilă normală redusă etc. Orice variabilă repartizată normal poate fi transformată într-o v.a. repartizată N(0;1) prin transformarea (de normare, de standardizare)

σµ−

=XZ .

Inferenţa statistică Prin inferenţă statistică se înţelege, în sensul precizat anterior, obţinerea de

concluzii bazate pe o evidenţă statistică, adică pe informaţii derivate dintr-un eşantion. Concluziile sunt asupra caracteristicilor populaţiei din care provine eşantionul. Observaţie. Dacă este investigată întreaga populaţie, atunci rezultatele care se obţin constituie finalul prelucrării şi nu sunt necesare (şi nici posibile) prelucrările introduse în această secţiune.

Prin eşantion (sau selecţie) vom înţelege o submulţime a populaţiei statistice considerate. Operatiunea de formare a unui eşantion se numeşte sondaj. Sondajele care au şanse mai mari de a produce eşantioane reprezentative sunt cele bazate pe proceduri de selecţie aleatoare.

In eşantioane diferite, statisticile calculate au valori diferite. În acest fel se poate vorbi despre o distribuţie a valorilor statisticii în mulţimea eşantioanelor de un acelaşi volum; apare astfel distribuţia de sondaj a statisticii respective.

Inferenţa statistică implică trei distribuţii asociate cu caracteristica studiată: • distribuţia populaţiei; • distribuţia de sondaj; • distribuţia eşantionului.

Prin distribuţia populaţiei se înţelege distribuţia pe care o are caracteristica studiată (sau v.a. asociată ei) în populaţie. Această distribuţie nu este, în general, cunoscută. Interesul unei cercetări este tocmai acela de a studia această distribuţie.

Prin distribuţia eşantionului se înţelege distribuţia pe care o are caracteristica studiată în eşantionul disponibil în studiu. Această distribuţie este cunoscută complet, întrucât toate datele necesare sunt măsurate.

Prin distribuţia de sondaj a unei statistici se înţelege distribuţia pe care o are statistica în mulţimea tuturor eşantioanelor de volum dat. Este însă remarcabil faptul că, din considerente teoretice, între distribuţia populaţiei şi distribuţia de sondaj există legături bine precizate sau, datorită unor teoreme de limită centrală, se cunoaşte forma acestei distribuţii atunci când volumul eşantionului creşte (tinde spre infinit).

Inferenţa statistică urmează, în general, următorul algoritm: • se obţine, printr-un procedeu valid, un eşantion; • se calculează o valoare tipică a eşantionului (o statistică de sondaj); • din considerente teoretice, se cunoaşte repartiţia din care provine această valoare

tipică şi relaţia repartiţiei de sondaj a statisticii cu valoarea tipică din populaţie;

Page 7: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

• utilizând repartiţia de sondaj a statisticii se pot face evaluări ale erorilor de estimaţie.

Repartiţia de sondaj a mediei este caracterizată de

.)D( ,)(D ,)M(2

2

nx

nxx σσµ ===

Practic, se poate accepta o repartiţie N(µ;σ2/n) • pentru n > 10 dacă repartiţia lui X este aproape simetrică, sau • pentru n > 30 pentru repartiţii cu asimetrie pronunţată sau necunoscută.

Estimaţii Se numeşte estimator orice entitate a cărei valoare poate fi utilizată drept

valoare (de regulă aproximativă) pentru o altă entitate. Valoarea estimatorului se zice că este o estimaţie.

Valoarea care aproximează, pe baza datelor de sondaj, valoarea necunoscută a unui parametru al populaţiei poartă denumirea de estimaţie statistică. Astfel, media aritmetică este estimator pentru media populaţiei µ, abaterea standard s este estimator pentru abaterea standard a populaţiei σ etc.

După natura lor, în statistică se utilizează două tipuri de estimaţii: • punctuale • sub formă de interval.

Printr-o estimaţie punctuală se înţelege valoarea unui estimator calculată într-un eşantion. Numim eroare de estimare valoarea absolută a diferenţei dintre estimaţia punctuală şi valoarea parametrului estimat.

Fie o populaţie statistică, caracterizată de o v.a. continuă X a cărei repartiţie depinde de un parametru δ, necunoscut. Prin definiţie, dacă se pot determina δ1 şi δ2 astfel încât pentru o valoare α prestabilită (0 < α < 1) să aibă loc

αδδδ −=<< 1)P( 21 , atunci intervalul (δ1, δ2) se numeşte interval de încredere pentru parametrul necunoscut δ, cu un coeficient (sau nivel) de încredere egal cu α, sau cu o siguranţă statistică Sα = 1–α.

Dacă atât δ1 cât şi δ2 sunt finite, atunci intervalul de încredere se zice bilateral. În cazul când δ1 este -∞, sau δ2 este +∞, ceea ce revine în fapt la determinarea unei singure limite, intervalul se zice unilateral.

Intervale de încredere pentru valoarea medie Fie o populaţie statistică caracterizată de o v.a. X repartizată normal, cu

parametrii µ şi σ2. Presupunem că s-au obţinut, dintr-un eşantion de volum n, media de sondaj x şi dispersia de sondaj s2. Fixăm pragul de semnificatie α.

Dacă dispersia, σ2 este cunoscută, intervalul de încredere pentru media populaţiei:

,2

12

1 αασµσ

−−+<<− z

nxz

nx

Dacă dispersia, σ2, nu este cunoscută

νανα µ 2;/ 1 ;2/1 −− +<<− tnsxt

nsx

Page 8: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Intervale de încredere pentru dispersie Fie o populaţie normală, sau aproximativ normală, cu parametrii µ şi σ2

necunoscuţi. Se demonstrează că intervalul de încredere bilateral pentru dispersia populaţiei, cu încrederea statistică de 1–α, este dat de

,)1()1(2

;2/

22

2 ;2/1

2

νανα χσ

χsnsn −

<<−

unde n este volumul eşantionului, σ2 este dispersia de sondaj, iar ναχ ;2/ şi

ναχ ;2/1− sunt quantilele de ordin α/2, respectiv 1- α/2, ale repartiţiei χ2 cu ν = n–1 grade de libertate.

Testarea ipotezelor statistice Fără a încerca o generalizare, se poate accepta ideea că, în cele mai multe

prelucrări statistice, datele sunt obţinute şi prelucrate pentru a verifica ipoteze ale cercetătorilor. Deci, ca o primă imagine a subiectului, trebuie reţinută secvenţa:

1. formularea unei ipoteze; 2. obţinerea de date experimentale; 3. verificarea ipotezei pe baza acestor date.

Vom considera semnificativ un eveniment care contrazice ipoteza de plecare.

Raţionamentul general Lumea reală Statistică

Se formulează setul de ipoteze H0, H1 Se calculează, dintr-un eşantion, o statistică (statistica testului).

Are loc un eveniment

Se calculează, în ipoteza H0, probabilitatea pc de apariţie a valorii calculate (probabilitatea critică a testului, p-value).

Rezultă că probabilitatea de realizare este suficient de mare

Dacă pc este mică, apare o contradicţie,

Pentru a rezolva contradicţia se va respinge H0 în favoarea ipotezei H1 deoarece motivul pentru care probabilitatea critică este mică este faptul că la calculul acesteia s-a acceptat ipoteza H0.

Dacă pc este mare, nu se respinge H0, nu există nici un motiv pentru a lua decizia contrară.

Rămâne o singură întrebare: începând de unde o probabilitate este considerată drept “mică”? Pentru a nu introduce subiectivismul în această decizie, se fixează, anterior deciziei în test, un prag sub care o probabilitate este considerată “mică”. Această valoare se numeşte prag de semnificaţie şi se notează uzual cu α.

Regula de decizie în test poate fi formulată atunci: • dacă pc ≤ α, atunci se respinge ipoteza nulă, H0, în favoarea ipotezei

alternative, H1; • dacă pc > α , atunci nu se respinge ipoteza nulă H0.

Se numeşte regiune de respingere, pentru un nivel de semnificaţie α fixat, mulţimea rezultatelor (valorilor statisticii testului) care conduc la respingerea ipotezei H0. Dacă se pot defini limitele numerice ale regiunii de respingere, acestea se vor numi, uneori, valori critice ale testului.

Page 9: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Testele pot fi • parametrice = ipoteza H0 este strict legată de un parametru al

populaţiei, iar statistica testului are o repartiţie cunoscută tocmai din această ipoteză.

• neparametrice = repartiţia statisticii testului se calculează şi nu rezultă din presupuneri apriorice asupra acestei distribuţii şi a probabilităţilor ataşate.

Testele parametrice pot fi (δ notează un parametru al populaţiei): • bilaterale (nedirecţionale)

H0: δ = δ0 H1: δ ≠ δ0

• unilaterale (direcţionale) H0: δ = δ0 H1: δ < (sau >) δ0 Un test statistic are, de multe ori, o denumire dată de repartiţia statisticii

testului: teste normale (sau Z), teste Student (sau t), teste F etc. Astfel, un test χ2 reprezintă un test a cărui statistică are o repartiţie de sondaj din clasa χ2..

Categorii de teste Testele sunt clasificate în teste pentru variabile continue şi teste pentru

variabile discrete (nominale sau ordinale). Primele sunt, de regulă, teste parametrice, celelalte sunt neparametrice.

Teste de concordanţă Aceste teste se referă la potrivirea, concordanţa dintre valorile calculate în

eşantion (statisticile de sondaj) şi valorile parametrilor respectivi din populaţia statistică (valori cunoscute sau presupuse). Cu alte cuvinte, problema poate fi formulată: cât de mult poate să se abată o valoare calculată (dintr-un eşantion) de la valoarea presupusă pentru întreaga populaţie pentru a putea considera că are loc o nepotrivire între cele două valori?

Deşi formulată astfel problema pare că se referă la eşantion şi la populaţia de bază, punctul de vedere corect este:

1. există o populaţie statistică de interes, fie ea P1; 2. pentru orice eşantion se poate considera o populaţie de bază din care este

extras eşantionul (reprezentativ pentru acea populaţie); fie P2 această populaţie;

3. problema este dacă se poate considera că P2 este în concordanţă cu P1, adică parametrii de interes ai celor două populaţii nu diferă semnificativ.

Se observă că testarea se va efectua pentru ipoteze privind populaţii, se va utiliza informaţia dintr-un eşantion, deci rămânem în domeniul inferenţei statistice.

Ipoteza nulă va afirma, în general, că populaţiile P1 şi P2 concordă. Respingerea ipotezei nule poate avea, în practică, două consecinţe:

• se va considera că eşantionul nu este reprezentativ pentru populaţia de interes, populaţie care se consideră stabilă; se va căuta un alt eşantion; sau

• se va considera că populaţia P1 şi-a modficat între timp parametrii; noua populaţie de referinţă este P2. Alegerea între cele două afirmaţii aparţine practicianului din domeniul studiat,

fiind, de cele mai multe ori, o alegere ghidată de intuiţie, de experienţă etc.

Page 10: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Testul erorii standard a mediei Fie P1 populaţia statistică de interes, caracterizată de media µ0 (cunoscută sau

presupusă) şi de abaterea standard σ (cunoscută). Întrebarea este dacă valorile tipice de sondaj susţin ipoteza că eşantionul este din populaţia P1, accentul fiind pus pe media populaţiei.

În testul erorii standard a mediei se presupune că sunt îndeplinite condiţiile care asigură mediei de sondaj o repartiţie normală sau aproape normală:

• caracteristica studiată este repartizată normal sau • eşantionul este mare (n≥30).

In aceste condiţii, media de sondaj urmează o repartiţie normală N(µ,σ2/n), unde µ este media populaţiei (notată în introducerea secţiunii cu P2) din care provine eşantionul. Pentru P2 se presupune aceeaşi abatere standard σ (se studiază modificarea mediei unei populaţii). Rezultă că variabila transformată

nxx

x σµ

σµ −

=−

=Z

este repartizată normal standard şi poate fi utilizată pentru calcularea probabilităţilor necesare. Ipotezele testului erorii standard a mediei sunt

pentru testul bilateral:

≠=

01

00

:H:H

(A)µµµµ

pentru testele unilaterale:

>=

<

=

01

00

1'1

00

:H:H

(C)sau :H

:H (B)

µµµµ

µµ

µµ

În condiţiile ipotezei nule, µ = µ0, rezultă că transformata Z a mediei de sondaj

devine

µ0xZ −=

în care toate valorile sunt cunoscute şi prin urmare poate fi localizată pe curba densităţii de probabilitate normală standard.

Pentru a aplica acest test este necesar să se cunoască σ şi, prin urmare, situaţia practică de referinţă este aceea în care se studiază dacă o populaţie statistică, constantă ca variabilitate, şi-a menţinut, sau nu, valoarea medie. Deoarece, în general, nu se poate şti cu siguranţă că repartiţia caracteristicii studiate este riguros normală, acest test se utilizează pentru eşantioane mari.

Acest test este referit şi ca testul Z de concordanţă, datorită utilizării unei statistici repartizate normal standard..

Testul de concordanţă Student (t) Atunci când nu se cunoaşte abaterea standard a populaţiei, σ, se va utiliza

estimaţia s, abaterea standard de sondaj, în locul lui σ, iar repartiţia statisticii testului va fi repartiţia Student. Pentru caracteristica studiată se presupune, însă, o repartiţie normală (cu parametri necunoscuţi) sau apropiată de o repartiţie normală.

Ipotezele testului sunt aceleaşi cu seturile de ipoteze anterioare (A), (B), (C). Statistica testului este similară statisticii din testul erorii standard a mediei, cu

excepţia faptului că în loc de σ se utilizează estimaţia s:

ns

x 0t µ−=

Page 11: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Dacă ipoteza nulă, H0: µ = µ0, este adevărată, atunci variabila t urmează o repartiţie Student cu ν = n–1 grade de libertate şi se poate aplica o regulă uzuală de decizie în test.

Teste de comparare Categoriile de teste prezentate aici se bazează, aparent, pe compararea datelor

de sondaj care aparţin la două eşantioane. Cum şansa de a se obţine două eşantioane identice este extrem de redusă, problema comparării eşantioanelor, luată în sensul strict al cuvântului, pare neimportantă.

Un test de comparare trebuie, însă, înscris în inferenţa statistică: fie două eşantioane extrase din două populaţii P1 şi P2 respectiv. Prin utilizarea eşantioanelor se doreşte de fapt compararea celor două populaţii.

Dificultatea procedurii constă în aceea că diferenţele dintre cele două eşantioane, ca şi similaritatea lor, se pot datora:

• diferenţelor dintre populaţii, şi/sau • diferenţelor de sondaj dintre eşantioane.

Testul F Compararea mediilor populaţiilor normale ia în considerare împrăştierea

datelor în cele două populaţii. Este important atunci să se cunoască dacă dispersiile celor două populaţii pot fi considerate egale, sau nu. Acest fapt se decide utilizând testul F, bazat pe repartiţia teoretică F (Fisher–Snedecor).

Situaţia poate fi recunoscută prin: • două populaţii, caracterizate de variabilele X1 şi X2, respectiv; • variabilele sunt repartizate normal, );N(~X 2

111 σµ , );N(~X 2222 σµ ;

• din două eşantioane, unul din fiecare populaţie, dispunem de estimaţiile 21s

şi 22s ale dispersiilor populaţiilor; eşantioanele au volume 1n şi 2n ,

respectiv. Ipotezele testului F sunt atât de tip bilateral cât şi de tip unilateral. Testul bilateral:

≠=

22

211

22

210

:H:H (A)

σσσσ

Teste unilaterale:

<=

22

21

'

22

210

:H:H

(B)1

σσσσ

;

>=

22

21

"

22

210

:H:H

(C)1

σσσσ

Când ipoteza nulă este adevărată, atunci statistica

22

21* s

Fs

=

este repartizată F cu 111 −= nν şi 122 −= nν grade de libertate, încât se pot utiliza valorile tabelate pentru F(ν1;ν2) pentru determinarea probabilităţilor critice.

Pentru simplificarea deciziei în test, în practică se utilizează o statistică uşor modificată prin considerarea ca primă populaţie, P1, a populaţiei pentru care dispersia de sondaj este mai mare:

Page 12: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

),( min),( max

F22

21

22

21

ssss

=

în aşa fel încât sunt utilizabile doar testele (A) şi (C). În acest caz se notează cu νmax numărul gradelor de libertate pentru numărător şi cu νmin numărul gradelor de libertate pentru numitor.

Decizia, la nivelul de semnificaţie α, pentru testul bilateral (A): • se respinge ipoteza nulă H0 în favoarea ipotezei alternative H1 dacă

minmaxminmax ; ;2/ ; ;2/1 Fsau F νναννα FF <> −

Decizia, la nivelul de semnificaţie α, pentru testul unilateral (C): • se respinge ipoteza nulă H0 în favoarea ipotezei alternative '

1H dacă

minmax ; ;1F ννα−> F

Teste t de comparare Compararea mediilor a două populaţii se realizează prin teste de comparare t.

Sunt utilizate frecvent trei asemenea teste, diferenţiate de situaţia existentă între dispersiile populaţiilor şi independenţa eşantioanelor:

• eşantioane independente, dispersii egale, • eşantioane independente, dispersii neegale, • eşantioane dependente (perechi, corelate).

B. Instrumente Excel Procedurile prezentate sunt disponibile prin dialogul Tools - Data Analysis.

RANDOM NUMBER GENERATION Utilizând această procedură se pot genera serii de numere aleatoare distribuite

după 7 tipuri diferite de funcţii de repartiţie. Rezultatul constă în una sau mai multe coloane de numere, fiecare coloană reprezentând valori ale unei variabile repartizate după o funcţie de repartiţie precizată.

Pentru fiecare generare se va da numărul de coloane (variabile) generate, numărul de valori (acelaşi pentru toate variabilele), tipul funcţiei de repartiţie, parametrii funcţiei şi locul unde se vor înscrie rezultatele.

Deoarece parametrii unei funcţii de repartiţie depind de tipul funcţiei, prezen-tarea procedurii va fi particularizată pentru câteva clase de funcţii. Dialogul principal al procedurii Random Number Generation este prezentat în figura care urmează.

Se observă cele patru componente principale ale dialogului: zona care precizează tipul de generare (număr de variabile, număr de valori, tipul distribuţiei), zona cu parametrii funcţiei de repartiţie – specifică funcţiei selectate –, zona parametrului de iniţializare a generării aleatoare şi zona de precizare a domeniului rezultat.

Page 13: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Tipul de generare

Number of Variables – se precizează numărul de variabile generate, adică numărul de coloane;

Number of Random Numbers – se precizează numărul de valori generate, acelaşi pentru toate variabilele;

Distribution – se alege funcţia de repartiţie a variabilelor generate. Ini ţ ial izarea generări i

Random Seed – Procesele de generare aleatoare sunt caracterizate şi prin fixarea unei valori iniţiale funcţie de care se începe procesul de generare. Această valoare, care nu înseamnă prima valoare generată, este un număr întreg între 1 şi 32000. Dacă nu se precizează această valoare, atunci se va considera în mod automat un număr aleator (obţinut din data curentă şi timpul curent).

Diferenţa între cele două situaţii este: la alegerea automată se generează de fiecare dată serii diferite; la alegerea de către utilizator se va genera aceeaşi serie de fiecare dată când se indică acelaşi număr. Prin urmare, se va completa această zonă doar dacă, pentru a simula o anumită comportare sau prelucrare, este nevoie de generarea aceleeaşi serii de numere aleatoare în utilizări succesive.

Output options Output Range, New Worksheet Ply, New Workbook – potrivit descrierii de la Descriptive

Statistics. Precizează domeniul din foaia de calcul unde se vor înscrie rezultatele. Parameters Structura acestei zone depinde de funcţia de distribuţie selectată.

Repartiţie discretă (Discrete) Structura zonei Parameters

este prezentată în figură. O distribuţie discretă este distribuţia unei variabile care ia un număr finit de valori cu probabilităţi fixate. Deoarece valorile trebuie să fie numerice, acest tip de repartiţie poate fi utilizat pentru probleme care implică variabile nominale atunci când categoriile nominale sunt codificate numeric.

Page 14: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Precizarea distribuţiei se face enumerând, într-o zonă continuă, valorile posibile şi probabilităţile asociate acestora, de genul

1 0,40 2 0,15 3 0,20 4 0,25

pentru o variabilă care ia valoare 1 cu probabilitatea 0,4, valoarea 2 cu probabilitatea 0,15 etc. Acest exemplu poate să corespundă repartiţiei unei variabile nominale pentru care categoriile au fost codificate cu 1, 2, 3, sau 4. Value and Probability Input Range – se precizează domeniul care conţine definirea repartiţiei

discrete: un domeniu dreptunghiular care dă probabilităţile valorilor numerice posibile. Domeniul poate fi selectat dinamic.

Repartiţie normală (Normal) Structura zonei Parameters este prezentată în figura alăturată. Pentru determinarea

distribuţiei este necesar să se precizeze valorile pentru media şi abaterea standard a populaţiei. Mean – se precizează valoarea pentru

media populaţiei. Standard Deviation – se precizează

valoarea pentru abaterea standard a populaţiei.

Valorile implicite sunt cele ale repartiţiei normale standard, media 0 şi abaterea standard 1.

SAMPLING Procedura de sondaj permite obţinerea unei submulţimi dintr-o mulţime de

valori existentă. Parametrii prezenţi în dialogul procedurii sunt explicaţi în continuare.

Input

Input Range – se specifică domeniul, sau denumirea domeniului, care conţine datele din care se va face selecţia. Domeniul poate fi selectat şi în mod dinamic. Datele care joacă rolul populaţiei statistice trebuie să fie de tip numeric şi organizate, de preferinţă, sub forma unei coloane sau a unei linii. Prima celulă poate conţine denumirea setului de date. În cazul în care selecţia se face dintre înregistrările unei baze de date (fiecare înregistrare având, uzual, mai multe câmpuri) se va indica drept domeniu doar coloana unui câmp cum ar fi numărul înregistrării, sau codul (numeric) de identificare etc.

Page 15: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Labels – boxa de control va fi marcată dacă domeniul indicat conţine pe prima poziţie denumirea setului de date.

Sampling Method În acest grup se precizează metoda de selecţie. Periodic – selectarea acestui buton radio permite indicarea în câmpul Period a cotei fixe de

formare a eşantionului. Dacă, de exemplu, se completează 5, atunci eşantionul este format din al 5-lea element şi toate cele care urmează din 5 în 5 (al 10-lea element, al 15-lea, al 20-lea etc.)

Random – selectarea acestui buton radio indică o formare aleatoare a eşantionului. Fiecare element are aceeaşi probabilitate de a fi ales. Din acest motiv, dacă mulţimea de bază este relativ restrânsă, atunci unele elemente pot să apară de mai multe ori în eşantionul constituit. Volumul eşantionului se specifică în câmpul Number of Samples.

Output options Output Range, New Worksheet Ply, New Workbook – potrivit descrierii de la Descriptive

Statistics. Precizează domeniul din foaia de calcul unde se vor înscrie rezultatele. Rezultatul este o coloană cu valorile selectate.

Verificarea ipotezelor statistice Sunt disponibile proceduri pentru efectuarea a trei tipuri de teste statistice:

– test F pentru compararea dispersiilor; – test t pentru compararea mediilor, în toate variantele principale (eşantioane corelate,

dispersii egale, dispersii neegale); – test z pentru compararea mediilor.

Fiecare procedură are ca rezultat atât probabilitatea critică a testului respectiv, cât şi valoarea critică pentru un nivel de semnificaţie fixat de utilizator. Ipoteza nulă este, pentru fiecare test, aceea a egalităţii, deci respingerea ei se va face dacă probabilitatea critică este mai mică decât α, sau dacă valoarea calculată este mai mare decât valoarea critică.

Compararea mediilor unor (sub)populaţii se realizează prin proceduri apelate din dialogul deschis prin Tools – Data Analysis.

Atunci când se compară mediile a două populaţii pe baza unor eşantioane necorelate este necesară parcurgerea etapelor:

1. Testarea egalităţii dispersiilor prin procedura F-Test Two-Sample for Variances.

2. În funcţie de decizia în test se va aplica • t-Test: Two-Sample Assuming Equal Variances în cazul nerespingerii

ipotezei nule din testul F • t-Test: Two-Sample Assuming Unequal Variances în cazul respingerii

ipotezei nule în testul F. Dacă eşantioanele sunt corelate, situaţie caracteristică comparării rezultatelor

unui grup înainte şi după efectuarea unui experiment, se aplică procedura t-Test: Paired Two Sample For Means.

F–TEST TWO–SAMPLE FOR VARIANCES Dialogul iniţiat de alegerea opţiunii F-Test Two-Sample for Variances este prezentat

în figura III.25. În zona Input se vor indica domeniile ocupate de cele două eşantioane şi pragul de semnificatie ales. Zona Output va preciza domeniul unde se înscriu rezultatele prelucrării.

Page 16: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Input Variable 1 Range – se va preciza domeniul primului eşantion. Este obligatoriu ca acesta să fie

o coloană sau o linie. Domeniul poate fi ales dinamic sau dat prin denumirea sa. Variable 2 Range – se va preciza domeniul celui de al doilea eşantion. Este obligatoriu ca

acesta să fie o coloană sau o linie şi să nu se intersecteze cu domeniul primului eşantion. Domeniul poate fi ales dinamic sau dat prin denumirea sa.

Labels – se va marca boxa de control dacă domeniile eşantioanelor conţin în prima celulă denumirea (eticheta) variabilei.

Alpha – se precizează valoarea nivelului de semnificaţie. Implicit se va considera α = 0,05.

Output options Output Range, New Worksheet Ply, New Workbook – potrivit descrierii de la Descriptive

Statistics. Precizează domeniul din foaia de calcul unde se vor înscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziţia colţului din stânga sus. Semnificaţia rubricilor din tabel este explicată în exemplul prezentat.

Exemplu Un exemplu de aplicare a procedurii F-Test este arătat în figura următoare (numărul

zecimalelor afişate a fost redus). Mean – mediile eşantioanelor; Variance – dispersiile eşantioanelor; Obsevations – volumele eşantioanelor; df – gradele de libertate; F – statistica testului F (câtul dispersiilor); P(F<=f) one-tail – probabilitatea critică

unilaterală, adică probabilitatea ca o variabilă f, repartizată Fisher-Snedecor, cu numerele respective de grade de libertate, să depăşească valoarea calculată.

Ipoteza nulă a egalităţii dispersiilor poate fi respinsă dacă valoarea raportată aici este mai mică sau egală cu nivelul de semnificaţie ales. De exemplu, pentru α = 0,25 (un prag neuzual) se poate respinge ipoteza nulă întrucât 0,203 < 0,25.

F Critical one-tail – valoarea critică a testului. Determină regiunea de respingere a testului, la pragul de semnificaţie fixat în dialogul procedurii. Dacă valoarea F, din linia a 5-a a rezultatelor, este mai mare sau egală cu valoarea critică, înseamnă că aparţine regiunii de respingere şi deci se poate respinge ipoteza egalităţii dispersiilor. În tabel avem 1,410 < 1,984 şi deci nu se poate respinge ipoteza nulă (la pragul fixat).

Fig. III.25. Dialogul procedurii F-Test

F-Test – structura rezultatelor

Page 17: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Concluzia testului este aceea că ipoteza nulă nu poate fi respinsă. Se va tolera prin urmare ipoteza că dispersiile sunt egale sau, cu alte cuvinte, că în populaţiile din care provin eşantioanele variabila urmărită prezintă acelaşi grad de împrăştiere.

TESTE STUDENT (t) Sunt disponibile trei teste bazate pe distribuţia Student. În toate cazurile se verifică

ipoteza nulă privind mediile atât într-un test unilateral, cât şi bilateral. Ipoteza nulă priveşte o diferenţă fixată a mediilor: H0: µ1 – µ2 = d,

unde µ1, µ2 sunt mediile populaţiilor din care provin eşantioanele disponibile, iar d este diferenţa presupusă sau cunoscută a mediilor.

Pentru a testa egalitatea mediilor celor două populaţii se va aplica procedura în cazul particular d = 0.

Cele trei teste t sunt cazurile principale din punct de vedere practic: – testul t pentru eşantioane corelate; – testul t pentru populaţii cu dispersii egale; – testul t pentru populaţii cu dispersii neegale.

t–TEST: PAIRED TWO SAMPLE FOR MEANS Sunt considerate două eşantioane cu date perechi (corelate), provenite eventual

dintr-o cercetare pretest-posttest pe un acelaşi eşantion, din care un eşantion este lotul experimental, celălat fiind lotul martor. Compararea mediilor este efectuată pentru a decide dacă experimentul la care este supus lotul experimental produce o abatere suficient de mare în media variabilei de control.

În figură se prezintă dialogul de fixare a parametrilor procedurii.

Input

Variable 1 Range, Variable 2 Range – conţin referinţele la zonele celor două eşantioane, respectiv. Deoarece testul este pentru eşantioane cu date perechi, este necesar ca zonele indicate să aibă acelaşi număr de celule completate cu date numerice, valorile de pe aceleaşi poziţii în cele două serii fiind perechi. Domeniile pot fi selectate dinamic.

Hypothesized Mean Difference – conţine valoarea testată pentru diferenţa mediilor. Dacă se indică valoarea 0 (zero), atunci se verifică ipoteza egalităţii mediilor.

Labels – boxa de control se marchează dacă zonele de date indicate conţin pe primele locuri denumirile zonelor.

Page 18: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Alpha – conţine valoarea pragului de semnificaţie utilizat de procedură pentru a calcula valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei nule).

Output options Output Range, New Worksheet Ply, New Workbook – potrivit descrierii de la Descriptive

Statistics. Precizează domeniul din foaia de calcul unde se vor înscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziţia colţului din stânga sus. Semnificaţia rubricilor din tabel este explicată în exemplul prezentat.

Exemplu Un grup de 20 de persoane au fost evaluate înainte şi după efectuarea unui

experiment, care avea scopul de a micşora valoarea unei caracteristici măsurate. Deoarece efectul experimentului trebuie evaluat la nivelul populaţiei de unde s-a selectat eşantionul, un indicator statistic adecvat este media rezultatelor înainte şi după. Cum datele sunt perechi, situaţia descrisă fiind tipică, compararea mediilor s-a efectuat printr-un test t pentru date perechi (corelate). Seriile de date sunt numite Date1 (datele pretest), Date2 (datele posttest) şi s-a indicat în dialogul procedurii, un prag de semnificaţie α = 0,05.

Rezultatele produse de procedura “t Test: Paired Two Sample for Means” sunt descrise în figura alăturată: Mean – mediile celor două eşantioane. Se observă

că media primului eşantion este mai mare (10,6 faţă de 9,9), diferenţa fiind relativ importantă, 0,7 reprezintă o diminuare a mediei cu 6,6%. Compararea mediilor vrea să arate dacă această diferenţă poate fi acceptată pentru întreaga populaţie, sau este efectul sondajului (întâmplător în primul eşantion sunt mai multe valori mari).

Variance – dispersiile celor două eşantioane. Se poate emite ipoteza că dispersiile se modifică semnificativ: se pare că experimentul are efectul unei concentrări a rezultatelor în jurul mediei.

Observations – numărul de observaţii (= volumul eşantionului). Pearson Correlation – coeficientul de corelaţie Pearson. Valoarea obţinuţă este relativ mare,

apropiată de 0,5. Deşi nu este însoţită de testul de semnificaţie, arată o bună corelaţie între seriile de rezultate, cu interpretarea că scăderea valorilor după experiment are loc oarecum uniform: observaţiile cu valori mari înainte rămân, în general, cu valori mari şi după experiment (evident că observaţiile cu valori mici înainte rămân, în general, cu valori mici şi după experiment).

Hypothesized Mean Difference – valoarea cu care se compară diferenţa mediilor populaţiilor. Deoarece ne-am propus să testăm egalitatea mediilor, aceasta revine la a compara diferenţa mediilor cu zero.

df – numărul gradelor de libertate al repartiţiei t (a statisticii testului). Este numărul de observaţii mai puţin unu.

t Stat – valoarea calculată a statisticii testului. Provine, teoretic, dintr-o repartiţie Student cu df (raportat anterior) grade de libertate.

Rezultatele aplicării testului t pentru date perechi.

Page 19: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

P(T<=t) one-tail – probabilitatea critică unidimensională, arată care este probabilitatea ca o variabilă Student cu df grade de libertate să depăşească valoarea calculată. Dacă această valoare este mai mică decât pragul de semnificaţie fixat, atunci se poate respinge ipoteza nulă în favoarea ipotezei alternative. Deoarece, în situaţia dată, prima medie este mai mare, ipoteze alternativă într-un test unilateral este

H1 : µ1 – µ2 > 0 sau, echivalent, H1 : µ1 > µ2. Valoarea 0,169 afişată este mai mare decât toate valorile α uzuale, deci nu se poate respinge ipoteza nulă. Prin urmare se pare că diferenţa dintre medii este datorată mai mult întâmplării, selecţiei eşantionului.

t Critical one-tail – valoarea critică unidimensională pentru pragul de semnificaţie α = 0,05 (precizată în dialogul procedurii). Dacă valoarea t calculată este mai mare decât această valoare critică, atunci se poate respinge H0 în favoarea ipotezei alternative H1 : µ1 > µ2. Pentru exemplul prezentat acest fapt nu se întâmplă (0,984 < 1,729).

P(T<=t) two-tail – probabilitatea critică bilaterală, arată care este probabilitatea ca o variabilă Student cu df grade de libertate să depăşească, în valoare absolută, valoarea calculată. Cu alte cuvinte, probabilitatea ca diferenţa dintre mediile populaţiilor să fie mai depărtată de zero decât diferenţa observată.

Dacă această valoare este mai mică decât pragul de semnificaţie fixat, atunci se poate respinge ipoteza nulă în favoarea ipotezei alternative a unor medii diferite: H1 : µ1 ≠ µ2.

Valoarea 0,337 afişată este mai mare decât toate valorile α uzuale, deci nu se poate respinge ipoteza nulă.

t Critical two-tail – valoarea critică bidimensională pentru pragul de semnificaţie α = 0,05 (precizată în dialogul procedurii). Dacă valoarea t calculată este mai mare, în valoare absolută, decât această valoare critică, atunci se poate respinge H0 în favoarea ipotezei alternative H1 : µ1 ≠ µ2. Pentru exemplul prezentat, | t | = |0,984| = 0,984 < 2,093, deci nu se poate respinge ipoteza nulă.

z-TEST: TWO SAMPLE FOR MEANS Această procedură serveşte pentru compararea mediilor a două populaţii

atunci când se cunosc dispersiile acestora. Testul utilizat este bazat pe distribuţia normală standard.

Input

Variable 1 Range, Variable 2 Range – conţin referinţele la zonele celor două eşantioane, respectiv. Domeniile indicate pot să aibă numere diferite de celule, dar completate cu date

Page 20: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

numerice (cel mult prima celulă în fiecare zonă poate fi un titlu). Domeniile pot fi selectate dinamic.

Hypothesized Mean Difference – conţine valoarea testată pentru diferenţa mediilor. Dacă se indică valoarea 0 (zero), atunci se verifică ipoteza egalităţii mediilor.

Variable 1 Variance (known), Variable 2 Variance (known) – dispersiile celor două populaţii. Acestea se presupun cunoscute. În practică, pentru eşantioane mari, se pot lua valorile dispersiilor de sondaj, dar în această situaţie este preferabil să se aplice un test t decât un test z.

Labels – boxa de control se marchează dacă zonele de date indicate conţin pe primele locuri denumirile zonelor.

Alpha – conţine valoarea pragului de semnificaţie utilizat de procedură pentru a calcula valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei nule). Implicit se ia α = 0,05.

Output options Output Range, New Worksheet Ply, New Workbook – potrivit descrierii de la Descriptive

Statistics. Precizează domeniul din foaia de calcul unde se vor înscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziţia colţului din stânga sus. Semnificaţia rubricilor din tabel este explicată în exemplul prezentat.

Exemplu Pentru a compara mediile a două populaţii s-au extras două eşantioane de volume 35,

respectiv 34. Se cunoaşte, din alte cercetări, că dispersiile populaţiilor sunt 18 şi 15, respectiv. Dispersiile de sondaj concordă cu aceste valori. Pentru a compara mediile populaţiilor se aplică un test z. Resultatele sunt explicate în continuare. Mean – mediile de sondaj ale celor două eşantioane. Known Variance – dispersiile cunoscute ale celor

două populaţii. Observations – numărul de observaţii (volumul

eşantionului). Hypothesized Mean Difference – valoarea cu care

se compară diferenţa mediilor populaţiilor. Testarea egalităţii mediilor revine la a compara diferenţa mediilor cu zero.

z – valoarea calculată a statisticii testului. Provine, teoretic, dintr-o repartiţie normală standard. Serveşte pentru raportare sau pentru decizia în test la alte grade de semnificaţie decât valoarea fixată în dialogul procedurii.

P(Z<=z) one-tail – probabilitatea critică unidimensională, arată care este probabilitatea ca o variabilă normală redusă să depăşească valoarea calculată. Dacă această valoare este mai mică decât pragul de semnificaţie fixat, atunci se poate respinge ipoteza nulă în favoarea ipotezei alternative. Deoarece, în situaţia dată, prima medie este mai mare, ipoteza alternativă într-un test unilateral este

H1 : µ1 – µ2 > 0 sau, echivalent, H1 : µ1 > µ2. Valoarea 0,008 afişată este mai mică decât valorile α uzuale (0,05 sau 0,01), deci nu se poate respinge ipoteza nulă la aceste valori ale lui α. Prin urmare se poate respinge ipoteza nulă şi accepta ipoteza alternativă că prima populaţie are o medie mai mare.

z Critical one-tail – valoarea critică unidimensională pentru pragul de semnificaţie α = 0,05 (precizată în dialogul procedurii). Dacă valoarea z calculată este mai mare decât această

Rezultatele procedurii z-Test.

Page 21: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

valoare critică, atunci se poate respinge H0 în favoarea ipotezei alternative H1 : µ1 > µ2. Pentru exemplul prezentat acest fapt nu se întâmplă (2,4096 < 1,6449).

P(Z<=z) two-tail – probabilitatea critică bilaterală, arată care este probabilitatea ca o variabilă normală standard să depăşească, în valoare absolută, valoarea calculată. Cu alte cuvinte, probabilitatea ca diferenţa dintre mediile populaţiilor să fie mai depărtată de zero decât diferenţa observată.

Dacă această valoare este mai mică decât pragul de semnificaţie fixat, atunci se poate respinge ipoteza nulă în favoarea ipotezei alternative a unor medii diferite: H1 : µ1 ≠ µ2.

Valoarea 0,016 afişată este mai mică decât α = 0,05, deci se poate respinge ipoteza nulă.

z Critical two-tail – valoarea critică bidimensională pentru pragul de semnificaţie α = 0,05 (precizată în dialogul procedurii). Dacă valoarea z calculată este mai mare, în valoare absolută, decât această valoare critică, atunci se poate respinge H0 în favoarea ipotezei alternative H1 : µ1 ≠ µ2. Pentru exemplul prezentat, | z | = |2,4096| = 2,4096 > 1,96, deci se poate respinge ipoteza nulă.

C. Lucrarea practică

1) Un studiu a arătat că 50% dintre utilizatorii de internet au primit mai mult de 10 mesaje e-mail pe zi. Repetând, după un timp, studiul, se doreşte verificarea ipotezei că a crescut utilizarea e-mail-ului. Să se precizeze ipoteza nulă şi ipoteza alternativă a testului statistic adecvat.

2) Într-un test z cu ipotezele H0 : µ1 − µ2 = 5 vs. H1 : µ1 − µ2 > 5 s-a obţinut statistica testului z = 1.69. Care este probabilitatea critică a testului?

3) Se vor genera două coloane de câte 100 de valori dintr-o repartiţie normală cu media 0 şi dispersia 1.

i) să se calculeze mediile şi dispersiile celor şirruri de valori; să se compare cu valorile 0, respectiv 1, şi să se interpreteze rezultatul comparaţiilor în termenii populaţie-eşantion.

ii) să se testeze egalitatea mediilor celor două seturi de valori cu valoarea teoretică 0.

iii) să se testeze dacă cele două seturi de valori au mediile egale. 4) Se vor genera două coloane de valori din repartiţii normale cu medii şi dispersii

diferite. Presupunând că media celei de a doua coloane diferă de media primei coloane cu ε, să se verifice, prin generări repetate ale coloanelor, dacă eşantioanele pot fi considerate ca aparţinând aceleiaşi populaţii.

i) Se va mări treptat diferenţa ε, ca şi diferenţa dispersiilor, pentru a obţine o imagine intuitivă asupra răspunsului la întrebarea: cât de mare trebuie să fie diferenţa pentru ca eşantioanele să nu potă fi considerate omogene?

ii) Se va studia şi influenţa diferenţelor dintre dispersii asupra concluziei testului.

5) Se importă în Excel fişierul admitere.txt (utilizat la lucrarea nr.1). Să se verifice statistic dacă

i) mediile la bacalaureat pot fi considerate egale pentru cei care optează la analiză, programare C sau programare Pascal

ii) mediile la scris pot fi considerate egale pentru cei care optează la analiză, programare C sau programare Pascal

Page 22: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 3 — Introducere în SPSS

A. Noţiuni teoretice Lucrarea are ca obiectiv introducerea în SPSS şi realizarea prelucrărilor uzuale

de statistică descriptivă şi de testarea ipoteselor statistice, care au făcut obiectul primelor două lucrări realizate în Excel. Prin urmare se pot revedea secţiunile A din primele două lucrări.

B. SPSS - prezentare şi operare Programul SPSS (Statistical Package for the Social Sciences) este unul

dintre cele mai utilizate în analiza statistică a datelor. Prima versiune a apărut în anul 1968, a evoluat până la versiunea 15 şi aria de aplicabilitate s-a extins de la versiune la versiune, odată cu modul de operare şi cu facilităţile oferite. Programul este utilizat astăzi în marketing, cercetare experimentală, educaţie, sănătate etc. În afară de analizele statistice posibile, programul are componente puternice pentru managementul datelor (selectare, reconfigurare, creare de date noi) şi pentru documentarea datelor (există un dicţionar metadata, care reţine caracteristici ale datelor). Se mai poate adăuga flexibilitatea privind tipurile de date acceptate ca şi modulul de construire a rapoartelor.

Acest document se doreşte a fi o introducere în operarea SPSS: - interfaţă, - gestionarea datelor, - analiza statistică elementară.

Ferestre SPSS

Sunt enumerate tipurile de ferestre disponibile în mediul SPSS şi se precizează funcţionalitatea lor.

Data Editor

Este fereastra care se deschide automat la pornirea unei sesiuni şi care permite editarea datelor, crearea de noi înregistrări, eliminarea unor înregistrări etc.

Datele pot fi văzute în două ipostaze:

Page 23: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

- Activând tab-ul Data View se vor afişa înregistrările fişierului de date într-o grilă, coloanele reprezentând variabilele, liniile fiind cazurile studiate (termenul de cazuri provine evident din practica sociologică/medicală, sunt elementele eşantionului studiat).

- Activând tab-ul Variable View se vor afişa metadatele asociate variabilelor (numele variabilei, tipul variabilei, indicaţii de afişare etc.).

Viewer

Fereastra Viewer este utilizată pentru afişarea rezultatelor: statistici, tabele, diagrame etc. Dacă nu există o fereastră Viewer deschisă, se va crea automat una la prima comandă care produce ieşiri. Rezultatele afişate pot fi editate, deplasate, eliminate etc. într-un mediu similar cu cel din Microsoft Explorer.

Pivot Table Editor

Multe dintre tabelele care conţin rezultate sunt de fapt tabele pivot (cuburi OLAP). Acestea pot fi modificate în fereastra Pivot Table Editor (editare text, reconfigurare tabel etc.) activată prin dublu click pe un tabel. Apar meniurile corespunzătoare care permit editarea.

Chart Editor

Diagramele care pot fi construite, în general prin comenzile meniului Graphs, pot fi modificate, formatate etc. prin comenzile disponibile în Chart Editor. O asemenea fereastră este activată la dublu click pe o diagramă dintr-un fişier SPSS de ieşire.

Text Output Editor

Textul simplu (neinclus într-un tabel pivot) poate fi modificat, la dublu click pe o intrare text din fişierul de ieşire, în fereastra Text Output Editor. Se pot modifica în acest fel caracteristicile uzuale ale fontului.

Syntax Editor

SPSS poate fi utilizat prin intermediul unei limbaj de comenzi proprii. Acesta a fost modul iniţial de operare, astfel încât o serie de prelucrări foarte specializate au rămas disponibile, chiar şi în ultimele versiuni, doar prin intermediul comenzilor.

O fereastră Syntax Editor poate fi deschisă prin File – New/Open – Syntax. Comenzile pot fi scrise direct în fereastra Syntax Editor, dar există şi

Page 24: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

posibilitatea de a înregistra acţiunile din interfaţa utilizator sub formă de comenzi (similar înregistrării unui macro din Microsoft Office). Comenzile pot fi salvate ca un fişier de comenzi, în vederea reutilizării.

Script Editor

SPSS poate fi personalizat/automatizat prin intermediul unui limbaj de scriptare, Sax Basic (compatibil Visual Basic for Applications). Se va deschide o fereastră Script Editor prin File – New/Open – Script.

Pot exista mai multe ferestre de ieşire (Viewer), ca şi mai multe ferestre de sintaxă (Syntax Editor). Fereastra activă dintr-un grup este indicată de semnul “!” afişat pe bara de stare a ferestrei active, activarea poate fi modificată prin acţionarea uneltei din fereastra inactivă

Meniuri SPSS

Ca în orice aplicaţie Windows, multe dintre prelucrările SPSS pot fi executate prin acţionarea comenzilor din meniuri.Fiecare fereastră SPSS are propriile meniuri şi unelte corespunzătoare.

Meniuri comune

File Este utilizat pentru creare, deschidere, export de fişiere diverse: date, rezultate, comenzi etc.

Edit Editările uzuale pentru date numerice, text sau obiecte grafice: copieri, alipiri etc. în aceeaşi aplicaţie sau nu.

View Controlează modul de afişare a uneltelor, a liniaturii, a identificatorilor de valori (valorile pot avea ataşate denumiri explicite).

Analyze Este meniul care dă acces la procedurile statistice.

Graphs Permite crearea diagramelor. Orice diagramă poate fi modificată (reamintim) prin Chart Editor, afişată la dublu click pe diagramă.

Utilities Permite afisarea informaţiilor despre variabile, definirea unor mulţimi de variabile etc.

Window Operaţii asupra ferestrelor.

Help Deschide o fereastră standard de ajutor.

Page 25: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Data Editor – meniuri specifice

Data Se pot realiza modificări globale cum ar fi transpunerea variabilelor şi cazurilor, filtrarea cazurilor etc. Modificările sunt temporare dacă nu sunt salvate în fişierul iniţial.

Transform Permite transformarea unor variabile (cum ar fi recodificare) şi obţinerea unor noi variabile prin calcule efectuate asupra variabilelor existente. Modificările sunt temporare pentru sesiunea curentă, dacă nu sunt salvate în fişierul iniţial.

SPSS - Opţiuni

Se poate personaliza mediul SPSS prin selectarea comenzii Edit - Options

Se remarcă, pe pagina General, posibilitatea de a menţine un jurnal al

acţiunilor (Session Journal), de a controla afişarea variabilelor şi rezultatelor, de a stabili folderul temporar. Celelalte pagini permit stabilirea atributelor implicite pentru diagrame, tablourile pivotante, modul de calcul etc.

Page 26: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Fişierul de rezultate

Rezultatele sunt afişate în fereastra Viewer în ordinea în care sunt apelate procedurile, fiecare apel producând o intrare în arborele de navigare din stânga ferestrei. În această fereastră se poate naviga la orice componentă prin operare în arborele de navigare şi se pot efectua editări care să conducă la o ieşire clară, uşor de interpretat, potrivit necesităţilor prelucrării.

Se poate utiliza fereastra Viewer pentru: • Parcurgerea rezultatelor, vizualizarea sau ascunderea unor componente

(tabele, diagrame), • Modificarea ordinii în care sunt afişate componentele, • Accesul la ferestrele Pivot Table Editor, Text Output Editor, Chart Editor, • Copierea/mutarea elementelor între SPSS şi alte aplicaţii (Word, Excel etc.).

Panelul din stânga al ferestrei conţine arborele de structură a ieşirii. Se pot extinde sau restrânge ramuri, se pot deplasa elementele prin drag-and-drop, se poate naviga la un element prin selectarea nodului asociat.

Pentru copiere între aplicaţii se poate utiliza tehnica uzuală Edit – Copy urmat de Edit – Paste/Paste Special.

Există însă şi posibilitatea de export a ieşirii prin • Se activează fereastra Viewer şi se dă comanda File – Export. • Se afişează dialogul

• Se fixează în File Type tipul fişierului destinaţie; ultimele versiuni acceptă şi

formate .xls, .doc. • Se alege numele şi calea fişierului destinaţie şi ce anume se exportă (întreg

documentul cu sau fără diagrame, ce obiecte).

Page 27: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Organizarea datelor

SPSS utilizează datele organizate în linii şi coloane: liniile reprezintă cazurile (observaţiile), coloanele reprezintă variabilele cercetării. Aparent, grila seamănă cu o foaie Excel, dar funcţionalitatea nu este aceeaşi. Deoarece prelucrările statistice se aplică variabilelor, acestea au în SPSS o serie de atribute memorate în fişierul de date şi arătate în Data Editor - Variable View:

• În SPSS, variabilele sunt denumite, cel puţin în versiunile mai vechi, cu identificatori de maxim 8 caractere şi care nu se pot termina cu punct (rezervat pentru comenzi de scriptare). Identificatorii sunt formaţi după regulile uzuale (cele mai restrictive sunt interzicerea spaţiilor şi a caracterelor speciale &, !, ?, ', *) şi nu sunt case sensitive.

• Tipul unei variabile poate fi (semnificaţia este evidentă) numeric, comma, dot, scientific notation, date, custom currency sau string. Variabilele numerice pot avea cel mult 40 de caractere, dintre care 16 la partea zecimală. Variabilele string se pot clasifica în short string (până la 8 caractere) sau long string (până la 256 caractere). Variabilele short string suportă unele proceduri SPSS.

• Se poate defini pentru fiecare variabilă care este valoarea lipsă (missing value), cu alte cuvinte cum este codificată situaţia că un caz nu conţine o valoare pentru variabila respectivă. Valorile lipsă pot fi separate în system missing (un spaţiu în cazul datelor numerice sau nimic, şirul vid, în toate cazurile) şi user missing (cele specificate explicit ca valori lipsă). Variabilele long string nu permit valori user-missing.

• Pe lângă denumire, care apare ca nume al coloanei, o variabilă poate avea ataşată o etichetă, label, care este un text explicit privind semnificaţia variabilei. De exemplu, variabila Nume poate avea ca label textul “Numele şi prenumele candidatului”. Aceste etichete vor fi utilizate în raportarea rezultatelor.

• Atributul Width fixează numărul maxim de caractere al valorilor string, Columns precizează numărul de caractere afişate.

• Deoarece cazul frecvent întâlnit în prelucrările statistice este acela în care sunt înscrise în fişierul de date codurile valorilor (de exemplu, 1=elev, 2=student etc.), SPSS permite definirea şi memorarea codificărilor utilizate pentru fiecare variabilă. În fereastra Data Editor, pagina Variable View, activarea celulei din coloana Values conduce la afişarea dialogului Value Labels:

Fiecare pereche Value – Value Label este adăugată la lista de coduri prin activarea butonului Add etc. Etichetele de valori, împreună cu etichetele de variabile conduc la o formă explicită a rezultatelor.

• Ultimul atribut specific al unei variabile este scala de măsură utilizată, atribut reţinut în coloana Measure din Variable View. Denumirile SPSS utilizate

Page 28: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

sunt scale pentru variabile de interval, ordinal pentru variabile ordinale, nominal pentru variabile nominale. Fixarea măsurii corecte este esenţială deoarece, reamintim, anumite prelucrări statistice se pot aplica doar unor variabile ordinale, sau de interval etc.

Filtrarea cazurilor

Apare uneori necesitatea de a prelucra doar un subset de înregistrări: pentru a obţine o imagine rapidă a unei structuri, pentru a prelucra doar eşantionul dintr-o anumită subpopulaţie etc. SPSS oferă în acest scop comanda Data – Select Cases care produce afişarea dialogului următor.

Prin opţiunile din grupul Select se fixează modalitatea de filtrare. Este de remarcat că prin grupul Unselected Cases Are se poate opta pentru eliminarea efectivă a cazurilor neselectate (opţiune nerecomandată) sau pentru filtrarea lor, adică eliminarea este doar logică, o nouă selectare cu opţiunea All cases le va reactiva.

În continuare se prezintă doar subdialogul obţinut la opţiunea If condition…

şi activarea butonului If.

În zona de formare a condiţiei se pot utiliza denumiri de variabile (aduse din

lista din stânga), operatori, funcţii. Vor rămâne vizibile doar înregistrările pentru care condiţia este adevărată.

Generarea unei noi variabile

Din diferite motive, de exemplu necesitatea unei recodificări sau cea a calculării unei variabile noi ca medie a altor variabile etc., este utilă posibilitatea de a genera automat o nouă variabilă. SPSS are două comenzi principale destinate acestui

Page 29: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

scop: Transform – Compute şi Transform – Recode. Prima permite obţinerea unei variabile în urma unui calcul, a doua este pentru recodificare.

Comanda Compute Prin Transform – Compute se afişează dialogul Compute Variable (în

versiuni mai noi dialogul este modificat ca aranjare a zonelor):

• În zona Target Variable se trece denumirea noii variabile pentru care se poate

preciza tipul şi eticheta în subdialogul afişat prin acţionarea butonului Type & Label.

• În zona de formare a expresiei de calcul, Numeric Expression, se formează expresia de calcul prin utilizarea butoanelor existente pentru operatori şi funcţii sau prin tastare directă. Denumirile variabilelor existente pot fi aduse în expresie prin selectare în lista variabilelor, dublu click sau butonul .

• Se poate efectua o filtrare a înregistrărilor (cazurilor) pentru care are loc transformarea dacă se acţionează butonul If. Cazurile neselectate vor avea valoarea system-missing pentru noua variabilă.

Comanda Recode Recodificarea unei variabile este utilă în două situaţii principale: 1. se transformă o variabilă de interval într-o variabilă ordinală pentru a o

raporta ca date grupate sau pentru a studia asocierea cu alte variabile ordinale, 2. o variabilă string trebuie recodificată cu coduri numerice necesare pentru a

putea aplica anumite proceduri SPSS, care cer variabile codificate numeric. Recodificarea poate fi în aceeaşi variabilă, sau într-o nouă variabilă, cazul

discutat aici. Prin Transform – Recode – Into Different Variables se afişează dialogul

în care se transferă variabila numerica pentru care se realizează recodificarea din lista

Page 30: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

variabilelor în lista Numeric Variable → Output Variable, se completează numele şi eventual eticheta noii variabile în Output Variable după care se acţionează Change.

Se pot selecta cazurile pentru care are loc recodificarea prin If. Prin acţionarea Old and New Values se deschide dialogul

Se va selecta în zona Old Value opţiunea dorită, se va completa noua valoare

în New Value şi prin Add se trece corespondenţa definită în lista Old→New. Noile coduri pot fi de tip string doar dacă se activează checkbox-ul Output

variables are string.

Prelucrări statistice

Prelucrările statistice din SPSS se realizează prin comenzile din meniul Analyze, sau prin executarea comenzilor scrise în fereastra Syntax Editor. Deoarece efectuarea unei prelucrări necesită operarea cu un număr de dialoguri specializate, pentru familiarizarea cu principalele dialoguri care apar la comenzile de prelucrări statistice se prezintă în continuare modul în care se obţin statisticile descriptive şi o procedură de testare a egalităţii mediilor.

Analyze - Frequencies

• Se selectează Analyze - Descriptive Statistics - Frequencies... • Apare dialogul următor în care se trec variabilele dorite din lista din stânga în

lista din dreapta (prin dublu click sau selectare şi ).

• Se marchează checkbox-ul Display frequency tables dacă se doresc şi tabelele

de frecvenţe calculate. In caz contrar trebuie să se opereze cu subdialogurile Statistics, Charts pentru a obţine rezultate.

Page 31: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

• La acţionarea butonului Statistics, se afişează dialogul Frequencies: Statistics în care se pot activa opţiunile corespunzătoare indicatorilor de tendinţă centrală, împrăştiere sau de caracterizare a curbei distribuţiei (evident că anumite statistici se pot calcula doar pentru variabile de tipuri adecvate: interval, ordinal, nominal).

• Subdialogul Charts permite construirea unui grafic adecvat pentru un tabel de

frecvenţe. Opţiunea Histograms – with normal curve afişează curba normală suprapusă peste histogramă, utilă pentru aprecierea depărtării de la normalitate.

• Subdialogul Format gestionează modul de afişare a intrărilor tabelului de

frecvenţe în Order by. În Multiple variables se poate opta între un format care include toate variabilele selectate (pentru comparare trebuie ca variabilele să fie de acelaşi tip) şi un format în care fiecare variabilă este raportată separat.

• Prin OK în dialogul iniţial se va genera în fereastra Viewer ieşirea cerută.

Page 32: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Analyze – Descriptives

O comandă sintetică pentru statisticile descriptive ale variabilelor continue este Analyze - Descriptive Statistics - Descriptives. Parametrii prelucrării se fixează în următoarele două dialoguri.

Analyze – Crosstabs

Obţinerea tabelelor de frecvenţe încrucişate, utile la studiul asocierii dintre variabile, este gestionată de comanda Analyze – Descriptive Statistics – Crosstabs, care iniţializează dialogul următor.

Se trec, prin acţionarea butoanelor de trecere, variabilele dorite în lista Rows

(tabelele vor avea câte o linie pentru fiecare valoare distinctă a variabilelor din această listă) şi în lista Columns (tabelele vor avea câte o coloană pentru fiecare valoare distinctă a variabilelor din această listă). Se va calcula şi afişa câte un tabel de frecvenţe încucişate pentru fiecare combinaţie de variabile, câte una din fiecare listă.

În cazul în care se doresc frecvenţe încrucişate pentru trei sau mai multe variabile, se utilizează controlul Layer în care se vor trece variabilele de pe poziţia a treia, se trece la layerul următor şi se repetă procedura.

Subdialogul Statistics permite selectarea statisticilor calculate. Este evident necesară cunoaşterea tipului variabilelor, pentru a alege statisticile adecvate.

Page 33: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Subdialogul Cell permite selectarea statisticilor calculate pentru fiecare celulă

a tabelului. Se remarcă în grupul Percentages posibilitatea de a calcula frecvenţe relative raportate la totalul de pe linie, de pe coloană sau general. De asemenea, prin Count – Expected se pot calcula frecvenţele implicate în calculul statisticii χ2.

Subdialogul Format gestionează doar ordinea liniilor funcţie de valorile care

le generează.

Analyse - Compare means

Testarea ipotezelor de egalitate a mediilor se realizează prin intermediul comenzilor grupate în Analyze - Compare means. Dintre procedurile existente se prezintă în continuare doar cele care conduc la aplicarea unor teste t..

Prin Analyze - Compare means - Independent Samples T test se iniţiază testul t de comparare în cazul eşantioanelor independente (necorelate). Se realizează calculele atât pentru cazul dispersiilor egale, cât şi a dispersiilor neegale, utilizatorul fiind acela care alege situaţia adecvată.

Page 34: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Comanda produce afişarea următorului dialog.

Se vor selecta variabilele, după care se compară cele două grupuri, din lista

variabilelor (continue) şi se trec în lista variabilelor de test. Pentru a preciza grupurile care sunt comparate precizează variabila care identifică grupurile (Grouping Variable) şi se iniţiază dialogul Define Groups în care, pentru o variabilă discretă, se precizează valorile etichete ale celor două grupuri sau, pentru o variabilă continuă, valoarea care separă cele două grupuri.

Prin intermediul dialogului iniţiat la Options, se poate fixa pragul de semnifi-

caţie şi modul de tratare a valorilor lipsă.

Page 35: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Rezultatele conţin un tabel al statisticilor elementare pentru fiecare grup şi variabilă de test

Rezultatele numerice utile în efectuarea testului t sunt conţinute într-un tabel

precum cel care urmează. Independent Samples Test

,004 ,948 8,664 152 ,000 5,597 ,646 4,321 6,874

9,356 79,405 ,000 5,597 ,598 4,407 6,788

EqualvariancesassumedEqualvariances notassumed

Fuel efficiencyF Sig.

Levene's Test forEquality ofVariances

t dfSig.

(2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Tabelul conţine două linii de rezultate numerice: rândul superior priveşte testul

t în situaţia dispersiilor egale, rândul inferior se referă la cazul dispersiilor neegale. Alegerea este condusă de testul Levene de egalitate a dispersiilor, care este realizat prin intermediul coloanelor aflate sub antetul Levene's Test. Statistica este F (=0,004 în cazul ilustrat) iar probabilitatea critică este Sig (0,948 în cazul ilustrat). Prin urmare, la pragul de 0,05, nu se respinge ipoteza egalităţii dispersiilor. In acest caz se vor utiliza valorile din rândul superior al tabelului şi se citeşte valoarea statisticii testului t = 8,664 şi probabilitatea critică bilaterală Sig < 0,001. Drept urmare se va respinge ipoteza egalităţii mediilor celor două grupuri.

Ultimele 4 coloane conţin diferenţa dintre medii, eroarea standard a acestei diferenţe şi intervalul de încredere pentru diferenţa mediilor (faptul că intervalul nu conţine valoarea 0 este echivalent cu respingerea egalităţii mediilor).

Alte teste, neparametrice, pot fi aplicate individual prin intermediul comenzilor grupate în Analyze - Nonparametric Tests.

Page 36: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Testele statistice specifice prelucrărilor diverse de analiză a datelor sunt aplicate automat sau la cerere la iniţierea diverselor prelucrări: analiza varianţei, analiza regresională etc.

C. Lucrarea practică 1. Se va importa în SPSS fişierul de date (utilizat şi la lucrarea nr.1)

http://thor.info.uaic.ro/~val/statistica/Admitere.txt i. Se vor completa, pentru fiecare variabilă, atributele specifice:

tipul (nominal, ordinal, interval), denumirea, modul de afişare (coloane, zecimale etc.), etichetele de valori (acolo unde este cazul).

ii. Se vor elimina coloanele care poartă în fişierul text informaţii auxiliare.

iii. Se va crea o variabilă filtru cu valoarea 1 dacă proba la alegere este analiza matematică şi valoarea 0 în rest.

iv. Se va recodifica variabila reprezentând situaţia după examen astfel încât să poată fi asimilată unei variabile ordinale (ordinea fiind cea intuitivă - reuşit fără taxă, cu taxă, în aşteptare, respins).

2. Se vor caracteriza variabilele cu ajutorul indicatorilor statistici adecvaţi.

3. Să se creeze tablourile de frecvenţe încrucişate dintre variabilele Opţiune şi Situaţie, incluzând şi calculul frecvenţelor relative.

4. Se va testa egalitatea mediilor de admitere după cele trei discipline la alegere.

5. Se va testa egalitatea mediilor de admitere pentru cei care au ales analiza matematică şi cei care au ales o probă de programare.

6. Se vor crea şi edita grafice adecvate ale repartiţiilor variabilelor conţinând proba la alegere, mediile la bacalaureat, scris, finală.

Page 37: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 4 — Analiza dispersională univariată - Excel, SPSS

A. Noţiuni teoretice

Structura datelor Valorile unei caracteristici X, sunt măsurate în k eşantioane independente, obţinute din k populaţii. Populaţiile se consideră repartizate normal, cu mediile µ1, µ2, …, µk şi dispersiile egale 22

221 kσσσ === K , respectiv. Problema care se cere rezolvată este să

se stabilească dacă populaţiile pot fi considerate omogene din punctul de vedere al caracteristicii X. Cum egalitatea dispersiilor este impusă, mai trebuie testată egalitatea mediilor. Observaţie. Pentru verificarea ipotezei de egalitate a dispersiilor se va utiliza un test adecvat (De exemplu, Levene). În cazul în care ipoteza normalităţii nu este îndeplinită (sau nu este verificată), erorile care se introduc nu sunt importante în cazul în care volumul eşantioanelor este suficient de mare (> 4) iar numărul grupurilor este relativ mic. Există şi teste de egalitate a mediilor care se pot aplica şi în cazul respingerii ipotezei de egalitate a dispersiilor: Brown - Forsythe, Welch. De amintit şi că o reprezentare grafică de tip boxplot poate oferi o imagine intuitivă în ceea ce priveşte egalitatea dispersiilor. Formal, dispunem de k grupuri de valori, de volume n1, n2, …, nk, respectiv, notate cu A1, A2, …, Ak. În sensul discuţiei generale, se poate considera că A1, A2, … sunt categoriile unei variabile (de obicei nominale) care face deosebirea dintre grupuri. Aceasta este variabila independentă a analizei. Variabila X este variabila dependentă, variabila după care se compară populaţiile.. Variaţia datorată diferenţelor dintre grupuri este definită ca variaţie explicată — partea din variaţia variabilei dependente explicată de variabila independentă. Cu alte cuvinte, variaţia explicată este partea explicată de către împărţirea în grupuri. Variaţia, care rămâne după separarea variaţiei explicate, este definită drept variaţie reziduală (variaţia neexplicată) şi este datorată unor surse întâmplătoare de variaţie. Variaţie explicată mai este denumită şi variaţie între grupuri (exterioară), iar cea reziduală – variaţie în grupuri (internă). Se poate considera că modelul de bază al analizei dispersionale afirmă că orice valoare a variabilei X este obţinută prin cumularea a două efecte, unul sistematic şi unul întâmpător:

xij = efect sistematic (al nivelului Ai ) + efect întâmplător (din nivelul Ai).

Formule de calcul Mediile grupurilor

∑=

=+++

=i

in

jij

ii

iniii x

nnxxx

x1

21 1K, ki ,,2,1 K=

Media generală (considerând grupurile reunite)

Page 38: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

∑∑= =+++

=k

i

n

jij

k

i

xnnn

x1 121

1K

.

Numărul total de observaţii

knnnn +++= K21 .

Cu aceste notaţii, se defineşte variaţia din interiorul unui grup prin abaterile faţă de media grupului, iar variaţia dintre grupuri prin abaterile de la media generală a mediilor grupurilor. Se demonstrează că are loc relaţia

∑∑∑∑ ∑∑= == = = =

−+−=−k

i

n

ji

k

i

n

j

k

i

n

jiijij

ii i

xxxxxx1 1

2

1 1 1

2

1

2 )()()( .

Relaţia se mai scrie

rezexpg SPSPSP +=

unde SPg este suma pătratelor globală, SPexp este suma pătratelor explicată, iar SPrez este suma pătratelor reziduală, cu interpretarea de descompunere a variaţiei globale în variaţia explicată şi variaţia reziduală. Cele trei sume de pătrate au, respectiv, următoarele grade de libertate:

.1 , ,11 exp1

−=−=−=−= ∑=

kknnn rez

k

iig ννν

Prin raportarea unei sume de pătrate la numărul ei de grade de libertate se obţine media pătratică. Astfel

rez

rez2

esp

exp2exp

2 SP ;

SP ;

ννν=== rez

gg sss gSP

,

care caracterizează, respectiv, împrăştierile globală, explicată, reziduală. Dintre acestea, 2

rezs estimează absolut corect dispersia teoretică σ2, indiferent dacă mediile de sondaj ale grupurilor estimează sau nu aceeaşi medie teoretică µ. Dacă mediile de sondaj sunt omogene, atunci şi celelalte medii pătratice, 2

gs şi 2exps ,

sunt estimaţii absolut corecte ale dispersiei comune σ2. Dacă mediile de sondaj nu sunt omogene (ca urmare a influenţei factorului sistematic de clasare în grupuri), 2

gs şi 2exps nu vor mai estima absolut corect dispersia comună.

Prin urmare, între 2rezs şi 2

exps apar diferenţe semnificative când mediile grupurilor sunt neomogene. Din acest motiv, analiza dispersională este uneori referită drept un test F pentru o comparare multiplă. Se construieşte astfel tabelul analizei dispersionale unifactoriale, ANOVA.

Sursa variaţiei

Suma pătratelor

Grade de libertate

Media pătratelor F

Între grupuri (externă) SPexp νexp

2exps

În grupuri (internă) SPrez νrez

2rezs 2

rez

2exps

Fs

=

Globală SPg νg 2gs

Page 39: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Testul F. Compararea cantităţilor 2exps şi 2

rezs se efectuează într-un test F cu ipotezele: • H0 : µ1 = µ2 = … = µ k (mediile grupurilor sunt egale); • H1 : există ji µµ ≠ , (cel puţin două medii sunt neegale).

De remarcat că în ipoteza alternativă se afirmă existenţa unei diferenţe între două medii, dar nu se pot specifica mediile diferite; nu se afirmă că toate mediile sunt diferite două câte două. În condiţiile ipotezei H0, cantitatea F calculată în tabelul ANOVA urmează o repartiţie Fisher-Snedecor cu νexp şi νrez grade de libertate,

rezexp ;F νν , ceea ce permite efectuarea unui test statistic. Decizia. Dacă, pentru un prag de semnificaţie α, fixat, valoarea F calculată este mai mare sau egală cu quantila corespunzătoare a repartiţiei F,

rezexp ; ;1FF ννα−≥ ,

atunci se respinge ipoteza nulă în favoarea ipotezei alternative. Cu alte cuvinte, în acest caz se poate accepta ipoteza că mediile grupurilor nu sunt omogene, există cel puţin două diferite între ele. Se conchide că diferenţele dintre grupuri justifică o parte semnificativă a variaţiei variabilei dependente. În caz contrar, nu se respinge ipoteza nulă a omogenităţii mediilor: împărţirea în grupuri nu este semnificativă (grupurile sunt similare în privinţa variabilei dependente). Observaţie. Reamintim presupunerea iniţială că toate grupurile sunt caracterizate de aceeaşi dispersie.

Modele ale analizei dispersionale unifactoriale În funcţie de modul de stabilire a grupurilor pot să apară două situaţii, după cum sunt considerate sau nu toate grupurile, de interes pentru cercetare, posibile. 1. Grupurile corespund categoriilor unei scale nominale (ordinale), toate

categoriile scalei fiind luate în considerare. În acest caz se spune că se studiază întreaga populaţie a surselor. Situaţia apare şi atunci când, prin convenţie, se consideră că se studiază întreaga populaţie a surselor. În acest caz se compară grupurile între ele, se obţin concluzii valabile pentru fiecare grup în parte. Acesta este modelul cu efecte sistematice (sau modelul 1).

2. Grupurile corespund unor surse alese întâmplător dintr-o populaţie a surselor. In acest caz este important ca, pe lângă compararea grupurilor, să se obţină informaţii despre mulţimea tuturor surselor. Este ca şi cum, din multitudinea de categorii a unei scale nominale (ordinale) se aleg la întâmplare câteva categorii, se obţin eşantioane din grupurile corespunzătoare categoriilor selectate, prelucrarea se efectuează asupra acestor eşantioane. Acesta este modelul cu efecte întâmpătoare (sau modelul 2).

Observatie. Indiferent de modelul aplicat, calculele care conduc la stabilirea tabelului ANOVA sunt aceleaşi. Diferenţele între modele apar la concluzii şi la obţinerea altor estimaţii.

B. Instrumente Excel, SPSS

Excel Analiza dispersională unifactorială poate fi efectuată în Excel prin Tools - Data Analysis: - Anova: Single Factor.

Page 40: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Datele trebuie să fie structurate pe coloane/linii astfel încât fiecare coloană/linie să reprezinte eşantionul dintr-o subpopulaţie. Nu este necesar ca planul de experienţe să fie echilibrat (eşantioanele pot avea volume diferite). În exemplul alăturat,

• cele patru coloane etichetate Optiune1 - Optiune4 reprezintă fiecare câte un eşantion; etichetele pot fi gândite ca valori ale unei variabile discrete (nominală în mod uzual), valori care identifică subpopulaţiile comparate.

• organizarea datelor în zona care începe din celula A1 este întâmplătoare (din motive de prezentare).

Dialogul analizei este prezentat în continuare şi se poate remarca faptul că se indică la Input Range întreg domeniul ocupat de date, faptul că prezenţa etichetelor în prima linie este menţionată în Label in first row şi că în zona Alpha se poate preciza valoarea pragului de semnificaţie (implicit este 0,05). Adresa Output Range se referă la un domeniu din caietul existent unde se vor afişa rezultatele, dar rezultatele pot fi scrise într-o nouă foaie de calcul sau un nou caiet.

Rezultatele conţin un prim tabel sintetic cu statisticile uzuale:

Page 41: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Tabelul ANOVA este

unde:

• Source of Variation reprezintă descompunerea în variaţie explicată (Between Groups) şi variaţie neexplicată (Within Groups)

• SS este coloana sumelor de pătrate • df este coloana gradelor de libertate asociate sumelor de pătrate • MS conţine mediile sumelor de pătrate • F este valoarea calculată a staticii F • P-value, F crit sunt, respectiv, probabilitatea critică şi valoarea critică care

permit decizia în testul statistic: ipoteza nulă a grupurilor omogene se respinge dacă p-value este mai mică sau egală cu pragul a ales sau dacă valoarea F calculată este mai mare sau egală cu valoarea critică..

SPSS Pentru a realiza o analiză dispersională unifactorială se dă comanda Analyze - Compare Means - One-Way ANOVA... Este afişat dialogul

Se va trece în zona Factor variabila discretă care realizează caracterizarea grupurilor de comparat iar în lista Dependent List variabilele continue pentru care se compară grupurile. Fiecare variabilă continuă va produce un tabel ANOVA, deci se realizează atâtea analize câte variabile sunt în lista variabilelor dependente. Comanda Options (celelalte comenzi, Contrasts şi Post Hoc vor fi utilizate în lucrarea următoare) afişează dialogul cu acelaşi nume, care permite fixarea statisticilor care se calculează:

• Descriptive – indicatorii statistici ai variabilei dependente, total şi pe grupuri,

Page 42: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

• Fixed and random effects – pentru a distinge la interpretare modelul cu efecte sistematice sau nu,

• Homogeneity of variance test – testul Levene de egalitate a dispersiilor,

• Brown-Forsythe şi Welch – teste de egalitate a mediilor aplicabile în cazul neegalităţii dispersiilor,

• Means plot – produce reprezentarea grafică a mediilor grupurilor comparate (interpretarea este relativă, ca şi orice interpretare a unui grafic, dar poate constitui un sprijin intuitiv pentru rezultatele testelor statistice).

In arborele de structură a fişierului de ieşire este de remarcat că intrarea corespunzătoare este un nod de tip Oneway, prezentat în continuare, în care sunt prezente toate secţiunile, vizibile sau ascunse.

Dacă se vizualizează, prin dublu click, secţiunea Notes, se va obţine un tabel cu parametrii prelucrării: data prelucrării, fişier de date, filtrare etc. Se poate vedea, lucru util pentru crearea unor scripturi, sintaxa instrucţiunii care realizează aceeaşi prelucrare.

Tabelul de statistici descriptive conţine, pentru fiecare grup determinat de valorile variabilei factor, informaţiile:

• număr de cazuri (N), • media (Mean), • abaterea standard (Std. Deviation), • eroarea standard a mediei (Std. Error), • intervalul de încredere pentru medie (Confidence Interval for Mean)

Page 43: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

• valorile extreme, • statisticile specifice modelului de analiză solicitat (cu efecte sistematice sau cu

efecte întâmplătoare).

Dacă s-a solicitat testarea omogenităţii dispersiilor, se va aplica testul Levene, rezultatele fiind sub forma:

în care Sig. reprezintă probabilitatea critică a testului (rotunjită la trei zecimale). Tabelul ANOVA este sub forma:

afişându-se doar probabilitatea critică (p-value) în coloana Sig. Dacă se solicită graficul mediilor, interpretarea este relativă, funcţie de scalele utilizate, culori etc. Se pot însă vedea grupurile relativ apropiate, valorile extreme.

Page 44: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

C. Lucrarea practică 1. Se salvează şi se deschide în Excel fişierul

http://thor.info.uaic.ro/~val/statistica/TVHours.xls Datele privesc un studiu desfăşurat timp de 4 săptămâni în care s-a urmărit numărul de ore de vizionare a trei tipuri de programe TV: filme, divertisment, ştiri.

2. Să se analizeze setul de date TVHours.xls şi să se răspundă la următoarele întrebări:

a. există diferenţe între bărbaţi şi femei în ceea ce priveşte numărul total de ore de vizionare?

b. există diferenţe între bărbaţi şi femei în ceea ce priveşte numărul de ore de vizionare pe categorii de programe?

c. pe total şi pe bărbaţi-femei separat, cele 4 săptămâni ale studiului diferă

i. după numărul total al orelor de vizionare? ii. după numărul de ore pe categorii de programe?

d. se împart subiecţii pe categorii de vârstă: 21-25, 26-30, 31-35. Să se decidă dacă există deosebiri între cele trei categorii de vârstă definite în ceea ce priveşte

i. numărul total al orelor de vizionare? ii. numărul de ore pe categorii de programe?

3. Se va importa în SPSS fişierul TVHours.xls şi se va reface analiza în vederea obţinerii răspunsurilor la întrebările 2-b, 2-d.

4. Se va deschide în SPSS fişierul cars.sav (fişierul de date se găseşte în folderul aplicaţiei SPSS). Să se decidă dacă, între caracteristicile tehnice ale autoturismelor considerate în studiul respectiv, există deosebiri după localizarea producătorului (Europa, Japonia, America) atât pe ansamblul perioadei considerate, cât şi pe ultimii 5 ani ai studiului.

Page 45: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 5 — ANOVA: analiza post-hoc, analiza bifactorială - Excel, SPSS

A. Noţiuni teoretice

Analiza post-hoc Aplicarea testului ANOVA poate produce ca rezultat respingerea ipotezei de egalitate a mediilor. Nu se precizează însă care grupuri au mediile diferite, producând astfel respingerea ipotezei nule. Din acest motiv au fost dezvoltate tehnicile de comparaţie multiplă, cunoscute ca analiza post-hoc, care vor evidenţia grupurile care diferă ca medie. Reamintim că nu se poate ajunge la acest lucru prin comparaţii asigurate de teste t, deoarece astfel nu se menţine pragul de semnificaţie la o valoare acceptabilă. Dintre metodele de comparaţie multiplă enumerăm:

Bonferroni - (numit şi testul Dunn) implică o succesiune de teste t la care pragul de semnificaţie este divizat prin numărul de comparaţii. De exemplu, pentru a păstra nivelul de semnificaţie global la 0,05 în m comparaţii, fiecare test t de comparare este efectuat la pragul de 0,05/m. Rezultă că procedura poate fi aplicată doar atunci când există puţine comparaţii, în caz contrar este greu de găsit o diferenţă semnificativă (şi creşte riscul unei erori de speţa II).

Scheffe - este o metodă bazată pe testul F, utilizată în situaţiile în care numărul de comparaţii este mare, cu menţiunea că puterea testului este mică (riscul apariţiei unei erori de speţa II este mare).

Tukey - (honestly significant difference - HSD) este o metodă bazată pe statistica q şi este preferată în cazul în care se doreşte efectuarea tuturor comparaţiilor de grupuri, două câte două. Este, pe de altă parte, cea mai conservativă metodă, în sensul că acceptă cel mai repede ipoteza nulă a omogenităţii grupurilor (de regulă, în cazul unui număr mare de comparaţii, riscul apariţiei unei erori de speţa I este mare, astfel încât o metodă conservativă este de preferat). Statistica q, numită statistica amplitudinii studentizate, constituie baza unor metode de comparaţie multiplă. Diferenţa faţă de statistica t este doar în ceea ce priveşte numitorul expresiei matematice de definiţie: q utilizează eroarea standard a mediei, prin urmare se poate testa probabilitatea ca mediile extreme ale grupurilor comparate să fie obţinute din aceeaşi populaţie (în testul t se testa diferenţa a două medii). Evident, dacă ipoteza omogenităţii mediilor extreme nu se respinge, atunci toate mediile sunt omogene.

Tukey's b - (wholly significant difference - WSD) este un test Tukey modificat pentru a fi mai puţin conservativ, considerându-se o valoare critică modificată.

Dunnett - este un test bazat pe o statistică t, utilizată atunci când se doreşte compararea cu un grup de control.

LSD - (least significant difference test - LSD) este bazat pe statistică t şi este cea mai liberală metodă de comparaţie multiplă, în sensul că acceptă cel mai adesea o diferenţă semnificativă.

Există şi metode care se pot aplica în cazul în care ipoteza omogenităţii varianţelor nu este acceptată:

Page 46: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Games-Howell - (GH) bazată pe statistica q este mai conservativă şi, datorită puterii crescute (în raport cu alte metode similare), este recomandată în situaţia grupurilor de volume diferite şi cu dispersii neegale sau necunoscute.

Dunnett's T3, Dunnett's C - păstrează un control mai strict al pragului de semnificaţie.

Tamhane's T2 - este un test conservativ (tinde să nu respimgă ipoteza nulă). Contrast - reprezintă o combinaţie între mediile unor grupuri. Testarea egalităţii cu zero realizează astfel un test privind adevărul relaţiei respective între mediile grupurilor implicate.

Analiza dispersională bifactorială (two-way ANOVA) Studiul asocierii dintre o variabilă continuă (variabila dependentă) şi două variabile discrete (variabile independente, factori) necesită un instrument de analiză care să poată diferenţia influenţa primului factor, influenţa celui de al doilea factor, precum şi influenţa combinată, interacţiunea celor doi factori. În acest scop s-a dezvoltat analiza dispersională bifactorială. Metoda este bazată tot pe descompunerea variaţiei totale în variaţie explicată şi variaţie reziduală, situaţie ilustrată în figura alăturată

După descompunerea variaţiei totale, decizia se ia pe baza comparării diferitelor “părţi” ale variaţiei explicate cu variaţia reziduală. Dacă o parte explicată este semnificativ mai mare decât partea reziduală, atunci se va considera că respectivul factor, sau interacţiunea lor, este important pentru nivelul valorii variabilei dependente. Notăm cu A şi B variabilele independente (factorii) iar cu X variabila dependentă (după care se compară grupurile determinate de nivelele factorilor). Presupunem că factorul A are h nivele, iar factorul B are q nivele. Rezultă că factorii A şi B determină hq grupuri. Este uzual ca valorile de sondaj corespunzătoare grupurilor să fie aranjate într-o structură dreptunghiulară, cu hq celule, fiecare eşantion ocupând celula corespunzătoare nivelelor Ai şi Bj, care identifică grupul. O asemenea structură este referită drept plan bifactorial. Deşi este posibil ca eşantioanele să aibă volume diferite, vom considera doar cazul în care toate celulele conţin un număr egal de valori, notat cu n, caz în care se spune că avem un plan factorial echilibrat. Prin xijk

Variaţie explicată de al doilea factor

Variaţie explicată de primul factor

Variaţie explicată de interacţiunea factorilorVariaţie neexplicată

Page 47: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

se notează astfel a k-a valoare din eşantionul care corespunde grupului determinat de nivelul i al factorului A şi nivelul j al factorului B. Utilizând valorile medii calculate pentru linii, coloane, celule şi pentru totalitatea valorilor se demonstrează că are loc relaţia de descompunere a variaţiei totale în variaţia datorată factorului A, variaţia datorată factorului B, variaţia datorată interacţiunii AB şi variaţia reziduală:

SPg = SPA + SPB + SPAB + SPrez unde

.)(SP

)(SP

)(SP

)(SP

)(

1 1 1

2rez

1 1

2AB

1

2B

1

2A

1 1 1

∑∑∑

∑∑

∑∑∑

= = =

= =∗∗

=∗

=∗

= = =

−=

+−−=

−=

−=

−=

h

i

q

j

n

kijijk

h

i

q

jjiij

q

jj

h

ii

h

i

q

j

n

kijkg

xx

xxxxn

xxhn

xxqn

xxSP

Sumele de pătrate au, respectiv, gradele de libertate

).1( ),1()1(

,1 ,1 ,1

rezAB

BA

−=−×−=

−=−=−=

nhqqh

qhhqng

νν

ννν

Cu aceste cantităţi se completează tabloul analizei dispersionale bifactoriale.

Ca şi în cazul analizei dispersionale unifactoriale, verificarea semnificaţiei factorilor se face prin intermediul unor teste F comparând variaţiile explicate cu variaţia reziduală. De aici coloana ultimă din tablou, care conţine cele trei statistici necesare testelor F, obţinute ca rapoarte având la numitor 2

rezs . Ipotezele testate. Sunt trei seturi de ipoteze, corespunzătoare celor doi factori şi interacţiunii lor. Le vom nota după factorii implicaţi:

Tabloul analizei dispersionale (ANOVA) bifactoriale Sursa de variaţie Suma

pătratelor Grade de libertate Media pătratelor F

Între grupuri Factorul A SPA νA AA

2A /SP ν=s 2

rez2AA /F ss=

Factorul B SPB νB BB2B /SP ν=s 2

rez2BB /F ss=

Interacţiunea AB SPAB νAB ABAB2AB /SP ν=s 2

rez2ABAB /F ss=

În interiorul grupurilor SPrez νrez rezrez

2rez /SP ν=s

Globală SPg νg

Page 48: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

(AB) H0 : interacţiunea factorilor A şi B nu este semnificativă (efectul lui A nu se modifică funcţie de nivelul lui B)

H1 : interacţiunea factorilor A şi B este semnificativă (efectul lui A depinde de nivelul factorului B)

(A) H0 : factorul A nu este semnificativ (clasificarea după linii nu este semnificativă sau mediile liniilor nu diferă semnificativ)

H1 : factorul A este semnificativ (clasificarea după linii este semnificativă, mediile liniilor diferă în mod semnificativ)

(B) H0 : factorul B nu este semnificativ (clasificarea după coloane nu este semnificativă sau mediile coloanelor nu diferă semnificativ)

H1 : factorul B este semnificativ (clasificarea după coloane este semnificativă, mediile coloanelor diferă în mod semnificativ)

Decizia. Deoarece se demonstrează că, acceptând ipoteza nulă a fiecărui test, statistica F calculată în tabloul ANOVA urmează o repartiţie F având drept grade de libertate numerele ataşate numărătorului şi numitorului, se va respinge ipoteza nulă H0 în favoarea ipotezei alternative dacă valoarea F calculată, corespunzătoare testului, citită în tabloul ANOVA, este mai mare sau egală cu quantila respectivă a repartiţiei Fisher-Snedecor.

Testul Regula de respingere a ipotezei nule (AB) rezAB ; ;1ABF ννα−≥ F

(A) rezA ; ;1AF ννα−≥ F

(B) rezB ; ;1BF ννα−≥ F

Observaţie. Pentru ca pragul de semnificaţie să fie α pentru ansamblul celor trei teste, se recomandă ca pragul de semnificaţie să fie α /3 pentru fiecare test individual.

B. Instrumente Excel În Excel nu se poate efectua analiza post-hoc (dacă nu se dezvoltă/deschide etc. un proiect VBA dedicat). Pentru analiza dispersională bifactorială, datele se vor organiza în modul următor:

Page 49: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Este important de reţinut că se pot efectua doar analize în care planul de experimente este echilibrat, deci fiecare celulă are acelaşi număr de valori, n. Din Tools - Data Analysis se continuă cu:

ANOVA: Two-Factor With Replication în cazul n > 1 ANOVA: Two-Factor Without Replication în cazul n = 1

Dialogul afişat în primul caz, cel mai general deoarece se permite studiul interacţiunii între factori, este

unde se completează: Input Range - referinţa la zona datelor, zona colorată din figura cu structura datelor. Rows per sample - valoarea lui n, numărul de valori dintr-o celulă. Restul zonelor sunt explicate prin denumirile lor.

Instrumente SPSS

Analiza Post Hoc Pentru a realiza o analiză dispersională unifactorială se dă comanda Analyze -

Compare Means - One-Way ANOVA... după cum s-a explicat în lucrarea anterioară. Analiza post-hoc este realizată prin acţionarea butonului Post Hoc. În dialogul afişat se marchează metodele dorite, atât în cazul ANOVA (dispersii egale), cât şi în cazul în care dispersiile nu sunt egale.

În dialogul One-way ANOVA, prin Contrasts se afişează dialogul sinonim în care putem preciza coeficienţii contrastelor dorite. Procesul de definire este dublu iterativ: se tastează în Coefficients câte un coeficient şi apoi Add. La sfârşit prin Next se trece

Page 50: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

la următorul contrast şi operaţiunea de definire se reia. Coeficienţii sunt în ordinea valorilor variabilei factor (deşi este o variabilă discretă, aceasta trebuie să fie codificată numeric).

Two-Way ANOVA Analiza bifactorială se poate realiza în două moduri: 1. din fereastra de sintaxă sau 2. utilizând comanda General Linear Model (GLM).

Comanda ANOVA Se deschide o nouă fereastră de sintaxă prin File - New - Syntax:

Se afişeazăa stfel o fereastră în care se pot scrie şi executa comenzi:

Comanda ANOVA are sintaxa generală:

ANOVA [VARIABLES=] varlist BY varlist(min,max)...varlist(min,max) [WITH varlist] [/VARIABLES=...] [/COVARIATES=FIRST**] WITH

Page 51: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

AFTER [/MAXORDERS=ALL** ] n NONE [/METHOD=UNIQUE** ] EXPERIMENTAL HIERARCHICAL [/STATISTICS=[MCA] [REG†] [MEAN] [ALL] [NONE]] [/MISSING=EXCLUDE**] INCLUDE

unde: VARIABLES specifică lista variabilelor analizate. Analize diferite sunt separate prin slash-uri.

• variabilele din faţa cuvântului rezervat BY sunt dependente, cele de după sunt factorii analizei. • fiecare factor trebuie să fie codificat numeric şi grupurile considerate se precizează prin valorile minimă şi maximă asociate. • variabilele listate după WITH sunt covariabilele analizei (analiza covarianţei)

COVARIATES specifică ordinea de considerare în analiză a covariabilelor şi a factorilor principali.

• FIRST produce procesarea covariabilelor înaintea factorilor; WITH procesare simultană; AFTER procesează covariabilelor la sfârşit. • ordinea este neglijată dacă METHOD=UNIQUE.

MAXORDERS precizează ordinul maxim de interacţiune considerat în analiză. • ALL fixeaza ordinul de interacţiune la 5 (valoarea implicită în SPSS); n stabileşte ordinul maxim; NONE nu se analizează interacţiunile. • interacţiunile omise sunt incluse în varianţa reziduală.

METHOD controlează metoda de descompunere a sumei de pătrate în construcţia şi analiza tabelului ANOVA.

• UNIQUE înseamnă abordare regresională (toate efectele - covariabile, factori - sunt considerate simultan); EXPERIMENTAL abordarea clasică; HIERARCHICAL abordare ierarhică a considerării efectelor. • alegerea unei opţiuni poate impune restricţii în alegerea altor parametri ai comenzii, ceea ce poate produce mesaje de atenţionare.

STATISTICS precizează statisticile suplimentare calculate • MEAN = mediile şi frecvenţele celulelor, pentru toate nivelurile de interacţiune cerute ; REG = coeficienţii de regresie nestandardizaţi (explicaţia va fi înţeleasă mai bine doar după studiul modelului liniar); MCA (Multiple Classification Analysis) = diverse statistici privind mediile prognozate, rapoarte de corelaţie etc. studiate ulterior; ALL, NONE cu sensurile evidente.

MISSING precizează modul de tratare a valorilor lipsă. • EXCLUDE - valoarea implicită- este exclusă orice observaţie cu o valoare lipsă în orice variabilă menţionată în analiză; INCLUDE are ca efect includerea în analiză a observaţiilor care au valori lipsă definite de utilizator.

Comanda GLM Fundamentarea acestei proceduri se va găsi în capitolul privind modelul liniar, considerându-se deocamdată că analiza dispersională poate fi privită ca o problemă de model liniar şi, deci, rezolvată printr-o metodă dedicată acestei probleme.

Page 52: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

1. Se dă comanda Analyze –General Linear Model–Univariate. Ca urmare, se afişează dialogul

2. Se precizează variabila dependentă prin mutarea în zona Dependent Variable 3. Se precizează factorii sistematici în zona Fixed Factor(s), factorii întâmplători în zona Random Factor(s), ca şi eventualele covariabile în lista Covariate(s). 4. Pentru o analiză ponderată se va preciza variabila pondere în WLS Weight. 5. Pentru a realiza comparaţiile multiple (analiza post hoc) se acţionează butonul Post Hoc, afişându-se dialogul

în care se precizează factorii pentru care se doreşte analiza post hoc, ca şi metodele de analiză selectate.

C. Lucrarea practică 1. Se va deschide fişierul

http://thor.info.uaic.ro/~val/statistica/MagAds.xls care conţine date obţinute în urma analizării reclamelor unor reviste în ceea ce priveşte gradul de dificultate a lecturii lor, după nivelul de educaţie al cititorilor ţintă. Variabilele urmărite sunt:

Page 53: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Words - numărul de cuvinte din reclamă Sentences - numărul de propoziţii din reclamă Syllable3 - numărul de cuvinte cu mai mult de 3 silabe Magazine - codul revistei EducLevel - nivelul de educaţie a grupului de cititori ţintă, notat descrescător de la 1 la 3.

a. Să se decidă dacă variabilele Words, Sentences şi Syllable3 diferă, în medie,

i. după revistă, ii. după grupul ţintă.

b. Să se decidă tipul de prelucrare după revistă dacă se cunoaşte că pentru fiecare nivel de educaţie s-au ales aleatoriu trei reviste dintre cele care au acest grup ţintă.

c. Ce se poate spune de studiul interacţiunii dintre variabilele factor Magazine şi EducLevel?

2. Se va deschide în SPSS fişierul cars.sav (fişierul de date utilizat şi în Lucrarea 4, se găseşte în folderul aplicaţiei SPSS). Se va observa că anumite prelucrări trebuie să distingă între camioane şi autoturisme.

a. Să se utilizeze ANOVA, inclusiv analiza post-hoc, pentru a decide asupra diferenţelor semnificative, dintre caracteristicile tehnice ale autoturismelor, după localizarea producătorului (Europa, Japonia, America), atât pe ansamblul perioadei considerate, cât şi pe ultimii 5 ani ai studiului.

b. Să se aplice analiza bifactorială considerând factorii localizare şi număr de cilindri.

c. Realizând o grupare a anilor de fabricaţie în 3-4 grupe, să se studieze eventuala interacţiune a noii variabilei factor cu factorul localizare.

Page 54: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 6 — Asocierea datelor - Excel, SPSS

A. Noţiuni teoretice

Generalităţi Spunem că două (sau mai multe) variabile sunt asociate dacă, în distribuţia comună a variabilelor, anumite grupuri de valori au probabilităţi mai mari de realizare simultană decât alte grupuri de valori. Cu alte cuvinte, dacă o variabilă ia o valoare, atunci celelalte variabile vor lua, cu probabilităţi mai mari, valori determinate de valoarea primei variabile. Se observă astfel că, în analiză, una dintre variabile joacă rolul de variabilă dependentă iar cealaltă (sau celelalte) joacă rolul de variabilă independentă (variabile independente). Denumirile (ca şi rolurile) sunt relative, doar necesităţile şi posibilităţile cercetătorului stabilind rolul fiecărei variabile. Un aspect al problemei este evidenţierea asocierii şi alt aspect este evaluarea gradului de asociere. Evaluarea asocierii:

Scala direcţională (–1…+1). Permite distingerea asocierilor negative (în care valorile variabilelor sunt invers proporţionale: mare cu mic, mic cu mare) de asocierile pozitive (în care valorile variabilelor sunt direct proporţionale: mare cu mare, mic cu mic). Valoarea zero indică lipsa de asociere. Este specifică variabilelor ordinale şi celor continue (de interval).

–1 0 +1 Asociere negativă (inversă)

Lipsă de asociere Asociere pozitivă (directă)

Scala nedirecţională (0…1). Este mai puţin senzitivă decât scala direcţională, permite doar diferenţierea asociere – neasociere, fără a specifica sensul asocierii. Pentru variabilele asociate puternic nu se poate preciza tipul de asociere. Este specifică variabilelor nominale. Atributul PRE (Proportional Reduction in Error) — reducerea proporţională a erorii, se referă la îmbunătăţirea prognozei valorilor variabilei dependente atunci când se cunoaşte valoarea variabilei independente. Se defineşte ca măsură a cantităţii cu care cunoaşterea variabilei independente măreşte corectitudinea predicţiei în raport cu o "ghicire" pură (bazată doar pe cunoaşterea repartiţiei variabilei dependente):

Eroarea folosind doar variabila dependentă – Eroarea folosind

variabila independentă PRE=

Eroarea folosind doar variabila dependentă

Se poate gândi PRE ca varianţa explicată de variabila independentă.

Asocierea între două variabile nominale (calitative) Fie două variabile discrete nominale, X şi Y, având r şi, respectiv, s categorii. Se consideră că datele experimentale măsurate într-un eşantion de volum n sunt prezentate în tabelul de frecvenţe încrucişate:

Page 55: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Y1 … Yj … Ys TotalX1 n11 … n1j … n1s n1* … … … … … … … Xi ni1 … nij … nis ni* … … … … … … … Xr nr1 … nrj … nrs nr*

Total n*1 … n*j … n*s n unde ni* reprezintă totalul frecvenţelor de pe linia i, iar n*j este suma frecvenţelor de pe coloana j. Se consideră că variabilele X şi Y sunt independente empiric, dacă are loc relaţia

jin

nnn ji

ij ,)(, ∀×

= ∗∗

care exprimă faptul că liniile (coloanele) sunt proporţionale, deci profilele-linii sunt egale (ca şi profilele-coloane). Se poate demonstra că, în aceste condiţii, proporţia elementelor clasate Yj este aceeaşi între elementele clasate Xi ca şi între elementele neclasate Xi (elementele non Xi). Între nivelurile Xi şi Yj

– există o asociere pozitivă dacă nij > (ni* n*j) / n (adică în celula ij există o frecvenţă mai mare decât în populaţie);

– există o asociere negativă dacă nij < (ni* n*j) / n (adică în celula ij există o frecvenţă mai mică decât în populaţie).

Se adoptă ca măsură a asocierii (globale) mărimea (Pearson)

d2 (sau χ2) = ∑ ×

×−

ji ji

jiij

nnnn

nnn

, **

2**

sau

d2 = n

−∑ 1

**

2

ij ji

ij

nnn

.

Indicatorul χ2 (numit indicator al contingenţei pătratice) nu este măsurat pe o scală 0-1 şi din acest motiv, neîncadrându-se în teoria generală a indicilor de asociere, nu poate fi utilizat cu bune rezultate pentru comparaţii. Au fost propuşi atunci o serie de alţi indici, (derivaţi din χ2):

φ2 = n

2χ, indicator al contingenţei pătratice medii (Pearson)

C = 2

2

χχ+n

, coeficientul contingenţei pătratice medii (Pearson)

T2 = )1)(1(

φ 2

−− ts , coeficientul lui Ciuprov

V2 = )1(),1min(

2

−− rsφ , coeficientul lui Cramer.

Page 56: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Semnificaţia statistică a asocierii: Se poate utiliza cantitatea χ2 pentru a testa asocierea evidenţiată de datele de sondaj. Testul de asociere χ2 are ipotezele:

H0: variabilele X şi Y nu sunt asociate; H1: variabilele X şi Y sunt asociate.

Se demonstrează că în condiţiile ipotezei H0, variabila χ2 , calculată mai sus, este repartizată χ2 cu un număr de grade de libertate egal cu (r–1)(s–1), χ2 ~ χ2

(r-1)(s-1) , ceea ce permite efectuarea unui test statistic. Limite de aplicare. Pentru a aplica testul trebuie ca nu mai mult de 20% dintre celule să aibă mai puţin de 5 elemente.

Asocierea datelor ordinale Datorită faptului că scalele de măsură ordinale au definită ordinea între categorii (clase), coeficienţii de asociere sunt direcţionali, adică măsuraţi pe o scală (–1…0…+1).

Coeficientul de corelaţie a rangurilor (Spearman) rs Acesta este o măsură PRE şi este direcţională. Se utilizează atunci când observaţiile cuprind valori ale unor variabile ordinale, structurate ca în tabelul următor:

Observaţia variabila 1 variabila 2 1 v11 v21 2 v12 v22

… … … n v1n v2n

Se începe prin a atribui ranguri valorilor fiecărei variabile, separat, cu tratarea situaţiile de ex-aequo. Se obţine astfel

Observaţia ranguri

variabila 1 ranguri

variabila 2 d2

1 r11 r21 (r11-r21)2

2 r12 r22 (r12-r22)2 … … … … n r1n r2n (r1n-r2n)2

Formula de definiţie a coeficientului de corelaţie a rangurilor este

rs = 1 – )1(

6 2

∑nn

di

i

.

Testarea semnificaţiei coeficientului rs calculat este bazată pe statistica

τ = 212

ss r

nr−−

,

Page 57: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

care, în ipoteza nulă, H0: ρs = 0, urmează o distribuţie Student cu ν = n–2 grade de libertate. Se va respinge H0 în favoarea unei ipotezei alternative, direcţionale sau nu, prin procedura uzuală a unui test bazat pe repartiţia Student. Coeficientul de corelaţie a rangurilor nu este adecvat pentru scale ordinale cu puţine categorii (5–7) care dau, de regulă, multiple cazuri de egalitate. În asemenea situaţii se utilizează coeficientul γ, definit în continuare.

Coeficientul γ Acest indicator este bazat tot pe atribuirea de ranguri valorilor celor două variabile ordinale, dar pleacă de la ideea: cunoaşterea ordinii a două ranguri pentru variabila independentă poate prezice ordinea rangurilor pentru variabila dependentă? Răspunsul ar trebui să fie afirmativ pentru variabile asociate, orice abatere de la acest răspuns trebuie să conducă la ideea de independenţă (lipsă de asociere) între cele două variabile. Coeficientul γ este o măsură PRE pe o scală direcţională şi se defineşte prin

γ = ia

ia

ffff

+−

unde fa este numărul de agremente (potriviri), fi este numărul de inversiuni, spunând că

r1i r2i … … r1j r2j

se potrivesc dacă ordinea este aceeaşi în cele douăcoloane şi că are loc o inversiune dacă ordinea este schimbată. Semnificaţia lui γ poate fi testată prin utilizarea unei formule aproximative (aplicabilă pentru n ≥ 10)

z = )-n(1

ff2ia

γγ

+

care, în ipoteza H0: γ = 0, este o variabilă normală redusă şi se poate aplica un test bazat pe repartiţia normală standard.

Asocierea datelor continue (de interval) În domeniul datelor continue, asocierea variabilelor este, de regulă, studiată sub denumirea de corelaţie (denumire care a fost introdusă şi la coeficientul de corelaţie a rangurilor, pentru date ordinale). Se pot distinge două mari direcţii în acest studiu: – calcularea unui indicator al asocierii (corelaţiei) – estimarea unui model funcţional care să reprezinte asocierea dintre variabile

(analizat în cursurile dedicate tematicii modelului liniar).

Coeficientul de corelaţie (liniară) Pentru a evalua existenţa unei asocieri şi intensitatea asocierii, se utilizează coefi-cientul de corelaţie, notat r. Acesta este măsurat pe o scală direcţională de la –1 la +1 şi are atributul PRE. Coeficientul de corelaţie este definit prin

r = ( )( )∑∑∑

−−

−−22 )()(

))((

YyXx

YyXx

ii

ii ,

Page 58: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

existând, evident, şi alte formule echivalente. Cantitatea r obţinută pe baza unui eşantion este, în spiritul discuţiei de până acum, o estimare a coeficientului de corelaţie ρ din populaţie. Semnificaţia coeficientului de corelaţie poate fi testată utilizând un test Student. În aplicarea testului se presupune (este cerut) că împrăştierea valorilor Y este uniformă după valorile lui X (proprietatea de homoscedasticitate). În plus, există şi ipoteze distribuţionale de normalitate a variabilelor X şi Y. Statistica testului este

t = r 212

rn−−

.

În ipoteza H0 : ρ = 0, statistica t este repartizată Student cu n-2 grade de libertate. Se respinge H0 în favoarea ipotezei alternative nedirecţionale H1: ρ ≠ 0, dacă |t| > t1-α/2;n-2. Se pot considera şi teste unilaterale, după procedura generală a testelor bazate pe distribuţia Student.

B. Instrumente Excel, SPSS

Excel Coeficientul de corelaţie dintre două variabile poate fi calculat prin funcţia CORREL(Array1,Array2), unde Array1, Array2 sunt, respectiv, zonele care conţin valorile celor două variabile (trebuie să aibă, evident, acelaşi număr de valori). Pentru a calcula matricea de corelaţie (deci sunt implicate mai mult de două variabile) se utilizează procedura CORRELATION din Tools - Data Analysis. Observaţie. Nu sunt disponibile prelucrări specifice pentru asocierea variabilelor nominale sau ordinale, acestea trebuind să fie realizate prin funcţiile şi operaţiile posibile în Excel.

CORRELATION Este procedura care calculează coeficienţii de corelaţie liniară, cunoscuţi şi drept coeficienţii de corelaţie Pearson. Variabilele implicate sunt variabile continue (de interval). În cazul când există un număr suficient de mare de valori şi de ranguri posibile, procedura poate fi utilizată şi pentru calculul coeficienţilor de corelaţie a rangurilor (Spearman). Dialogul de iniţiere a procedurii Correlation este prezentat în figura alăturată. Input Input Range – se precizează domeniul

datelor de intrare. Acesta trebuie să fie o zonă compactă dintr-o foaie de calcul.

Grouped By – se selectează butonul corespunzător modului de înscriere a valorilor unei variabile: Columns pentru variabile pe coloane, Rows pentru variabile pe linie.

Labels in First Row – se marchează dacă prima linie (cazul Columns) sau prima coloană (cazul Rows) conţine denumirile variabilelor.

Page 59: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Output options Output Range, New Worksheet Ply, New Workbook – Precizează zona unde se vor înscrie

rezultatele. Zona de rezultate cuprinde un tabel pătratic cu coeficienţii de corelaţie între toate perechile de variabile din domeniul de intrare. Deoarece tabloul este simetric faţă de prima diagonală, se afişează doar partea inferioară (stânga-jos).

Din păcate, în Excel nu este raportată semnificatia acestor coeficienţi de corelaţie, cu alte cuvinte nu se raportează informaţiile necesare verificării ipotezei de nulitate a coeficienţilor. Testarea semnificaţiei coeficienţilor se poate efectua prin apelarea, în foaia de calcul Excel, a funcţiilor necesare, după modelul următor, în care se verifică

H0: coeficientul de corelaţie dintre variabile este egal cu zero H1: coeficientul de corelaţie dintre variabile este diferit de zero

Se calculează transformata Fisher a coeficientului de corelaţie r calculat prin utilizarea funcţiei fisher() din Excel: într-o celulă neutilizată se tastează =fisher(referinţa la celula unde este coeficientul de corelaţie) Se obţine rezultatul calculului:

rrz

−+

=11ln

21

Cu această valoare se calculează intervalul aproximativ de încredere cu limitele

z1 = z – 3

1−n

z1–α şi z2 = z + 3

1−n

z1–α

Observaţie. Calculul unei limite, de ex, z1, se efectuează cu formula Excel = referinţa la celula unde este z – 1/sqrt(n-3)*normsinv(1-α/2)

O metodă alternativă, pentru ipoteza nulă a unui coeficient egal cu 0, este utilizarea unui test t bazat pe statistica, dată direct ca o formulă Excel:

= r/sqrt(1-r^2)*sqrt(n–2) unde r semnifică valoarea, sau referinţa la coeficientul de corelaţie testat, iar n este valoarea sau referinţa la volumul eşantionului. Pentru a obţine, în Excel, probabilitatea critică bilaterală se utilizează formula

=tdist(abs(t),n-2,2) în care t poate fi înlocuit direct cu expresia de calcul corespunzătoare:

=tdist(abs(r/sqrt(1–r^2)*sqrt(n-2)),n-2,2) unde r şi n au semnificaţiile precizate anterior.

RANK AND PERCENTILE Această procedură realizează atribuirea de ranguri valorilor unei variabile. Se obţin atât ranguri ordinale descrescătoare cât şi ranguri centilice. Rangurile ordinale sunt atribuie descrescător: valoarea maximă are rangul 1, următoarea mai mică are rangul 2 etc. Cazurile de ex-aequo sunt tratate prin atribuirea primului rang disponibil tuturor cazurilor din aceeaşi categorie. Reamintim că o procedură mai des utilizată este aceea a atribuirii rangului mediu tuturor valorilor egale. Rangul centilic al unei valori este exprimat procentual după formula

număr de valori depăşite Rang

centilic = n-1 × 100 %,

unde n este volumul eşantionului. La baza acestei formule este presupunerea că rangurile sunt distribuite uniform (ceea ce nu este adevărat pentru datele ordinale

Page 60: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

unde rangul este o simplă convenţie), cele n ranguri posibile (= numărul de observaţii) separă (n–1) intervale de lungimi egale şi se calculează atunci cât la sută din aceste intervale (sau din domeniul rangurilor) este sub valoarea pentru care se calculează rangul centilic. De remarcat că sunt utilizate şi alte formule (cu rezultate uşor diferite) pentru calculul rangului centilic, formule bazate pe rangul mediu atribuit valorilor egale. În general, asemenea formule sunt utilizate pentru eşantioane relativ mici, pentru care erorile estimaţiilor sunt mari şi deci utilizarea unei formule sau a alteia nu ne scoate din limitele de siguranţă acceptate. Calculele sunt efectuate pentru toate variabilele prezente în domeniul precizat ca intrare, datele trebuind să fie organizate într-un domeniu dreptunghiular continuu. În figură se prezintă dialogul Rank and Percentile, parametrii care trebuie să fie specificaţi sunt doar de localizare a intrărilor şi ieşirilor şi sunt explicaţi în continuare. Input Input Range, Grouped By, Labels in First Row – Se specifică domeniul de intrare, modul de

organizare a variabilelor (pe coloane sau pe linii) şi faptul dacă există denumiri în domeniul indicat. Pentru o descriere mai pe larg a câmpurilor se va vedea zona Input de la Descriptive Statistics.

Output options Output Range, New Worksheet Ply, New Workbook – Fixează zona unde se vor înscrie

rezultatele.

Exemplu Rezultatele unui apel la procedura Rank and Percent, situaţia ilustrată este pur didactică, sunt structurate după cum urmează. Primele două coloane conţin datele de sondaj. Aplicarea procedurii pentru variabila

Dialogul Rank and Percentile

Page 61: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Scoruri produce rezultatele din coloanele D–G. Prima coloană, Point, prezintă numerele de ordine iniţiale ale valorilor. Coloana a doua, Scoruri, este ordonarea descrescătoare a valorilor. Coloana a treia conţine rangurile ordinale atribuite valorilor. Se observă că valorile egale cu 15, care ar avea rangurile 4 şi 5, primesc ambele rangul 4 iar rangul 5 nu mai este atribuit (următoarea valoare are rangul 6). Coloana a patra conţine rangurile centilice, calculate după formula precizată. Astfel valoarea 18, cu rangul 3, depăşeşte 3 valori. Cum n = 6 se obţine un rang centilic egal cu 3/(6–1), adică de 60%. Aceasta valoare poate fi înţeleasă potrivit figurii următoare: Se vede că valoarea 18 are în dreapta ei, deci valori mai mici – ordinea este

descrescătoare –, trei segmente din totalul de 5, adică 60% din distribuţie. Analog, valoarea 15 depăşeşte 2 segmente din 5, deci 20% etc.

SPSS Pentru a calcula coeficienţii de corelaţie dintre variabile de interval sau ordinale se dă comanda Analyze > Correlate > Bivariate

Se afişează dialogul Bivariate Correlations în care se fixează variabilele care sunt analizate şi tipul de coeficient de corelaţie calculat: Pearson, Spearman precum şi testul de semnificaţie dorit.

Prin dialogul Options se pot selecta anumite statistici elementare dorite în rezultat ca şi modul de tratare a observaţiilor lipsă.

ranguri

valori 27 23 18 1515 12

1 2 3 4 6 5

60%

Page 62: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Ca rezultat se obţine, în principal, matricea de corelaţie între variabilele selectate pentru analiză. O celulă a tabelului conţine valoarea coeficientului de corelaţie, probabilitatea critică a testului de semnificaţie şi numărul de valori reţinute pentru calcul (după tratarea cazurilor lipsă).

Potrivit procedurii de decizie într-un test statistic, se respinge ipoteza unei corelaţii nule dacă probabilitatea critică este mai mică sau egală cu pragul de semnificaţie ales. Corelaţiile semnificative pot fi marcate automat cu * (α=0,05) sau ** (α=0,01) prin selectarea opţiunii Flag significant correlations din dialogul principal. Pentru cazul variabilelor discrete, se poate consulta tabelul următor care conţine o sistematizare a coeficienţilor de asociere definiţi (ei sunt calculaţi şi de SPSS), tabel adaptat după tabelul similar din http://demography.anu.edu.au/Publications/SDA-course-notes/sec03.htm. Denumirile statisticilor sunt păstrate pentru a fi recunoscute în dialogurile specializate.

Coeficient Statistică Variabila dependentă

Variabila independentă Observaţii

Coeficienţi bazaţi pe χ

CHISQ Chi-square Orice tip Orice tip

PHI Phi sau Cramer's V

Orice tip Orice tip Phi se utilizează de obicei pentru tabele 2×2

CC Contingency coefficient Orice tip Orice tip

Coeficienţi bazaţi pe reducerea proporţională a erorii

LAMBDA Lambda Orice tip Orice tip

UC Uncertainty coefficient Orice tip Orice tip

Statistici pentru variabile ordinal

BTAU Kendall tau-b Ordinal Ordinal

CTAU Kendall tau-c Ordinal Ordinal Se recomandă BTAU

Page 63: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

GAMMA Gamma Ordinal Ordinal Se recomandă BTAU

D Somer's d Ordinal Ordinal

Alţi coeficienţi

KAPPA Kappa Nominal Nominal Tabele pătratice de frecvenţe

RISK Relative risk Interval Orice tip

ETA Eta Interval Orice tip

CORR Correlation Interval Interval

Cazul variabilelor discrete, nominale în special, este analizat în dialogul afişat de comanda Analyze > Descriptive Statistics > Crosstabs. Din dialogul afişat, care produce calculul frecvenţelor încrucişate pentru două variabile discrete, se acţionează butonul Statistics, afişându-se dialogul

din care se selectează indicatorii de asociere doriţi. Rezultatul afişat va include şi testele de semnificaţie adecvate. Pentru explicaţii suplimentare privind coeficienţii de asociere consideraţi în dialog, se poate studia următorul document privind asocierea variabilelor discrete: http://www.infoiasi.ro/~val/statistica/AsocVarDisc.pdf

C. Lucrarea practică 1. Să se genereze în Excel două şiruri de numere dintr-o repartiţie uniformă.

a) Să se calculeze coeficientul de corelaţie între cele două variabile astfel construite. Să se interpreteze rezultatul şi să se verifice concordanţa cu reprezentarea grafică adecvată.

b) Să se repete generarea de numere şi să se testeze semnificaţia statistică a coeficientului de corelaţie în fiecare caz.

c) Pentru o generare de numere, să se calculeze coeficientul de corelaţie a rangurilor (Spearman).

2. Să se deschidă în SPSS fişierul University of Florida graduate salaries.sav din fişierele de test care însoţesc aplicaţia SPSS.

Page 64: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

a) Să se studieze asocierea (indicatorii χ2, φ, C) dintre variabilele discrete gender şi college. Prin agregare de categorii, sau eliminarea categorii-lor cu frecvenţe mici, să se aducă datele în situaţia în care se poate aplica χ2.

b) Să se studieze asocierea dintre variabilele graduation date şi gender. c) Să se studieze asocierea gender şi salary:

prin test t prin discretizare şi χ2.

3. Să se deschidă fişierul World95.sav din fişierele de test care însoţesc aplicaţia SPSS.

a) Să se calculeze şi să se interpreteze matricea de corelaţie dintre variabilele continue.

b) Să se compare corelaţiile semnificative calculate pentru: global (toate datele), pe religii predominante, pe regiuni.

Page 65: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 7 — Regresia liniară simplă - Excel, SPSS -

A. Noţiuni teoretice Considerăm că, într-un eşantion de volum n s-au determinat perechile de

valori (xi,yi), i=1,…,n, corespunzătoare celor două variabile pentru care dorim să studiem asocierea şi relaţia dintre ele.

O primă apreciere asupra distribuţiei comune o vom avea dacă realizăm diagrama de împrăştiere a valorilor, de fapt reprezentarea într-un sistem de axe a punctelor având coordonatele x şi y. Analiza vizuală a organizării şi formei norului de puncte obţinut poate oferi indicii importante asupra relaţiei dintre variabile. Datele de sondaj vor susţine ipoteza asocierii între variabile dacă forma norului de puncte se apropie de o curbă funcţională. Astfel, se pot aprecia asocieri liniare, curbilinii etc. Dacă în norul de puncte nu se poate distinge o tendinţă, se va spune că variabilele nu sunt corelate.

În figura următoare sunt ilustrate câteva tendinţe identificabile direct.

Cazul (a) ilustrează o asociere pozitivă, (b) – o asociere negativă, (c) – lipsă de asociere, (d) – asociere

curbilinie. Relaţiile de interes pentru discuţia din continuare sunt cele ilustrate în cazurile

(a) şi (b), unde este identificabilă o tendinţă liniară în norul de puncte. Pentru a sintetiza modul în care schimbările lui Y sunt asociate cu schimbările

lui X, metoda matematică utilizată este "metoda celor mai mici pătrate" (Legendre, 1806). Aplicată în cazul nostru, asocierea dintre X şi Y este reprezentată printr-o dreaptă trasată printre punctele diagramei de împrăştiere.

Linia estimată este "cea mai bună" în sensul că exprimă cel mai central drum printre puncte: linia pentru care suma pătratelor distanţelor (pe verticală) dintre puncte şi dreaptă este minimă. Termenul comun pentru dreapta estimată este acela de dreapta de regresie.

x0

y0

Page 66: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Distanţele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizează valoarea minimă a pătratelor erorilor, în sensul că orice altă dreaptă produce o sumă de pătrate mai mare.

Este de amintit că o proprietate a mediei aritmetice este aceea că suma pătratelor diferenţelor de la medie are o valoare minimă. Astfel se poate spune că după cum media reprezintă punctul de echilibru pentru o distribuţie univariată de scoruri, la fel dreapta de regresie reprezintă punctul de echilibru într-o distribuţie bivariată.

Utilitatea dreptei de regresiei este aceea că serveşte ca bază pentru predicţia valorilor lui Y asociate valorilor lui X. Astfel, dată o valoare x0, valoarea prognozată pentru Y este y0, ordonata pe dreapta de regresie corespunzătoare abscisei x0. Problema estimării erorilor de predicţie va fi tratată o dată cu prezentarea modelului general.

Problema prezentată poate fi formulată matematic drept determinarea cantităţilor a şi b din ecuaţia Ye = a + b X, unde

• Ye este valoarea prezisă (estimată) a variabilei dependente; • a este termenul liber al dreptei de regresie (valoarea pentru X=0); • b este coeficientul de regresie (cantitatea cu care se modifică Y atunci când X

se modifică cu o unitate); • X este valoarea variabilei independente.

Se demonstrează că, prin metoda celor mai mici pătrate, se obţine:

b = ∑

∑−

−−2)(

))((

Xx

YyXx

i

ii şi

a = XbY ⋅− .

Valoarea estimată, totuşi, este numai o medie care se poate aştepta. Acurateţea depinde de cât de bine se potriveşte dreapta de regresie cu datele reale. Această potrivire este evaluată prin considerarea unei statistici: eroarea standard a estimaţiei, definită ca abaterea standard a erorilor de estimare (a reziduurilor estimaţiei):

s = 2n

)( 2i

−∑ eiyy

unde yei reprezintă valoarea estimată (prin ecuaţia de regresie) pentru xi. O eroare standard mare arată că valorile observate sunt la distanţă de dreapta

de regresie şi deci aceasta este mai puţin reprezentativă pentru datele reale. În consecinţă şi valorile prognozate sunt afectate de erori mai mari.

Analiza distribuţională a ecuaţiei de regresie simple Deoarece coeficienţii ecuaţiei de regresie sunt calculaţi dintr-un eşantion,

rezultă că au caracterul de statistici, se poate deci vorbi de repartiţia lor de sondaj etc. Acest fapt permite analiza distribuţională a coeficienţilor, în sensul inferenţei statistice: ecuaţia determinată prin formulele prezentate este doar o estimaţie a ecuaţiei care are loc la nivel de populaţie. Prin urmare, ecuaţia de regresie calculată Ye = a + b X este estimaţia modelului general Ye = α + β X. O discuţie mai amplă este prezentă la lucrarea cu tema "modelul liniar", aici se prezintă doar câteva elemente.

Page 67: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Analiza distribuţională este bazată pe ipoteza: pentru orice valoare fixată X (variabila independentă), Y (variabila dependentă) este distribuită normal, cu aceeaşi dispersie peste tot. Se demonstrează atunci că repartiţia de sondaj a fiecărui coeficient de sondaj are ca medie valorile parametrilor: Exp(a) = α, Exp(b) = β.

Teste de semnificaţie. Testul principal este acela al coeficientului lui X, deoarece acesta conţine informaţia privind asocierea dintre Y şi X. Ipotezele testului (un test t) sunt:

H0: β = 0 H1: β ≠ 0 Dacă nu se respinge H0, atunci legătura liniară dintre Y şi X nu este

semnificativă, cea mai bună predicţie este dată de media lui Y. Valorile estimate de dreapta de regresie trebuiesc gândite ca medii ale

valorilor Y asociate cu un X particular. Altfel spus, dacă am dispune de eşantioane repetate, mediile valorilor Y (corespunzătoare valorii X) vor fi date de dreapta de regresie.

Dacă notăm cu y0 valoarea estimată corespunzătoare lui xo, adică y0 = a + b x0, atunci abaterea standard a lui y0 este

s(y0) = s ∑ −

−+

2

20

)()(1xx

xxn i

,

unde s este abaterea standard a estimaţiei. Se poate construi atunci, pentru un prag de semnificaţie fixat α, intervalul de

încredere pentru valoarea estimată: (y0-t1-α/2;n-2s(y0), y0+t1-α/2;n-2s(y0))

Atunci când valorile x0 sunt mai depărtate de media lui X, intervalul de încredere se măreşte, prognoza este însoţită de erori mai mari. Predicţiile pentru valorile Y vor fi mai precise în apropiereas mediei lui X.

Coeficientul de corelaţie (liniară) Analiza de regresie este, în esenţă, o metodă pentru a permite predicţii, adică

să estimăm o valoare a unei variabile Y atunci când dispunem de o valoare a variabilei asociate X. Totuşi, de multe ori în aplicaţii, cercetătorii nu sunt interesaţi sau nu cunosc care variabilă este independentă, care dependentă în sensul cerut de practică. Ei sunt însă interesaţi ssă ştie dacă două variabile sunt asociate şi gradul de asociere.

O asemenea măsură o furnizează coeficientul de corelaţie, notat r. Acesta are valori de la –1 la +1, o valoare nulă indică lipsa de asociere, +1 arată o asociere (corelaţie) pozitivă perfectă, o valoare de –1 arată o asociere negativă perfectă.

Coeficientul de corelaţie este definit prin

r = ( )( )∑∑∑

−−

−−22 )()(

))((

YyXx

YyXx

ii

ii ,

existând, evident, şi alte formule echivalente. Între cele două analize, de regresie şi de corelaţie, legătura este dată de

rezultatul: Dacă între Y şi X există o relaţie liniară perfectă, adică

Y = αX + β, atunci coeficientul de corelaţie este dat de ρ = αα

Page 68: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

egalitate ce arată că ρ = 1, dacă α>0 şi ρ = -1 dacă α<0. Rezultatul prezintă o bună concordanţă cu aprecierile intuitive efectuate la

începutul secţiunii despre asocieri pozitive, negative etc.

B. Instrumente Excel, SPSS

Excel Din uneltele Excel se prezintă doar cele care ţin de reprezentările grafice.

Componenta Regression (din Tools > Data Analysis) va fi prezentat în lucrarea StatWork_8. Ca rezultat se va obţine o diagramă de tipul următor (formatările sunt orientative).

Graficul funcţiei

y = 3,33x + 6,92R 2 = 0,73

-5

0

5

10

15

20

-4 -3 -2 -1 0 1 2 3 4

XY (scatter) (Diagrama de împrăştiere, diagrama X-Y, grafic de funcţie) O diagramă de împrăştiere reprezintă, într-un sistem ortogonal de axe de coor-

donate, punctele determinate de perechile de valori (Xi,Yji), i = 1,…,n, j = 1,…,k. Cu alte cuvinte, se reprezintă k serii de numere Yj, j = 1,…,k, fiecare valoare fiind considerată drept ordonata unui punct. Abscisele punctelor, Xi, i = 1,…,n, sunt date ca o serie separată, dar sunt aceleaşi pentru toate seriile Y.

Pentru a obţine un asemenea grafic, în primul pas al utilitarului Insert > Chart (activat şi din bara de unelte Standard), se alege tipul XY(Scatter). În figura alăturată sunt subtipurile disponibile de diagrame X-Y.

Desenele din coloana A diferă de cele din coloana B prin aceea că sunt marcate punctele reprezentate.

Desenele de pe linii diferă după modul de unire a punctelor care aparţin aceleeaşi serii de date. Linia a doua de desene uneşte punctele prin linii netezite (curbe), în timp ce desenele de pe ultima linie are punctele unite prin segmente.

Observaţie. Punctele sunt unite în ordinea în care apar în seria numerică. Prin urmare, dacă perechile de puncte nu sunt în ordinea crescătoare a absciselor (X), ceea ce se obţine la unirea punctelor este o linie haotică, fără nimic din graficul de funcţie la care ne aşteptăm. Pentru aceasta se vor sorta mai întâi datele în ordinea crescătoare a valorilor X.

Diagrame X-Y.

A B

Page 69: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Diagrama din primul subtip este utilizată pentru studiul asocierii dintre variabila X şi variabilaY. Dispunerea ascendentă sau descendentă a norului de puncte obţinut oferă informaţii asupra existenţei şi formei asocierii între variabile.

Interpretările reprezentărilor X-Y de forma puncte unite între ele sunt cele uzuale pentru graficele de funcţie: maxime, minime, ritm de creştere, ritm de descreştere, care serie are valori mai mari, cine depăşeşte pe cine etc.

Observaţie. Trebuie să se facă distincţie între diagramele de tip linie şi cele de tip X-Y. Se poate însă considera că, pentru valori numerice, diagramele de tip linie au o variabilă X implicită: seria 1,2,… sau o serie temporală.

Add Trendline… (meniul Chart) Permite figurarea pe grafic a trendului variabilei selectate. Există mai multe

tipuri de modele pentru calcularea tendinţei datelor, dar opţiunea nu este activă decât pentru anumite serii de date numerice. Opţiunea poate fi activată din meniul Chart (existent pe bara de meniuri doar dacă este selectată o diagramă) sau din meniul contextual asociat unei serii numerice. Dialogul iniţiat este organizat pe două fişe, reprezentate în figurile următoare.

Fişa Add Trendline Type permite selectarea modelului utilizat pentru determinarea tendinţei generale a seriei numerice. Sunt disponibile principalele modele utilizate în calculele economice sau tehnice.

Linear – modelul liniar (regresia simplă), y = a + bx. Polynomial – modelul polinomial de ordin 2, 3, 4, 5, sau 6,

y = a0 + a1x1 + a2x2 + … + akxk. Logarithmic – modelul logaritmic: y = a + b ln x. Exponential – modelul exponenţial: y = a ebx. Power – modelul putere: y = a xb. Moving Average – modelul de tip MA (medii glisante), în care se calculează o

serie nouă cu valori obţinute ca medie aritmetică a valorilor din seria iniţială: yn = (xn + xn-1 + … + xn-k+1)/k, unde k este ordinul modelului. Este modelul prin care se elimină influenţele pe termen foarte scurt sau scurt.

Pentru o alegere corectă se poate utiliza informaţia cunoscută din cercetări anterioare sau cea furnizată vizual de aspectul norului de puncte.

Zona Order este activă pentru modelul polinomial (stabileşte ordinul modelului, maxim 6), iar zona Period este activă pentru modelul Moving Average

Page 70: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

(stabileşte ordinul modelului – câte elemente contribuie la calculul mediei aritmetice).

În zona Based on series se indică seria (dintre cele reprezentate) pentru care se estimează prin metoda celor mai mici pătrate modelul selectat. Ca efect al procedurii de adăugare a liniei de trend, în grafic se va afişa, ca o

linie separată, seria ipotetică obţinută prin calcularea trendului. Această linie poate fi formatată ca orice alt obiect grafic (se selectează, se aplică meniul Format etc.).

Fişa Add Trendline Options este prezentată în figura următoare şi permite definirea altor atribute ale liniei de trend.

În grupul de opţiuni Trendline name se poate ataşa liniei o denumire proprie

(butonul radio Custom şi tastarea numelui în zona rezervată) sau se alege denumirea implicită (butonul radio Automatic).

În grupul de opţiuni Forecast se poate indica numărul de perioade (valori) pentru care se efectuează prognoze, atât în viitor (Forward), cât şi în trecut (Backward). Este suficient să se înscrie o valoare diferită de zero în zona contor alocată şi seria de trend se va extinde corespunzător.

Set intercept = – permite fixarea valorii termenului liber al modelului la o valoare cunoscută (opţiune utilă pentru anumite tipuri de regresii). Se va marca boxa de control şi se va trece valoarea termenului liber.

Display equation on chart – marcarea boxei de control are efectul trecerii pe grafic a ecuaţiei estimate.

Display R-squared value on chart – este utilă pentru afişarea coeficientului de determinare R2 (= pătratul coeficientului de corelaţie multiplă), interpretabil în analiza de regresie.

SPSS

Scatterplot Diagrama de împrăştiere (scatterplot după denumirea utilizată în SPSS)

presupune, uzual, că variabila dependentă este pe axa verticală (Oy) iar variabila independentă este pe axa orizontală.

Pentru a obţine o diagramă de împrăştiere se utilizează comanda Graphs > Scatter... Se va afişa dialogul:

Page 71: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Pentru diagrama de împrăştiere (relaţia dintre două variabile) se alege varianta

Simple. După acţionarea butonului Define se afişează dialogul de fixare a variabilelor şi a opţiunilor asociate.

Se va trece variabila dependentă în zona Y Axis şi variabila independentă în

zona X Axis. Se pot diferenţia (prin marcaje diferite) observaţiile care aparţin la diverse grupuri dacă se trece variabila care face diferenţa în zona Set Markers by. Titlurile se pot adăuga prin deschiderea dialogului Titles. Acţionarea butonului OK va produce trasarea graficului, obiect în fişierul de ieşire.

Abia după obţinerea diagramei se pot fixa alte atribute de formatare prin iniţierea editării diagramei. Prin urmare, dublu click pe diagrama va deschide fereastra de editare:

Page 72: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

În această fereastră, prin dublu click pe un element se deschid dialoguri specializate de formatare. Comanda Chart > Options conduce la afişarea dialogului:

În acest dialog, se pot marca casetele din grupul Fit Line, care vor produce

trasarea dreptelor de regresie pe total sau/şi pe grupuri.Opţiunile disponibile pentru trasarea dreptelor de regresie se găsesc în dialogul Fit Options:

Pentru trasarea dreptelor de regresie se va selecta opţiunea Linear regression şi

se poate cere includerea sau nu a constantei în regresie, afişarea coeficientului de determinare etc.

Dreapta de regresie Principalul dialog pentru estimarea unui model liniar se obţine prin Analyze –

Regression –Linear. In această lucrare se vor preciza doar acele elemente care sunt necesare pentru

estimarea dreptei de regresie (ecuaţia de regresie simplă). Lucrarea următoare va conţine explicaţiile complete ale dialogurilor SPSS implicate în estimarea şi analizarea modelului liniar.

Page 73: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

În Dependent se va transfera variabila dependentă. Variabila independentă (unică în cazul regresiei simple) se transferă în Independent(s), în zona Method se fixează ca metodă Enter.

Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile calculate. Unele opţiuni sunt selectate şi în mod implicit.

Estimates – coeficienţii estimaţi, Confidence intervals – intervalele de

încredere ale coeficienţilor, Model fit – calcularea statisticilor R, R2 şi a tabelului ANOVA, R squared change – modificărea coeficientului de determinare şi testarea semnificaţiei schimbării la adăugarea fiecărui bloc de variabile, Descriptive – statisticile esenţiale pentru fiecare variabilă, În zona Residuals se produce o analiza a reziduurilor pentru a putea decide asupra normalităţii acestora şi a diagnostica valorile aberante.

Dintre tabelele de rezultate sunt prezentate în continuare doar cele importante în cazul regresiei simple:

Tabelul Model Summary conţine informaţiile care privesc coeficientul de

corelaţie şi eroarea standard a estimaţiei. De remarcat coeficientul de determinare R2 care exprimă cât la sută din varianţa variabilei dependente este explicată de ecuaţia de regresie.

În tabelul ANOVA, informaţia importantă este statistica F cu ajutorul căreia se

testează semnificaţia globală a variabilelor independente (doar una în cazul regresiei simple, procedura capătă substanţă în cazul regresiei multiple). Pe coloana Sig. este afişată probabilitatea crritică a testului, astfel că dacă Sig < α se respinge ipoteza

Page 74: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

lipsei de semnificaţie a variabilelor independente în favoarea ipotezei că modelul regresional este unul semnificativ. Se mai spune că testul este un test de semnificaţie asupra lui R2.

Tabelul Coefficients conţine informaţiile privind coeficienţii: coloana B -

valoarea coeficientului, Std. Error - eroarea standard a coeficientului (abaterea standard în distribuţia de sondaj a coeficientului), Beta - valoarea coeficientului standardizat (arată cu câte abateri standard se modifică Y dacă X se modifică cu o abatere standard), t - statistica testului de semnificaţie a coeficientului, Sig. - probabilitatea critică a testului. Prin urmare, un coeficient este semnificativ (diferit de zero în ecuaţia de regresie) dacă Sig < α.

Pentru exemplul din tabel se poate scrie ecuaţia de regresie simplă Y = - 0.157 X + 39.855, toţi coeficienţii fiind semnificativi statistic.

C. Lucrarea practică 1. Există o anumită evidenţă că prevenirea atacurilor de inimă este ajutată de

un consum moderat de vin. În tabelul următor sunt prezentate date statistice din 1994 privind această problemă (consumul de alcool in litri/persoana, decesele sunt anuale/100000 locuitori). - Să se realizeze o diagramă de împrăştiere şi să se descrie forma relaţiei dintre cei

doi indicatori. - Există asociere între cei doi indicatori? - Să se calculeze coeficientul de corelaţie dintre cei doi indicatori.

Ţara Alcool din vin

Decese datorate afectiunilor cardiace

Australia 2.5 211Austria 3.9 167Belgia 2.9 131Canada 2.4 191Danemarca 2.9 220Finlanda 0.8 297Franta 9.1 71Islanda 0.8 211Irlanda 0.7 300Italia 7.9 107Olanda 1.8 167Noua Zeelanda 1.9 266Norvegia 0.8 227Spania 6.5 86Suedia 1.6 207Elvetia 5.8 115Marea Britanie 1.3 285

Page 75: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Ţara Alcool din vin

Decese datorate afectiunilor cardiace

SUA 1.2 199Germania 2.7 172

2. Următorul tabel conţine rezultatele dintr-o statistică oficială privind cheltuielile pentru băuturi alcoolice şi produse de tutun în 11 regiuni ale Marii Britanii. - Să se realizeze o diagramă de împrăştiere şi să se descrie forma relaţei dintre cei

doi indicatori. - Există asociere între cei doi indicatori? Să se calculeze coeficientul de corelaţie. - Să se recalculeze coeficientul de corelaţie doar pentru primele 10 regiuni şi să se

interpreteze rezultatul. regiunea alcool tutun North 6.47 4.03Yorkshire 6.13 3.76Northeast 6.19 3.77East Midlands 4.89 3.34West Midlands 5.63 3.47East Anglia 4.52 2.92Southeast 5.89 3.2Southwest 4.79 2.71Wales 5.27 3.53Scotland 6.08 4.51Northern Ireland 4.02 4.56

3. Un cercetător este interesant să specifice relaţia dintre indicele de inteligenţă (IQ) şi rezultatul la un examen (măsurat pe o scală cu 100 de puncte). Datele obţinute de la un număr de subiecţi sunt:

Student IQ Scor Student IQ Scor 1 110 42.5 7 127 70.5 2 112 53 8 130 60 3 118 46 9 132 81 4 119 61.75 10 134 70.5 5 122 70.5 11 136 77.5 6 125 56.5 12 138 88

- Să se studieze asocierea celor două variabile, IQ şi scor. - Cât din varianţa scorurilor poate fi atribuită variabilei IQ? - Să se estimeze şi să se valideze dreapta de regresie care aproximează IQ ca o

funcţie de scor, IQ = a × scor + b. - Să se estimeze şi să se valideze dreapta de regresie care aproximează scorul

ca o funcţie de IQ, scor = a’ × IQ + b’. - Ce relaţie este între cele două ecuaţii? - Se poate renunţa la examen în sensul că nota se poate obţine din ultima

ecuaţie estimată ştiind IQ-ul studentului? 4. Se va deschide în SPSS fişierul Catalog.sav din fişierele de test

(SPSS/Tutorial/Sample files/) sau prin descărcare din pagina cursului. Fişierul conţine date privind rezultatele unor campanii publicitare. Se va estima relaţia liniară (sau una care poate fi liniarizată) dintre variabilele men, women şi jewel ca variabile dependente şi variabilele mail, page, phone, print şi service ca variabile independente.

Page 76: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 8 — Regresia liniară multiplă - Excel, SPSS -

A. Noţiuni teoretice Regresia liniară, prin metoda celor mai mici pătrate, este metoda de modelare

cea mai des utilizată. Este metoda denumită “regresie”, “regresie liniară“, “regresie multiplă” sau “cele mai mici pătrate” atunci când se construieşte un model.

Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a evidenţia relaţia dintre o variabilă dependentă (explicată, endogenă, rezultativă) şi o mulţime de variabile independente (explicative, factoriale, exogene, predictori). Prin utilizarea regresiei multiple se încearcă, adesea, obţinerea răspunsului la una dintre întrebările: “care este cea mai bună predicţie pentru …?”, “cine este cel mai bun predictor pentru …?” .

De reţinut că metoda regresiei multiple este generalizată prin teoria “modelului liniar general”, în care se permit mai multe variabile dependente simultan şi, de asemenea, variabile factoriale care nu sunt independente liniar.

Clasa modelelor liniare poate fi exprimată prin y = x α + ε

unde • y este variabila dependentă (explicată, endogenă, rezultativă), • x este vectorul variabilelor independente (explicative, exogene), de

dimensiune 1×p, • α este vectorul coeficienţilor, de dimensiune p×1, parametrii modelului, • ε este o variabilă, interpretată ca eroare (perturbare, eroare de măsurare

etc.). Cu alte cuvinte,

y = α1x1+α2x2+…+αpxp+ε care exprimă relaţia liniară dintre y şi x.

Observaţii. 1. Liniaritatea relaţiei se referă la coeficienţi şi nu la variabile. Astfel, modelul

εααα +++=3

322211

1 y x

xx

este tot un model liniar. 2. Considerând că x1 este constant egală cu 1, se obţine un model liniar care

include un termen constant (termenul liber al modelului). 3. Pentru p = 2 şi x1 ≡ 1 se obţine modelul liniar simplu, dreapta de regresie. 4. Utilitatea principală a unui model liniar este aceea a predicţiei valorii lui y

din valorile cunoscute ale variabilelor x. Presupunem că avem un set de n observaţii efectuate asupra variabilelor

implicate în model. Prin urmare dispunem de (xi1, xi2, . . . . , xip, yi), i = 1, 2, . . . , n. Notând cu y vectorul de tip n×1 având drept componente valorile măsurate pentru variabila y, cu X matricea (xij)n×p a valorilor măsurate pentru variabilele x şi cu ε vectorul de tip n×1 având drept componente valorile erorilor, modelul se rescrie în relaţia matriceală:

y = Xα + ε

Page 77: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Ipoteze iniţiale. În tot ceea ce urmează se presupun îndeplinite ipotezele: 1. Matricea de experienţe, n observaţii pentru p variabile, este fixată: Xn×p nu

este stohastică. În plus, n >> p. 2. X este de rang p (coloanele sunt liniar independente – formează o bază a

unui spaţiu vectorial p-dimensional). 3. a. Vectorul de perturbaţii (n-dimensional) ε constă din n variabile

aleatoare independente cu media 0 şi aceeaşi dispersie: Exp(ε) = 0 Var(ε) = Exp(εε') = σ2In , unde σ2 este un parametru necunoscut,

sau, b. Vectorul ε este o v.a. n-dimensională normală

ε ~ N(0, σ2In ). De remarcat că ultima ipoteză, a normalităţii, este, mai degrabă, o ipoteză

simplificatoare decât una restrictivă, cum sunt primele două. Aceasta deoarece erorile se datorează, în general, în procesele studiate, acţiunilor simultane ale unor factori aleatorii, ceea ce prin teorema de limită centrală conduce la concluzia că ε, ca sumă a lor, tinde spre o repartiţie normală.

Problemele principale urmărite sunt: • estimarea coeficienţilor α, • calitatea estimării, • verificarea ipotezelor, • calitatea predicţiei, • alegerea modelului.

Estimaţia prin cele mai mici pătrate Numim estimaţie (ajustare) a modelului orice soluţie a, e a sistemului

y = Xa + e. Este de remarcat că sistemul conţine n ecuaţii şi p + n necunoscute, deci

admite o infinitate de soluţii. Numim estimaţie prin cele mai mici pătrate, acea soluţie a care minimizează

suma pătratelor erorilor ei, adică

∑∑==

+++−=n

iippiii

n

ii xaxaxaye

1

22211

1

2 )]([ K .

Cum ee′=∑ =

2

12

i ie este o funcţie de coeficienţii a, o condiţie necesară pentru atingerea maximului este

0)( =′∂∂ eea

.

Se obţine a = (X'X)-1X'y

şi se demonstrează că este îndeplinit criteriul de minim şi că este singura valoare cu această proprietate adică valorile determinate reprezintă estimaţia prin cele mai mici pătrate a coeficienţilor modelului liniar.

Ecuaţia y = a1x1 + a2x2 + … + apxp

se numeşte ecuaţia de regresie multiplă. Înlocuind în această relaţie valori pentru variabilele independente xi se obţine

valoarea prognozată pentru variabila dependentă y.

Page 78: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Interpretarea coeficienţilor Un coeficient ai are interpretarea: modificarea cu 1 a valorii variabilei xi

produce o modificare a valorii y cu ai unităţi. Deoarece scalele de măsură sunt, în general, diferite, interpretarea în acest sens a coeficienţilor poate deforma imaginea importanţei variabilelor independente în model. Din acest motiv se introduc coeficienţii de regresie standardizaţi definiţi drept coeficienţii de regresie estimaţi ai modelului:

pp xxxy ~~~~2211 βββ +++= K

în care nu există termen liber, iar variabilele y~ şi ix~ sunt variabilele standardizate,

prin standardizare înţelegându-se transformarea de tipul xsxxx −

=~ .

Coeficienţii de regresie standardizaţi au interpretarea: modificarea cu o abatere standard a valorii variabilei x produce o modificare cu βi abateri standard a valorii variabilei dependente. În acest fel, mărimea coeficienţilor standardizaţi reflectă importanţa variabilelor independente în predicţia lui y.

Distribuţia estimatorului Exp(a) = α Var(a) = σ2(X'X)-1.

Estimaţia dispersiei erorilor (σ2) Notând cu ŷ valoarea ajustată, dată de ecuaţia de regresie, pentru o realizare a

vectorului x, considerată la estimarea parametrilor, se obţine eroarea de ajustare, notată cu e:

ei = yi - ŷi, i = 1,…,n. Erorile de ajustare sunt denumite uzual reziduuri şi analiza lor este o parte

importantă studiului calitativ al ecuaţiei de regresie. Este evident că reziduurile constituie estimaţii ale erorilor ε. Se demonstrează că

pn

yys

n

iii

−=

∑=1

2

2)ˆ(

este o estimaţie nedeplasată a dispersiei necunoscute σ2. Este de notat că numitorul este egal cu numărul gradelor de libertate a sumei de la numărător (n observaţii din care am obţinut p estimaţii).

Precizia ajustării Reziduuri mici exprimă o ajustare mai bună a datelor experimentale, dar

stabilirea unui criteriu care să indice cât de mici trebuie să fie reziduurile pentru ca regresia să fie acceptată este o problemă dificilă.

Pentru a obţine o măsură a preciziei ajustării se pleacă de la identitatea )ˆ()(ˆ yyyyyy iiii −−−=−

care, prin reorganizarea termenilor, produce ).ˆ()ˆ( iiii yyyyyy −+−=−

Se poate demonstra că are loc identitatea: .)ˆ()ˆ()( 222 ∑∑∑ −+−=−

iii

ii

ii yyyyyy

Page 79: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Această relaţie arată că variaţia valorilor observate în jurul valorii medii se descompune într-un termen ce exprimă variaţia valorilor estimate în jurul mediei şi într-un termen datorat reziduurilor ajustării. Prin urmare, regresia estimată va fi cu atât mai bună cu cât ultimul termen va fi mai mic, sau cu cât variaţia valorilor estimate va fi mai apropiată de variaţia valorilor observate. Se alege drept indicator sintetic de precizie a ajustării raportul

2

2

2

)(

)ˆ(

∑∑

−=

ii

ii

yy

yyR .

Pentru o bună ajustare a ecuaţiei de regresie la datele experimentale, trebuie ca acest raport să fie apropiat de 1.

Cantitatea R2 se numeşte coeficientul de determinare şi, exprimat procentual, arată cât din varianţa variabilei dependente este explicată de ecuaţia estimată. Este un indicator de asociere având atributul PRE,

2

22

2

)(

)ˆ()(

∑∑−

−−−=

ii

iii

ii

yy

yyyyR

deci poate fi interpretat şi în următorul sens: cu cât se îmbunătăţeşte prognoza valorilor y prin considerarea modelului estimat.

Se arată că R2 creşte prin includerea mai multor variabile în model, astfel încât are loc o supraestimare în cazul modelelor extinse. O soluţie propusă este ajustarea coeficientului de determinare prin

).1(1 222 Rpn

pRR −−−

−=

Coeficientul de corelaţie multiplă Ca măsură a asocierii dintre y şi ansamblul variabilelor x se introduce

coeficientul de corelaţie multiplă, notat cu R. Poate fi definit drept coeficientul maxim de corelaţie simplă (Pearson) dintre y şi o combinaţie liniară de variabile x. Astfel se explică faptul că valoarea calculată a lui R este întotdeauna pozitivă şi tinde să crească o dată cu mărirea numărului de variabile independente.

Metoda celor mai mici pătrate poate fi astfel gândită ca o metodă care maximizează corelaţia dintre valorile observate şi valorile estimate (acestea reprezentând o combinaţie liniară de variabile x). O valoare R apropiată de 0 denotă o regresie nesemnificativă, valorile prognozate de regresie nefiind mai bune decât cele obţinute printr-o ghicire aleatorie (sau bazate doar pe distribuţia lui y).

Deoarece R tinde să supraestimeze asocierea dintre y şi x, se preferă indicatorul definit anterior, coeficientul de determinare, R2, care este pătratul coeficientului de corelaţie multiplă.

Testarea ipotezelor Notăm

∑∑∑ −=−=−=i

iirezi

iregi

ig yySPyySPyySP 222 )ˆ( ,)ˆ( ,)(

cele trei sume de pătrate care apar în identitatea introdusă la definirea coeficientului de determinare. Sumele sunt referite ca suma pătratelor globală (SPg), suma pătratelor datorate regresiei (SPreg) şi suma pătratelor reziduale (SPrez). Fiecare sumă de pătrate

Page 80: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

are ataşat un număr de grade de libertate: νg = n-1, νreg = p-1, νrez = n-p şi se poate realiza un tabel al analizei dispersionale (ANOVA) sub forma

Sursa de variaţie

Suma de pătrate

Grade de libertate

Media pătrată F

Regresie SPreg νreg SPreg / νreg = s2reg F = s2

reg / s2 Reziduală SPrez νrez SPrez / νrez = s2 Globală SPg νg SPg / νg

Testul F de semnificaţie globală Primul test utilizat în analiza regresiei este un test global de semnificaţie a

ansamblului coeficienţilor (exceptând termenul liber, dacă acesta apare). Ipotezele testului sunt

H0: α1 = α2 = … = αp = 0 H1: (∃)i, astfel încât αi ≠ 0.

În condiţiile ipotezei nule, se demonstrează că statistica F, calculată în tabelul ANOVA, este repartizată Fisher-Snedecor Fp-1;n-p, încât se poate verifica ipoteza nulă.

Nerespingerea ipotezei nule duce la concluzia că datele observate nu permit identificarea unui model liniar valid, deci regresia nu este adecvată în scopul de prognoză, propus iniţial.

Teste t În situaţia când este respinsă ipoteza nulă, se acceptă că ecuaţia de regresie

este semnificativă la nivel global, cu menţiunea că s-ar putea ca anumiţi coeficienţi să nu fie semnificativi. Pentru testarea fiecărui coeficient se utilizează un test t cu ipotezele:

H0: αi = 0 H1: αi ≠ 0.

În condiţiile ipotezei H0 se arată că statistica )( i

ii as

at = este repartizată Student

cu n – p grade de libertate, ceea ce permite utilizarea testului t. În expresia care dă statistica testului, s(ai) este abaterea standard estimată a coeficientului, dată ca rădăcina pătrată din elementul corespunzător de pe diagonala principală a matricei s2(X’X)-1.

Nerespingerea ipotezei nule arată că datele experimentale nu permit stabilirea necesităţii prezenţei variabilei xi în model, variabila este nesemnificativă în model.

Intervale de încredere Apar de interes două tipuri de intervale de încredere: pentru parametrii

modelului, αi, şi pentru valorile prognozate cu ajutorul modelului estimat.

Parametrii modelului O regiune de încredere, la nivelul δ, pentru ansamblul parametrilor este dată

de (α – a)’X’X(α – a) ≤ ps2F1-δ,p,n-p Utilizând repartiţia statisticilor ti, definite la testarea semnificaţiei

parametrilor, se demonstrează că intervalul de încredere pentru parametrul αi, i = 1, 2, …, p, este dat la pragul de încredere α, de relaţia

ai – t1-α/2;n-ps(ai) ≤ α1 ≤ ai + t1-α/2;n-ps(ai) .

Page 81: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Valorile prognozate Utilitatea principală a modelului liniar este prognozarea valorilor variabilei

dependente. Valoarea prognozată este evident o statistică pentru că se obţine prin modelul estimat (din datele experimentale). Se poate atunci vorbi de repartiţia de sondaj a valorii prognozate, repartiţie care stă la baza determinării intervalelor de încredere pentru valorile prognozate.

În estimarea intervalului de încredere pentru o valoare y0= x0α + ε0, se distinge între situaţiile în care observaţia x0 a fost, sau nu, utilizată la estimarea coeficienţilor (cu alte cuvinte, dacă matricea X conţine sau nu linia x0).

În primul caz, intervalul de încredere pentru valoarea estimată este ŷ0 – t1-α/2;n-ps 0

10 )( xXXx ′′ − ≤ y0 ≤ ŷ0 + t1-α/2;n-ps 0

10 )( xXXx ′′ −

unde ŷ0 = x0a, este valoarea prognozată de ecuaţia de regresie. În al doilea caz, intervalul de încredere este ŷ0 – t1-α/2;n-ps 1)( 0

10 +′′ − xXXx ≤ y0 ≤ ŷ0 + t1-α/2;n-ps 1)( 0

10 +′′ − xXXx .

În cazul regresiei simple (dreapta de regresie), ultimul interval de încredere are forma

ŷ0 – t1-α/2;n-ps ∑ −−

+ 2

20

)()(1xx

xxn i

≤ y0 ≤ ŷ0 + t1-α/2;n-ps ∑ −−

+ 2

20

)()(1xx

xxn i

,

de unde se obţine concluzia că valorile prognozate au intervale de încredere, la acelaşi prag de încredere, mai mari pe măsură ce valoarea x0 este mai depărtată de media x . De aici apare recomandarea ca un model liniar să nu fie utilizat pentru prognoză în cazul în care variabilele independente au valori depărtate de centrul datelor considerate la estimarea modelului (de exemplu, estimarea trendului ratei de schimb valutar din datele unei săptămâni nu poate fi utilizată pentru a prognoza rata de schimb de peste un an). În cazul unui sistem dinamic (valorile sunt produse/evaluate în timp), prognoza se va realiza doar pentru câteva momente de timp, după care are loc o nouă estimare a modelului etc.

Analiza reziduurilor Analiza statistică a ecuaţiei de regresie este bazată pe ipotezele Gauss-Markov

asupra erorilor ε ~ N(0, σ2In ). Valabilitatea acestor ipoteze, în special cea a normalităţii erorilor, poate fi testată prin analiza reziduurilor. Ca şi în cazul testelor statistice, concluziile analizei sunt de genul: ipoteza normalităţii se respinge sau ipoteza normalităţii nu se respinge. Analiza reziduurilor este, în esenţă, de natură grafică.

Calculul estimaţiilor erorilor produce e = Yobs-Yest = Yobs – Xa = Yobs – X(X’X)-1X’Yobs = (1 – X(X’X)-1X’)Yobs Notând Z = X(X’X)-1X’ = (zij), rezultă că, în cazul îndeplinirii ipotezelor

Gauss-Markov, dispersia reziduului ei este egală cu (1-zii) σ2 unde zii sunt elementele de pe diagonala principală a matricei Z, cu estimaţia s2(ei) = (1-zii)s2. Reamintim că media reziduurilor este egală cu zero.

Ipotezele de repartiţie a erorilor sunt reflectate în repartiţia reziduurilor (estimaţii ale erorilor). Se analizează histograma reziduurilor sau diagrame ale reziduurilor în raport de valorile estimate, de variabilele independente. Diagramele construite în continuare pun în evidenţă eventualele abateri de la repartiţiile presupuse pentru erori, abateri ce vor exprima deviaţiile de la ipotezele de repartiţie a erorilor.

Page 82: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Diagrama reziduurilor Deoarece ))1(;0(~ 2σiii zNe − , rezultă că mărimile di, i = 1,…,n, date de

ii

ii zs

ed−

=1

sunt repartizate N(0;1). Din acest motiv, mărimile di sunt denumite reziduuri normalizate.

Observaţie. În practică, se neglijează uneori radicalul de la numitor. Histograma mărimilor di trebuie să reflecte o repartiţie normală standard.

Atunci când n este relativ mic, histograma va prezenta, în general, mari neregularităţi faţă de situaţia care ar permite aproximarea cu o curbă normală. Decizia referitoare la provenienţa, sau neprovenienţa, dintr-o repartiţie normală se poate lua în acest caz, de exemplu, în urma comparaţiei cu histograme obţinute pentru eşantioane de acelaşi volum n generate aleatoriu dintr-o repartiţie normală standard.

Diagrama reziduuri – valori estimate Considerând punctele de coordonate (ŷi,di), i = 1,…,n, reprezentate într-un

sistem de axe rectangulare, sunt posibile 4 situaţii caracteristice, sau combinaţii ale lor, de regiuni ocupate de punctele considerate.

Cazul a) nu arată nici o abatere de la normalitate şi nici o violare a ipotezei că

erorile au aceeaşi dispersie constantă. În cazul b), se constată o creştere a dispersiei, deci este invalidată ipoteza

constanţei dispersiei erorilor. Practic, în această situaţie se consideră că modelul nu conţine o variabilă esenţială, cum ar fi timpul, sau că metoda de calcul adecvată este metoda celor mai mici pătrate ponderate. În anumite situaţii reale, situaţia poate fi rezolvată şi printr-o transformare prealabilă a datelor (de exemplu, prin logaritmare).

Cazul c) arată practic o eroare de calcul, deoarece este ca şi cum nu s-ar fi reuşit explicarea unei componente liniare a variaţiei variabilei dependente.

Cazul al patrulea, d), arată că modelul nu este adecvat datelor observate. Se încearcă un nou model care să includă variabile de ordin superior, de genul x2, care să preia variaţia curbilinie, sau se transformă în prealabil variabila y.

Observaţie. Indiferent de forma regiunilor, punctele foarte depărtate de celelalte oferă informaţii despre observaţiile aberante. Regula uzuală este aceea ca orice observaţie pentru care |di| > 3 să fie considerată o observaţie aberantă. Practic, în acest caz, observaţiile aberante se vor exclude din setul de date sau, dacă observaţiile

a) b)

d)c)

Page 83: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

sunt totuşi de interes, se va încerca obţinerea unor determinări suplimentare în regiunea de interes. În ambele situaţii se va reface calculul regresiei.

Diagrama reziduuri – variabilă independentă Se vor reprezenta grafic punctele de coordonate (xji,di), i = 1,…,n, pentru

fiecare variabilă independentă xj. Cele patru situaţii grafice possibile se interpretează similar, cu observaţia că

situaţia d) impune introducerea în model a variabilei xj ridicată la o putere.

Multicoliniaritatea Situaţia descrisă drept multicoliniaritate apare atunci când un grup de variabile

independente sunt puternic corelate între ele. În acest caz, prin includerea în model a unei variabile din grup, restul variabilelor din grup nu mai aduc o informaţie semnificativă. Simultan are loc o supraevaluare a coeficientului de determinare, ca şi a dispersiilor coeficienţilor estimaţi, ceea ce poate denatura interpretarea modelului şi, în plus, produce mărirea intervalelor de încredere.

Apar astfel două probleme: determinarea multicoliniarităţii şi cum trebuie procedat în cazul existenţei multicoliniarităţii.

Detectarea multicoliniarităţii Cea mai simplă metodă de detectare a multicoliniarităţii este bazată pe studiul

matricei de corelaţie dintre variabilele x. Se pot determina astfel perechile de variabile independente care sunt puternic corelate între ele. O structură mai complexă a intercorelaţiilor poate fi detectată prin calcularea determinantului acestei matrice de corelaţie. O valoare apropiată de zero a determinantului reflectă o puternică corelaţie între anumite variabile, deci existenţa multicoliniarităţii.

O altă abordare a problemei este aceea a stabilirii unui indicator sintetic pentru a decide dacă o variabilă este coliniară cu celelalte (sau cu un grup dintre celelalte). Notând cu 2

iR coeficientul de determinare obţinut la estimarea regresiei multiple având ca variabilă dependentă pe xi şi ca variabile independente restul variabilelor x, adică

),,,,,,( 1121 piii xxxxxfx KK +−= se introduce toleranţa variabilei xi prin

21 ii R−=τ . O valoare mică a lui τi (uzual mai mică decât 0,1) reflectă un coeficient 2

iR apropiat de 1, deci o legătură liniară puternică între xi şi restul variabilelor independente. Prin urmare xi este coliniară cu celelalte variabile independente.

Se defineşte factorul de inflaţie a varianţei, notat VIF, inversul toleranţei:

iiVIF

τ1

= .

Denumirea provine din aceea că un asemenea factor apare multiplicativ în definirea varianţei coeficienţilor estimaţi (se poate spune că se măsoară de câte ori este supraevaluată varianţa coeficienţilor datorită multicoliniarităţii în raport cu situaţia când nu ar exista coliniaritate). Interpretarea este dedusă din cea a toleranţei: o valoare VIF mare (uzual mai mare decât 10), denotă coliniaritate.

Page 84: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Eliminarea multicoliniarităţii O rezolvare comună a problemei multicoliniarităţii este aceea ca dintre două

variabile independente corelate să se reţină în model doar una. Prin interpretarea toleranţelor sau a factorilor de inflaţie se vor exclude din

model acele variabile care au toleranţe mici (sau factori de inflaţie mari).

Cea mai bună regresie Procesul de selectare a celei mai bune regresii are loc în contextul în care

există o variabilă dependentă y şi o mulţime de variabile independente posibile x. Problema poate fi formulată:

Care este acea submulţime minimală de variabile independente care permite estimarea unui model liniar semnificativ şi adecvat valorilor observate y?

Etapele selectării celei mai bune regresii 1. Se identifică toate variabilele independente posibile (cu alte cuvinte se

specifică modelul maxim). 2. Se specifică criteriul de selectare a celei mai bune regresii. 3. Se specifică o strategie pentru selectarea variabilelor independente. 4. Se realizează estimarea şi analiza modelului. 5. Se evaluează reliabilitatea modelului ales.

Strategii de selectare a celui mai bun model

Metoda tuturor regresiilor posibile Se estimează toate regresiile posibile. Se reţin valorile coeficienţilor de determinare; gruparea este după cardinalul

mulţimii de predictori. Variabile independente R2

x1, x2 … … x1,x2, x1,x3, …, xn-1,xn … … … x1,x2,…,xn …

Se analizează valorile R2 şi se reţine acea submulţime de variabile pentru care se realizează compromisul acceptabil între numărul de variabile şi mărimea coeficientului de determinare.

Selecţia prospectivă Procedura începe prin includerea în model a variabilei independente având cel

mai mare coeficient de corelaţie cu variabila y. La fiecare pas următor, se analizează fiecare dintre variabilele neincluse încă în model printr-un test F secvenţial şi se extinde modelul prin includerea acelei variabile care aduce o contribuţie maximă (probabilitatea critică din testul F este cea mai mică). Procesul se opreşte atunci când modelul nu mai poate fi extins, criteriul uzual fiind acela al fixării un prag de intrare (PIN) şi acceptând doar variabilele pentru care probabilitatea critică în testul F secvenţial este mai mică sau egală cu acest prag.

Procedura are ca limitări faptul că anumite variabile nu vor fi incluse în model niciodată, deci importanţa lor nu va fi determinată. Pe de altă parte, o variabilă inclusă

Page 85: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

la un anumit pas rămâne permanent în model, chiar dacă, prin includerea ulterioară a altor variabile, importanţa ei poate să scadă.

Selecţia retrogradă Se începe cu estimarea modelului complet şi apoi, într-un număr de paşi

succesivi, se elimină din model variabilele nesemnificative. La fiecare pas, pe baza unui test F parţial, se elimină acea variabilă care are cea mai mare probabilitate critică. Procesul se opreşte atunci când nici o variabilă nu mai poate fi eliminată. Criteriul uzual este acela de fixare a unui prag de eliminare (POUT) şi considerarea doar a variabilelor care au probabilitatea critică mai mare decât acest prag.

Selecţia pas cu pas Procedura pas cu pas (stepwise regression) este o combinaţie a celor două

metode descrise anterior. La un pas ulterior al regresiei prospective se permite eliminarea unei variabile, ca în regresia retrogradă. O variabilă eliminată din model devine candidată pentru includerea în model, iar o variabilă inclusă în model devine candidată la excludere. Pentru ca procesul să nu intre într-un ciclu infinit, trebuie ca PIN ≤ POUT.

B. Instrumente Excel, SPSS

Excel

REGRESSION Estimarea coeficienţilor unui model liniar prin metoda celor mai mici pătrate

şi calculul statisticilor necesare testelor statistice asociate sunt efectuate de procedura Regression, una dintre cele mai complexe din pachetul de prelucrări statistice din Excel. Procedura permite şi construirea graficelor necesare pentru aprecierea vizuală a potrivirii modelului liniar. Deşi acestea, din motive evidente, necesită prelucrări suplimentare de scalare înainte de interpretare, existenţa lor este un real ajutor pentru statistician.

Termeni Modelul liniar estimat de procedură

este

Y = α0X0 + α1X1 + α2X2 + … + αp-1Xp-1 + ε,

care exprimă faptul că variabila Y se poate obţine ca o combinaţie liniară a variabilelor X0, X1,…, Xp-1 la care se adaugă o "eroare" ε.

Pentru estimarea parametrilor modelului se consideră disponibile n observaţii asupra tuturor variabilelor din model. Valorile sunt structurate ca un tablou dreptunghiular, fiecare variabilă ocupând o coloană (deci o linie este referită drept o observaţie).

Dialogul procedurii Regression este prezentat în figura următoare.

Page 86: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Input Input Y Range – se precizează domeniul (coloana) pe care se află valorile variabilei depen-

dente. Input X Range – se precizează domeniul pe care se află valorile tuturor variabilelor

independente. Acest domeniu trebuie să fie compact, fiecare variabilă Xi ocupând o coloană.

Labels – se marchează boxa de control în cazul în care prima linie din tabloul de date este cu denumirile variabilelor (situaţie recomandată).

Constant Is Zero – se marchează boxa de control dacă modelul care se estimează este fără termen liber.

Confidence Level – se precizează, procentual, siguranţa statistică dorită în raportarea intervalelor de încredere deci valoarea (1–α)×100, unde α este pragul de semnificaţie. Intervalele obţinute sunt suplimentare, întotdeauna afişându-se cele pentru α = 0,05. Boxa se va marca doar dacă se doreşte şi un alt prag de semnificaţie.

Output options Output Range, New Worksheet Ply, New Workbook – Precizează zona unde se vor înscrie

rezultatele. Zona de rezultate este foarte complexă, cuprinde tabele care depind de mărimea modelului, de numărul de observaţii, de numărul graficelor dorite etc. Prin urmare se va prefera o foaie de calcul nouă sau o zonă liberă în dreapta şi în jos.

Residuals Residuals – se marchează boxa de control în cazul când se doreşte calcularea reziduurilor

modelului estimat. Residual Plots – se marchează boxa de control în cazul când se doreşte obţinerea diagramelor

reziduuri – variabilă independentă, adică vizualizarea punctelor de coordonate (xij, rj), j = 1,…n, având ca abscisă o valoare a variabilei independente Xi, iar ca ordonată reziduul corespunzător.

Standardized Residuals – această boxă de control se va marca dacă se doreşte calculul valorilor standardizate ale reziduurilor. Valorile astfel obţinute provin, teoretic, dintr-o distribuţie normală standard, astfel încât o histogramă a acestor valori trebuie să se apropie de curba normală (clopotul lui Gauss).

Line Fit Plots – se marchează această boxă de control dacă se doreşte afişarea diagramelor Y – variabilă independentă, prin care se vizualizează, pe un acelaşi grafic, punctele de coordonate (xij, yobs,i), (xij, yest,i), j = 1,…,n, unde abscisele sunt valorile variabilei independente, iar ordonatele sunt valorile observate şi cele estimate ale variabilei dependente. Este desenat câte un grafic pentru fiecare variabilă independentă. Interpretarea acestor diagrame poate oferi indicaţii asupra adecvanţei modelului, asupra valorilor aberante.

Normal Probabil i ty Normal Probability Plots – se marchează dacă se doreşte vizualizarea repartiţiei de sondaj a

variabilei Y într-o reţea de probabilitate. Exemplu Un set de date cuprinde 25 de observaţii asupra a 4 variabile, notate Y (considerată

variabila dependentă) şi X1, X2, X3 (considerate variabile independente). Valorile şi denumirile ocupă în foaia de calcul un domeniu dreptunghiular continuu, B2:E27, valorile Y ocupând prima coloană.

Pentru a estima modelul liniar

Y = α0 + α1X1 + α2X2 + α3X3 + ε,

cu termen constant, se apelează procedura Regression.

Page 87: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

a) Un prim tabel de rezultate, prezentat în figura alăturată, conţine statisticile generale ale ecuaţiei de regresie. Multiple R – coeficientul multiplu de corelaţie. R Square – coeficientul de determinare (este egal cu pătratul

coeficientului de corelaţie multiplă). Poate fi gândit, exprimat procentual, drept proporţia din variaţia variabilei dependente explicată de variaţia variabilelor independente: 60,7% din variaţia lui Y este explicată de variabilele X.

Adjusted R Square – valoarea corectată a coeficientului de determinare. Este introdusă pentru a contracara (parţial) efectul creşterii mecanice a lui R2 o dată cu numărul variabilelor independente. Standard Error – eroarea standard a estimaţiei. Se calculează ca abaterea standard a reziduurilor (pentru numărul gradelor de libertate utilizat se va vedea tabloul ANOVA, în continuare) şi este estimaţia abaterii standard a erorilor ε (în ipoteza normalităţii acestora).

Observations – numărul de observaţii din eşantion.

b) Al doilea tabel de rezultate cuprinde tabloul de analiză a varianţei asociat regresiei estimate.

Coloanele acestui tablou au semnificaţiile uzuale într-un tablou ANOVA: Sursa de variaţie – arată descompunerea variaţiei totale în variaţia explicată de regresie şi cea

reziduală (neexplicată). df – numărul gradelor de libertate: 3 = p – 1, 21 = n – p, 24 = n – 1, unde p = 4 este numărul

parametrilor modelului (trei variabile X plus termenul liber) iar n = 25 este numărul de observaţii.

SS – sumele de pătrate potrivit descompunerii Suma globală de pătrate

=Suma de pătrate datorată regresiei

+ Suma de pătrate

reziduală MS – media sumelor de pătrate: SS împărţită la numărul respectiv de grade de libertate.

Valoarea de pe linia a doua (Residual) este estimaţia dispersiei pentru repartiţia erorilor şi este pătratul erorii standard a estimaţiei.

F – valoarea statisticii F pentru testul caracterizat de H0 : α1 = α2 = α3 = 0 H1 : există cel puţin un coeficient αi diferit de zero.

Acest test se referă la ansamblul variabilelor independente (este de remarcat că H0 nu se extinde şi asupra termenului liber). Datorită înţelesului ipotezei nule, se consideră că prin acest test se verifică semnificaţia întregii regresii.

Significance F – este probabilitatea critică unilaterală. Dacă valoarea afişată este mai mică decât pragul de semnificaţie fixat, atunci se respinge ipoteza nulă în favoarea ipotezei alternative.

c) Al treilea tablou de rezultate conţine valorile estimate pentru coeficienţii modelului, precum şi statisticile necesare verificării ipotezelor uzuale asupra coeficienţilor. De remarcat că, spre deosebire de testul F, testele asupra coeficienţilor sunt individuale.

Page 88: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Liniile tabelului se referă la variabilele din model, incluzând şi termenul liber. Coloanele tabelului sunt următoarele:

(prima coloană) – sunt afişate denumirile existente în tabloul de date sau create automat pentru variabilele independente implicate. Intercept este denumirea pentru termenul liber (constant) al modelului.

Coefficients – conţine valorile estimate ale coeficienţilor. Din valorile afişate rezultă că modelul estimat în exemplu este

Y = 11,718 – 1,443*X1 + 3,135*X2 – 0,324*X3. În ipotezele distribuţionale ale modelului liniar, valorile calculate ale coeficienţilor provin din repartiţii normale, fiind astfel posibile verificări statistice ale coeficienţilor.

Standard Error – eroarea standard a coeficientului (abaterea standard a repartiţiei coeficientului).

t Stat – statistica t pentru verificarea ipotezei H0 : αi = 0 contra ipotezei alternative H1 : αi ≠ 0. În condiţiile ipotezei nule se demonstrează că raportul dintre coeficient şi eroarea standard a coeficientului urmează o repartiţie Student cu (n – p) grade de libertate. Acest raport este tocmai valoarea raportată drept t Stat. Adică 2,161 = 11,718/5,421 etc. Utilizarea statisticii este cea uzuală.

P-value – probabilitatea critică bilaterală a testului t cu ipotezele precizate la t Stat. Pentru pragul de semnificaţie α = 0,05 se poate respinge ipoteza de nulitate a termenului liber (0,042 < 0,05) şi a coeficienţilor α1 şi α2 (0,002 şi 0,000 sunt mai mici decât 0,05). Nu se poate respinge ipoteza nulă privind coeficientul α3 (0,069 > 0,05).

Lower 95%, Upper 95% – limitele inferioară şi superioară ale intervalului de încredere pentru parametrul respectiv. Limitele la pragul 0,05 sunt calculate automat, indiferent de iniţializarea procedurii Regression. Se poate deci interpreta că, în populaţie, parametrii modelului liniar sunt cuprinşi în intervalele următoare: 0,444 < α0 < 22,992 −2,271 < α1 < −0,615 ... Se poate observa că ultimul interval cuprinde şi valoarea zero, prin urmare se regăseşte concluzia privind nerespingerea ipotezei nule H0 : α3 = 0.

d) Studiul reziduurilor se poate face pe baza datelor raportate în tabelul alocat reziduurilor, tabel având structura următoare:

Pentru fiecare observaţie (linie din tabelul de date iniţial) se afişează:

Observation – numărul de ordine al observaţiei.

Page 89: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Predicted y – valoarea y prognozată pentru observaţia respectivă; se obţine înlocuind valorile X ale observaţiei în modelul estimat.

Residuals – valoarea erorii de predicţie (diferenţa dintre valoarea observată şi valoarea prognozată). Standard Reziduals – valoarea standardizată a erorii. Este obţinută prin împărţirea reziduului la abaterea standard a reziduurilor (rezultatul nu este susţinut absolut riguros de teorie).

e) Analiza calităţii modelului este facilitată şi de graficele construite automat de procedura Regression. Sunt produse două tipuri de diagrame:

– diagrame reziduuri vs. variabile independente şi – diagrame variabila dependentă vs. variabile independente.

Graficele necesită, de obicei, prelucrări suplimentare pentru a fi interpretate sau raportate.

În figură se dă un exemplu de diagramă reziduuri – variabilă independentă X.

Punctele din figură se pot considera într-o regiune de tip bandă orizontală ceea ce nu contrazice ipotezele de normalitate a erorilor. Forma de bandă uniformă reflectă constanţa dispersiei reziduurilor pentru tot domeniul variabilei independente X1. Alte forme de distribuire a reziduurilor duc la concluzii importante pentru adecvanţa modelului în privinţa variabilei independente implicate:

Forma regiunii Interpretare Situaţia "bună". Nu se contrazic

ipotezele de normalitate făcute asupra erorilor.

Dispersia erorilor nu este constantă (se modifică după valorile X). Se poate ca din model să fie omisă o variabilă de gen "Timp".

Modelul liniar nu este adecvat în privinţa variabilei independente respective. Se poate încerca un introducerea unui termen pătratic.

Situaţia poate să apară în urma unei erori de calcul. Practic ar însemna că nu s-a considerat componenta liniară, adică scopul modelului nu a fost atins.

În mod asemănător se pot interpreta diagramele Y – X.

Diagrama reziduuri – variabilă

Reg

iune

a re

zidu

urilo

r

Page 90: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

SPSS

Dreapta de regresie Principalul dialog pentru estimarea unui model liniar se obţine prin Analyze –

Regression –Linear. În Dependent se va transfera

variabila dependentă. Variabilele independente, Independent(s), pot fi grupate pe blocuri: 1. se transferă variabilele dorite, 2. se precizează în Method modul de introducere a acestor variabile în regresie (Enter – toate simultan, Forward, Backward, Stepwise – metodele discutate la alegerea celei mai bune regresii), 3. se defineşte un nou bloc prin Next.

Se pot selecta observaţiile precizând în Selection Variable variabila şi, prin Rule, regula de selectare a cazurilor în funcţie de

valorile variabilei de selecţie. În Case Labels se poate preciza variabila care identifică cazurile, etichetele

fiind considerate la reprezentările grafice. Prin WLS Weight se poate preciza variabila de ponderare pentru metoda celor mai mici pătrate ponderate (nediscutată în curs).

Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile calculate. Unele opţiuni sunt selectate şi în mod implicit.

Estimates – coeficienţii estimaţi, Confidence intervals – intervalele de încredere ale coeficienţilor, Model fit – calcularea statisticilor R, R2 şi a tabelului ANOVA, R squared change – modificărea coeficientului de determinare şi testarea semnificaţiei schimbării la adăugarea fiecărui bloc de variabile, Descriptive – statisticile esenţiale pentru fiecare variabilă,

Collinearity diagnostics – calcularea toleranţelor, a statisticilor VIF şi studiul multicoliniarităţii prin analiza în componente principale (a se vedea capitolul următor al cursului). În zona Residuals se produce o analiza a reziduurilor pentru a putea decide asupra normalităţii acestora şi a diagnostica valorile aberante.

Prin Plots se afişează dialogul sinonim în care se pot indica reprezentările grafice dorite.

În lista variabilelor disponibile pentru diagrame se află DEPENDNT – variabila dependentă – şi variabile derivate din regresie cum ar fi valorile prognozate standardizate (*ZPRED), reziduurile standardizate (*ZRESID).

Diagramele indicate în Standardized Residual Plots sunt utile pentru verificarea normalităţii reziduurilor.

Page 91: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Dialogul Save permite calcularea şi salvarea ca variabile noi a valorilor prognozate şi a reziduurilor sub diferite forme, precum şi salvarea altor statistici de interes. Predicted Values – valorile prognozate prin model pentru fiecare caz: Unstandardized, Standardized pentru valorile nestandardizate şi standardizate, Adjusted valoarea prognozată pentru un caz din ecuaţia de regresie estimată fără a considera acel caz, S.E. of mean predictions abaterile standard ale valorilor prognozate, utile pentru calcularea intervalelor de încredere ale acestor valori.

Distances – distanţele cazurilor de la punctul mediu, pentru identificarea valorilor aberante: Mahalanobis este distanţa explicată în capitolul privind clasificarea, Cook's este măsura a cât de mult se modifică reziduurile dacă se elimină cazul respectiv din estimarea modelului (o valoare mare arată o influenţă considerabilă a cazului în estimarea coeficienţilor), Leverage values măsoară influenţa cazurilor în estimare.

Prediction Intervals sunt intervalele de incredere pentru valorile estimate, la nivelul de încredere precizat în Confidence Interval. Sunt generate două variabile.

Residuals – reziduurile estimării în diferite forme: standardizate, nestandardizate, studentizate (reziduul este împărţit la estimaţia abaterii sale standard, proprie fiecărui caz). Deleted, Studentized deleted se referă la reziduurile obţinute din modelul la estimarea căruia cazul respectiv a fost exclus.

Influence Statistics sunt modificările în coeficienţi (inclusiv cei standardizaţi), DfBeta(s) şi Standardized DfBeta, şi în valorile prognozate, DfFit şi Standardized DfFit, rezultate după excluderea cazului din estimare.

În sfârşit, prin butonul Options se deschide dialogul sinonim în care se pot fixa parametri ai estimării: pragurile de intrare şi excludere la metodele pas cu pas precum şi modul de tratare a valorilor lipsă dintr-o variabilă implicată.

C. Lucrarea practică 1. Legea lui Ohm, I = V/R, afirmă că intensitatea curentului, I, este

proporţională cu tensiunea, V, şi invers proporţională cu rezistenţa, R. Elevii dintr-un laborator de fizică efectuează experimente bazate pe legea lui Ohm: variază tensiunea, măsoară intensitatea curentului şi determină în final rezistenţa firului. Se obţin rezultatele:

V 0,50 1,00 1,50 1,80 2,00I 0,52 1,19 1,62 2,00 2,40

Deoarece legea lui Ohm poate fi rescrisă sub forma unei regresii liniare, I = α+βV, unde α= 0 şi β=1/R, să se estimeze, pe baza datelor experimentale, coeficienţii α şi β.

Page 92: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

– Să se obţină intervalul de încredere, la pragul de semnificaţie de 5%, pentru coeficientul β. Să se deducă intervalul de încredere pentru rezistenţa firului.

– Să se verifice ipoteza α = 0.

2. O familie înregistrează consumul de gaz necesar încălzirii locuinţei. Consumul (în mc) este raportat în tabelul următor, împreună cu diferenţa medie de temperatură faţă de cea externă (în grade Fahrenheit).

Luna oct nov dec ian feb mar apr mai iun temperatura 15.6 26.8 37.8 36.4 35.5 18.6 15.3 7.9 0 Gaz 520 610 870 850 880 490 450 250 110 – Să se studieze forma relatiei dintre cei doi indicatori. Exista asociere între

cei doi indicatori? – Să se estimeze dreapta de regresie care modelează relaţia dintre cei doi

parametri. – În timpul verii, proprietarul locuinţei îmbunătăţeşte izolaţia termică a casei

sale. Drept care în luna februarie următoare, la o diferenţă medie de 40, se consuma 895 mc de gaz. Se poate spune că lucrarea efectuată reduce consumul de gaz?

3. Datele necesare acestul exerciţiu sunt la adresa web www.infoiasi.ro/~val/statistica/boston.sav şi sunt doar o oglindire a unor date din surse internaţionale. Analiza datelor doreşte să prognozeze preţul de vânzare a unei case din regiunea Boston în funcţie de caracteristici diverse ale locuinţei şi ale localizării ei. Prelucrarea se va efectua, de preferinţă, în SPSS Variabilele sunt în ordine: CRIM – rata criminalităţii, ZN – proporţia teritoriului zonat în loturi de peste 25,000 sq.ft., INDUS proporţia terirorială a zonei industriale, CHAS – indicator de învecinare cu râul din zonă (= 1 da, 0 nu), NOX – concentraţia de oxizi nitrici, RM – numărul mediu de camere, AGE – proporţia de locuinţe construite înainte de 1940 şi ocupate de proprietar, DIS – distanţa ponderată la cinci centre din Boston, RAD – indicele de accesibilitate la reţeaua de autostrăzi, TAX – rata de impozit (procent la 10000$), PTRATIO – raportul copii-profesori în zonă, B – 1000(Bk−0.63)2 unde Bk este procentajul populaţiei de culoare în zonă, LSTAT – procentajul populaţiei sărace, MEDV – valoarea medie a caselor (în mii de dolari). Se se efectueze următoarele operaţii:

– Completaţi în SPSS denumirile de variabile şi informaţiile necesare. – Verificaţi condiţiile necesare aplicării analizei regresionale. – Estimaţi ecuaţia de regresie prin diferite metode. Analizaţi dacă obţineţi un

răspuns care pare consistent, independent de metodă. – Validaţi şi interpretaţi rezultatele regresiei.

Page 93: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 9 — Multicoliniaritate, valori aberante, regresia polinomială - SPSS

A. Noţiuni teoretice Reamintim că un model liniar poate fi exprimată prin

y = x α + ε unde

• y este variabila dependentă (explicată, endogenă, rezultativă), • x este vectorul variabilelor independente (explicative, exogene), de

dimensiune 1×p, • α este vectorul coeficienţilor, de dimensiune p×1, parametrii modelului, • ε este o variabilă, interpretată ca eroare (perturbare, eroare de măsurare

etc.). Cu alte cuvinte,

y = α1x1+α2x2+…+αpxp+ε care exprimă relaţia liniară dintre y şi x.

Multicoliniaritatea Situaţia descrisă drept multicoliniaritate apare atunci când un grup de variabile

independente sunt puternic corelate între ele. În acest caz, prin includerea în model a unei variabile din grup, restul variabilelor din grup nu mai aduc o informaţie semnificativă. Simultan are loc o supraevaluare a coeficientului de determinare, ca şi a dispersiilor coeficienţilor estimaţi, ceea ce poate denatura interpretarea modelului şi, în plus, produce mărirea intervalelor de încredere.

Apar astfel două probleme: determinarea multicoliniarităţii şi cum trebuie procedat în cazul existenţei multicoliniarităţii.

Detectarea multicoliniarităţii Cea mai simplă metodă de detectare a multicoliniarităţii este bazată pe studiul

matricei de corelaţie dintre variabilele x. Se pot determina astfel perechile de variabile independente care sunt puternic corelate între ele. O structură mai complexă a intercorelaţiilor poate fi detectată prin calcularea determinantului acestei matrice de corelaţie. O valoare apropiată de zero a determinantului reflectă o puternică corelaţie între anumite variabile, deci existenţa multicoliniarităţii.

O altă abordare a problemei este aceea a stabilirii unui indicator sintetic pentru a decide dacă o variabilă este coliniară cu celelalte (sau cu un grup dintre celelalte). Notând cu 2

iR coeficientul de determinare obţinut la estimarea regresiei multiple având ca variabilă dependentă pe xi şi ca variabile independente restul variabilelor x, adică

),,,,,,( 1121 piii xxxxxfx KK +−= se introduce toleranţa variabilei xi prin

21 ii R−=τ .

Page 94: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

O valoare mică a lui τi (uzual mai mică decât 0,1) reflectă un coeficient 2iR

apropiat de 1, deci o legătură liniară puternică între xi şi restul variabilelor independente. Prin urmare xi este coliniară cu celelalte variabile independente.

Se defineşte factorul de inflaţie a varianţei, notat VIF, inversul toleranţei:

iiVIF

τ1

= .

Denumirea provine din aceea că un asemenea factor apare multiplicativ în definirea varianţei coeficienţilor estimaţi (se poate spune că se măsoară de câte ori este supraevaluată varianţa coeficienţilor datorită multicoliniarităţii în raport cu situaţia când nu ar exista coliniaritate). Interpretarea este dedusă din cea a toleranţei: o valoare VIF mare (uzual mai mare decât 10), denotă coliniaritate.

Eliminarea multicoliniarităţii O rezolvare comună a problemei multicoliniarităţii este aceea ca dintre două

variabile independente corelate să se reţină în model doar una. Prin interpretarea toleranţelor sau a factorilor de inflaţie se vor exclude din

model acele variabile care au toleranţe mici (sau factori de inflaţie mari).

Valori aberante Printr-o valoare aberantă (outlier) se înţelege o observaţie extremă, adică o

observaţie care nu se "încadrează" în paternul general al celorlalte valori. Atunci când este studiată o singură variabilă, există teste specifice eliminării valorilor aberante, de exemplu testul Dixon. Regula empirică (bazată pe distribuţia normală) este aceea de considera ca valoare aberantă orice valoare care este depărtată de medie cu mai mult de trei abateri standard.

În situaţia specială a regresiei liniare, problematica valorilor aberante este mai complexă deoarece anumite valori extreme (nu toate) pot influenţa major coeficienţii regresiei. Se pot astfel identifica valori aberante

• între valorile y (în spaţiul răspunsurilor) • între valorile x (în spaţiul x, al variabilelor independente) • în ambele spaţii.

În problematica valorilor aberante se disting astfel două aspecte: identificarea valorilor aberante şi modul de tratare a valorilor identificate.

Identificarea valorile aberante se realizează prin analiza reziduurilor standardizate, caz în care se identifică valorile extreme în spaţiul y. Din păcate, anumite valori din acest spaţiu nu pot fi identificate din cauză că, prin procesul de estimare, curba de regresie a fost "trasă" spre valoarea extremă. Acest fapt se întâmplă atunci când valori extreme y sunt asociate valorilor extreme din spaţiul x (aşa-zisele puncte pârghie – leverage points; punctele extreme y asociate valorii medii x nu modifică în mod exagerat curba). Au fost atunci dezvoltate şi măsuri specifice pentru identificarea acelor puncte care influenţează semnificativ regresia. Una este distanţa Cook (sau D), explicată în continuare.

Cook's D. Considerând s – eroarea standard a estimaţiei, jy – valoarea

estimată (pentru a j-a observaţie) şi )(ˆ iy j – valoarea estimată din regresia calculată după omiterea celei de a i-a observaţii, distanţa Cook pentru observaţia (punctul) i se defineşte prin

Page 95: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

( )ni

sk

iyyD

nj jj

i ,,1 ,)1(

)(ˆˆ

21

2

K=+

−=

∑ =

adică o măsură a influenţei celei de a i-a observaţii asupra tuturor valorilor prognozate. Regula detectării unei valori aberante este, pentru distanţa Cook,

)1(

4+−

≥kn

Di

Deoarece n este uzual mult mai mare decât k, unii autori propun devizarea doar la n. Prin această regulă are loc o supraidentificare, mai multe valori aberante decât ar fi natural, şi se recomandă tratarea acestor distanţe ca o nouă variabilă pentru care se determină valorile sale aberante (de exemplu regula celor 3 abateri standard).

De remarcat că procedura care utilizează distanţa Cook identifică acele observaţii care au o influenţă majoră asupra coeficienţilor de regresie (asupra modelului estimat).

Tratarea valorilor aberante presupune, ca abordare directă, eliminarea acestora (a observaţiilor care le conţin) şi refacerea regresiei. Se poate totuşi ca în acest mod de abordare să se piardă informaţii valoroase, poate singurele cu adevărat importante în procesul studiat. Prin urmare, se va studia în prealabil:

• dacă valorile au apărut în urma unor erori de măsurare, • dacă reprezintă cazuri neimportante pentru procesul studiat, • dacă există influenţe majore asupra modelului (a coeficienţilor).

In cazul neîndeplinirii unei asemenea condiţii, atunci valoarea nu este eliminată şi se va încerca, pentru o adecvanţă mai mare a modelului, să se obo adecvanţă mai mare a modelului, să se obţină determinări suplimentare în acea regiune a spaţiului variabilelor.

Transformări de variabile În cazul în care relaţia dintre y şi x nu pare a fi liniară, situaţie detectabilă

într-o diagramă de împrăştiere, sau dispersia valorilor y nu pare a fi constantă după valorile lui x, se poate încerca o transformare prealabilă a lui x şi/sau y. Mosteller şi Tukey (1977) propun un ghid (bulging rule) pentru selectarea unei transformări care să pconducă la o "liniarizare" a relaţiei. Se observă, în figura alăturată, că pe fiecare axă, x sau y, se propune o creştere (x2, x3 ...) sau o scădere (log x, x , 1/x ...) a gradului variabilei respective. Prin urmare, se va identifica forma relaţiei în diagrama de împrăştiere şi se vor utiliza transformările din cadranul corespunzător.

Un alt set de propuneri de transformări de variabile pornesc de la histograma valorilor variabilei (şi nu de la diagrama de împrăştiere):

Page 96: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Histograma variabilei x Transformarea propusă

1. x

2.

lg x

3. x1

4.

xx −+1)max(

5.

lg (max(x) +1– x)

6. xx −+1)max(

1

De notat că situaţiile 4 - 6 sunt reduse la 1 - 3 prin simetrizare.

Regresia polinomială Un caz particular des utilizat de model liniar este regresia polinomială.

Modelul polinomial este y = α0 + α1x + α2x2 + … + αpxp + ε

Se observă că există o singură variabilă independentă, x. Acest model se impune atunci când forma relaţiei dintre y şi x este curbilinie, fapt sugerat de diagrama de împrăştiere sau de considerente teoretice.

Pentru a estima un model polinomial este necesar, dacă produsul informatic utilizat nu dispune de o procedură specializată, să se genereze variabilele independente ca puteri ale variabilei iniţiale.

y x x2 … xp y1 x1 x1

2 … x1p

y2 x2 x22 … x2

p

… … … … … Estimarea are loc prin procedura uzuală a regresiei multiple, considerând

puterile calculate drept noi variabile, cu aceleaşi interpretări şi teste ca la modelul liniar.

Page 97: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

B. Instrumente SPSS

SPSS

Dreapta de regresie Reamintim principalul dialog pentru estimarea unui model liniar se obţine prin

Analyze –Regression –Linear. În Dependent se va transfera

variabila dependentă. Variabilele independente, Independent(s), pot fi grupate pe blocuri: 1. se transferă variabilele dorite, 2. se precizează în Method modul de introducere a acestor variabile în regresie (Enter – toate simultan, Forward, Backward, Stepwise – metodele discutate la alegerea celei mai bune regresii), 3. se defineşte un nou bloc prin Next.

Se pot selecta observaţiile precizând în Selection Variable variabila şi, prin Rule, regula de selectare a

cazurilor în funcţie de valorile variabilei de selecţie.

Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile calculate. Unele opţiuni sunt selectate şi în mod implicit.

Estimates – coeficienţii estimaţi, Confidence intervals – intervalele de încredere ale coeficienţilor, Model fit – calcularea statisticilor R, R2 şi a tabelului ANOVA, R squared change – modificărea coeficientului de determinare şi testarea semnificaţiei schimbării la adăugarea fiecărui bloc de variabile, Descriptive – statisticile esenţiale pentru fiecare variabilă

Pentru tema curentă este importantă alegerea Collinearity diagnostics – calcularea toleranţelor, a statisticilor VIF şi studiul multicoliniarităţii prin analiza în componente principale (a se vedea capitolul următor al cursului). În acest caz, tabelul privind coeficienţii modelului estimat va conţine încă două coloane cu statisticile privind diagnosticul coliniarităţii.

Apare totodată în fişierul de ieşire un tabel intitulat Collinearity Diagnostics care conţine informaţii privind analiza factorială (a se vedea capitolul următor din curs) a variabilelor independente. Se poate deocamdată interpreta (mecanic) faptul că existenţa mai multor valori proprii situate în imediata vecinătate a lui 0 denotă o posibilă coliniaritate în variabilele independente.

In ceea ce priveşte valorile aberante reamintim dialogul Plots (prezentat în lucrarea trecută) prin intermediul căruia se pot solicita diagramele asociate reziduurilor.

Din dialogul Save, care permite calcularea şi salvarea unor variabile noi (valorile prognozate, reziduuri sub diferite forme etc.) accentuăm elementele:

Page 98: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Distances – distanţele cazurilor de la punctul mediu, pentru identificarea

valorilor aberante: Mahalanobis este distanţa explicată în capitolul privind clasificarea, Cook's este distanţa Cook explicată mai sus (o valoare mare arată o influenţă considerabilă a cazului în estimarea coeficienţilor), Leverage values măsoară influenţa cazurilor în estimare.

Influence Statistics sunt modificările în coeficienţi (inclusiv cei standardizaţi), DfBeta(s) şi Standardized DfBeta, şi în valorile prognozate, DfFit şi Standardized DfFit, rezultate după excluderea cazului din estimare.

In ieşirea SPSS, valorile aberante pot fi deci identificate prin 1) Std residual sau Stud Residual mai mari decât 3 în valoare absolută. 2) Standardized DfBeta mai mari de 1 (sau, după alţi autori, chiar mai mari de

2/Sqrt(N)). 3) Cook’s D mai mare decât 4/N pot indica observaţii cu probleme..

C. Lucrarea practică 1) Se va salva şi deschide fişierul

www.infoiasi.ro/~val/statistica/Expenditures.xls Datele se referă la cheltuielile publice (1960) pe cap de locuitor în statele americane. Variabilele sunt EX: cheltuieli publice pe locuitor ECAB: indice de dezvoltare economică MET: procentajul populaţiei din zone metropolitane GROW: modificarea procentuală a populaţiei 1950-1960 YOUNG: procentajul populaţiei tinere 5-19 ani OLD: procentajul populaţiei peste 65 ani WEST: 1 pentru statele din vest, 0 pentru celelalte

i) să se studieze relaţia dintre EX (nivelul cheltuielilor) şi indicatorii demografici şi economici (ECAB, MET, GROW, YOUNG, OLD)

ii) se va estima o regresie polinomială în cazul în care asocierea pare a fi curbilinie

iii) se vor identifica valorile aberante şi se va reface estimarea prin excluderea acestora

iv) se va estima şi analiza regresia multiplă EX = f(ECAB, MET, GROW, YOUNG, OLD) atât pe ansamblu, cât şi pentru fiecare categorie de state (estice, vestice). Se vor identifica diferenţele.

2) Se va deschide fişierul Employee Data.sav dintre fişierele de test SPSS. i) se va modela salariul curent funcţie de celelalte variabile continue.

Page 99: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

(1) se va studia influenţa variabilelor independente. (2) se vor analiza şi trata valorile aberante.

ii) se va reface analiza pentru fiecare categorie de job

Page 100: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 10 — Regresia logistică - SPSS

A. Noţiuni teoretice

Regresia logistică Regresia logistică modelează relaţia dintre o mulţime de variabile

independente xi (categoriale, continue) şi o variabilă dependentă dihotomică (nominală, binară) Y. O astfel de variabilă dependentă apare, de regulă, atunci când reprezintă apartenenţa la două clase, categorii – prezenţă/absenţă, da/nu etc.

Ecuaţia de regresie obţinută, de un tip diferit de celelalte regresii discutate, oferă informaţii despre:

• importanţa variabilelor în diferenţierea claselor, • clasificarea unei observaţii într-o clasă. De remarcat că diagrama de împrăştiere a valorilor nu oferă nici un indiciu în

privinta dependenţelor. În asemenea cazuri, regresia liniară clasică nu oferă un model adecvat.

Presupunem că valorile y (variabilă binară) sunt codificate 0/1, valoarea 1 exprimând în general apariţia unui anumit eveniment, astfel încât ceea ce se caută este o estimare a probabilităţii de producere a respectivului eveniment în funcţie de valorile variabilelor independente.

Cazul unei singure variabile independente Modelul este

x

x

eexyP βα

βα

+

+

+==

1)1(

sau

xxyP

xyP )|1(1

)|1(ln βα +=

=−

=

Cantitatea din partea stângă este numită (transformarea) logit a probabilităţii P(y=1|x).

Semnificaţia expresiei P(y=1|x) este evidentă: probabilitatea de realizare a valorii y=1 condiţionată de valoarea x. Cu alte cuvinte, probabilitatea de clasare a observaţiei x în clasa y=1, sau probabilitatea ca valoarea x să fie asociată cu producerea evenimentului y=1. In continuare se notează P(y=1|x) cu p, conform notaţiei de la modelul probabilist binomial (probabilitatea de “succes”).

Transformarea logit este necesară pentru a proiecta probabilitatea p din intervalul (0,1) în intervalul (- ∞, + ∞), fapt necesar în procesul de estimare a parametrilor. Modelul este legat direct de noţiunea de odds (raport de şanse), notat OR (odds report):

pp

−=

1OR

care reprezintă raportul dintre probabilitatea de « succes » şi probabilitatea de « insucces ».

Modelul se mai poate scrie

Page 101: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

xep

p

1βα +=

de unde interpretarea coeficientului β: • creşterea cantităţii logit atunci când x creşte cu o unitate sau • OR creşte de eβ ori atunci când x creşte cu o unitate. Testarea ipotezei β = 0 se realizează prin testul Wald, corespunzător testului t

de la regresia liniară, statistica testului fiind

(Var

22

b)b

care este repartizată χ2 cu un singur grad de libertate. Intervalul de încredere pentru β este, potrivit rezultatelor de la analiza ecuaţiei

de regresie,

−−+− )()(

21

21

,bSEzbbSEzb

eeαα

,

unde b este estimaţia lui β (din ecuaţia de regresie estimată) iar SE(b) este abaterea standard a repartiţiei de sondaj a lui b.

Se observă imediat că, pentru o observaţie, dacă p > 0,5, atunci este mai probabil ca observaţia să aparţină grupului caracterizat de y=1. Această condiţie este echivalentă cu OR > 1, adică logit > 0.

Cazul mai multor variabile independente Modelul general este

kk x ... β x β xβ-pp +++=

221101

ln β ,

unde p este P(y = 1 | x1,x2,…,xk). Se poate obţine imediat şi forma exponenţială echivalentă.

Interpretarea coeficienţilor βi este evidentă: creşterea cantităţii logit (logaritm din OR) atunci când xi creşte cu o unitate (celelalte variabile x rămânând constante). Pentru interpretări mai sofisticate rescriem modelul sub forma:

)exp(1)exp(),,,|1(

22110

2211021

kk

kkk x ... β x β xβ

x ... β x β xβxxxyP++++

+++==

ββ

K

Se obţine atunci, după calcule imediate,

)0|0()0|1(

)0|1(1)0|1()exp(

21

21

21

210

==========

=

======−

======

k

k

k

k

xxxyPxxxyP

xxxyPxxxyP

K

K

K

adică OR în situaţia de bază x1 = x2 =…= xk = 0. Pentru coeficientul βi se obţine :

Page 102: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

.OR

OR

OR1

)pentru 0 ,1|1(1)pentru 0 ,1|1(

)exp(

baza

pentru 0 ,1

baza

ijxx

ji

jii

ji

ijxxyPijxxyP

≠===

=×≠===−

≠====β

Se ajunge astfel, din caracterul multiplicativ al modelului logistic, )exp()exp()exp(OR 110,,, 21 kkxxx xx

kβββ ×××= KK ,

la interpretarea utilă că fiecare β i exprimă contribuţia factorului xi la explicarea probabilităţii (sub forma OR) de producere a evenimentului y = 1. Astfel, fixând xi = 1, exp(βi) va reprezenta factorul multiplicativ constant indiferent de valorile celorlalte variabile independente.

Dacă βi = 0, factorul corespunzător nu are nici un efect, (înmulţirea cu 1). Dacă βi < 0 prezenţa factorului reduce probabilitatea evenimentului y = 1, βi > 0 mărind această probabilitate.

Construirea modelului se poate realiza şi prin metode forward sau backward,

testarea semnificaţiei coeficienţilor realizându-se prin testul Wald sau prin testul raportului de verosimilitate (LR, likelihood-ratio).

Testul Wald este prezentat la modelul logistic cu un singur factor. Testul LR se bazează pe statistica obţinută ca raport între maximul funcţiei de verosimilitate sub ipoteza nulă şi maximul funcţiei de verosimilitate în condiţii mai largi. Lema Neyman-Pearson arată că acesta este cel mai puternic test la un prag α fixat. Pentru cazul regresiei logistice, se calculează raportul între valoarea maximă a funcţiei de verosimilitate pentru modelul complet (L1) şi cea pentru modelul mai simplu (L0). Statistica LR este -2log(L0/L1), repartizată χ2. Testul LR este recomandat în cazul construirii modelului pas cu pas, verificând dacă variabila eliminată din model este semnificativă, deci dacă modelul poate fi simplificat.

Observaţie. O mai bună imagine intuitivă asupra raportului de verosimilitate este dată în continuare. presupunem că se doreşte distingerea între două ipoteze H0 şi H1 (o contrară a lui H0). Fie p0 probabilitatea ca datele observate să apară în ipoteza H0 adevărată şi p1 probabilitatea ca datele observate să apară în ipoteza H1 adevărată. Raportul p1/ p0 este raportul de verosimilitate (LR) şi măsoară OR (odds report) ca H1 să fie adevărat ca opusă lui H0 adevărată.

Deoarece unele simulări arată că datorită datelor "rare" (sparse) statistica prin care se compară două modele nu este repartizată χ2 şi, din acest motiv, s-a dezvoltat testul Hosmer-Lemeshow. De notat că testul este recomandat pentru variabile independente continue şi mai m ult de 400 de observaţii. Testul constă în clasificarea în decile a probabilităţilor prognozate (10 grupuri bazate pe rangul percentilic) şi calcularea statisticii χ2 care compară frecvenţele observate cu cele prognozate (în tabelul 2 × 10). Valori mici ale statisticii (deci acceptarea nediferenţierii dintre cele două şiruri de frecvenţe) arată o bună potrivire a datelor prognozate, deci o adecvanţa modelului.

În regresia logistică nu există un indicator absolut similar coeficientului R2 din regresia liniară. S-au dezvoltat însă indicatori similari. Astfel în SPSS există Cox & Snell Pseudo-R2 definit prin

2/2 21

2

n

null

k

LLRLL

−= − −

Page 103: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

unde LLnull este logaritm din maximul funcţiei de verosimilitate pentru modelul constant, iar LLk este logaritm din maximul funcţiei de verosimilitate pentru modelul cu variabile independente incluse. Se poate astfel observa că se merge pe varianta de comparare a cantităţilor -2LL prin intermediul raportului lor şi nu a împărţirii lor (ca la LR). Acest R2 nu atinge 1 şi a fost introdusă de Nagelkerke o modificare prin care se atinge 1. Formula pentru Nagelkerke Pseudo-R2 este

( )

2/

22 /

212

1 2

n

null

kn

null

LLLL

RLL

−− − =− −

Alţi indicatori sunt: • AIC (Akaike’s Information Criterion) definit ca -2LLk +2k, unde k

este numărul de parametri estimaţi. • BIC (Bayesian Information Criterion) definit ca -2LLk + k*log(n) unde

k este numărul de parametri estimaţi iar n este numărul de observaţii. BIC mai este referit şi drept criteriul Schwartz (care l-a argumentat).

Vor fi preferate modelele pentru care criteriile (AIC sau BIC) au valori mai mici. Se observă că ambele criterii "recompensează" buna potrivire a modelului dar şi "penalizează" numărul de parametri estimaţi, astfel încât să se obţină un model bun dar cu un număr minim de parametri. În BIC, penalizarea lui k este mai puternică decât în AIC. Ambii indicatori necesită condiţia ca erorile (reziduurile) să fie normal distribuite.

Regresia logistică multinomială Modelul regresional logistic multinomial (cunoscut şi ca regresia logistică

politomică – polytomous logistic regression – sau ca model de alegere discretă – discrete choice model – în econometrie) este o generalizare a modelului logistic acceptând ca variabila dependentă Y să aibă mai mult de două valori.

Să presupunem că variabila Y are ca valori posibile elementele mulţimii neordonate 1, ... , g. Modelul logistic multinomial presupune că probabilitatea ca Y să fie egal cu s în observaţia i depinde de valorile variabilelor xi1, ... , xip prin

∑ =

== gt

iit

is

e

esYP

1

)(η

η

unde ∑ ==

pk ksikis x1 βη este o funcţie liniară. În această formulare a modelului, este

de remarcat că există coeficienţi de regresie βks diferiţi pentru fiecare k şi, mai ales, s. Prin urmare, fiecare valoare posibilă Y are un model asociat.

Modelul astfel definit este supraparametrizat, ceea ce impune o reducere prin fixarea unei valori Y, de exemplu Y = 1, drept categorie de referinţă (adică β11, ... , βp1 sunt egali cu zero). Alegerea categoriei de referinţă poate facilita interpretarea.

Page 104: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

B. Instrumente SPSS Comanda este Analyse - Regression - Binary Logistic.

Se afişează dialogul de fixare a variabilelor şi statisticilor.

Se mută variabila dependentă (binară) în Dependent. Variabila independentă

sau variabilele independente (în cazul multivariat) sunt mutate în lista Covariates. Pentru a indica variabilele independente care este categoriale (discrete), se va

acţiona butonul Categorical, afişâdu-se dialogul

Fiecare variabilă trecută în lista Categorical Covariates poate fi caracterizată

prin selecţii corespunzătoare în grupul Change Contrast

Page 105: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Acţionând butonul Options din dialogul principal, se deschide dialogul sinonim în care se precizează statisticile şi diagramele dorite în ieşire.

În dialogul principal Logistic Regression, se poate alege metoda utilizată

pentru introducerea variabilelor la estimarea regresiei. De reţinut metoda Enter în care variabilele sunt introduse în bloc (se estimează o singură ecuaţie) sau metode de selectare pas cu pas (ca la regresia liniară multiplă), cum ar fi Forward: LR. Aceasta înseamnă că modelul este construit ascendent, criteriul de introducere a unei noi variabile fiind testul LR (a raportului de verosimilitate).

Prin acţionarea butonului Save în dialogul principal se pot preciza noile

variabile care pot fi create din ieşirea procedurii, ca şi la regresia multiplă. Informaţiile care apar în fişierul de ieşire SPSS sunt explicate în continuare. Un prim tabel cu informaţiile generale (număr de observaţii valide etc.).

Un tabel în care se precizează codificările variabilelor categoriale (inclusiv cea

dependentă). Pentru variabilele categoriale independente are loc o recodificare cu considerarea categoriei de referinţă: aceasta este recodificată 0.

Page 106: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Ieşirea diferă ca structură după metoda de selectare a variabilelor, dar conţine un prim bloc de informaţii care se referă la modelul simplu (doar cu termenul constant). De remarcat structura: clasificare, variabile în ecuaţie, variabile candidate.

Tabelul de clasificare este construit prin considerarea probabilităţii de

clasificare prognozate de modelul curent pentru fiecare observaţie. după principiul că OR>1 clasează observaţia în grupul codificat 1. Un model bun trebuie să numere cele mai multe observaţii pe diagonala principală a tabelului.

Tabelul care urmează, referitor la model, este explicat şi se interpretează potrivit celor spuse la tabelul similar dintr-un pas intermediar afişat ceva mai departe în lucrare.

Informaţiile oferite pentru faza finală sunt după structura

Se observă că în fiecare pas al estimării modelului se testează dacă trecerea de

la precedent este semnificativă (se respinge ipoteza nulităţii variabilei sau variabilelor adăugate).

Indicatorii similari coeficientului de determinare din regresia multiplă sunt în tabelul care urmează.

Page 107: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Testul Hosmer & Lemeshow este explicitat pentru fiecare pas prin raportarea

celor 10 frecvenţe observate/aşteptate (statistica şi semnificaţia sunt raportate în tabelul precedent).

Se raportează de asemenea tabelul de clasificare pentru fiecare pas al

procedurii.

În tabelul referitor la variabilele din model se raportează:

• coeficienţii B • Exp (B) cu interpretarea, dată în partea teoretică, că reprezintă

modificare OR a variabilei dependente la modificarea cu o unitate a variabilei independente, deci Exp (B) ≈ 1 pentru variabilele nesemnificative.

• informaţii asociate testul Wald de semnificaţie a fiecărui coeficient.

Page 108: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

În tabelul următor (apare doar pentru anumite metode de selectare a

variabilelor) se prezintă informaţiile necesare pentru a testa ce s-ar întâmpla daca o variabilă din model este exclusă. Pentru un model care se construieşte ascendent, acestea pot sugera prezenţa unor variabile care au devenit nesemnificative prin includerea altor variabile.

Pentru variabilele care nu sunt în model, se prezintă testele care decid

necesitatea prezenţei lor. La pasul următor, va fi introdusă în model variabila cu scorul cel mai mare (scor calculat potrivit metodei selectate).

Diagrama de clasificare (afişată în continuare) este alcătuită:

• Axa X este probabilitatea prognozată (de la 0 la 1) de a fi clasificat în grupul codat "1". Sub axă sunt diferenţiate zonele de clasificare prin simbolurile care codifică grupul 1 (Yes) şi grupul 2 (No). Se observă pragul de 0.5 care schimbă clasificarea.

• Axa Y este frecvenţă (număr de cazuri). • Coloanele care apar în diagramă sunt alcătuite din marcaje (fiecare

reprezintă un număr de cazuri pentru simplificare) care reprezintă clasificarea observată a cazurilor.

• Examinarea diagramei constă în analiza faptului dacă marcajele corespund la acelaşi semn (Yes/No) situat sub axa X. Prin urmare

o semnele Y care corespund la valori Y de pe axa OX (şi semnele N care corespund la valori N de pe axa OX) reprezintă clasificări prognozate corect de model.

o celelalte marcaje (semnele Y care corespund la valori N de pe axa OX, precum şi semnele N care corespund la valori Y de pe

Page 109: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

axa OX) reprezintă cazuri clasate eronat, deci observaţii pentru care modelul estimat nu funcţionează.

C. Lucrarea practică 1. Un studiu care urmăreşte de cine depinde gustul brânzeturilor de tip

cheddar a prelevat probe şi a determinat concentraţia unor compuşi chimici. Fiecare probă a fost supusă unui proces de degustare şi a primit o notă. Unele valori au fost transformate în prealabil (Acetic şi H2S sunt obţinute prin logaritmarea valorilor măsurate). Fişierul de date este www.infoiasi.ro/~val/statistica/CheeseData.txt Variabilele sunt

i. Taste: nota obţinută în urma combinării notelor acordate de mai mulţi degustători

ii. Acetic: logaritm natural din concentraţia de acid acetic iii. H2S: logaritm natural din concentraţia de H2S. iv. Lactic: concentraţia de acid lactic

• Să se modeleze variabila Taste cu ajutorul celorlalte trei variabile.

• Să se analizeze modelul obţinut. 2. Date privind un număr de companii au fost selectate din lista Forbes

500 pentru anul 1986 (printr-un sondaj sistematic 1/10 din lista alfabetică a companiilor). Studiul urmăreşte volumul de vânzări al companiei. Fişierul de date este www.infoiasi.ro/~val/statistica/ForbesData.txt Variabilele sunt:

i. Company: numele companiei ii. Assets: bunurile companiei (milioane $)

iii. Sales: volumul de vânzări (milioane $) iv. Market_Value: valoarea de piaţă a companiei (milioane $) v. Profits: profitul (milioane $)

vi. Cash_Flow: volumul tranzacţiilor (milioane $) vii. Employees: numărul de angajaţi (mii persoane)

viii. Sector: domeniul de activitate a companiei.

Page 110: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

• Să se modeleze volumul de vânzări în funcţie de celelalte variabile. Să se analizeze modelul obţinut.

• Să se determine transformările prealabile necesare pentru unele variabile şi să se refacă modelarea.

3. Se va deschide fişierul Employee Data.sav din setul de fişiere test oferite de SPSS. Să se decidă dacă faptul că un angajat aparţine minorităţii (minority = 1) este reflectat de variabilele educ, prevexp, jobcat şi gender. Pentru aceasta se va estima şi se va analiza o regresie logistică în care variabila dependentă este minority, restul variabilelor fiind considerate independente.

Page 111: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 11 — Analiza în componente principale - SPSS

A. Noţiuni teoretice Analiza factorială (analiza în componente principale este o metodă factorială)

a apărut pentru a rezolva probleme din categoria următoare: • reducerea complexităţii datelor (data reduction) – poate fi înlocuit un

masiv de date de mari dimensiuni prin masive de dimensiuni mai mici? • evidenţierea şi fixarea patternului asocierilor (corelaţiilor) dintre

variabile. • determinarea variabilelor latente (mai puţine) care se află în spatele

variabilelor măsurate (mai multe) – problemă similară descoperirii celor care mănuiesc păpuşile într-un teatru de păpuşi; comportarea, varianţa variabilelor măsurate poate fi regăsită din varianţa unor variabile ascunse, care le determină prin asociere.

Variabilele ascunse, latente, sunt denumite factori şi de aici denumirea metodelor analizei factoriale.

Metoda a apărut la început în studii psihologice în care s-a încercat să se determine, evalueze, variabile precum inteligenţa. Cum se pot evalua atribute precum puterea de asimilare, de reacţie, de înţelegere etc., s-a presupus că multe dintre acestea sunt determinate de o variabilă latentă care poate fi inteligenţa.

Formalizând cele spuse se consideră că există o mulţime de variabile X1, X2,...,Xp şi se doreşte determinarea unor variabile noi C1, C2,...,Cm, unde Ci = wi1X1 + wi2X2 + ... + wipXp, cu dorinţa ca m << p. Aceste variabile noi se numesc uzual factori sau componente. Este evidentă şi cerinţa inversării, deci posibilitatea de a regăsi variabilele X cu ajutorul componentelor, Xi = ai1C1 + ai2C2 + ... + aimCm.

Se observă astfel că prin intermediul componentelor se încearcă reducerea numărului de variabile (şi, după cum se va vedea, fără a pierde varianţa variabilelor iniţiale).

Dacă se propune ca în noile componente, notate cu F de la factor, să se reţină doar ceea ce este comun variabilelor X, adică Xi = ai1F1 + ai2F2 + ... + aimFm + Ei, unde F1, F2,..., Fm sunt factorii comuni variabilelor X, iar Ei reprezintă partea specifică a lui Xi, analiza este cea propusă iniţial în psihologie (analiza în factori comuni şi specifici).

Analiza factorială – metoda generală Metoda generală este prezentată pornind de la următoarea problemă

matematică (deci adoptând limbajul din data reduction): Este posibil să reconstituim cele np valori xij ale unui tablou Xn×p pornind de la un număr mai mic de date?

Răspunsul poate fi afirmativ: dacă X = u1v1’, unde un×1 şi v1p, atunci se poate reconstitui X din cele n+p valori ale lui u1 şi v1. Se spune că X este de rang 1.

În practică este foarte improbabilă o asemenea descompunere şi se va căuta o ajustare de rang q, de forma

EvuvuvuX ++++= ''22

'11 qqL

Page 112: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

unde E este o matrice reziduală, cu termeni suficient de mici astfel încât cele np valori din X să fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor uα şi vα, α=1,…,q.

Problema se va rezolva cu ajutorul reprezentărilor geometrice. Tabloul X poate fi privit drept mulţimea coordonatelor pentru • n puncte în spaţiul cu p dimensiuni, R p (fiecare linie a tabloului este un

punct în acest spaţiu), sau • p puncte în spaţiul cu n dimensiuni, R n (fiecare coloană a tabloului este

un punct în acest spaţiu). Ambele spaţii, R p şi R n, se consideră dotate cu metrica euclidiană uzuală.

Ajustarea printr-un subspaţiu vectorial din R p

Ideea este aceea de a determina un subspaţiu vectorial de dimensiune q < p în care să fie conţinută X (matricea X este gândită ca mulţimea a n vectori – coloanele matricei). În acest caz, cele n puncte din X pot fi reconstituite plecând de la

• coordonatele pe noile q axe, adică nq valori, • componentele noilor axe în spaţiul iniţial, adică pq valori. Se utilizează astfel nq + pq valori. Să începem prin a căuta dreapta F1, trecând prin origine, care ajustează cel mai

bine, în sensul celor mai mici pătrate, norul de puncte.

Fie un vector unitar u de pe această dreaptă, deci u′u=1. Rezultă că fiecare linie din Xu este produsul scalar al punctului respectiv cu u

şi deci lungimea proiecţiei punctului pe F1. Prin urmare, minimizarea sumei distanţelor la F1 (criteriul celor mai mici pătrate) revine la maximizarea sumei proiecţiilor. Deci determinarea lui F1 conduce la maximizarea sumei pătratelor acestor proiecţii, adică se caută u care maximizează forma pătratică

(Xu)′(Xu)=u′X′Xu, cu restricţia u′u=1.

Page 113: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Prin metoda multiplicatorului lui Lagrange, se consideră L = u′X′Xu - λ( u′u-1)

şi anularea derivatelor parţiale în raport cu u conduce la 2 X′Xu-2λu=0,

de unde X′Xu = λu

ceea ce arată că u este un vector propriu al matricei X′X. Atunci, u′X′Xu = λ u′u

şi, din restricţia impusă, rezultă u′X′Xu = λ, adică maximul căutat este egal cu o valoare proprie λ a matricei simetrice X′X.

Prin urmare, u este acel vector propriu u1 care corespunde celei mai mari valori proprii λ1.

În general, se arată că o bază ortonormată a subspaţiului vectorial cu q dimensiuni, care ajustează norul de puncte în sensul celor mai mici pătrate, este constituită din cei q vectori proprii care corespund celor mai mari q valori proprii ale matricei simetrice X’X. Notăm cu u1, u2,…, uq vectorii proprii şi λ1, λ2, …, λq valorile proprii corespunzătoare.

De remarcat că matricea X’X este simetrică şi semipozitiv definită, deci toate valorile proprii sunt reale nenegative, iar vectorii proprii sunt ortogonali.

Ajustarea printr-un subspaţiu vectorial din R n În R n, coloanele matricei Xn×p definesc un nor de p puncte. Raţionând analog

(pe matricea X′) se ajunge la: cel mai bun subspaţiu cu q dimensiuni este generat de vectorii proprii v1, v2,…, vq care corespund la valorile proprii (descrescătoare) µ1, µ2, …, µq ale matricei XX′.

Relaţia dintre cele două subspaţii din R p şi R n Din definiţia vectorului propriu vα, avem

XX′vα =µαvα

de unde, prin înmulţire la stânga cu X′, X′XX′ vα = µαX′vα

adică (X′X)(X′ vα) = µα(X′vα)

Deci fiecărui vector propriu vα a lui XX′ îi corespunde un vector propriu egal cu X′vα a matricei X′X iar µα este valoare proprie pentru X′X. Adică

µα)⊆λα Analog se demonstrează şi incluziunea inversă şi se arată astfel identitatea

celor două mulţimi de valori proprii, µα = λα, α = 1,…,r,

unde r este rang(X), r ≤ min(p,n). Intre vectorii proprii există relaţiile (cu observaţia că egalitatea are loc până la

un factor) uα = kαX′vα

vα = k’αX′uα

unde kα şi k’α sunt constante necunoscute. Din u′αuα = v′αvα = 1 rezultă

Page 114: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

1u ''2' == ααααα vXXvu k Dar v′αXX′vα = λα = µα de unde

ααα λ

1' == kk

Intre vectorii proprii din cele două spaţii există astfel relaţiile (*)

αα

α λvXu ′=

1 , α

αα λ

Xuv 1=

Axa Fα, care poartă vectorul unitar uα, este numită a α-a axă factorială din R p. Analog pentru Gα în R n.

Coordonatele punctelor pe axa α din Rp (şi respectiv din Rn) sunt, prin construcţie, componentele lui Xuα (respectiv X′vα).

Relaţiile precedente arată proporţionalitatea care există între coordonatele punctelor pe o axă α dintr-un spaţiu şi componentele unitare (cosinuşii directori) ai axei α din celălalt spaţiu.

Reconstituirea tabloului X Din relaţia (*) se obţine

ααα λ vXu = , de unde ααααα λ uvuXu ′=′ şi sumând

∑∑==

′=′pp

uvuuX11 α

αααα

αα λ .

Cum ∑=

′p

uu1α

αα este produsul matricei ortogonale a vectorilor proprii cu

transpusa sa, adică este matricea unitate, se obţine reconstituirea tabloului iniţial prin

∑=

=p

uvX1

'

ααααλ

cu menţiunea că anumite valori proprii pot fi 0 (dar există vectorii proprii corespunzători).

O reconstituire aproximativă X* este obţinută prin limitarea la primele q axe factoriale (reamintim că valorile proprii au fost luate în ordine descrescătoare, deci λq+1, …, λp sunt valorile cele mai mici):

∑=

=≈q

uvXX1

'*

ααααλ .

Fiecare valoare proprie măsoară suma pătratelor distanţelor la origine ale proiecţiilor pe axa factorială respectivă. Prin urmare, reconstituirea va fi cu atât mai bună cu cât suma valorilor proprii reţinute va constitui o parte notabilă a sumei tuturor valorilor proprii. Calitatea globală a reconstituirii poate fi măsurată prin cantitatea

∑∑==

=pq

q11 α

αα

α λλτ

numită rata de inerţie (măsoară partea din varianţa norului explicată de subspaţiul cu q dimensiuni). Se poate verifica şi

∑∑=ji

ijji

ijq xx,

2

,

2*τ .

care oferă un suport intuitiv faptului că τ reflectă calitatea globală a reconstituirii.

Page 115: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Analize particulare Atunci când nu este vorba strict de o aproximare numerică şi ne încadrăm în

analiza statistică, dispunem de informaţii suplimentare asupra naturii datelor. Considerarea acestor informaţii conduce la transformări prealabile ale datelor

iniţiale, astfel încât aplicarea metodei generale la datele transformate permite interpretări mai adecvate structurii datelor.

Se obţin astfel analize factoriale particulare, cele mai importante sunt enumerate în continuare:

• Analiza în componente principale, • Analiza în componente principale normate, • Analiza rangurilor, • Analiza corespondenţelor. Ideea de bază care stă la baza tuturor acestor analize este aceea că • un tabel de valori poate produce (prin liniile, respectiv coloanele sale)

reprezentări sub forma norilor de puncte în două spaţii, • ajustările punctelor din cele două spaţii sunt legate prin relaţii simple,

interpretabile.

Analiza în componente principale Iniţiată de Pearson (1901) şi dezvoltată de Hotelling (1933). Tabloul de plecare R este oarecare: rij semnifică, în mod uzual, a i-a observaţie

a unei variabile j. Variabilele pot fi eterogene în privinţa mediilor lor (de ex. unităţi de măsură diferite, ordine de mărime diferite etc.). Pentru a anula efectul eterogenităţii se efectuează transformarea

nrr

x jijij

*−= , unde ∑

=

=n

iijj r

nr

1*

1 este media variabilei a j-a.

Analiza generală se va aplica tabloului X astfel obţinut, matricea X’X este matricea de covarianţă a variabilelor iniţiale.

Analiza în componente principale normate Dacă variabilele sunt eterogene şi în dispersie, se vor norma valorile prin

nsrr

xj

jijij

*−= , unde sj este abaterea standard pentru a j-a variabilă.

Analiza generală se va aplica tabloului X, cu observaţia că că matricea X’X implicată în calcule este tocmai matricea de corelaţie a variabilelor iniţiale.

Analiza în componente principale (normate) ACP/ACPN Numele metodei provine din aceea că factorii (obţinuţi prin analiza generală)

sunt numiţi şi componente principale. Deşi pentru identificarea factorilor se aplică metoda generală asupra matricei

de covarianţă (corelaţie) a variabilelor implicate, în continuare se prezintă şi o metodă alternativă, care poate oferi o viziune mai intuitivă asupra calculelor efectuate.

Se doreşte reducerea numărului de variabile dar cu păstrarea a cât mai mult (în limita posibilităţilor) din varianţa datelor iniţiale.

Pentru aceasta se introduce o nouă variabilă, Z, ca o combinaţie liniară a variabilelor iniţiale:

pp xaxaxaZ +++= K2211

Page 116: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

unde a1,…,ap sunt ponderi asociate variabilelor iniţiale. Observaţie. Ecuaţia precedentă este doar aparent similară unei ecuaţii de

regresie, deoarece nu se cunosc valori observate pentru variabila Z, nu există termen liber şi nici erori (reziduuri).

Analiza în componente principale determină acele ponderi ai care maximizează varianţa variabilei Z. Cum varianţa poate tinde la infinit pentru valori ale ponderilor convenabil alese, metoda determină doar ponderile supuse restricţiei că

vectorul a este normalizat, adică ∑=

=p

iia

1

2 1. O dată calculate ponderile a, variabila Z

este numită prima componentă principală. Notând cu C matricea de covarianţă (corelaţie) a variabilelor X, de fapt prin

transformarea datelor din analiza în componente principale C = X′X, rezultă că dispersia lui Z este a′Ca. Se doreşte maximizarea varianţei lui Z cu restricţia a′a = 1.Se ajunge astfel la problema generală:

max a′X′Xa cu restricţia a′a = 1 Prin metoda multiplicatorilor lui Lagrange se va căuta maximul funcţiei

F(a) = a′Ca - λ(a′a – 1) de unde rezultă, ca în metoda generală, că a este vector propriu al matricei C corespunzător valorii proprii λ şi a′Ca = λ. Deoarece Var(Z) = a′Ca rezultă Var(Z) = λ, adică a este vectorul propriu care corespunde celei mai mari valori proprii λ.

A doua componentă principală este definită drept combinaţia liniară a variabilelor X cu următoarea cea mai mare varianţă:

Z2 = a12x1 + a22x2 + … + ap2xp Se ajunge astfel la a doua valoare proprie ca mărime etc. De remarcat că aij

reprezintă ponderea variabilei i în componenta principală cu numărul j. O consecinţă a faptului că varianţele componentelor principale sunt valorile

proprii iar ponderile (coeficienţii combinaţiilor liniare) sunt vectorii proprii este aceea că factorii obţinuţi (componentele principale) sunt necorelate între ele.

Astfel, din exprimarea matriceală z = Ax a componentelor principale şi din faptul că matricea vectorilor proprii este ortogonală, A′A = I, rezultă

A′z = A′Ax = Ix = x,

adică şi variabilele iniţiale pot fi exprimate drept combinaţii liniare între componentele principale. Notând cu Czz matricea de covarianţe a componentelor principale, relaţia anterioară produce

C = A′CzzA. de unde, utilizând rezultatul cunoscut

C = A′ΛA, unde Λ este matricea diagonală a valorilor proprii, rezultă că Czz este o matrice diagonală, adică toate componentele principale sunt necorelate între ele. Se observă astfel că prin trecerea la componentele principale se elimină redundanţa din date.

Analiza în R p Cele n puncte ale acestui spaţiu sunt indivizi (observaţii) şi se doreşte o

reprezentare a apropierilor dintre aceste puncte într-un spaţiu de dimensiune mai mică. Prin transformările prealabile are loc o translaţie a norului de puncte într-un reper având ca origine centrul de greutate al norului.

In ACPN se modifică şi scala pe fiecare axă.

Page 117: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Analiza în R n

Cele p puncte sunt aici variabilele, transformările prealabile au însă o interpretare diferită:

• transformarea din ACP este o proiecţie paralelă cu prima bisectoare Astfel, în cazul n=2 (neimportant din punct de vedere statistic, dar permite o

vizualizare corectă), un punct variabilă este supus transformării:

• transformarea din ACPN este o deformare a norului de puncte care aduce

fiecare punct variabilă la distanţa 1 de origine (pe sfera unitate).

Într-adevăr, din transformarea nsrr

xj

jijij

*−= , rezultă că distanţa unui punct

variabilă la origine este

∑=

=−=n

ijjij srr

nj

1

222 1/)(1)0,(d .

Distanţa dintre două puncte este dată de ),(cor22),(d2 kjkj −=

adică proximităţile dintre puncte se pot interpreta în termenii corelaţiilor dintre variabile.

Coordonatele punctelor variabile pe o axă sunt coeficienţii de corelaţie dintre variabile şi factorul respectiv (considerat ca o nouă variabilă). Prin urmare se poate interpreta un factor (axă) drept o combinaţie a variabilelor cele mai corelate cu el.

Componente principale – o altă definiţie Definiţia componentelor principale prezentată aici oferă un punct de vedere diferit (apropiat

de sensul istoric iniţial). Notăm cu Xn×p matricea de date (n observaţii asupra a p variabile), cu Aj′ matricea (transpusă) (de tip j×p) a ponderilor primelor j componente principale (coloanele din Aj fiind primii j vectori proprii), cu Zn×j matricea scorurilor componentelor principale.

zik = a1ix1k + a2ix2k + … + apixpk Rezultă atunci

X = Z Aj′ + U unde Un×p este matricea reziduurilor.

Se poate arăta atunci că primele j componente principale sunt acele variabile necorelate care constituie cele mai bune variabile predictor (printr-un model liniar) ale variabilelor observate.

Criteriul este tot al celor mai mici pătrate ∑∑

i jiju2min

Page 118: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Se poate astfel spune că, dacă s-ar determina mulţimea de variabile necorelate care prognozează cel mai bine (printr-un model liniar) variabilele observate, atunci aceste noi variabile ar fi componentele principale.

Prin urmare, relaţia matriceală X = Z Aj′ + U

se interpretează ca evidenţiind variabilele ascunse (latente), z, care determină variabilele observate x.

Numărul de componente principale Din toată discuţia de până acum apare ca un punct important acela al fixării

numărului j de componente principale care se reţin în modelul final. Această întrebare nu are un răspuns precis. Există o serie de proceduri

acceptate, discutate în continuare şi care se aplică şi altor metode factoriale. O proprietate importantă a metodei este aceea a menţinerii varianţei totale a

datelor. Cu alte cuvinte )var(...)var()var()var(...)var()var( 2121 pp ZZZXXX +++=+++

pλλλ +++= ...21 În cazul ACPN, variabilele sunt standardizate şi, prin urmare,

pXXX p =+++=+++ 1...11)var(...)var()var( **2

*1

de unde rezultă că suma varianţelor componentelor principale este p: pp =+++ λλλ ...21

În general, primele q componente principale oferă un rezumat q-dimensional al variabilelor iniţiale, acela care are varianţa maximă dintre toate rezumatele q-dimensionale. Pentru q = p nu are loc o reducere a dimensiunii, obţinând o simplă transformare a variabilelor iniţiale. Prin reţinerea doar a primelor q valori proprii, proporţia explicată din varianţa totală este

p

q

λλλλ

++

++

...

...

1

1

Acesta nu poate constitui un criteriu pentru numărul de factori reţinuţi, întrucât raportul creşte o dată cu numărul factorilor (ajungând la 1). Un prim criteriu poate fi acela al reţinerii acelor valori proprii care depăşesc media, adică

)...(11 pi p

λλλ ++>

criteriul implicit în SPSS, cu observaţia că în ACPN criteriul devine identic cu criteriul Kaizer.

Criteriul Kaiser Se reţin doar componentele principale corespunzând valorilor proprii mai mari

decât 1. Se aplică de regulă în ACPN.

Criteriul Cattell (scree test) Varianta grafică: se detectează pe diagrama valorilor proprii un “cot”. Se

reţin doar valorile proprii de până în acel loc, inclusiv.

Page 119: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Varianta analitică: se calculează ε1=λ1-λ1, ε2=λ2-λ3, … δ1=ε1-ε2, δ2=ε2-ε3, … şi se reţin λ1, …, λk+1 astfel încât δ1, δ2, …, δk să fie toate pozitive. Analog, se încearcă trasarea unei drepte (dreapta de regresie) prin ultimele j

valori proprii şi se reţin doar valorile proprii situate deasupra acesteia.

Reprezentări grafice In ACP/ACPN datele iniţiale se referă la n observaţii asupra a p variabile, care

pot fi interpretate ca • n puncte-indivizi (observaţii) în R p, • p puncte-variabile în R n. Reţinerea unui număr de axe factoriale echivalează cu determinarea unui

subspaţiu în care datele iniţiale pot fi regăsite cu suficientă acurateţe. Examinarea structurii norilor de puncte din subspaţiile respective se realizează prin metode grafice, reprezentând punctele prin proiecţii pe un număr suficient de plane factoriale.

Astfel, pentru a putea înţelege structura unui nor de puncte în R 3 este nevoie de proiecţia lor pe două plane (xOy şi xOz, de exemplu). Interpretările diferă totuşi după cum este vorba de variabile sau de observaţii.

Variabile Prin metoda numerică utilizată, coordonatele punctelor variabile sunt mai mici

de 1, punctele fiind pe sfera unitate. Cum distanţele dintre puncte sunt invers proporţionale cu corelaţiile dintre variabilele corespunzătoare, grupările de puncte indică grupuri de variabile corelate.

Pentru eliminarea erorilor de perspectivă, aprecierea corectă apare doar după analiza proiecţii-lor pe mai multe planuri factoriale (= nr.de factori – 1). Variabilele apropiate de o axă sunt corelate cu acea componentă principală, se poate considera că axa respectivă este o combinaţie a variabilelor apropiate de ea.

Page 120: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Observaţii Reprezentarea punctelor-observaţii prezintă de asemenea grupările de

observaţii, fără a mai fi pe sfera unitate. Prima axă factorială este, uzual, factorul de talie, separând de-a lungul ei

observaţiile mici de cel mari. A doua axă factorială este factorul de formă. care nuanţează diferen-ţele efectuate de primul factor.

Dacă observaţiile aparţin la grupuri de interes, evidenţierea claselor (ca în figură) poate oferi informaţii utile prin configuraţiile vizibile. Concluziile sunt justificate doar după utilizarea unui număr suficient de proiecţii.

Coordonatele punctelor observaţii sunt, de regulă, scalate astfel încât să

permită suprapunerea celor două grafice (variabile, observaţii). Deşi trebuie o oarecare grijă în emiterea concluziilor (vezi, de exemplu, efectul de perspectivă în configuraţiile multidimensionale), asemenea vizualizări pot oferi explicaţii ale apropierilor dintre observaţii prin variabilele apropiate acelui grup etc.

B. Instrumente SPSS

Dialogul Factor Analysis Pentru a aplica analiza factorială, prin natura metodei, trebuie ca între

variabile să existe corelaţii suficient de mari pentru a avea sens problema reducerii

Page 121: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

dimensiunii. Prin urmare, dacă o variabilă nu este corelată cu celelalte va trebui exclusă din analiză. În acelaşi timp, nici corelaţiile foarte mari (multicoliniaritatea) nu conduc la rezultate uşor de interpretat, situaţia extremă fiind cea de singularitate, a existenţei variabilelor perfect corelate. În asemenea cazuri este imposibil să se determine contribuţia individuală la un factor a variabilelor. Prin urmare este necesar să se calculeze şi să se analizeze matricea de corelaţii a variabilelor prin Analyse – Correlate – Bivariate, inclusiv determinantul acestei matrice pentru determinarea multicoliniarităţii.

Este de asemenea necesar să se testeze că variabilele au o distribuţie apropiată de distribuţia normală (prin analizarea histogramelor sau a testelor de normalitate).

Dialogul principal este Analyse – Data Reduction – Factor. Se afişează dialogul Factor Analysis.

Variabilele procesate se trec în lista Variables iar în Selection Variable se

poate indica o variabilă care selectează prin Value observaţiile/cazurile considerate în analiză. Parametrii analizei se fixează în dialogurile afişate de acţionarea butoanelor Descriptives, Extraction, Rotation, Scores, Options, dialoguri descrise în continuare.

Descriptives În grupul Statistics se poate cere afişarea statisticilor elementare (media,

abaterea standard etc.). Selectarea Initial solution afişează comunalităţile iniţiale, valorile proprii etc.

Grupul Correlation Matrix conţine informaţiile despre coeficienţii de corelaţie

şi cele utile în studiul multicoliniarităţii. Dintre acestea, Bartlett's Test of Sphericity testează dacă matricea de corelaţie este aproximativ unitară (ca ipoteză nulă), ceea ce denotă o multicoliniaritate accentuată, dar nu precizează care variabilă nu este corelată cu celelalte. Acest studiu ar trebui realizat separat prin estimarea coeficientului de determinare R2 în fiecare model liniar Xi = f (restul variabilelor X). KMO (Kaiser-Meyer-Olkin) testează corelaţiile parţiale dintre variabile doar global, ceea ce nu este util în identificarea variabilelor necorelate.

Acceptarea ipotezei nule din testul Bartlett conduce la ideea că variabilele nu sunt corelate între ele, deci o încercare de reducere a dimensiunii nu este sortită

Page 122: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

succesului, fiecare variabilă are o contribuţie proprie importantă şi care nu poate fi suplinită de celelalte variabile.

Este de remarcat că dacă o variabilă nu este bine corelată cu celelalte (deci nu contribuie la multicoliniaritate), această variabilă poate fi omisă din analiză.

Opţiunea Reproduced afişează matricea de corelaţie estimată din soluţia factorială şi se afişează şi reziduurile.

Extraction Din lista Method se poate fixa metoda de analiză factorială. Pentru analiza în

componente principale sau componente principale normate se va selecta Principal components. În acest caz, tipul analizei este dat de selecţia din grupul Analyze: correlation matrix pentru ACPN sau covariance matrix pentru ACP.

În grupul de opţiuni Extract se poate indica exact numărul de factori sau

preciza pragul pentru valorile proprii (deci factorii) reţinute. Prin selectarea opţiunii Scree plot se obţine diagrama valorilor proprii care oferă ajutor în stabilirea numărului de factori. Unrotated Factor Solution produce afişarea pentru soluţie a încărcărilor, comunalităţilor şi valorilor proprii.

Deoarece soluţia se obţine în urma unui proces iterativ, se poate fixa numărul maxim de iteraţii în Maximum Iterations for Convergence.

Reamintim că din p variabile se pot extrage p componente, fiecare valoare proprie reprezentând partea de varianţă care este explicată de componenta respectivă.

Rotation Rotaţia reperului axelor factoriale pentru a prinde un “unghi de vedere” mai

bun se poate selecta în dialogul Rotation. Ca metode sunt disponibile: varimax (se minimizează numărul de variabile cu încărcări mari pe fiecare factor, ceea ce simplifică interpretarea factorilor), direct oblimin (rotaţie oblică), quartimax (minimizează numărul de factori necesari explicării fiecărei variabile), equamax (combinaţie între metodele varimax şi quartimax) şi promax (rotaţie oblică în care se admit factori corelaţi).

Pentru soluţia obţinută în urma rotaţiei se poate cere soluţia sau diagramele

încărcărilor pentru primii doi (dacă nu s-au extras cel puţin trei factori) sau trei factori. Şi pentru procesul de rotaţie se poate preciza numărul maxim de iteraţii în Maximum Iterations for Convergence.

Page 123: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Scores Se poate cere salvarea ca noi variabile a scorurilor factoriale finale, fiecare

factor producând o variabilă. Cu alte cuvinte coordonatele cazurilor în reperul factorial sau transformări ale acestora.

Se poate preciza metoda de calcul a scorurilor: regression (scorurile produse au media zero şi o dispersie egală cu pătratul corelaţiei multiple între scorurile factoriale estimate şi coordonatele factoriale adevărate), Bartlett (scorurile produse au media zero şi este minimizată suma pătratelor factorilor reţinuţi) sau Anderson-Rubin (scorurile au media zero, abatere standard unitară şi sunt necorelate).

Prin Display factor score coefficient matrix se afişează matricea de corelaţie

dintre scoruri şi coeficienţii cu care se înmulţesc variabilele pentru a obţine scorurile factoriale.

Options Se precizează modul de tratare a valorilor lipsă ca şi modul de afişare a

matricelor, de exemplu se pot omite coeficienţii care sunt în valoare absolută sub un anumit prag.

Structura fişierului de ieşire Matricea de corelaţie, dacă este solicitată, se interpretează în mod uzual,

dupăcum s-a explicat în lucrarea dedicată asocierii variabilelor. Se recomandă analizarea corelaţiilor pentru a identifica variabilele care nu sunt corelate cu celelalte (şi care pot fi eventual omise din analiză, dacă nu se doreşte mai degrabă reducerea numărului de variabile decât analiza corelaţiilor). Se afişează şi tabelul cu testele amintite mai sus, asociate existenţei multicoliniarităţii:

Tabelul valorilor proprii (eigenvalues) conţine, pe lângă valoarea efectivă,

calculul necesar identificării varianţelor explicate de componentele respective. Suma celor p valori proprii este egală cu p (numărul de variabile). Proporţia de varianţă explicată de o componentă este prin urmare raportul dintre valoarea proprie respectivă

Page 124: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

şi p (reamintind că fiecare valoare proprie reprezintă partea de varianţă explicată, captată de componenta respectivă):

3.313 47.327 47.3272.616 37.369 84.696

.575 8.209 92.905

.240 3.427 96.332

.134 1.921 98.2529.E-02 1.221 99.4734.E-02 .527 100.000

Component1234567

Total% of

VarianceCumulative

%

Initial Eigenvalues

Extraction Method: Principal Component Analysis. Se observă că din ultima coloană se citeşte direct cât din varianţa totală se

explică prin reţinerea unui număr de componente. Pentru ajutor în stabilirea numărul de componente se poate cere afişarea

diagramei valorilor (diagrama dată de exemplu conduce la reţinerea a două sau trei componente, decizia finală fiind influenţată şi de proporţia cumulată a varianţei explicate):

Scree Plot

Component Number

7654321

Eige

nval

ue

3.5

3.0

2.5

2.0

1.5

1.0

.5

0.0

Tabloul Component Matrix, esenţial în analiză, conţine încărcările factorilor,

factor loadings. Matricea este referită şi prin loading matrix sau factor pattern matrix. Elementele matricei, încărcările, sunt corelaţiile dintre componente (coloane) şi variabilele iniţiale (linii). Datorită proprietăţilor componentelor (sunt ortogonale), încărcările au şi interpretarea de coeficienţi standardizaţi din regresia multiplă, cu alte cuvinte arată cu câte abateri standard sX se modifică X dacă factorul respectiv se modifică cu o abatere standard sF.

Component Matrixa

.760 -.576

.736 -.614-.735 -.071.710 -.646.550 .734.632 .699.667 .675

COLORAROMAREPUTATTASTECOSTALCOHOLSIZE

1 2Component

Extraction Method: Principal Component Analysis.

2 components extracted.a.

Structura mai utilă pentru interpretare este, totuşi, cea obţinută după rotirea factorilor, care oferă o "viziune" mai bună. Matricea de încărcare este afişată şi după ce s-au rotit factorii, interpretarea fiind cea dată mai sus.

Page 125: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Rotated Component Matrixa

.960 -.028

.958 1.E-02

.952 6.E-027.E-02 .9472.E-02 .942

-.061 .916-.512 -.533

TASTEAROMACOLORSIZEALCOHOLCOSTREPUTAT

1 2Component

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Rotation converged in 3 iterations.a.

Se observă că sunt evidenţiate mai bine diferenţele de încărcare ale factorilor. Observaţie. Încărcările factorilor constituie baza denumirii factorilor,

problemă importantă în analiza factorială. Un factor, ca variabilă latentă, ar trebui să poarte un nume pentru a fi înţeles, utilizat, referit etc. Structura de încărcare a unui factor poate oferi sugestii în acest sens, încărcările mai mari ca 0,6 sunt considerate ca importante, cele sub 0,4 sunt scăzute. Variabilele cu încărcări mari constituie combinaţia de variabile iniţiale care determină factorul, deci şi denumirea lui (creată evident de specialiştii din domeniu, nu de statistician).

Dacă s-a cerut o rotaţie a factorilor, SPSS afişează şi varianţa explicată de fiecare componentă după rotaţie. Varianţa explicată este egală cu suma încărcărilor la pătrat.

Acest tabel ajută să se decidă câte componente ar trebui reţinute, suma

pătratelor încărcărilor (SSL, sum of squared loadings) după rotaţie este oarecum similară unei valori proprii. Se pot, drept urmare, păstra acele componente cu SSL post-rotaţie mai mari ca 1.

Încărcările post-rotaţie arată cum sunt definite componentele. Dacă o singură variabilă are o încărcare mare la o componentă, componenta nu este bine definită. Dacă doar două variabile au încărcări puternice cu o componentă, componenta este corectă dacă variabilele sunt corelate între ele dar nu sunt corelate cu celelalte variabile.

Se numeşte comunalitate (communality) proporţia explicată de factori din varianţa unei variabilei. Deoarece încărcările sunt corelaţiile dintre variabile şi componente şi cum componentele sunt ortogonale, comunalitatea unei variabile reprezintă coeficientul de determinare, R2, dacă variabila este prognozată de componente. Se poate calcula comunalitatea unei variabile ca suma pătratelor încărcărilor după factori.

Comunalităţile iniţiale sunt 1 fiind calculate înainte de reducerea dimensiunii.

Page 126: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

C. Lucrarea practică 1) Un studiu din 1979 a urmărit în diferite ţări europene modul de încadrare a forţei

de muncă în diferite ramuri industriale. Datele sunt sub formă de procentaje şi se găsesc în fişierul www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Variabilele sunt Country – numele ţării, Agr – procentajul de muncitori din agrucultură, Min – procentajul de muncitori din minerit, Man – procentajul de muncitori din industria prelucrătoare, PS – procentajul de muncitori din industria energetică, Con – procentajul de muncitori din construcţii, SI – procentajul de muncitori din servicii, Fin – procentajul de muncitori din finanţe, SPS – procentajul de muncitori din servicii sociale, TC – procentajul de muncitori din transporturi şi comunicaţii.

a) Să se realizeze o analiză în componente principale.

b) Să se deducă grupurile principale de state omogene ca structură a muncii.

2) Datele necesare acestul exerciţiu sunt la adresa web www.infoiasi.ro/~val/statistica/boston.sav. Datele au fost utilizate şi în lucrarea 8 în scopul prognozei preţului de vânzare a unei case din regiunea Boston în funcţie de caracteristici diverse ale locuinţei şi ale localizării ei. Reamintim că variabilele sunt, în ordine, CRIM – rata criminalităţii, ZN – proporţia teritoriului zonat în loturi de peste 25,000 sq.ft., INDUS proporţia terirorială a zonei industriale, CHAS – indicator de învecinare cu râul din zonă (= 1 da, 0 nu), NOX – concentraţia de oxizi nitrici, RM – numărul mediu de camere, AGE – proporţia de locuinţe construite înainte de 1940 şi ocupate de proprietar, DIS – distanţa ponderată la cinci centre productive din Boston, RAD – indicele de accesibilitate la reţeaua de autostrăzi, TAX – rata de impozit (procent la 10000$), PTRATIO – raportul copii-profesori în zonă, B – 1000(Bk−0.63)2 unde Bk este procentajul populaţiei de culoare în zonă, LSTAT – procentajul populaţiei sărace, MEDV – valoarea medie a caselor (în mii de dolari).

a) Să se realizeze o analiză în componente principale a variabilelor dintre care s-au exclus CHAS şi MEDV.

b) Să se analizeze dacă apar diferenţe în rezultate atunci când se consideră separat grupurile definite de CHAS.

Page 127: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Statistică multivariată

Lucrarea nr. 12 — Clasificare - SPSS

A. Noţiuni teoretice

Clasificare Prin clasificare se înţelege gruparea unor entităţi (observaţii, obiecte etc.) în

clase (grupuri) de entităţi similare. Atunci când gruparea este efectuată manual, cel care o efectuează operează cu judecăţi de similaritate, asemănare, apropiere. Acest tip de raţionament este formalizat şi în metodele automate.

Există, în esenţă, două tipuri de clasificare automată: 1. predictivă, de exemplu analiza discriminantă; se asignează o observaţie la

un grup pornind de la reguli de clasificare derivate din observaţii clasificate în prealabil. Se poate ca schema de clasificare existentă să fie subiectivă, neutilizabilă efectiv, astfel încât metoda descoperă aspectele esenţiale ale schemei şi le transformă în reguli practice.

2. descriptivă, de exemplu analiza cluster; se grupează obiectele pe baza similarităţii lor, nu este cunoscută o grupare prealabilă.

Clasificare predictivă Considerăm cazul a două populaţii multivariate, Π1 şi Π2, fiecare caracterizată

de repartiţiile diferitelor variabile măsurate. Problema clasificării revine la a stabili populaţia la care aparţine o observaţie u (caracterizată de valorile variabilelor considerate).

Notând cu S spaţiul de eşantionare (care cuprinde observaţii din Π1 şi din Π2), o regulă de clasificare revine la a partiţiona S în A1 şi A2, astfel încât pentru o observaţie u se poate dezvolta o procedură care decide

• dacă u ∈ A1, atunci u ∈ Π1

• dacă u ∈ A2, atunci u ∈ Π2

Clasificare predictivă - Fisher Regula de clasificare a lui Fisher este bazată pe maximizarea separaţiei dintre

cele două populaţii, în spiritul analizei varianţei. Presupunem că populaţiile univariate au, respectiv, mediile µ1, µ2 şi dispersia comună σ2.

Este evident (intuitiv) că o observaţie u va fi clasată în Π1 dacă u este mai apropiată de µ1 şi în Π2 daca este mai apropiată de µ2.

In cazul a două populaţii m-dimensionale, ideea lui Fisher a fost să transforme observaţia multidimensională u într-o observaţie univariată y = a'u. Problema devine atunci aceea de a determina combinaţia liniară, definită de vectorul a, astfel încât cele două populaţii să fie separate (diferenţiate) cât mai mult posibil. Se ajunge astfel, în cazul general, la problema studiată în analiza discriminantă. Această analiză oferă ca rezultat şi funcţiile de clasificare:

Fiecare subpopulaţie, Πi, are asociată o funcţie de clasificare fi astfel încât observaţia u este clasată în populaţia Πj determinată prin

)(max)( uu ii

j ff =

Page 128: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Definim centrul unei clase (sau centroidul clasei) în mod uzual, ca punctul având drept componente mediile aritmetice ale componentelor corespunzătoare din punctele clasei. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o observaţie (valorile celor m variabile determină un punct în spaţiul R m) şi punctele centrale, centroizii claselor. Distanţele se pot calcula ca distanţe euclidiene, dar, din păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor: variabile măsurate pe scale diferite, de ordine de mărime diferite, pot afecta foarte mult distanţele euclidiene. Componentele cu variabilitate mare ar trebui să contribuie cu ponderi mai mici decât cele cu variabilitate mică.

Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi, cea mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m variabile, adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x))′] atunci distanţa Mahalanobis între punctele x = (x1, …, xm)′ şi y = (y1, …, ym) ′, este definită prin

y)(xΣ)y(xyx, 1Σ −′−= −)(d

şi, corespunzător, se defineşte norma unui vector prin xΣx'xx 1−

ΣΣ == )0,(d .

Clasificare predictivă – k vecini Considerăm situaţia clasificării propriu-zise, adică sunt cunoscute n obiecte

prin atributele lor, inclusiv apartenenţa la clasele π1, π2, …, πk, şi se doreşte clasarea unei noi observaţii.

Un algoritm suficient de des utilizat este acela denumit al celor k vecini (k - nearest neighbours).

1. Se determină k obiecte cele mai apropiate de noua observaţie. 2. Aceste k obiecte stabilesc clasa noului obiect prin

• Vot majoritar – noul obiect este clasat în clasa la care aparţin cei mai mulţi dintre cei k vecini (care dispun fiecare de un vot întreg).

• Vot invers proporţional distanţei – similar votului majoritar, dar fiecare dintre cei k vecini apropiaţi dispune de o fracţiune de vot, egală cu inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai mult la decizie).

Clasificare descriptivă In analiza multivariată, clasificarea descriptivă (cluster analysis) se referă la

metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte similare. Cazurile de aplicare ale acestor metode sunt similare celor în care se utilizează analiza factorială.

Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii, obiecte, coloanele sunt variabile, atribute). In plus,

• datele sunt omogene în sensul că are sens calculul distanţelor dintre elemente

• există suficient de multe date încât simpla inspecţie vizuală sau prelucrările statistice elementare nu oferă o imagine satisfăcătoare a structurii datelor

• tabloul de date este amorf: nu există o structurare a priori (dependenţe funcţionale, relaţii, clasificări cunoscute).

Page 129: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

De remarcat că ultima caracteristică este cea care ne depărtează de descrierea predictivă (unde se presupunea existenţa unei structurări necesare în etapa de training).

Drept rezultat al clasificării descriptive se obţin grupurile de elemente, clasele identificate. Deoarece se pot aplica pe aceleaşi structuri de date, metodele clasificării descriptive sunt complementare metodelor analizei factoriale. De regulă, atunci când se utilizează împreună, analiza factorială este efectuată mai întâi, clasele evidenţiate de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptivă.

Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca urmare a unei suite de operaţii efectuate recursiv sau repetitiv; matematica implicată este relativ elementară.

Numim clasă (grup, cluster) o mulţime de obiecte (elemente) similare între ele şi nesimilare obiectelor din alte clase. Un cluster poate fi gândit (reprezentările grafice reflectă aceste interpretări)

• Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi depărtate de punctele din alte clase, sau

• Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate mare (relativ) de puncte, clusterele fiind separate între ele de regiuni cu o densitate scăzută (relativ) de puncte.

Rezultă că problema esenţială în determinarea (identificarea) clusterelor este cea a specificării proximităţii (apropierii, similarităţii) şi cum se determină aceasta. Este evident că proximitatea este o noţiune dependentă de problema reală cercetată.

Structurile uzuale de date privind obiectele supuse analizei cluster sunt: • Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin

atributele lor – n obiecte şi p atribute vor furniza o matrice de tip n×p. Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile).

• Matricea de proximitate. Elementele d(i,j) reprezintă proximităţile dintre obiectele i şi j. Proximitatea poate fi

o similaritate (asemănare), cum ar fi coeficientul de corelaţie, sau o disociere (depărtare, diferenţiere), cum ar fi distanţa euclidiană.

Atunci când atributele sunt de tipuri diferite (atât discrete, cât şi continue), se poate calcula proximitatea dintre obiectele i şi j prin

]1,0[),(

1

)(

1

)()(

∈=

=

=f

i

fij

p

f

fij

fij d

jidδ

δ

unde )( fijδ este ponderea variabilei f

===

restin 1binara ,asimetrica este si 00

lipsa sau pentru 0)( fxx

xx

jfif

jfiff

ijδ

Menţionăm că )( fijd este contribuţia variabilei f la d(i,j) şi anume:

- dacă f este binară sau nominală, atunci =

= altfel 1

pentru 0)( jfiffij

xxd

(Hamming) - dacă f este continuă, atunci (normalizare prin amplitudine)

hfhhfh

jfiffij xx

xxd

minmax)(

−=

Page 130: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

- dacă f este ordinală, se atribuie rangul rif, se calculează 1max

1−

−=

hfh

ifif r

rz şi se

consideră că f este continuă, având valorile zif. Există mai multe tipuri de algoritmi de clasificare: - Algoritmi ascendenţi (de agregare, de sinteză) – clasele sunt construite

prin agregarea succesivă a elementelor, se obţine astfel o ierarhie de partiţii, de clase.

- Algoritmi descendenţi (de divizare) – mulţimea obiectelor este divizată succesiv în submulţimi de obiecte din ce în ce mai omogene; se poate obţine şi aici o ierarhie a partiţiilor.

- Algoritmi de partiţionare – se pleacă de la o partiţie (structură de clase) care se modifică pentru a maximiza omogenitatea fiecărei clase.

Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical cluster analysis).

Clasificare descriptivă - agregare Algoritmul fundamental de clasificare ascendentă ierarhică este: 1. Etapa 0 – există cele n elemente care se clasifică; 2. Etapa 1 – se determină perechea de elemente cele mai apropiate între ele şi

se produce, prin agregarea lor, un nou element; 3. Etapa 2 – există acum n-1 elemente care se clasifică; 4. Se repetă Etapa 1 şi Etapa 2 până când mulţimea elementelor care se

clasifică are un singur element.

Clasificare descriptivă - divizare Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă: 1. Se pleacă de la mulţimea totală a elementelor 2. La fiecare pas următor, cea mai “mare” (cea mai eterogenă) grupare este

divizată în două subgrupări. 3. Algoritmul se opreşte atunci când toate grupurile constituite au câte un

singur element. Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului,

definit ca distanţa maximă dintre două elemente din grup. Evident că se pot utiliza şi alte metode în acest scop.

Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis): 1. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte

obiecte (cea mai mare disociere). Este obiectul care iniţiază un nou cluster, S (splinter group).

2. Pentru fiecare obiect i din afara grupului S a. se calculează

),(),( jidjidDjj

i mediamediaSS ∈∉

−=

b. Se determină un obiect h cu Dh = max Di. c. Dacă Dh este pozitiv, atunci obiectul h se adaugă grupului splinter

(este mai apropiat, în medie, de elementele din S). d. Se repetă a) – c) până ce Dh este negativ. Mulţimea iniţială este

acum divizată în două clustere.

Page 131: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

3. Se selectează clusterul cu cel mai mare diametru. Acesta este divizat prin paşii 1 – 2.

4. Se repetă 3) până când toate grupurile constituite au un singur element. Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent,

în care pe axa verticală sunt obiectele, pe axa orizontală se trec diametrele clusterelor.

Clasificare descriptivă - partiţionare Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se

poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge, prin migrarea obiectelor între clase, la o partiţie care îndeplineşte un criteriu de optim. Partiţia finală constituie structura de clustere căutată. De reţinut, totuşi, faptul că nu există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte.

Metodele de partiţionare sunt utile atunci când există un mare număr de obiecte, caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte produc o dendrogramă de neînţeles).

Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care minimizează suma pătratelor erorilor (apare la distanţa Ward). Eroarea este distanţa de la un obiect la centrul clusterului său.

Un algoritm general de partiţionare este: 1. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele

clusterelor. 2. Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu

centrul cel mai apropiat. 3. Se calculează noile centre ale clusterelor. 4. Se repetă paşii 2-3 până se stabilizează clusterele sau nu se

îmbunătăţeşte criteriul ales. 5. Se ajustează numărul de clustere prin reunirea sau divizarea unor

clustere sau prin eliminarea clusterelor aberante (cu un număr mic de elemente).

6. Se repetă paşii 2-5 până se stabilizează clusterele sau nu se îmbunătăţeşte funcţia criteriu.

Elementele importante ale algoritmului sunt comentate în continuare. Partiţia iniţială O partiţie iniţială se poate obţine selectând k obiecte, considerându-le centre şi

grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel mai apropiat). Nu se recalculează centrele după fiecare clasificare a unui element.

Centroizii fiecărui cluster astfel format constituie centrele pentru pasul următor.

Page 132: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o analiză prealabilă (clasificare ascendentă, analiză în componente principale etc.). Clusterele iniţiale pot fi date de o clasificare ascendentă, de exemplu. De reţinut, totuşi, că partiţii iniţiale diferite conduc la clustere finale diferite.

Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor conduc la atingerea unui optim local, cel puţin dacă grupurile nu sunt bine diferenţiate. Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale diferite.

• Dacă se ajunge la o aceeaşi partiţie, atunci se măreşte încrederea că s-a atins un optim global.

• In caz că nu, se pot analiza subgrupurile stabile (elemente care sunt mereu împreună), care pot oferi informaţii despre numărul de clustere.

Actualizarea partiţiei Există mai multe moduri de abordare a pasului 2 din metoda generală: • Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat.

o Centrele se recalculează după fiecare atribuire, sau o Centrele se recalculează după ce au fost procesate toate obiectele.

• Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu. Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. Se încearcă astfel evitarea unui optim local.

Ajustarea partiţiei Se pot defini condiţii pentru reducerea, sau extinderea numărului de clustere.

Se încearcă astfel atingerea unui număr “natural” de clustere, apropiat de gruparea reală, neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor sau din alte cauze exterioare.

Algoritmul cel mai cunoscut este, în acest sens, ISODATA (Ball & Hall, Jensen):

• Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau dacă distanţa dintre centrele lor este mică (sub un prag fixat).

• Un cluster este divizat dacă dispersia elementelor (după atributul cel mai dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de elemente (de exemplu, de două ori mai multe decât numărul minim).

Este de remarcat că existenţa valorilor aberante poate denatura procesul de clusterizare. Din acest motiv, anumiţi autori recomandă excluderea obiectelor aberante (şi chiar a celor din clusterele cu puţine elemente).

Convergenţa Deşi nu se garantează atingerea unui optim global, algoritmul se opreşte atunci

când funcţia criteriu nu mai poate fi îmbunătăţită, sau – în anumite variante – când partiţia nu se modifică în două iteraţii succesive.

Demonstraţii matematice ale convergenţei au fost bazate • fie pe formularea problemei ca o problemă de programare matematică, • fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa

interclase şi se micşorează varianţa intraclase, ceea ce – dată fiind finitudinea mulţimii de obiecte – produce oprirea procesului.

Clasificare descriptivă – metode fuzzy In afară de metodele deterministe, au fost dezvoltate şi metode de clasificare

fuzzy. Intr-o metodă fuzzy se obţin, pentru fiecare obiect, probabilităţile ca obiectul să aparţină la fiecare dintre clustere.

Page 133: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

De exemplu, o metodă fuzzy, similară metodei de partiţionare, este metoda celor c medii (fuzzy c-means), bazată pe minimizarea funcţiei obiectiv

∑∑= =

=n

i

c

jji

mijm cxduJ

1 1

2 ),(

unde n - numărul de obiecte, c – numărul de clustere, m ∈ R , m > 1 este parametru (uzual este 2), cj, j = 1…c sunt centrele clusterelor, d este o distanţă de similaritate, uij este

gradul de apartenenţă al lui i la clusterul j. Rezultatul este conţinut în matricea de apartenenţă (uij) care oferă

probabilităţile apartenenţei elementelor la clase. Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv)

prin actualizarea la fiecare pas a matricei de apartenenţă (uij) şi a centrelor clusterelor (cj)

∑=

=

c

l

m

li

ji

ij

cxdcxd

u

1

11

2

2

),(),(

1

=

== n

i

mij

n

ii

mij

j

u

xuc

1

1

Procesul se opreşte atunci când matricea de apartenenţă se stabilizează: ε<−+ )()1(

,max k

ijk

ijji

uu

unde ε ∈ (0, 1) are semnificaţia uzuală în procese iterative similare.

Distanţe între obiecte În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre

obiecte (elemente sau grupuri deja constituite). Alegerea unei anumite distanţe modifică grupările care se constituie.

Metoda celui mai apropiat vecin (nearest neighbor method) Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale

grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite) ( ) ),(min,

21,21 yxdyx ππ

ππ∈∈

=d

În imaginea următoare se exemplifică, prin numerotarea 1 … 6 ordinea de atribuire a elementelor respective la grupurile figurate în extremităţi. Astfel, un lanţ de obiecte apropiate două câte două este atribuit, de regulă, la un singur grup, ceea ce nu produce o grupare acceptabilă.

Page 134: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Metoda celui mai depărtat vecin (farthest neighbor method) Această metodă utilizează calcularea distanţei dintre două grupuri drept

distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai depărtate elemente din clase diferite)

( ) ),(max,21,

21 yxdyx ππ

ππ∈∈

=d

Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. În imaginea alăturată se poate vedea ordinea de atribuire 1 … 6 a elementelor corespunzătoare la cele două grupuri extreme. Gruparea obţinută corespunde mai bine şi grupării intuitive (efectuată de un operator uman).

Metoda legăturii medii Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente

ale grupurilor

( ) ∑ ∑∈ ∈

=1 2

),(1,21

21π π

ππx y

yxdnn

d

Metoda distanţei centrelor (average group linkage) Se consideră, ca distanţă dintre două grupuri π1 şi π2, distanţa dintre centrele

grupurilor ( ) ),(,

2121 ππππ GGd=d

unde centrele Gπ1 şi Gπ2 au drept componente mediile aritmetice ale componentelor elementelor din cele două grupuri, respectiv.

De remarcat că centrul unui grup este dinamic, fiecare nou element putând produce deplasarea lui. Centrul unui grup format dintr-un singur element este chiar acel element.

Metoda distanţei Ward (Ward's linkage) Distanţa Ward este bazată pe creşterea “suma de pătrate a erorilor” după

contopirea grupurilor într-unul singur. Metoda Ward selectează grupările care minimizează creşterea sumei de pătrate a erorilor.

( ) ( ))()()(,

)(

212121

2

ππππππ

ππ

π

SPSPSP

xxSPx

+−∪=

−= ∑∈

d

Page 135: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Dendrograma Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma). Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii

elementelor clasificate. Componentele partiţiei sunt clasele căutate. În figura alăturată este prezentată o dendogramă. Pe axa orizontală sunt

elementele iniţiale (ordinea este cea care permite desenarea arborelui). Pe axa verticală sunt distanţele dintre obiecte, de exemplu, între obiectele 4 şi 6 este o distanţă egală cu 4.

Calitatea clasificării Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori

(numărul de clase în special), evaluarea calităţii partiţiei obţinute este o etapă foarte importantă. Evaluarea trebuie să ia în considerare atât faptul că, poate, mulţimea iniţială nu are o structură bine determinată de clase, cât şi faptul că diferite metode conduc la clase diferite.

Procedurile uzuale de evaluare: • Vizualizarea partiţiei (dendrograme, profiluri, proiecţii). • Indicatori de calitate

o Coeficienţii de divizare (divisive coefficient – DC) şi de aglomerare (agglomerative coefficient – AC) care oferă indicatori (medii) globali.

o Indici de siluetă (Silhouette) care se pot defini atât global, cât şi local pentru fiecare cluster.

Divisive Coefficient (DC): Pentru fiecare obiect i, se calculează d(i) ca fiind raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare) la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii totale de obiecte (clusterul iniţial). Atunci

∑= )(1 idn

DC

Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea ascendentă: Pentru fiecare obiect i, se calculează d(i) ca fiind raportul dintre disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi diametrul mulţimii totale de obiecte (clusterul final).

[ ]∑ −= )(11 idn

AC

Page 136: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

AC tinde să crească o dată cu numărul de obiecte. Silueta se calculează (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a

unui cluster, silueta medie globală. Acest indice vrea să reprezinte cât de bine este separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster – distanţa intra-cluster – şi cât de depărtate sunt de celelalte clustere – distanţa inter-clustere).

Prin calculul siluetei se poate decide asupra validităţii unui cluster, ca şi asupra numărului corect de clustere.

Notând cu S (i) silueta obiectului i, formula de calcul este

,max)(

ii

iiba

abiS −=

unde ai – disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster; bi – disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al doilea candidat pentru includerea obiectului i).

Dacă obiectul i este singurul element al unui cluster, atunci S (i) = 0.

Rezultă că -1 ≤ S (i) ≤ 1 şi S (i) poate fi considerat ca un indice adimensional, cu putere de comparare. Interpretarea este

• Dacă S (i) este apropiat de 1, atunci obiectul este bine clasificat (este asociat cu clusterul adecvat).

• Dacă S (i) este aproape nul, atunci obiectul poate fi clasificat şi în următorul cluster apropiat (obiectul este situat similar în raport cu ambele clustere)

• Dacă S (i) este apropiat de –1, atunci obiectul este clasificat eronat (el este separat faţă de celelalte clustere).

Fiecare cluster este caracterizat de silueta medie, obţinută ca media siluetelor elementelor din cluster.

Intreaga structură de clustere este caracterizată de silueta medie globală, obţinută ca media siluetelor S(i) după toate obiectele i. Dacă structura conţine un număr k de clustere, se notează silueta medie globală cu Sk. Silueta medie globală se poate utiliza pentru a decide asupra “celui mai bun” număr de clustere: se va alege acel k pentru care Sk este maxim.

Se introduce coeficientul siluetă prin k

kSSC max=

Este propusă (Rousseeuw - 1987) următoarea interpretare a coeficientului siluetă după valoarea sa:

• 0.71 - 1.00 s-a determinat o structură puternică (bine definită) de clustere;

• 0.51 - 0.70 s-a determinat o structură acceptabilă • 0.26 - 0.50 structura determinată este slabă, poate fi artificială • ≤ 0.25 structura determinată este artificială.

B. Instrumente SPSS Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze –

Classify. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică. De menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de

Page 137: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

calcule, el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor este importantă. Pentru considerarea altor distanţe se va apela procedura Hierarchical Cluster.

K-Means Cluster Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de

clase este cunoscut) şi apoi se repetă etapele: • atribuirea fiecărui caz la centrul cel mai apropiat, • actualizarea centrelor ca valori medii ale elementelor aparţinând clasei

respective. Ca interpretare se poate considera că centrul unei clase finale reflectă

caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru. Prin Analize – Classify – K-Means Cluster se deschide dialogul

În lista Variables se vor trece variabilele în funcţie de care se face clasificarea.

Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label Cases by. Numărul de clustere se poate fixa în Number of Clusters. O ghicire a numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind diagramele proiecţiilor pe planele factoriale. Ca metodă se poate alege • Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin

recalcularea centrelor după fiecare iteraţie. Dacă se doreşte utilizarea rezultatelor şi pentru clasificarea altor cazurii, informaţiile se vor salva într-un fişier prin selectarea opţiunii Write final as din grupul Cluster Centers.

• Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un fişier centrele claselor, calculate în prealabil şi salvate. În acest caz se va selecta, din zona Cluster Centers, Read initial from şi se va preciza File, fişierul salvat într-o prelucrare anterioară.

Prin acţionarea butonului Iterate din dialogul principal, buton permis doar pentru metoda Iterate and classify, se deschide dialogul sinonim.

În Maximum Iterations se fixează limita numărului de iteraţii, cel mult 999. Valoarea dată în Convergence Criterion reprezintă o proporţie p din distanţa minimă dintre centrele iniţiale, deci poate fi între 0 şi 1. Procesul iterativ se opreşte dacă niciun centru recalculat nu este deplasat cu mai

mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei. Prin selectarea opţiunii Use running means se cere

recalcularea centrelor la fiecare clasare a unui caz şi nu după clasarea tuturor cazurilor.

Acţionarea butonului Save din dialogul principal deschide dialogul prin care se poate cere salvarea unor

Page 138: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

informaţii ca noi variabile. Cluster membership – se salvează ca valori 1 … k apartenenţa la clusterele

finale. Distance from cluster center – salvează distanţa euclidiană dintre caz şi centrul clasei la care aparţine.

Prin dialogul Options, afişat la acţionarea butonului Options din dialogul principal, se pot preciza statisticile calculate şi modul de tratare a datelor lipsă.

În grupul Statistics: • Initial cluster centers – prima estimare a centrelor,

obţinută prin alegerea unui număr de cazuri egal cu numărul de clustere.

• ANOVA table – se afişează tabelul ANOVA pentru fiecare variabilă, considerând clusterele drept factor. Valorile F mari vor arăta variabilele care

contribuie cel mai mult la structura clusterelor. • Cluster information for each case – afişează asignările finale la clase, distanţa la

centrul clasei ca şi distanţele euclidiene dintre centrele finale.

Rezultatele SPSS în cazul K-Means Cluster Ieşirea depinde de opţiunile selectate în dialogurile procedurii, tabelele listate

în cazul (aproape) complet sunt prezentate în continuare. S-a realizat o clasificare ilustrativă utilizând fişierul SPSS de test Employee Data.

Centrele iniţiale ale claselor sunt alese aleatoriu, atâtea câte clustere sunt indicate în dialogul principal. Se prezintă coordonatele centrelor în spaţiul variabilelor.

Modificările survenite în timpul procesului iterativ sunt sistematizate în

tabloul următor, prezentându-se modificările apărute în coordonatele centrelor.

Centrele claselor finale sunt afişate într-un tabel similar celui care arată

centrele iniţiale:

O verificare mai mult orientativă asupra separării clusterelor după fiecare

variabilă considerată este conţinută în tabelul ANOVA:

Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a

clusterelor, toate testele F duc la respingerea ipotezei de egalitate a mediilor

Page 139: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

clusterelor. Se poate însă interpreta comparativ valoarea statisticii F în sensul că variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată.

Un tabel final arată câte elemente sunt clasificate în fiecare cluster.

Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul

clasei sunt create ca noi variabile cu denumiri implicite, după modelul

Informaţiile salvate pot fi utilizate, în afara scopului propus de a cunoaşte

unde aparţine fiecare observaţie, şi pentru ilustrarea clasificării prin diagrama de forma următoare, în care se poate observa modul de diferenţiere a claselor după diverse variabile (comanda a fost Graph - Scatter - Simple Scatter şi s-a precizat noua variabilă Cluster Number în Set Markers by).

Hierarchical Cluster Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi

reuneşte clustere până când se obţine un singur cluster. Se pot selecta mai multe distanţe, se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului optim de clustere.

Comanda este Analyze – Classify – Hierarchical Cluster care produce afişarea dialogului principal.

Page 140: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opţiunii selectate în grupul Cluster. Variabilele reprezentând caracteristicile după care are loc clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice. Grupul Display controlează ce se afişează, deci accesibilitatea la butoanele Statistics, Plots. Dialogurile secundare sunt explicate în continuare.

Statistics Agglomeration schedule – se afişează

combinaţiile din fiecare iteraţie, distanţe etc. Proximity matrix – se afişează distanţele sau similarităţile dintre elemente. Cluster Membership – produce afişarea apartenenţei la clustere în una sau mai multe iteraţii.

Plots Diagramele de aglomerare sunt disponibile în

formatul • Dendrogram (dendrograma explicată in curs,

orientată spre vizualizarea clusterelor) sau • Icicle (similară diagramei steag, orientată spre

vizualizarea cazurilor). Orientarea diagramei poate fi verticală sau

orizontală. În reprezentarea dendrogramei, distanţele dintre elementele care se unesc sunt transformate pe o scală 0 – 25, cu păstrarea raportului distanţelor.

Method În lista Cluster Method se poate alege una dintre metodele explicate în curs ca

metode de agregare, de calculare a distanţelor dintre clustere: cel mai apropiat vecin (nearest neighbor), cel mai depărtat vecin (furthest neighbor), distanţa faţă de centru (centroid clustering), Ward etc.

În grupul Measure se poate specifica distanţa sau similaritatea utilizată în grupare potrivit tipului de date: • Interval – pentru datele continue sunt

disponibile distanţele: euclidiană, cosinus (cosinusul unghiului dintre vectorii punctelor), corelaţia Pearson, Chebychev (diferenţa absolută maximă dintre valorile elementelor), block (suma diferenţelor absolute dintre componente, distanţa Manhattan), Minkowski (rădăcina de ordin p din suma diferenţelor absolute la puterea p), Customized (similară cu distanţa Minkowski, dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de coordonate)

• Count – pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere χ2 şi φ2 (a se vedea secţiunea privind asocierea datelor nominale).

Page 141: Lucrarea nr. 1 — Statistică descriptivă (Excel)sorana.academicdirect.ro/pages/doc/Doc2012/_materiale/Doct_LP... · Pentru prelucrarea unui set de date memorat într-un document

• Binary – pentru datele dihotomice există o mulţime de distanţe propuse, bazate pe tabelul de frecvenţe încrucişate a celor două variabile. Se pot preciza valorile interpretate ca 0 sau 1.

În grupurile Transform Values şi Transform Measures se pot selecta metode de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen măsurate.

Save Se poate salva, sau nu, ca variabile noi,

apartenenţa la clustere. Selectarea opţiunii Single solution şi precizarea numărului de clustere considerat ca soluţie finală va salva apartenenţa la acel stadiu.

Dacă se selectează Range of solutions, se va salva apartenenţa la fiecare stadiu dintre cele menţionate.

C. Lucrarea practică 1) Setul de date aflat la adresa www.infoiasi.ro/~val/statistica/EuropeanProtein.txt

conţine consumul de proteine în 25 de ţări europene. Datele se referă la anul 1973. Sunt măsurate următoarele variabile: Country - numele ţării, RdMeat - carne roşie, WhMeat - carne albă, Eggs - ouă, Milk - lapte, Fish - peşte, Cereal - cereale, Starch - grăsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale.

a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot fi grupate cele 25 de ţări

b) să se realizeze o clasificare a celor 25 de ţări; să se studieze concordanţa cu situaţia observată la punctul a).

2) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11, www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Reamintim variabilele: Country – numele ţării, Agr – procentajul de muncitori din agrucultură, Min – procentajul de muncitori din minerit, Man – procentajul de muncitori din industria prelucrătoare, PS – procentajul de muncitori din industria energetică, Con – procentajul de muncitori din construcţii, SI – procentajul de muncitori din servicii, Fin – procentajul de muncitori din finanţe, SPS – procentajul de muncitori din servicii sociale, TC – procentajul de muncitori din transporturi şi comunicaţii.

a) să se aplice un algoritm de clasificare ierarhică

b) să se aplice algoritmul k-means pentru k = 4; să se compare cu rezultatul clasificării realizate la a).