analiza datelor copy

Upload: andra-buica

Post on 03-Jun-2018

242 views

Category:

Documents


1 download

TRANSCRIPT

  • 8/12/2019 Analiza Datelor Copy

    1/29

    PROIECT

    ANALIZA DATELOR

    ACADEMIA DE STUDII ECONOMICE BUCURETI FACULTATEA DE CIBERNETIC, STATISTIC I INFORMATIC ECONOMIC

    Grupa: 1034

  • 8/12/2019 Analiza Datelor Copy

    2/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    1

    Cuprins1. Analiza datelor ................................................................................................................................ 2

    a. Definirea datelor ......................................................................................................................... 2

    b. Analiza indicatorilor .................................................................................................................... 3

    b.1. Venituri totale la nivelul bugetelor locale (VT) ........................................................................ 3

    b.2. Cheltuieli totale la nivelul bugetelor locale (ChT) .................................................................... 4

    b.3. Durata medie de via (DV) ...................................................................................................... 5

    b.4. Rata omajului (RS) ................................................................................................................... 6

    b.5. Numrul cantinelor sociale (CS) ............................................................................................... 7

    b.6. Numrul seciilor sportive (SS) ................................................................................................. 7

    b.7. Numrul sportivilor legitimai (SL) ........................................................................................... 8

    b.8. Capacitatea turistic (CT) ......................................................................................................... 9b.9. Numrul bibliotecilor (BL) ...................................................................................................... 10

    b.10. salariul mediu net (SN) ......................................................................................................... 11

    2. Analiza componentelor principale ................................................................................................ 12

    a. Standardizare ............................................................................................................................ 12

    b. Matricea de corelaie ................................................................................................................ 13

    c. Matricea de covarian ............................................................................................................. 14

    d. Valori proprii ............................................................................................................................. 14

    e. Vectori proprii ........................................................................................................................... 15f. Criterii de determinare a numrului de componente principale ............................................ 16

    i. Criteriul pantei (screeplot) .................................................................................................... 16

    ii. Criteriul procentului de acoperire ......................................................................................... 16

    iii. Criteriul lui Kaiser .................................................................................................................. 16

    g. Matricea factorilor .................................................................................................................... 17

    3. Concluzii ........................................................................................................................................ 18

  • 8/12/2019 Analiza Datelor Copy

    3/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    2

    1. Analiza datelora. Definirea datelor

    Am ales de pe site-ul Institutului Naional de Statistic datele statistice a 20 de judee dinRomnia pentru a realiaza o analiz comparativ a acestora. Acestea sunt ordonate n ordineaflabetic i luate aleator din cele 42 judee din Romnia: Arge, Brila, Braov, Bucureti, Cluj,Constana, Covasna, Dolj, Gorj, Hunedoara, Iai, Ilfov, Mehedini, Olt, Prahova, Sibiu, Suceava, Timi,Vaslui i Vrancea.

    Am ales 10 indicatori pe care i-am folosit n aceast analiz i acetia sunt: veniturile totale lanivelul bugetelor locale (VT),cheltuielile totale la nivelul bugetelor locale (ChT),durata medie devia (DV),rata omajului (RS),numrul cantinelor sociale (CS),numrul seciilor sportive (SS),numrul sportivilor legitimai (SL),capacitatea turistic (CT),numrul bibliotecilor (BL)i salariul

    mediu net (SN).

    Urmresc n primul rnd s studiez modul n care aceti indicatori se influeneaz reciproc idac exist sau nu legturi ntre ei. Scopul aceste analize este extragerea unui numr ct mai mic decompontente omogene care s recupereze cea mai mare parte din informaia total oferit de dateleorginale n vederea realizrii clasificrii acestor judee.

    Datele sunt urmtoarele: Jude Prescurtare VT ChT DV RS CS SS SL CT BL SN

    Arge AG 1246,7 1220,7 73,5 7,6 3 207 6715 4899 542 1269

    Brila BR 584,1 534,2 73,5 8,7 0 65 3148 2082 187 1125Braov BV 1286,1 1237,1 72,3 7,1 5 259 8598 17795 218 1304Bucureti B 4238,7 3870,1 74,2 4,9 7 638 27459 11196 402 1864Cluj CJ 1505,5 1389,9 74,9 4,9 5 366 8808 6960 287 1389Constana CT 1470,9 1356,4 72,8 5,8 6 291 8300 12464 325 1328Covasna CS 412,9 384,0 73,4 10,0 2 91 2031 3638 177 1062Dolj DJ 1209,6 1150,5 73,3 9,8 1 238 6310 1646 369 1269Gorj CJ 727,0 715,3 73,6 10,9 3 99 3596 1967 231 1490Hunedoara HD 838,9 687,6 73,7 8,9 2 180 4742 6909 249 998Iai IS 1422,8 1311,3 73,7 7,0 1 226 5944 3367 554 1322

    Ilfov IF 1030,9 955,3 72,1 2,7 1 126 2901 2292 106 1717Mehedini MH 605,1 546,5 72,6 10,5 3 75 1969 1524 186 1321Olt OT 760,4 722,0 72,6 8,1 2 141 3191 547 316 1214Prahova PR 1535,9 1480,8 73,9 8,6 1 202 5464 9906 405 1323Sibiu SB 952,2 900,9 73,8 5,8 3 148 4575 6538 222 1342Suceava SV 1282,0 1225,9 74,3 7,3 6 185 3898 8033 330 1091Timi TM 1482,6 1399,8 73,7 3,7 6 234 6364 6857 355 1409Vaslui VS 748,2 724,7 72,6 11,4 3 74 2063 773 305 1071Vrancea VR 654,3 650,3 73,9 7,4 1 90 2775 1816 237 1091

  • 8/12/2019 Analiza Datelor Copy

    4/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    3

    b. Analiza indicatorilor

    Pentru o analiz complet a clasificrii judeelor, n prim faz voi analiza separat fiecarevariabil n parte.

    Cu ajutorul Excel, am folosit funcia Descriptive Statistics, pentrufiecare indicator n parteam calculat media, mediana, abaterea standard, minimul, maximul i pentru cte date s -au calculataceti indicatori.

    VT ChT DV RS CS SS SL CT BL SN

    Mean 1199,74 1123,165 73,4065 7,555 3,05 196,75 5942,55 5560,45 300,15 1299,95

    Standard Error 178,8207 163,414 0,161242 0,536729 0,467215 29,49013 1234,076 1024,496 26,00296 48,10895

    Median 1120,25 1052,9 73,56 7,5 3 182,5 4658,5 4268,5 296 1312,5

    Standard Deviation 799,7105 730,8094 0,721098 2,400323 2,089447 131,8839 5518,957 4581,685 116,2888 215,1498

    Kurtosis 11,68855 11,06502 -0,45414 -0,53319 -0,96937 6,003478 13,24443 1,117939 0,390483 1,587274

    Skewness 3,058039 2,942086 -0,13332 -0,29292 0,503597 2,092071 3,37715 1,148859 0,720626 1,078612Minimum 412,9 384 72,14 2,7 0 65 1969 547 106 998

    Maximum 4238,7 3870,1 74,85 11,4 7 638 27459 17795 554 1864

    Count 20 20 20 20 20 20 20 20 20 20

    ncrcm i n R datele prin comandadate

  • 8/12/2019 Analiza Datelor Copy

    5/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    4

    1 0 0 0

    2 0 0 0

    3 0 0 0

    4 0 0 0

    Dac s-ar nltura val

    Observm din histograma, diagrama de densitate i

    oricare alt jude.

    b.2. Cheltuieli totale la nivelul bugetelor locale (ChT)summary(ChT) :

    Min. 1st Qu. Median Mean 3rd Qu. Max.384.0 708.4 1053.0 1123.0 1323.0 3870.0

    Cheltuielile totale la nivelul judeelor pentru cele 20 de nregistrri sunt exprimate nmilioane de lei. Media cheltuielilor este de 1053 milioane de lei, cea mai mare valoare este de 3870milioane de lei ce aparine Bucuretiului, iar cea mai mic valoare este de 384 milioane de lei,aparinnd Covasnei. Abaterea standard este de 730.8094 de milioane de lei fa de medie.

    Observm c histograma, bloxpotul i diagrama de densitate seamn foarte bine cu cele aleprimei variabile, c putem face aceleai observaii ca la venituri totale ale judeelor i de aici putemafirma c cele dou variabile, veniturile i cheltuielile sunt puternic corelate ntre ele, lucru pe care l

    Histogram of VT

    VT

    F r e q u e n c y

    0 1000 2000 3000 4000

    0

    2

    4

    6

    8

    Histogram of ChT

    ChT

    F r e q u e n c y

    0 1000 2000 3000 4000

    0

    2

    4

    6

    8

    0 1000 2000 3000 4000

    0 e + 0 0

    2 e - 0

    4

    4 e - 0

    4

    6 e - 0

    4

    8 e - 0

    4

    density.default(x = ChT)

    N = 20 Bandwidth = 226.6

    D e n s i t y

    5 0 0

    1 5 0 0

    2 5 0 0

    3 5 0 0

  • 8/12/2019 Analiza Datelor Copy

    6/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    5

    vom ntri mai trziu cu ajutorul matricei de corelaie.

    b.3. Durata medie de via (DV)Durata medie a vieii este exprimat n ani i reprezint n medie ct triete un locuitor al

    judeului respectiv.

    Min. 1st Qu. Median Mean 3rd Qu. Max.72.10 72.75 73.55 73.42 73.82 74.90

    Observm c durata medie de via variaz foarte puin ntre cele 20 de judee alese, astfelcea mai mic valoare este de 72,1 ani regsit n judeul Ilfov, valoarea medie este de 73.55 de ani,iar maximul est de 74,9 ani regsit n Cluj ( astfel se reconfirm faptul c ardelenii sunt nitepersoane calme), avnd o abatere standard de 0,721098 ani.

    Din cele 3 grafice nu observm niciun outlier, observm o i o asimetrie negativ. Kurtosis =-0.45414 i Skewness =-0.13332

    Histogram of DV

    DV

    F r e q u e n c y

    72.0 72.5 73.0 73.5 74.0 74.5 75.0

    0

    1

    2

    3

    4

    5

    6

    7

    71 72 73 74 75 76

    0 . 0

    0 . 1

    0 . 2

    0 . 3

    0 . 4

    0 . 5

    density.default(x = DV)

    N = 20 Bandwidth = 0.3563

    D e n s i t y

  • 8/12/2019 Analiza Datelor Copy

    7/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    6

    b.4. Rata omajului (RS) Rata omajului celor 20 de judee este calculat n

    procente (%).

    Min. 1st Qu. Median Mean 3rd Qu. Max.

    2.700 5.800 7.500 7.555 9.125 11.400

    n ceea ce privete rata omajului, avem odistribuie aproape normal, cu o uoar simetri enegativ. Procentul minim de omeri dintre cele 20 de judee alese este de 2.7% aparinnd judeului Ilfov,media este de 7.555%, mediana de 7.5%, iar cei maimuli omeri, n proporie de 11.40% i gsim n judeul Vaslui. Abaterea standard a ratei oma juluieste de 2,400323%.

    Histogram of RS

    RS

    F r e q u e n c y

    2 4 6 8 10 12

    0

    1

    2

    3

    4

    5

    6

    0 5 10 15

    0 . 0

    0

    0 . 0

    5

    0 . 1

    0

    0 . 1

    5

    density.default(x = RS)

    N = 20 Bandwidth = 1.187

    D e n s i t y

    7 2

    . 0

    7 2

    . 5

    7 3

    . 0

    7 3

    . 5

    7 4

    . 0

    7 4

    . 5

    7 5

    . 0

    4

    6

    8

    1 0

  • 8/12/2019 Analiza Datelor Copy

    8/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    7

    b.5. Numrul cantinelor sociale (CS) n ceea ce privete numrul cantinelor sociale din fiecare jude, un rezumat al acestei

    variabile este:

    Min. 1st Qu. Median Mean 3rd Qu. Max.0.00 1.00 3.00 3.05 5.00 7.00

    Numrul cantinelor sociale variaz de la un jude la altul ntre 0 cantine sociale (spre ex judeul Vaslui) i 7 cantine sociale (Bucuretiul). Media este de 3.05 cantine sociale per jude,mediana fiind 3. Putem observa din histogram c ntre 4 cantine nu exist n niciun jude,predomin ns judeele care nu au o cantin sau au doar una, ns nu sunt de neglijat nici judeelecare au 3 sau 6 cantine sociale. Din bloxpotul variabilei CS observm c nu avem niciun outlier,neobservnd ns c niciun jude nu are 4 cantine sociale, ns fiind foarte bine delimitate i vizibilecuartilele 1 (1 cantin) i cuartila 3 (5 cantine)

    b.6. Numrul seciilor sportive (SS) Acest indicator arat cte secii sportive se gsesc n judeul respectiv.

    Histogram of CS

    CS

    F r e q u e n c y

    0 1 2 3 4 5 6 7

    0

    1

    2

    3

    4

    5

    6

    -2 0 2 4 6 8 10

    0 . 0

    0

    0 . 0

    5

    0 . 1

    0

    0 . 1

    5

    density.default(x = CS)

    N = 20 Bandwidth = 1.033

    D e n s i t y

    0

    1

    2

    3

    4

    5

    6

    7

  • 8/12/2019 Analiza Datelor Copy

    9/29

  • 8/12/2019 Analiza Datelor Copy

    10/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    9

    n ceea ce privete numrul de sportivi legitimai, avem un minim de 1969 sportivi ce aparin judeului Mehedini i un numr maxim de 27460 de sportivi, n Bucureti. Media este de 5943sportivi n fiecare jude, iar mediana de 4658 sortivi. Abaterea standard este de 5518,957 sportivi,aceasta fiind att de mare din cauza outlierului. Privind comparativ boxploturile i diagramele dedensitate a variabilelor secii sportive i sportivi legitimi ne ndeamn s credem c exist o corelaie ntre acestea. Totui, faptul c judeul cu cele mai puine secii sportive nu este i judeul cu cei mai

    puini sportivi nu ne ajut s confirmm aceast teorie. Vom realiza apoi matricea de corelaiepentru a vedea exact dac exist sau nu o legtur ntre acestea i ct de puternic este.

    b.8. Capacitatea turistic (CT) Min. 1st Qu. Median Mean 3rd Qu. Max.

    547 1929 4268 5560 7228 17800

    0 5000 15000 25000 0

    . 0 0 0 0 0

    0 . 0

    0 0 0 5

    0 . 0 0

    0 1 0

    0 . 0

    0 0 1 5

    density.default(x = SL)

    N = 20 Bandwidth = 1242

    D e n s i t y

    Histogram of SL

    SL

    F r e q u e n c y

    0 5000 10000 20000 30000

    0

    2

    4

    6

    8

    1 0

    5 0 0 0

    1 5 0 0 0

    2 5 0 0 0

  • 8/12/2019 Analiza Datelor Copy

    11/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    10

    Pentru capacitatea turistic a fiecrui jude n parte regsim cea mai mic capacitate n

    judeul Olt (doar 547), iar cea mai mare capacitate n Bucureti, cu o valoare de 17800. Media este de5560 de turiti per jude, iar mediana de 4268. Privind graficele, n general judeele au o capacitatede sub 5000 tur iti, prezentnd astfel o simetrie pozitiv, iar Bucuretiul este din nou un outlierpentru aceast indicator, depind cu mult tendina general.

    b.9. Numrul bibliotecilor (BL)Min. 1st Qu. Median Mean 3rd Qu. Max.

    106.0 221.0 296.0 300.2 358.5 554.0

    Histogram of CT

    CT

    F r e q u e n c y

    0 5000 10000 15000 20000

    0

    2

    4

    6

    8

    1 0

    -5000 0 5000 10000 20000

    0 e + 0 0

    4 e - 0

    5

    6 e - 0

    5

    8 e - 0

    5

    1 e - 0

    4

    density.default(x = CT)

    N = 20 Bandwidth = 1955

    D e n s i t y

    0

    5 0 0 0

    1 0 0 0 0

    1 5 0 0 0

  • 8/12/2019 Analiza Datelor Copy

    12/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    11

    n ceea ce privete numrul de biblioteci existente ntr-un jude, numrul minim regsit este

    de 106, n judeul Ilfov, iar cel mai mare numr este 554 n judeul Iai.Media este de 300.2 biblioteci/ jude, iar mediana este de 296. Abaterea medie este de 116,2888 biblioteci. Observm o distribuiecu asimetrie pozitiv, predominnd valorile mai mici.

    b.10. salariul mediu net (SN)Min. 1st Qu. Median Mean 3rd Qu. Max.

    998 1116 1312 1300 1354 1864

    Histogram of BL

    BL

    F r e q u e n c y

    100 200 300 400 500 600

    0

    1

    2

    3

    4

    5

    6

    0 200 400 600 0

    . 0 0 0 0

    0 . 0

    0 1 0

    0 . 0

    0 2 0

    0 . 0

    0 3 0

    density.default(x = BL)

    N = 20 Bandwidth = 50.73

    D e n s i t y

    Histogram of SN

    SN

    F r e q u e n c y

    800 1000 1200 1400 1600 1800 2000

    0

    2

    4

    6

    8

    1 0

    1 0 0

    2 0 0

    3 0

    0

    4 0 0

    5 0 0

  • 8/12/2019 Analiza Datelor Copy

    13/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    12

    Romnii din cele 20 de judee obin n medie unsalariu de 1300 lei pe lun, cei mai bine pltii fiind bineneles Bucuretenii cu un salariumediu net de 1863 lei pe lun, iar salariile cele mai mici fiind de 998 lei pe lun.

    Observm cu ajutorul Boxplotului c Bucuretiul este din nou un outlier pentru acestindicator. Din aceast cauz, putem observa cu uurin c indicatorul prezint o asimetrienegativ.

    2. Analiza componentelor principalea. StandardizarePentru standardizarea datelor am folosit n Excel funcia prin care am sczut media i am mprit

    la dispersia indicelui, obinnd astfel matricea:

    Jude VT ChT DV RS CS SS SL CT BL SN

    AG 0,070697 0,13964 0,08806 0,018747 -0,02393 0,07772 0,139963 -0,23181 2,079736 -0,14385

    BR -0,75171 -0,79529 0,129663 0,477019 -1,45972 -0,99898 -0,50635 -0,33594 -0,97301 -0,81315

    BV 0,1196 0,161975 -1,57607 -0,18956 0,933261 0,472006 0,481151 0,244936 -0,70643 0,018824

    B 3,784292 3,7478 1,142009 -1,1061 1,890452 3,345747 3,898644 0,000983 0,875837 2,621662

    CJ 0,391913 0,37007 2,001809 -1,1061 0,933261 1,283326 0,519201 -0,15561 -0,11308 0,413898

    CT 0,348969 0,324447 -0,89655 -0,73115 1,411857 0,714644 0,427155 4,194914 0,213692 0,130374

    CS -0,96419 -0,99984 -0,00901 1,018613 -0,50253 -0,80184 -0,70875 -0,27842 -1,059 -1,10597

    DJ 0,02465 0,044036 -0,13382 0,935291 -0,98112 0,312775 0,06658 -0,35206 0,592061 -0,14385

    CJ -0,57434 -0,54865 0,296076 1,393562 -0,02393 -0,74118 -0,42518 -0,3402 -0,59464 0,883338

    HD -0,68369 -0,72256 0,448622 0,560341 -0,50253 -0,12701 -0,21753 -0,1575 -0,43985 -1,40344

    IS 0,289268 0,263026 0,33768 -0,23122 -0,98112 0,221786 0,000263 -0,28844 2,182928 0,102487

    IF -0,19715 -0,2218 -1,75635 -2,02264 -0,98112 -0,53646 -0,55111 -0,32818 -1,66955 1,938417

    MH -0,72564 -0,77854 -1,16004 1,226918 -0,02393 -0,92316 -0,71998 -0,35657 -0,98161 0,097839

    OT -0,53289 -0,53953 -1,18777 0,227053 -0,50253 -0,42272 -0,49856 -0,39269 0,136299 -0,39949

    PR 0,429645 0,493865 0,615035 0,435358 -0,98112 0,039808 -0,08671 -0,04671 0,901635 0,107135

    SB -0,29483 -0,29589 0,490225 -0,73115 -0,02393 -0,36964 -0,24779 -0,17121 -0,67203 0,195445SV 0,114511 0,146722 1,280686 -0,10624 1,411857 -0,08909 -0,37046 -0,11595 0,256689 -0,97118

    800 1000 1400 1800 0

    . 0 0 0 0

    0 . 0

    0 1 0

    0 . 0

    0 2 0

    density.default(x = SN)

    N = 20 Bandwidth = 87.53

    D e n s i t y

    1 0 0 0

    1 2 0 0

    1 4 0 0

    1 6 0 0

    1 8 0 0

  • 8/12/2019 Analiza Datelor Copy

    14/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    13

    TM 0,36349 0,383553 0,351547 -1,60603 1,411857 0,282445 0,076364 -0,15942 0,471671 0,506856

    VS -0,54803 -0,53585 -1,1323 1,601867 -0,02393 -0,93074 -0,70295 -0,38434 0,041707 -1,06414

    VR -0,66457 -0,63718 0,670506 -0,06457 -0,98112 -0,80942 -0,57394 -0,34578 -0,54304 -0,97118

    Prin calculobservm c media este 0, iar dispersia este 1.

    Scopul analizei componentelor este de a reduce semnificativ numrul acestora, cu pierderede informaie minim, exact cum am prezentat i la nceputul lucrrii. Caracteristicile rezultate nurma caracteristicilor iniiale sunt componentele principale. Ne dorim s alegem componentele careasigur redundana minim. Pentru aceasta trebuie fcute cteva analize ce vor fi prezentate n celece urmeaz.

    b. Matricea de corelaie Matricea de corelaie pentru aceste date va fi o matrice simetric de 10 x 10, avnd pe diagonala

    principal 1, iar restul valorilor fiind cuprinse ntre-1 i 1. Valorile apropiate de -1 sau 1 reprezint ostrns corelaie ntre cele dou variabile n sens negativ (cnd una crete, cealalt scade), respectiv n sens pozitiv.

    Pentru a obine matricea de corelaie, se poate obine prin programul R rulnd urmtorul script:

    > a fix(a)> c fix(c)

    sau prin folosirea Excel-ului, cu ajutorul funciei Correlation:VT ChT DV RS CS SS SL CT BL SN

    VT 1ChT 0,99878 1DV 0,352158 0,351385 1RS -0,4754 -0,47473 -0,14721 1CS 0,585019 0,588187 0,214603 -0,39516 1

    SS 0,944903 0,940618 0,3948 -0,50661 0,642557 1SL 0,968385 0,963199 0,329218 -0,41126 0,585101 0,953885 1CT 0,516226 0,520871 0,099482 -0,39354 0,634456 0,599057 0,537876 1BL 0,447109 0,462733 0,32969 -0,05219 0,152244 0,436464 0,36319 0,128308 1

    SN 0,68817 0,690673 -0,00737 -0,58041 0,343395 0,608989 0,647519 0,226546 0,063633 1

    Conform acestei matrici avem o puternic corelaie ntre :

    - Veniturile totale i Cheltuielile totale, cu un coefficient de 0.99878, dup cum bnuiam iobservnd diagramele celor dou variabile;

    - Venituri totale i Secii sportive un coeficient de 0.944903;

  • 8/12/2019 Analiza Datelor Copy

    15/29

  • 8/12/2019 Analiza Datelor Copy

    16/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    15

    0.380829713 0.184022138 0.063104380 0.020066432 0.000769058

    Astfel, putem spune c prima component are valoarea proprie 6.068170054, nsemnnd cexplic 60,68% din variana total, a doua component are valoarea proprie 1.403931535,reprezentnd 14,04% din informaie. Primele 2 componente mpreun explic aproape 7 5% din

    informaie. Ce-a de-a 3-a compontent are valoarea proprie 1.026446363, ceea ce nseamn cexplic 10,26% din informaie. Cele 3 compontente mpreun explic aproape 85% din informaiatotal.

    Este uor observabil faptul c valorile proprii scad din ce n ce mai mult pentru c acesteapreiau informaia din datele iniiale, n ordine descresctoare.

    e. Vectori propriiPentru a determina vectorii proprii am rulat n R urmtorul script:

    > acp acp$loadings

    Rezultatul este:

  • 8/12/2019 Analiza Datelor Copy

    17/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    16

    Putem astfel construi compontentele principale, fiind combinaii liniare ntre variabileleiniiale i vectorii proprii, astfel:

    w1 = -0.4*CT + 0.145*DV + 0.113* RS 0.121*CS 0.144*SL + 0.429* CT + 0.254*BL+0.715*SN

    w2 = -0.4*CT + 0.144*DV + 0.119*RS + 0.478*CT + 0.250*BL 0.697*SN

    w3 = -0.158*CT + 0.558*ChT 0.123*DV -0.697*RS -0.292*CS +0.32*SL

    w4 = 0.245*CT + 0.362*ChT +0,4*RS -0,573*CS + 0,320*SL

    w5 = -0,292*CT -0,129*ChT -0,514*DV -0,791*SS

    i aa mai departe i pentru w6, w7, w8, w9 i w10.

    f. Criterii de determinare a numrul ui de componente principalePentru a alege un numr de componente principale care s preia ct mai mult din

    informaia iniial voi utiliza 3 criterii de alegere: i. Criteriul pantei (screeplot)

    n urma realizrii Scree plotului, tietura ar trebui s se fac ntre 3 i 4, fiind explicat .....

    ii. Criteriul procentului de acoperireAcesta se bazeaz pe ct de mult informaie acoper componentele. n cazul acesta,

    primele 3 componente acoper 8,498547952, adic 85% din informaia total, aadar le putemconsidera componente principale.

    iii. Criteriul lui KaiserPe baza valorilor proprii obinute, primele 3 (CT, ChT i DV) dintre componente au valori

    proprii mai mari dect 1, aadar voi considera numrul viitoarelor compontante principale ca fiind 3.

    n concluzie, pstrez 3 elemente : CT, ChT i DV.

  • 8/12/2019 Analiza Datelor Copy

    18/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    17

    g. Matricea factorilor

    Prin rularea scriptului n R:acp$scoresscor

  • 8/12/2019 Analiza Datelor Copy

    19/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    18

    Putem observa n acest grafic gradul de corelare ntre cele 3 componente principale i valorileiniiale, observnd de unde se preia informaia pentru fiecare component principal.

    3. Concluzii n Romnia, n urma analizrii celor 20 de judee pe baza a 10 indicatori, informaia a fost

    sintetizat n primele3 componente principale, ce preiau aproximativ 85% din informaia iniial, fiindun procent relevant.

    -1.2-1

    -0.8-0.6-0.4-0.2

    00.2

    0.40.60.8

    0 2 4 6 8 10 12

    Component Pattern

    Comp.1 Comp.2 Comp.3

    -1.2-1

    -0.8

    -0.6-0.4-0.2

    00.20.40.60.8

    1 2 3 4 5 6 7 8 9 10

    Component Pattern Profiles

    Comp.1 Comp.2 Comp.3

  • 8/12/2019 Analiza Datelor Copy

    20/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    19

    Analiza Cluster n aceast parte voi trata o continuare a Analizei Componentelor Principale, n care am sintetiatinformaia celor 20 de judee din Romnia caracterizate de cei 10 indicatori. Voi lucra n continuarepe datele celor 20 de judee, ns nu pe matricea iniial ci pe matricea componentelor principale.

    Comp.1 Comp.2 Comp.3-0,4742354 1,45413008 0,357518092,4349323 0,10813033 0,38186234

    -1,1750243 -1,94049833 -2,02354745-8,3850499 0,06385062 1,08251085-2,1267129 0,50440265 -0,51949196-1,6951523 -1,03964127 -1,328091452,4918204 0,0836626 -0,60784780,5446114 0,9796588 1,049526031,3343128 -0,0297504 0,545913821,2181046 0,63455019 -0,96846656

    -0,4425017 1,70074965 1,240567550,6365976 -3,39121323 1,99020105

    2,1999643 -0,8503872 0,256293571,6139184 -0,1769513 0,7099227

    -0,5173126 1,07029931 0,098151720,2528997 -0,5611052 -0,24938422

    -0,4678511 0,90286508 -1,6969745-1,6540686 -0,4518033 -0,420474212,3152182 0,4174189 -0,045329361,8955289 0,5216319 0,1471398

    Matricea distanelorPentru a afla matricea distanelor rulm n R urmtorul program

  • 8/12/2019 Analiza Datelor Copy

    21/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    20

    d

  • 8/12/2019 Analiza Datelor Copy

    22/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    21

    Regsim pe axa OX sunt elementele iniiale, iar pe axa OYsunt distanele dintre obiecte.

    Observm din nou o foarte mare diferen ntre Bucureti i restul judeelor din Romnia. Amconsdierat c cea mai bun tietur ca fiind cea desenat cu rou, mprind astfel obiectele n 4 clustere.

    n R exemplicifm acest lucru astfel:

    solutie

  • 8/12/2019 Analiza Datelor Copy

    23/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    22

    Comparnd cele dou ploturi obinute, remarc c 4 clustere este o alegere mai bun de clasificare aobiectelor studiate deoarece avera ge silhouette width este 0.32, egal pentru ambele, ns pentru k=3avem 2 obiecte 8 i 10 care sunt negative, ceea ce nseamn c nu au fost clasificate corect. Deasemenea, obiectul 16 este foarte aproape de 0, nsemnnd c nu este prea asemntor cu cel lalteobiecte din clusterul 1.

    Pentru k=4, avem un singur obiect clasificat eronat, obiectul 10, ns avem valori mai apropiate de 1 n acest caz, dect n cazul cu k=3, artnd omogenitatea mai mare a obiectelor n cluster. Considerc o mprire a obiectelor n 4 clustere este mai apropiat de realitate.

    Pentru a mpri fiecare obiect n clustere am rulat n R:

    solutie

  • 8/12/2019 Analiza Datelor Copy

    24/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    23

    Deci avem urmtoarele clustere ce conin obiectele: Cluster 1: 1, 8, 10, 11, 15, 16, 17Cluster 2: 2, 7, 9, 12, 13, 14, 19, 20Cluster 3: 3, 5, 6, 18,Cluster 4: 4

    Metoda CentroiduluiAceast metod se bazeaz pe distanele dintre centroizii a dou clustere.

    Rulez n R :

    fit

  • 8/12/2019 Analiza Datelor Copy

    25/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    24

    Observm c este diferit fa de dendograma prin metoda Ward.

    n acest caz, aleg ca cea mai bun variant pare a fi tietura roie, mprind astfel obiectele n 3clustere.

    Prin apelarea func iei silhouette obinem toate elementele pozitive, ceea ce nseamn c elementeleau fost clasificate n clasele corecte.

    1243

    136

    1814

    2165

    97

    1119

    82017

    11510

    Silhouette width s i

    0.0 0.2 0.4 0.6 0.8 1.0

    Silhouette plot of (x = cutree(fit, k = 3), dis

    Average silhouette width : 0.38

    n = 20 3 clusters C j j : n j | ave i Cj s i

    1 : 18 | 0.42

    2 : 1 | 0.003 : 1 | 0.00

  • 8/12/2019 Analiza Datelor Copy

    26/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    25

    Verificnd prin aceast metod pentru 4 clustere, obinem din nou c toate elementele sunt pozitivei n plus, ele sunt mai bine repartizate, trecnd mai multe dintre ele de 0.6 i media distanelor cu0.01 mai mic.

    Algoritmi de partiionare. Metoda kmeans Rulm n R scriptul:

    d

  • 8/12/2019 Analiza Datelor Copy

    27/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    26

    [1] 0.00000 24.46294 23.43307(between_SS / total_SS = 68.8 %)Continund cu scriptul de mai jos, putem vedea pe ultima coloan n ce clas a fost repartizatobiectul.

    solutia

  • 8/12/2019 Analiza Datelor Copy

    28/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    27

    Sumele de ptrate Variabilitatea intraclas : solutia$withinss

    [1] 43.407506 22.498035 6.402743

    Variabilitatea primului cluster este de 43.40, ceea ce nseamn c exist o varian mare ntreobiectele clasei acesteia. Cea de- a doua are variana de 22.49, iar ce -a de-a 3-a o varian ninteriorul clasei de 6.4, ceea ce sugereaz c obiectele sunt destul de asemntoare ntre ele.

    Variabilitatea interclasa: solutia$betweenss [1] 81.09051

    Variabilitatea dintre cele 3 clase este de 81.09 care este destul de mare.

    Variabilitatea total : solutia$totss

    [1] 153.3988

    Astfel, variabilitatea totala este egal cu 153.3988.

    Variabilitatea total a interclaselor: solutia$tot.withinss [1] 72.30828

    Concluzie final:

    De-alungul studiului celor 20 de judee din Romnia, pot spune cu certitudine c Bucuretiul nu artrebui s fie considerat printre acestea deoarece, dei este doar un municipiu n esena sa, dinpunctul de vedere al tuturor indicatorilor utilizai este un outlier.

  • 8/12/2019 Analiza Datelor Copy

    29/29

    Facultatea de Cibernetic, Statistic i Informatic Economic

    Prin toate metodele algoritmilor ierarhici utilizate Bucuretiul a fost pus ntr-un cluster separat, bachiar i judeul Ilfov, judeul din mprejurul Bucuretiului prin metoda Centroidului este singur ntr-uncluster. n cazul metodei K-means, Bucuretiul a fost pus n primul cluster dereglnd foarte multomogenitatea clusterului.