analiza e të dhënave e të dhënave 2a.pdfanaliza e të dhënave pjesa 2a –pëshkrimi i...
TRANSCRIPT
Analiza e të dhënave
Pjesa 2a – Pëshkrimi i shpërndarjes së një variable të vetme
Prof. Ass. Dr. Ermir Rogova
Hyrje
Qëllimi ynë është të paraqesim të dhëna një një
formë e cila ka kuptim për njerëzit. Veglat që
përdoren për të kryer këtë përfshijnë:
Grafet: bar, pie, histogramet, scatter, dhe time series
Përmbledhjet numerike: numërimet, përqindjet,
mesataret dhe matjet e ndryshueshmërisë
Tabelat me përmbledhje numerike: totalet, mesataret
dhe numërimet të grupuara sipas kategorive
Përmbledhja e të dhënave ashtu që informacioni i
rëndësishëm të duket qartë është sfiduese.
Hyrje
Janë katër hapa në analizën e të dhënave:
Njihe problemin që duhet të zgjidhet.
Mbledh të dhëna që ndihmojnë për të kuptuar dhe
pastaj zgjidhur problemin.
Analizo të dhënat duke përdorur veglat e duhura.
(Analiza ndonjëherë mund të përsërisë hapat.)
Vepro sipas kësaj analize duke ndryshuar
politikat, ndërmarrur iniciativat, publikuar raporte,
e të tjera.
Konceptet themelore
Disa koncepte të rëndësishme
Popullatat dhe mostrat
Bashkësitë e të dhënave
Variablat dhe vëzhgimet
Tipet / llojet e të dhënave
Popullatat dhe mostrat
Një popullatë përfshin të gjitha entitetet me interes në një studim (njerëzit, familjet, makinat, etj.).
Shembuj Të gjithë votuesit potencial në zgjedhjet e
përgjithshme
Të gjithë parapaguesit e televizionit kabllovik
Të gjitha faturat e dorzuara për reimbursim nga punëtorët e të gjitha ministrive
Një mostër është një nënbashkësi e populates, shpesh e zgjedhur me shans dhe mundësisht përfaqsuese e populates si tërësi.
Bashkësitë e të dhënave,
variablat dhe vëzhgimet
Një bashkësi e të dhënave është zakonisht
një matricë drejtëkëndëshe e të dhënave, me
variabla në kolona dhe vëzhgime në rreshta.
Një variabël (apo fushë apo tipar) është një
karakteristikë e antarëve të një populate, si
psh. gjatësia, gjinia apo paga.
Një vëzhgim (apo rast or shënim) është një
listë e të gjitha vlerave të variablave për një
antar të vetëm të një popullate.
Shembull: Të dhëna nga një studim (survey)
mjedisor
Objektivi: Ilustrimi i variablave dhe vëzhgimeve në një bashkësi tipike të të dhënave.
Zgjidhja: Bashkësia përfshin vëzhgimet për 30 persona të cilët iu përgjigjën një pyetësori në lidhje me politikat mjedisore të presidentit.
Variablat përfshijnë moshën, gjininë, shtetin, nr. e fëmijëve, pagën dhe mendimin.
Përfshij një rresht që liston emrat e variablave.
Përfshij një kolonë që tregon indeksin/numrin e vëzhgimit.
Tipet / Llojet e të dhënave
Një variable është numerike nëse mbi të mund të kryhen veprime aritmetikore.
Përndryshe, variabla është kategorike.
Ekziston edhe një lloj i të dhënave, variabla e tipitdatë.
Exceli ruan data si numra, por datat trajtohen ndryshe në krahasim me numrat e zakonshëm.
Një variable kategorike është rëndore nëse ekziston një rënditje natyrale e vlerave të mundshme të saj.
Nëse nuk ka rënditje natyrale, ajo është emërore.
Tipet / Llojet e të dhënave
Variablat kategorike mund të kodohen numerikisht.
Një variabël binare shënohet si 0–1 për kategorinë specifike
Shënohet si 1 për të gjitha vëzhgimet në atë kategori dhe 0 për të gjitha vëzhgimet jo në atë kategori.
Një variabël shporte korrespondon me një variabël numerike e cila është kategorizuar në kategori diskrete.
Këto kategori zakonisht quhen shporta (bins).
Tipet / Llojet e të dhënave
Tipet / Llojet e të dhënave
Një variabël është diskrete nëse rezulton prej një numrimi, si p.sh. numri i fëmijëve.
Një variabël e vazhdueshme është rezultat i një matje të vazhdueshme si p.sh. pesha apo gjatësia.
Të dhënat Cross-sectional janë të dhëna nga disa mostra të populates në një pikë specifike kohore.
Seritë kohore (time series) janë të dhëna historike (të mbledhura gjatë një periudhe kohore).
Tipet / Llojet e të dhënave
Matjet përshkruese për variablat
kategorike
Egzistojnë vetëm disa mundësi për të
përshkruar një variabël kategorike, të gjitha
bazohen në numërim:
Numëro kategoritë.
Jepju emra kategorive.
Numëro vëzhgimet në secilën kategori. (Numërimi
resultues mund të raportohet si “numërim i
papërpunuar” ose si përqindje të totaleve.)
Pasi ti keni numërimet, ato mund ti paraqitni grafikisht,
zakonisht si shtylla ose si rrathë (pie) grafikë.
Shembull: Shitjet në Supermarket
Objektivi: Të përmbledhim variablat kategorike në një bashkësi të madhe të të dhënave.
Zgjidhja: Bashkësia e të dhënave pëmban transaksionet e bëra nga klientët e supermarketit gjatë një periudhe dy vjeqare.
Fëmijët, Njësitë e shitura, dhe Të hyrat janë numerike.
Data e blerjes është variabël datë.
Transaction dhe Customer ID janë vetëm për identifikim.
Të gjitha variablat tjera janë kategorike.
Shembull: Shitjet në Supermarket
Për numërimet në kolonën S, përdoret funksioni, COUNTIF. Për përqindjet në kolonën T, pjesto secilin numrim me totalin
vëzhgimeve.
Grafikonet duhet të jenë të thjeshta ashtu që informacioni që ato përmbajnë të shfaqet sa më qartë që është e mundur
Shembull: Shitjet në Supermarket
Një tjetër mënyrë efektive përtë gjetur numërimet për njëvariable kategorike ështëpërdorimi i variablave binare.
Rishkruaj secilën variable ashtuqë një kategori zëvendësohetme 1 dhe të gjitha të tjerat me 0.
Kjo mund të bëhet me njëformulë të thjeshtë IF.
Gjej numrimin e asaj kategorieduke mbledhur njëshat.
Gjej përqindjen e asaj kategorieduke përdorur mesataren e zerove dhe njëshave.
Matjet përshkruese për variablat
numerike
Ka shumë mënyra për të përmbledhur variablatnumerike, si me përmbledhje numerike ashtu edheme grafikë.
Fillojmë me një variable numerike siç është Salary (paga), ku është një vëzhgim për secilin person. Qëllimi ynë është të mësojmë se si këto paga janë tëshpërndara ndërmjet njerëzve duke pyetur:1. Cilat janë pagat më “tipike”?
2. Sa të shpërndara janë pagat?
3. Cilat janë pagat “ekstreme” në të dyja anët?
4. A është grafika e pagave simetrike me një vlerë të mesit, apo anon në njërin drejtim?
5. A mos ka grafika e pagave ndonjë tipar tjetër tëçuditshëm përpos animit të mundshëm?
Matjet përshkruese për variablat numerike
Në vijim do të fokusohemi në variablën Salary.
Matjet e tendencës qëndrore
Minimumi, Maximumi, Përqindëshi, dhe Kuartalet
Matjet e ndryshueshmërisë
Rregullat empirike për interpretimin e devijimit
standard
Matjet e formës
Matjet përmbledhëse numerike
Shembull: Pagat në Baseball
Objektivi: Të mësojmë si pagat janë të shpërndara tetë gjithë lojtarët e MLB 2015.
Zgjidhja: Bashkësia e të dhënave përmban të dhënambi 868 lojtarët e bejzbollit në Major League tësezonës 2015. Variablat janë emri i lojtarit, skuadra, pozita dhe paga.
Matjet e tendencës qëndrore
Mesatarja (mean) është mesatarja e të gjithavlerave. Nëse bashkësia e të dhënave përfaqëson një mostër
prej një populate më të madhe, kjo matje quhetmesatare e mostrës dhe shënohet me (“X-bar”).
Nëse bashkësia e të dhënave përfaqëson të gjithëpopullatën, ajo quhet mesatare e populatës dheshënohet me μ.
Në Excel®, mesatarja llogaritet me funksioninAVERAGE.
Matjet e tendencës qëndrore
Mediani është vëzhgimi qëndror (në mes) kur
të dhënat renditen prej vlerës më të vogël deri
te ajo më e madhja.
Nëse numri i vëzhgimeve është tek, mesi është
saktësisht vëzhgimi që gjendet në mes.
Nëse numri i vëzhgimeve është çift, mesi
zakonisht definohet si mesatarja e dy vëzhgimeve
në mes.
Në Excel®, mesi llogaritet me funksionin
MEDIAN.
Matjet e tendencës qëndrore
Moda është vlera e cila paraqitet më së
shpeshti.
Në shumicën e rasteve ku variabla është
kontinuale, mode nuk është shumë interesante,
sepse shpesh është rezultat i disa përpjekjeve me
fat.
Mirpo, jo gjithmonë është rezultat I fatit dhe mund
të zbulojë informacion interesant..
Në Excel®, mode llogaritet me funksionin
MODE.
Shembull: Pagat në Baseball
Minimumi, Maximumi, Përqindëshi,
dhe Kuartalet
Për çfardo përqindje p, përqindëshi i p-të është vlerae tillë që një përqindje p e të gjitha vlerave janë mëpak se ai. P.sh. Përqindëshi i 20të është vlera nën të cilën mund të
gjenden 20% e vëzhgimeve.
Kuartalet ndajnë të dhënat në katër grupe, secila me nga një çerek të të gjitha vëzhgimeve. Kuartali i parë, dytë dhe tretë janë përqindëshit që
korrespondojnë me p = 25%, p = 50%, and p = 75%.
Sipas definicionit, kuartali i dytë (p = 50%) është ibarabartë me mesin (median).
Minimumi dhe maximumi llogariten me funksionetMIN dhe MAX, kurse përqindëshit dhe kuartaet me funksionet PERCENTILE dhe QUARTILE.
Pyetje ???