något om beskrivande statistik732g70/kompendium.pdf1 något om beskrivande statistik 1. inledning i...

22
1 Något om beskrivande statistik 1. Inledning I de flesta sammanhang krävs fakta som underlag för att komma till rimliga slutsatser eller fatta vettiga beslut. Exempelvis kan det på ett företag ha uppstått diskussioner om att det förekom- mer könsdiskriminering, som yttrar sig i att kvinnor har lägre löner än män. Det kan då vara rim- ligt att för ett urval av kvinnor respektive män ta reda på fakta. Fakta avser då inte bara deras löner, utan också potentiellt viktiga faktorer som ålder, utbildning, antal anställningsår etc. Om det fortfarande finns löneskillnader mellan kvinnor och män, fast man tar hänsyn till en mängd bakgrundsfaktorer, så står man på betydligt fastare mark när man hävdar att det finns osakliga löneskillnader på företaget. Den situation vi beskrivit ovan är typisk för en statistisk undersökning. Man behöver få ett objek- tivt faktaunderlag och samlar därför på sig en mängd data. Dessa data kan erhållas genom en observationsundersökning som i exemplet ovan, men även experimentella undersökningar är vanliga. Exempelvis kan vi tänka oss en butik som vill studera hur olika exponering av en vara påverkar varans försäljning. Man bestämmer sig för att testa tre olika typer av exponering och genomför dessa under var sina tremånadersperioder. Sedan kan man jämföra försäljningssiffror (tillsammans med annan viktig information) för att komma fram till en väl underbyggd slutsats. Syftet med en statistisk undersökning är många gånger rent beskrivande, vilket innebär att man vill ”se verkligheten som den är”. Men ofta har man också ett analytiskt syfte, som att göra en sambandsanalys eller pröva en uttalad hypotes (i löneexemplet vill man studera sambandet mellan lön och kön och testa om skillnaden är ”statistiskt signifikant”). Även om syftet för en undersökning är analytiskt, har den ofta stora inslag av beskrivande moment. Slutsatser från en analytisk undersökning dras alltid till någon population. Populationen kan vara ändlig och lätt att förstå (som t.ex. de anställda vid ett företag). Lika vanligt är det med en oänd- lig population, som är ett betydligt mera vagt begrepp och ofta används då man har oberoende mätningar vid t.ex. ett experiment. Man vill då studera en mera allmän företeelse, som t.ex. hållfastheten hos en stållegering, effekten av en reklamkampanj på försäljningen av en vara, sambandet mellan försäljningen av en vara och dess pris etc.

Upload: others

Post on 15-Feb-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

1

Något om beskrivande statistik

1. Inledning I de flesta sammanhang krävs fakta som underlag för att komma till rimliga slutsatser eller fatta

vettiga beslut. Exempelvis kan det på ett företag ha uppstått diskussioner om att det förekom-

mer könsdiskriminering, som yttrar sig i att kvinnor har lägre löner än män. Det kan då vara rim-

ligt att för ett urval av kvinnor respektive män ta reda på fakta. Fakta avser då inte bara deras

löner, utan också potentiellt viktiga faktorer som ålder, utbildning, antal anställningsår etc. Om

det fortfarande finns löneskillnader mellan kvinnor och män, fast man tar hänsyn till en mängd

bakgrundsfaktorer, så står man på betydligt fastare mark när man hävdar att det finns osakliga

löneskillnader på företaget.

Den situation vi beskrivit ovan är typisk för en statistisk undersökning. Man behöver få ett objek-

tivt faktaunderlag och samlar därför på sig en mängd data. Dessa data kan erhållas genom en

observationsundersökning som i exemplet ovan, men även experimentella undersökningar är

vanliga. Exempelvis kan vi tänka oss en butik som vill studera hur olika exponering av en vara

påverkar varans försäljning. Man bestämmer sig för att testa tre olika typer av exponering och

genomför dessa under var sina tremånadersperioder. Sedan kan man jämföra försäljningssiffror

(tillsammans med annan viktig information) för att komma fram till en väl underbyggd slutsats.

Syftet med en statistisk undersökning är många gånger rent beskrivande, vilket innebär att man

vill ”se verkligheten som den är”. Men ofta har man också ett analytiskt syfte, som att göra en

sambandsanalys eller pröva en uttalad hypotes (i löneexemplet vill man studera sambandet

mellan lön och kön och testa om skillnaden är ”statistiskt signifikant”). Även om syftet för en

undersökning är analytiskt, har den ofta stora inslag av beskrivande moment.

Slutsatser från en analytisk undersökning dras alltid till någon population. Populationen kan vara

ändlig och lätt att förstå (som t.ex. de anställda vid ett företag). Lika vanligt är det med en oänd-

lig population, som är ett betydligt mera vagt begrepp och ofta används då man har oberoende

mätningar vid t.ex. ett experiment. Man vill då studera en mera allmän företeelse, som t.ex.

hållfastheten hos en stållegering, effekten av en reklamkampanj på försäljningen av en vara,

sambandet mellan försäljningen av en vara och dess pris etc.

2

2. Olika typer av data Vad är nu data?

En definition kan vara att data är mått på variabler, som kan vara rimliga att studera med hän-

syn till undersökningsproblemet. I löneexemplet kan vi bl.a. se följande variabler och mått:

Lön – rimligt mått är månadslön i kronor

Ålder – kan vara faktisk ålder i antal år (kanske även månader) men även en klassindelning i

t.ex. femårsklasser

Kön – kan betecknas som K resp. M, men vanligare är t.ex. 1 resp. 0 (fortfarande bara en

beteckning fast det är siffror).

Uppenbarligen finns det två typer av variabler, nämligen de som kallas kvalitativa respektive

kvantitativa.

En kvalitativ variabel är en variabel som definierar olika kategorier som t.ex. kön, yrke, fö-

delseland etc. Variabeln har inget naturligt siffermått men siffror används ofta som beteck-

ning.

En kvantitativ variabel har som naturligt mått siffror och siffrorna har sin självklara betydel-

se. Som exempel kan nämnas antal barn i en familj, ålder och inkomst. Däremot är det inte

alltid självklart hur variabeln skall mätas utan man kan använda olika sorters skalor. T.ex.

kan ålder mätas i antal år eller i olika ålderskategorier.

Man brukar prata om fyra olika skalor på vilka variabler kan mätas.

Nominalskala: när vi bara kan betrakta data som olika grupper. Till denna skala hör endast

kvalitativa variabler.

Ordinalskala: när vi betraktar data som grupper, men kan rangordna dem. Grupperna har

alltså en inbördes storleksordning, men avstånden kan ändå vara olika mellan dem. Till den-

na skala hör både kvalitativa och kvantitativa variabler. Ett exempel är åldersklasserna 1

(under 20), 2 (mellan 20 och 40) samt 3 (över 40). En individ i klass 1 är då yngre än en i klass

2 etc.

Intervall- och kvotskala är de ”exakta” skalorna för kvantitativa variabler. Ur statistisk syn-

vinkel behandlas data mätta på dessa skalor på ett likvärdigt sätt. Det som skiljer variablerna

är att vissa variabler inte har någon given nollpunkt (som t.ex. temperatur). De mäts då på

intervallskala där det är meningsfullt att tala om differenser (Vettigt uttalande: I dag är det

12 grader, dvs 2 grader varmare än i går då det var 10 grader. Däremot fungerar det inte

3

med: I dag är det 20 % varmare än i går). En variabel på kvotskala har en väldefinierad noll-

punkt och det är meningsfullt att bilda kvoter och uttrycka relativa mått (Lisa och Karin är 2

resp. 4 år gamla. Alltså är Karin 2 år äldre än Lisa. Men det är också korrekt att säga att Karin

är dubbelt så gammal som Lisa).

Det blev litet långrandigt detta med skalor och vi skall inte fördjupa oss mer, utan konstatera att

skalorna leder till två typer av data. Kvalitativa variabler och kvantitativa variabler på ordinalska-

la ger båda frekvensdata, dvs för varje klass får man antalet individer (frekvensen) som ingår i

klassen. Kvantitativa variabler på intervall- eller kvotskala ger data i form av enskilda numeriska

värden.

3. Tabeller och diagram I media, kursböcker och annat matas vi dagligen med information i form av tabeller och dia-

gram. Informationen ser vederhäftig ut och det är lätt att ta till sig den helt okritiskt, inte minst

för att många tycker att det bara är ”tråkiga siffror”, som man inte orkar fördjupa sig närmare i.

Men här riskerar man att gå på ordentliga nitar!

Statistiska uppgifter kan presenteras på många olika sätt, och man måste förstå hur den aktuella

tabellen eller diagrammet är konstruerat, för att rätt tolka informationen. Vanligen är informa-

tionen formellt sett korrekt, men kan framställas på sådant sätt, att det är lätt att feltolka den

om man inte granskar den kritiskt.

Särskilt tydligt blir detta vid politiska debatter, då det är vanligt att representanter för olika par-

tier visar diagram över någon företeelse. Trots att man illustrerar samma företeelse ger dia-

grammen helt olika intryck (kanske för att man använder olika skalor, delvis olika tidsperioder

etc).

3.1 Frekvensdata

Vi studerar nu en variabel som är indelad i olika klasser, och vill med hjälp av tabeller och dia-

gram illustrera hur data fördelar sig över de olika klasserna.

Exempel 1 I en mediaundersökning riktad till allmänheten vill man ta reda på svenska folkets inställning till

olika tidningar. För varje tidning får de svarande uttrycka sin åsikt på en femgradig skala. Frågor-

na och svarsalternativen är av följande typ.

”Tidningen XX är trovärdig”

Instämmer: inte alls O O O O O helt och hållet

4

Förutom svaren på dessa frågor har man också frågat om den svarandes kön.

800 personer har besvarat enkäten och vi vill redovisa svarsfördelningarna över kön, över tro-

värdighet men även över kombinationen av kön och trovärdighet. Det senare gör vi för att se om

kvinnor och män uppfattar trovärdigheten på olika sätt.

3.1.1 Kön

Tabell 1. Svarsfördelning efter kön

Kön Antal Andel (i procent)

Kvinnor 380 47.5 Män 420 52.5 Totalt 800 100

Denna fördelning kan illustreras i ett stapeldiagram, som har konstruerats i den statistiska pro-

gramvaran Minitab:

Figur 1 Stapeldiagram över könsfördelning

Figurtexten är inte den snyggaste, men detta bortser vi från nu. Det vi kan konstatera är att dia-

grammet i och för sig är korrekt, men ger ett intryck av att kvinnorna är väldigt få i förhållande

till männen. Detta beror på Y-axelns skala, som inte alls börjar i 0. Det är lätt att styra om detta i

Minitab och vi erhåller då i stället följande:

10

420

410

400

390

380

Kön

Su

m o

f A

nta

l

Kvinnor

Män

5

Figur 2 Stapeldiagram över könsfördelning

Nu får vi ett helt annat och mera korrekt intryck av stapeldiagrammet, eller hur?

Vi kan dra lärdomen att man bör undvika ”stympade” skalor, eftersom det omedelbara synin-

trycket av diagrammet lätt blir vilseledande.

Ett alternativt sätt att illustrera könsfördelningen är med cirkeldiagram, vilket konstrueras så att

cirkelsektorernas areor är proportionella mot frekvenserna:

Figur 3 Cirkeldiagram över könsfördelning

Cirkeldiagram blir lätt röriga om variabeln kan anta många värden, och då lämpar sig stapeldia-

gram i allmänhet bättre. Man bör också tänka på att cirkeldiagrammet är som tydligast i färg,

och att diagramtypen därför kanske inte lämpar sig i en svartvit rapport.

10

400

300

200

100

0

Kön

Su

m o

f A

nta

l

Kvinnor

Män

1 (380; 47,5%)

0 (420; 52,5%)

Pie Chart of Kön

6

3.1.2 Trovärdighet

Vad gäller trovärdigheten har följande resultat erhållits:

Tabell 2 Fördelning efter trovärdighet

Trovärdighet Antal Procentuell andel

1 120 15 2 120 15 3 240 30 4 160 20 5 160 20 Totalt 800 100

Figur 4 Stapeldiagram över trovärdighetsfördelningen

Figur 5 Cirkeldiagram över trovärdighetsfördelningen

54321

250

200

150

100

50

0

Trov

Su

m o

f a

nt

2 (120; 15,0%)

1 (120; 15,0%)

5 (160; 20,0%)

4 (160; 20,0%)

3 (240; 30,0%)

Pie Chart of Trov

7

3.1.3 Kombinationen kön och trovärdighet

För att studera kombinationen av kön och trovärdighet behöver vi ta fram en korstabell, dvs en

frekvenstabell där båda variablerna redovisas tillsammans. Vi konstruerar tabellen så att rader-

na är kön, medan kolumnerna är trovärdigheten. För att förenkla redovisningen så ges trovär-

digheten bara i 3 klasser; negativa (ursprunglig kod 1 och 2), obestämda (kod 3) och positiva

(kod 4 och 5):

Tabell 3 Fördelning efter trovärdighet för män och kvinnor. Antal

Kön

Trovärdighet Totalt Neg Obest Pos

Kvinnor 80 120 180 380 Män 160 120 140 420 Totalt 240 240 320 800

Vi kan konstatera att i marginalerna har vi de fördelningar som tidigare redovisats (trovärdig-

hetsfördelningen var dock då mera finfördelad). Vi kan också konstatera att männen är betydligt

mer negativa än kvinnorna (160/420 = 38.1 % jämfört med 80/380 = 21.4 %). För att illustrera

detta tar vi fram ett stapeldiagram uppdelat på kön:

Figur 6 Stapeldiagram över trovärdighetsfördelningen uppdelat på män och kvinnor. Antal

10

200

100

0

Kon

Su

m o

f A

nt

Pos

Obest

Neg

Pos

Obest

Neg

8

Eftersom antalet män och kvinnor är olika, kan det vara litet besvärligt att direkt se skillnaden i

fördelning, när den som här ges i antal. Det blir enklare om man i stället går över till procentuel-

la andelar inom varje grupp (kön i detta fall):

Figur 7 Stapeldiagram över trovärdighetsfördelningen uppdelat på män och kvinnor. Procentuell

andel

Man ser omedelbart från de två fördelningarna, att kvinnorna har en klart mer positiv inställning

än männen till tidningens trovärdighet.

Det sista diagrammet kan rent formellt också konstrueras genom att låta trovärdighetsklasserna

utgöra ”x-axel”:

10

100

90

80

70

60

50

40

30

20

10

0

Kon

Pe

rce

nt S

um

of

An

t

Pos

Obest

Neg

PosObest

Neg

9

Om vi tittar på grupp 1 så är männens stapel dubbelt så hög som kvinnornas, dvs männen är två

gånger så negativa som kvinnorna? Detta är dock fel sätt att tolka det hela, utan det vi kan säga

är, att av de negativa så utgör männen två tredjedelar. Eftersom männen är något fler i studien,

så är detta en del av förklaringen till männens höga andel.

Vi såg ju ovan att av männen är 38.1 % negativa, medan motsvarande andel bland kvinnorna är

21.4 %. Andelen negativa män är alltså inte dubbelt så stor som andelen negativa kvinnor, utan

”bara” 78 % större (38.1/21.4 = 1.78).

Vi drar lärdomen, att de grupper man vill jämföra bör utgöra diagrammets indelningsgrund (”x-

axel”), så att man inte riskerar att av misstag dra felaktiga slutsatser.

3.2 Data i form av enskilda numeriska värden (från kvantitativa variabler)

De kvantitativa variablerna kan klassificeras i diskreta respektive kontinuerliga variabler. En dis-

kret variabel kan bara anta vissa diskreta värden, och i stället för att ange alla enskilda värden,

så presenteras sådana data i form av frekvenstabeller, precis som i avsnitt 3.1.

En kontinuerlig variabel antar alla värden i ett intervall, vilket innebär att ett observationsmate-

rial innehåller värden som i stort sett alla är olika. Sådana data kan inte direkt presenteras i ta-

beller och diagram, utan måste först indelas i klasser.

Exempel 2 (Diskret variabel) Vi studerar under ett år antal trafikolyckor per dag som inträffar i en tätort. De n = 365 observa-

tionerna är 0, 0, 2, 0, 1, 4, ….,2, 0, 0. Data kan sammanfattas i följande frekvenstabell:

321

100

90

80

70

60

50

40

30

20

10

0

Trov

Pe

rce

nt S

um

of

An

t

Kvinnor

MänKvinnorMän

Kvinnor

Män

10

Tabell 4 Antal och procentuell andel trafikolyckor per dag

Antal olyckor (x) Antal dagar, frekvens (f) Procentuell relativ frekvens

0 102 27.9 1 125 34.2 2 80 21.9 3 32 8.8 4 20 5.5 5 4 1.1 6 0 0 7 2 0.5 ≥ 8 0 0 Summa n = 365 99.9

Denna fördelning illustreras lämpligen med ett s.k. stolpdiagram (stapeldiagram för diskret vari-

abel), där man på y-axeln har frekvenserna eller relativa frekvenserna för varje x-värde:

Figur 8 Fördelning över antal trafikolyckor per dag

Exempel 3 (Kontinuerlig variabel) En förening med 500 medlemmar har följande åldersfördelning

76543210

100

50

0

x

f

11

Tabell 5 Föreningens åldersfördelning

Ålder Frekvens Relativ frekvens (i %)

-19 20 4 20-29 80 16 30-39 120 24 40-49 150 30 50-59 80 16 60-69 40 8 70- 10 2 Alla 500 100

Fördelningen för en kontinuerlig variabel brukar illustreras med ett histogram. På x-axeln mar-

keras klassgränserna och ovanför varje klass avsätts en rektangelarea som är proportionell mot

frekvensen (eller relativa frekvensen). Om klasserna är lika breda (vilket de helst bör vara), så är

rektangelns höjd proportionell mot frekvensen.

För att konstruera histogram i Minitab måste man ha alla enskilda data inlagda. Här hade vi inte

data på den formen och därför får vi lov att själva rita ett histogram. Detta görs förmodligen

enklast för hand. Pröva! (Observera att en person som fyllt 29 år men ännu inte 30 anges med

åldern 29).

4. Sammanfattande mått på datamaterial I föregående kapitel har vi studerat olika sätt att illustrera hela fördelningen hos ett datamateri-

al. Ofta vill man sammanfatta denna information i några enkla mått som är smidigare att hante-

ra. Främst gäller detta om man har data på en kvantitativ variabel. De typer av mått som man

vanligen använder är dels mått på observationernas genomsnitt och dels mått på observatio-

nernas spridning kring genomsnittet.

4.1 Genomsnittsmått (lägesmått, centralmått)

Det i särklass vanligaste genomsnittsmåttet är (aritmetiska) medelvärdet, men man ser att även

medianen används i praktiken. Typvärdet fungerar främst för kvalitativa data och för klassinde-

lade kvantitativa.

Typvärdet är det vanligaste värdet, dvs det x-värde som har den största frekvensen.

Medianen (md) är det i storleksordning mittersta värdet (om antalet observationer är jämnt, så

definieras medianen som medelvärdet av de två mittersta värdena). Medianen delar alltså da-

tamaterialet mitt itu.

12

Medelvärdet ( x med statistiskt språkbruk) för ett datamaterial med n observationer beteckna-

de nxxx ,..., 21 definieras som

n

x

n

xsum

n

xxxx

n

i

i

in

121 )(...

Exempel 4 (baseras på exempel 2) Den första veckan är det observerade antalet olyckor 0, 0, 2, 0, 1, 4, 2. (med beteckningarna

ovan är t.ex. x1 = 0 och x7 = 2). Vi ser att typvärdet är 0, medan medianen är md = 1. Medelvärdet

av antalet olyckor är

3.17

9

7

2410200

x

Säg nu att sista dagen var en extrem halkdag och det blev inte alls 2 olyckor utan i stället 12!

Fortfarande är typvärdet 0 och medianen 1. Medelvärdet blir

7.27

19x

dvs väsentligt mycket större än ovan.

Detta är en generell lärdom: Medelvärden är känsliga för extremvärden, medan medianvärden

inte påverkas i nämnvärd grad.

Medianen kan därför vara ett lämpligare genomsnittsmått än medelvärdet i vissa sammanhang.

T.ex. används vanligen medianlön i stället för genomsnittslön i samband med löneförhandlingar

mellan företag och fack.

Exempel 5 Vi tar nu och studerar alla olycksdata i exempel 2.

Typvärdet är 1 olycka per dag.

Antalet dagar är 365, varför värde nr 183 (i storleksordning) är median. Vi har 102 st. 0:or och

125 st. 1:or, dvs värde nr 103 upp till och med nr 227 är alla lika med 1, vilket innebär att md = 1.

Medelvärdet är

13

36.1365

495

365

72605442033228011250102

365

365

1

i

ix

x

Med formelspråk kan medelvärdet för diskreta data skrivas

n

xfx

ii

Vi skall nu studera en litet besvärligare men i praktiken vanlig situation, när man har medelvär-

dena beräknade för ett antal grupper och vill beräkna medelvärdet för totala antalet observa-

tioner.

Antag för enkelhetens skull att vi har två grupper med antalet observationer n1 resp. n2. Antag

vidare att medelvärdena är

1

1

1n

x

xgrupp

i

resp.

2

2

2n

x

xgrupp

i

Det totala medelvärdet kan nu skrivas som

22

11221121

xn

nx

n

n

n

xnxn

n

xx

n

xx

grupp

i

grupp

i

i

dvs det totala medelvärdet är ett vägt medelvärde av gruppmedelvärdena och vikterna är grup-

pernas relativa frekvenser.

Exempel 6 Ett företag är bekymrat över sjukfrånvarons utveckling och följer därför upp frånvaron det se-

naste året. I tabellen nedan ges medelvärdet av antalet frånvarodagar uppdelat på företagets

två avdelningar och på kön.

Tabell 6 Medelantal frånvarodagar per år (antal personer inom parentes)

14

Kvinnor Män

Avd 1 5.8 (150) 6.0 (50) Avd 2 8.5 (100) 9.1 (700) Totalt ? (250) ? (750)

Vi börjar med att beräkna medelfrånvaron för kvinnor resp. män. För kvinnor blir den

9.688.640.348.35.88.5250100

250150 , medan motsvarande beräkning för män ger

medelvärdet 8.89 = 8.9. Männen har alltså i snitt 2 frånvarodagar fler än kvinnorna.

Hajar du inte till? Vi ser att på de två avdelningarna har männen något högre sjukfrånvaro i snitt,

men inte alls så mycket som 2 dagar. Då har vi väl räknat fel!?

Nej, faktiskt inte. Skälet till den stora skillnaden är att männen huvudsakligen finns på avdelning

2, och den avdelningen har i stort sett 3 sjukdagar flera än avdelning 1 (avdelningarnas medel-

värden kan med vägda medelvärden beräknas till 5.9 resp. 9.0).

Om man vill se skillnaden i frånvaro beroende på kön (oavsett avdelning), måste medelvärdena

vägas ihop med en gemensam fördelning för könen. Det vanligaste sättet att göra detta är med

s.k. standardvägning, där man som gemensam fördelning använder marginalfrekvenserna, dvs i

detta fall 200 på avdelning 1 och 800 på avdelning 2. Det standardvägda medelvärdet för kvin-

nor blir då 0.85.88.08.52.0 , medan männens medelvärde blir 8.5. Männen har alltså i

genomsnitt ”bara” en halv dag mera sjukfrånvaro än kvinnorna.

Det är helt korrekt att säga att männen på företaget har i genomsnitt 2 frånvarodagar fler än

kvinnorna. Här räknas både med ev. skillnader beroende på kön, men också skillnader beroende

på vilka arbetsuppgifter man har.

Är man ute efter att enbart spegla skillnaden mellan könen, måste man göra en standardiserad

jämförelse, dvs ta bort ev. skillnader i arbetsuppgifter. Ett enkelt sätt att göra detta är att jämfö-

ra standardvägda medelvärden.

4.2 Spridningsmått

Det är viktigt att som sammanfattande mått på ett datamaterial inte bara beräkna ett genom-

snitt utan att också ge ett mått på spridningen i data. Så t.ex. är medelvärdet 0 för siffrorna -1, 0

och 1, men samma medelvärde har vi också för -10, 0 och 10. Dock har det senare datamateria-

let betydligt mycket större spridning än det första.

Det absolut vanligaste spridningsmåttet är datamaterialets standardavvikelse. Ibland används

också kvartilavstånd och variationsbredd som enkla mått på spridning.

Variationsbredden är differensen mellan största och minsta värdet i datamaterialet.

15

Kvartilavståndet är differensen mellan den tredje och första kvartilen. Första, andra och tredje

kvartilen delar upp det storleksordnade datamaterialet i 4 lika stora delar, så att i varje del finns

en fjärdedel av totala antalet observationer. Andra kvartilen kallas vanligen för median.

Standardavvikelsen definieras som

1

)( 2

n

xxs

i

Kvadreras uttrycket erhålls variansen

1

)( 2

2

n

xxs

i

som i stort sett är medelvärdet av observationernas kvadratiska avvikelser från sitt genomsnitt.

Genom en algebraisk omskrivning kan formeln för variansen skrivas som

1

2)(2

2

n

xs

n

x

i

i

och denna formel är ofta enklare för numeriska beräkningar.

Exempel 7 Betrakta följande datamaterial där observationerna skrivits i storleksordning:

0, 0, 3, 3, 4, 6, 7, 8, 8, 9, 11, 13

Variationsbredden är 13 – 0 = 13

Datamaterialet indelas i följande fyra grupper

0, 0, 3 3, 4, 6 7, 8, 8 9, 11, 13

De tre kvartilerna blir därför rimligen 3, 6.5 och 8.5, varför kvartilavståndet är 8.5 – 3 = 5.5

Medelvärdet av de 12 observationerna är 61272 x , varför variansen är

91.1611

186

11

432618

11

618

11

1691218164644936169900

125184

1272

2

2

s

Standardavvikelsen är då

16

1.411186 s

Slutligen bör vi nämna att det finns ett antal olika sätt att beskriva datamaterial för att illustrera

materialets genomsnitt och spridning. I lådagram (eng. boxplot) begränsas lådan av första och

tredje kvartilen och dessutom ritas medianen in. Vidare går ”vingarna” ut till min.- och max.-

värdena. Nedan finns ett lådagram för vårt enkla exempel:

Figur 9 Exempel på lådagram

Anm.: I ett datamaterial för en diskret variabel förekommer varje värde med en viss frekvens,

och då kan formeln för variansen skrivas

11

)(2)(22

2

n

xf

n

xxfs

n

xf

iiii

ii

5. Övningsuppgifter 5.1 I en partisympatiundersökning intervjuades 800 personer och man fick följande sympatiför-

delning (antal som sympatiserar med): (s) 236, (v) 62, (mp) 39, (m) 201, (fp) 42, (c) 41, (kd)

30. Utan ställningstagande 149

a) Sätt upp en frekvenstabell över datamaterialet och rita ett stapeldiagram.

b) Illustrera datamaterialet med ett cirkeldiagram.

(Tänk igenom hur du vill behandla de osäkra)

(Vilken typ av data har vi i detta fall?)

10

5

0

C1

17

5.2 På en tenta på tekniska fakulteten deltar 86 studenter varav 24 är kvinnor. På tentan kan

man få betygen U, 3, 4 och 5. I tabellen nedan redovisas resultatet

U 3 4 5

Kvinnor 4 11 7 2

Män 15 27 13 7

Man vill jämföra tentaresultaten för kvinnor och män. Konstruera ett lämpligt sta-

peldiagram för jämförelsen och kommentera vad du ser.

(Vilken typ av data har vi i detta fall?)

5.3 På tentan ovan kan man maximalt erhålla 24 poäng. I tabellen nedan redovisas resultaten

för olika poängintervall:

Intervall 0-4 5-9 10-14 15-19 20-24

Antal 3 16 38 20 7

Illustrera datamaterialet med ett lämpligt histogram

(Vilken typ av data har vi i detta fall?)

5.4 Vid en avdelning för kvalitetskontroll gör man stickprov på de artiklar som produceras. Artik-

larna paketeras i lådor om 100 st. och vid kontrollen plockas lådorna ut slumpvis och alla ar-

tiklarna i en utvald låda kontrolleras. Man noterar antalet defekta artiklar och för 50 kontrol-

lerade lådor erhålls

Antal defekta 0 1 2 3 6

Antal lådor 36 8 3 2 1

a) Illustrera datamaterialet med ett stolpdiagram

18

b) Beräkna medelvärdet för antalet defekta artiklar i en låda

c) Beräkna medianen för antalet defekta artiklar i en låda

d) Vilket är typvärdet för antalet defekta artiklar i en låda

5.5 I en idrottsförening hör 60 % av medlemmarna till sektion 1 och resten till sektion 2. I tabel-

len nedan redovisas medelåldern uppdelad på sektion och på kön. I tabellen anges inte an-

talet män och kvinnor inom varje sektion, utan i stället den procentuella fördelningen.

Sektion 1 Sektion 2

Andel (%) Medelålder Andel (%) Medelålder

Kvinnor 30 22.4 60 26.3

Män 70 24.1 40 28.0

a) Beräkna medelåldern i sektion 1 resp. i sektion 2

b) Beräkna medelåldern i hela föreningen

c) Beräkna medelåldern för föreningens kvinnor

5.6 Vi fortsätter på uppgift 5.5.

a) Beräkna skillnaden i medelålder mellan sektion 2 och sektion 1

b) Hur stämmer resultatet i a) med de åldersskillnader man ser mellan sektionerna

för män resp. kvinnor? Varför får man olika resultat?

c) Vi vill ha åldersskillnaden mellan de två sektionerna när man standardiserar

könsfördelningen. Beräkna de standardiserade medelvärdena för de två sektio-

nerna och notera att man får den förväntade skillnaden i medelålder.

5.7 I en telefonväxel noterar man antalet inkommande samtal under varje arbetsdag. Under en

arbetsvecka har man erhållit följande data:

255, 267, 253, 256, 234

19

Beräkna medelvärde och standardavvikelse för antalet inkommande samtal per dag.

5.8 Se uppgift 5.4. Beräkna standardavvikelsen för antalet defekta artiklar i en låda.

5.9 I en hushållsundersökning studerade man bl.a. hushållens bilinnehav. Hushåll som inte hade

bil noterades med värdet 0, medan hushåll med minst en bil fick värdet 1. I studien deltog

1256 hushåll och följande resultat erhölls:

Tillgång till bil (x) 0 1

Frekvens (f) 164 1092

a) Beräkna medelvärdet för x. Tolka värdet

b) Beräkna variansen för x.

c) Beräkna 1

)1(

n

xxn och notera att det blir samma resultat som i b)

d) Försök visa matematiskt att 1

)1(2

n

xxns när man har observationer som

bara består av 0:or och 1:or.

Svar till övningsuppgifter

5.1 a) Frekvenstabell

Row Parti Antal

1 s 236

2 v 62

3 mp 39

4 m 201

5 fp 42

6 c 41

7 kd 30

8 osäkra 149

20

Stapeldiagram

b) Cirkeldiagram

Data är kvalitativa/kategoriska

5.2 Här är data på ordinalskala och i form av frekvenser. Jämförande stapeldiagram för be-

tygen uppdelade på kön (procentuell fördelning):

vsosäkrampmkdfpc

200

100

0

Parti

Su

m o

f A

nta

l

kd ( 30; 3,8%)

fp ( 42; 5,3%)

c ( 41; 5,1%)

v ( 62; 7,8%)

s (236; 29,5%)

osäkra (149; 18,6%)

mp ( 39; 4,9%)

m (201; 25,1%)

Pie Chart of Parti

21

5.3 Intervallgränserna sätts lämpligen vid 4.5, 9.5, 14.5 och 19.5. För att få lika breda klasser

sätts också första gränsen vid -0.5 och sista vid 24.5 (praktiskt lite konstigt!). Rita sedan

sammanhängande staplar med höjden proportionell mot frekvensen. (Här har vi kvanti-

tativa, klassindelade data)

5.4 a) Stolpdiagrammet

b) 0.52 c) 0 d) 0

5.5 a) 23.59 resp. 26.98 b) 24.95 c) 24.63

5.6 a) 3.39 b) Skillnad 3.9 för K resp. M. P.g.a. olika könsfördelning i sektionerna

erhålls inte denna åldersskillnad totalt, då könen har olika åldrar.

mk

100

50

0

Kön

Pe

rce

nt S

um

of

An

tal

U

5

4

3

U

5

4

3

6543210

40

30

20

10

0

Defekta

Fre

kve

ns

22

c) Standardiserad könsfördelning: 42 % kvinnor och 58 % män. Medlålder för sektioner-

na blir då 23.386 resp. 27.286, dvs skillnad 3.9 förstås.

5.7 Medelvärde 253, standardavvikelse 11.94

5.8 1.11

5.9 a) 0.87 b) 0.1136