något om beskrivande statistik732g70/kompendium.pdf1 något om beskrivande statistik 1. inledning i...
TRANSCRIPT
1
Något om beskrivande statistik
1. Inledning I de flesta sammanhang krävs fakta som underlag för att komma till rimliga slutsatser eller fatta
vettiga beslut. Exempelvis kan det på ett företag ha uppstått diskussioner om att det förekom-
mer könsdiskriminering, som yttrar sig i att kvinnor har lägre löner än män. Det kan då vara rim-
ligt att för ett urval av kvinnor respektive män ta reda på fakta. Fakta avser då inte bara deras
löner, utan också potentiellt viktiga faktorer som ålder, utbildning, antal anställningsår etc. Om
det fortfarande finns löneskillnader mellan kvinnor och män, fast man tar hänsyn till en mängd
bakgrundsfaktorer, så står man på betydligt fastare mark när man hävdar att det finns osakliga
löneskillnader på företaget.
Den situation vi beskrivit ovan är typisk för en statistisk undersökning. Man behöver få ett objek-
tivt faktaunderlag och samlar därför på sig en mängd data. Dessa data kan erhållas genom en
observationsundersökning som i exemplet ovan, men även experimentella undersökningar är
vanliga. Exempelvis kan vi tänka oss en butik som vill studera hur olika exponering av en vara
påverkar varans försäljning. Man bestämmer sig för att testa tre olika typer av exponering och
genomför dessa under var sina tremånadersperioder. Sedan kan man jämföra försäljningssiffror
(tillsammans med annan viktig information) för att komma fram till en väl underbyggd slutsats.
Syftet med en statistisk undersökning är många gånger rent beskrivande, vilket innebär att man
vill ”se verkligheten som den är”. Men ofta har man också ett analytiskt syfte, som att göra en
sambandsanalys eller pröva en uttalad hypotes (i löneexemplet vill man studera sambandet
mellan lön och kön och testa om skillnaden är ”statistiskt signifikant”). Även om syftet för en
undersökning är analytiskt, har den ofta stora inslag av beskrivande moment.
Slutsatser från en analytisk undersökning dras alltid till någon population. Populationen kan vara
ändlig och lätt att förstå (som t.ex. de anställda vid ett företag). Lika vanligt är det med en oänd-
lig population, som är ett betydligt mera vagt begrepp och ofta används då man har oberoende
mätningar vid t.ex. ett experiment. Man vill då studera en mera allmän företeelse, som t.ex.
hållfastheten hos en stållegering, effekten av en reklamkampanj på försäljningen av en vara,
sambandet mellan försäljningen av en vara och dess pris etc.
2
2. Olika typer av data Vad är nu data?
En definition kan vara att data är mått på variabler, som kan vara rimliga att studera med hän-
syn till undersökningsproblemet. I löneexemplet kan vi bl.a. se följande variabler och mått:
Lön – rimligt mått är månadslön i kronor
Ålder – kan vara faktisk ålder i antal år (kanske även månader) men även en klassindelning i
t.ex. femårsklasser
Kön – kan betecknas som K resp. M, men vanligare är t.ex. 1 resp. 0 (fortfarande bara en
beteckning fast det är siffror).
Uppenbarligen finns det två typer av variabler, nämligen de som kallas kvalitativa respektive
kvantitativa.
En kvalitativ variabel är en variabel som definierar olika kategorier som t.ex. kön, yrke, fö-
delseland etc. Variabeln har inget naturligt siffermått men siffror används ofta som beteck-
ning.
En kvantitativ variabel har som naturligt mått siffror och siffrorna har sin självklara betydel-
se. Som exempel kan nämnas antal barn i en familj, ålder och inkomst. Däremot är det inte
alltid självklart hur variabeln skall mätas utan man kan använda olika sorters skalor. T.ex.
kan ålder mätas i antal år eller i olika ålderskategorier.
Man brukar prata om fyra olika skalor på vilka variabler kan mätas.
Nominalskala: när vi bara kan betrakta data som olika grupper. Till denna skala hör endast
kvalitativa variabler.
Ordinalskala: när vi betraktar data som grupper, men kan rangordna dem. Grupperna har
alltså en inbördes storleksordning, men avstånden kan ändå vara olika mellan dem. Till den-
na skala hör både kvalitativa och kvantitativa variabler. Ett exempel är åldersklasserna 1
(under 20), 2 (mellan 20 och 40) samt 3 (över 40). En individ i klass 1 är då yngre än en i klass
2 etc.
Intervall- och kvotskala är de ”exakta” skalorna för kvantitativa variabler. Ur statistisk syn-
vinkel behandlas data mätta på dessa skalor på ett likvärdigt sätt. Det som skiljer variablerna
är att vissa variabler inte har någon given nollpunkt (som t.ex. temperatur). De mäts då på
intervallskala där det är meningsfullt att tala om differenser (Vettigt uttalande: I dag är det
12 grader, dvs 2 grader varmare än i går då det var 10 grader. Däremot fungerar det inte
3
med: I dag är det 20 % varmare än i går). En variabel på kvotskala har en väldefinierad noll-
punkt och det är meningsfullt att bilda kvoter och uttrycka relativa mått (Lisa och Karin är 2
resp. 4 år gamla. Alltså är Karin 2 år äldre än Lisa. Men det är också korrekt att säga att Karin
är dubbelt så gammal som Lisa).
Det blev litet långrandigt detta med skalor och vi skall inte fördjupa oss mer, utan konstatera att
skalorna leder till två typer av data. Kvalitativa variabler och kvantitativa variabler på ordinalska-
la ger båda frekvensdata, dvs för varje klass får man antalet individer (frekvensen) som ingår i
klassen. Kvantitativa variabler på intervall- eller kvotskala ger data i form av enskilda numeriska
värden.
3. Tabeller och diagram I media, kursböcker och annat matas vi dagligen med information i form av tabeller och dia-
gram. Informationen ser vederhäftig ut och det är lätt att ta till sig den helt okritiskt, inte minst
för att många tycker att det bara är ”tråkiga siffror”, som man inte orkar fördjupa sig närmare i.
Men här riskerar man att gå på ordentliga nitar!
Statistiska uppgifter kan presenteras på många olika sätt, och man måste förstå hur den aktuella
tabellen eller diagrammet är konstruerat, för att rätt tolka informationen. Vanligen är informa-
tionen formellt sett korrekt, men kan framställas på sådant sätt, att det är lätt att feltolka den
om man inte granskar den kritiskt.
Särskilt tydligt blir detta vid politiska debatter, då det är vanligt att representanter för olika par-
tier visar diagram över någon företeelse. Trots att man illustrerar samma företeelse ger dia-
grammen helt olika intryck (kanske för att man använder olika skalor, delvis olika tidsperioder
etc).
3.1 Frekvensdata
Vi studerar nu en variabel som är indelad i olika klasser, och vill med hjälp av tabeller och dia-
gram illustrera hur data fördelar sig över de olika klasserna.
Exempel 1 I en mediaundersökning riktad till allmänheten vill man ta reda på svenska folkets inställning till
olika tidningar. För varje tidning får de svarande uttrycka sin åsikt på en femgradig skala. Frågor-
na och svarsalternativen är av följande typ.
”Tidningen XX är trovärdig”
Instämmer: inte alls O O O O O helt och hållet
4
Förutom svaren på dessa frågor har man också frågat om den svarandes kön.
800 personer har besvarat enkäten och vi vill redovisa svarsfördelningarna över kön, över tro-
värdighet men även över kombinationen av kön och trovärdighet. Det senare gör vi för att se om
kvinnor och män uppfattar trovärdigheten på olika sätt.
3.1.1 Kön
Tabell 1. Svarsfördelning efter kön
Kön Antal Andel (i procent)
Kvinnor 380 47.5 Män 420 52.5 Totalt 800 100
Denna fördelning kan illustreras i ett stapeldiagram, som har konstruerats i den statistiska pro-
gramvaran Minitab:
Figur 1 Stapeldiagram över könsfördelning
Figurtexten är inte den snyggaste, men detta bortser vi från nu. Det vi kan konstatera är att dia-
grammet i och för sig är korrekt, men ger ett intryck av att kvinnorna är väldigt få i förhållande
till männen. Detta beror på Y-axelns skala, som inte alls börjar i 0. Det är lätt att styra om detta i
Minitab och vi erhåller då i stället följande:
10
420
410
400
390
380
Kön
Su
m o
f A
nta
l
Kvinnor
Män
5
Figur 2 Stapeldiagram över könsfördelning
Nu får vi ett helt annat och mera korrekt intryck av stapeldiagrammet, eller hur?
Vi kan dra lärdomen att man bör undvika ”stympade” skalor, eftersom det omedelbara synin-
trycket av diagrammet lätt blir vilseledande.
Ett alternativt sätt att illustrera könsfördelningen är med cirkeldiagram, vilket konstrueras så att
cirkelsektorernas areor är proportionella mot frekvenserna:
Figur 3 Cirkeldiagram över könsfördelning
Cirkeldiagram blir lätt röriga om variabeln kan anta många värden, och då lämpar sig stapeldia-
gram i allmänhet bättre. Man bör också tänka på att cirkeldiagrammet är som tydligast i färg,
och att diagramtypen därför kanske inte lämpar sig i en svartvit rapport.
10
400
300
200
100
0
Kön
Su
m o
f A
nta
l
Kvinnor
Män
1 (380; 47,5%)
0 (420; 52,5%)
Pie Chart of Kön
6
3.1.2 Trovärdighet
Vad gäller trovärdigheten har följande resultat erhållits:
Tabell 2 Fördelning efter trovärdighet
Trovärdighet Antal Procentuell andel
1 120 15 2 120 15 3 240 30 4 160 20 5 160 20 Totalt 800 100
Figur 4 Stapeldiagram över trovärdighetsfördelningen
Figur 5 Cirkeldiagram över trovärdighetsfördelningen
54321
250
200
150
100
50
0
Trov
Su
m o
f a
nt
2 (120; 15,0%)
1 (120; 15,0%)
5 (160; 20,0%)
4 (160; 20,0%)
3 (240; 30,0%)
Pie Chart of Trov
7
3.1.3 Kombinationen kön och trovärdighet
För att studera kombinationen av kön och trovärdighet behöver vi ta fram en korstabell, dvs en
frekvenstabell där båda variablerna redovisas tillsammans. Vi konstruerar tabellen så att rader-
na är kön, medan kolumnerna är trovärdigheten. För att förenkla redovisningen så ges trovär-
digheten bara i 3 klasser; negativa (ursprunglig kod 1 och 2), obestämda (kod 3) och positiva
(kod 4 och 5):
Tabell 3 Fördelning efter trovärdighet för män och kvinnor. Antal
Kön
Trovärdighet Totalt Neg Obest Pos
Kvinnor 80 120 180 380 Män 160 120 140 420 Totalt 240 240 320 800
Vi kan konstatera att i marginalerna har vi de fördelningar som tidigare redovisats (trovärdig-
hetsfördelningen var dock då mera finfördelad). Vi kan också konstatera att männen är betydligt
mer negativa än kvinnorna (160/420 = 38.1 % jämfört med 80/380 = 21.4 %). För att illustrera
detta tar vi fram ett stapeldiagram uppdelat på kön:
Figur 6 Stapeldiagram över trovärdighetsfördelningen uppdelat på män och kvinnor. Antal
10
200
100
0
Kon
Su
m o
f A
nt
Pos
Obest
Neg
Pos
Obest
Neg
8
Eftersom antalet män och kvinnor är olika, kan det vara litet besvärligt att direkt se skillnaden i
fördelning, när den som här ges i antal. Det blir enklare om man i stället går över till procentuel-
la andelar inom varje grupp (kön i detta fall):
Figur 7 Stapeldiagram över trovärdighetsfördelningen uppdelat på män och kvinnor. Procentuell
andel
Man ser omedelbart från de två fördelningarna, att kvinnorna har en klart mer positiv inställning
än männen till tidningens trovärdighet.
Det sista diagrammet kan rent formellt också konstrueras genom att låta trovärdighetsklasserna
utgöra ”x-axel”:
10
100
90
80
70
60
50
40
30
20
10
0
Kon
Pe
rce
nt S
um
of
An
t
Pos
Obest
Neg
PosObest
Neg
9
Om vi tittar på grupp 1 så är männens stapel dubbelt så hög som kvinnornas, dvs männen är två
gånger så negativa som kvinnorna? Detta är dock fel sätt att tolka det hela, utan det vi kan säga
är, att av de negativa så utgör männen två tredjedelar. Eftersom männen är något fler i studien,
så är detta en del av förklaringen till männens höga andel.
Vi såg ju ovan att av männen är 38.1 % negativa, medan motsvarande andel bland kvinnorna är
21.4 %. Andelen negativa män är alltså inte dubbelt så stor som andelen negativa kvinnor, utan
”bara” 78 % större (38.1/21.4 = 1.78).
Vi drar lärdomen, att de grupper man vill jämföra bör utgöra diagrammets indelningsgrund (”x-
axel”), så att man inte riskerar att av misstag dra felaktiga slutsatser.
3.2 Data i form av enskilda numeriska värden (från kvantitativa variabler)
De kvantitativa variablerna kan klassificeras i diskreta respektive kontinuerliga variabler. En dis-
kret variabel kan bara anta vissa diskreta värden, och i stället för att ange alla enskilda värden,
så presenteras sådana data i form av frekvenstabeller, precis som i avsnitt 3.1.
En kontinuerlig variabel antar alla värden i ett intervall, vilket innebär att ett observationsmate-
rial innehåller värden som i stort sett alla är olika. Sådana data kan inte direkt presenteras i ta-
beller och diagram, utan måste först indelas i klasser.
Exempel 2 (Diskret variabel) Vi studerar under ett år antal trafikolyckor per dag som inträffar i en tätort. De n = 365 observa-
tionerna är 0, 0, 2, 0, 1, 4, ….,2, 0, 0. Data kan sammanfattas i följande frekvenstabell:
321
100
90
80
70
60
50
40
30
20
10
0
Trov
Pe
rce
nt S
um
of
An
t
Kvinnor
MänKvinnorMän
Kvinnor
Män
10
Tabell 4 Antal och procentuell andel trafikolyckor per dag
Antal olyckor (x) Antal dagar, frekvens (f) Procentuell relativ frekvens
0 102 27.9 1 125 34.2 2 80 21.9 3 32 8.8 4 20 5.5 5 4 1.1 6 0 0 7 2 0.5 ≥ 8 0 0 Summa n = 365 99.9
Denna fördelning illustreras lämpligen med ett s.k. stolpdiagram (stapeldiagram för diskret vari-
abel), där man på y-axeln har frekvenserna eller relativa frekvenserna för varje x-värde:
Figur 8 Fördelning över antal trafikolyckor per dag
Exempel 3 (Kontinuerlig variabel) En förening med 500 medlemmar har följande åldersfördelning
76543210
100
50
0
x
f
11
Tabell 5 Föreningens åldersfördelning
Ålder Frekvens Relativ frekvens (i %)
-19 20 4 20-29 80 16 30-39 120 24 40-49 150 30 50-59 80 16 60-69 40 8 70- 10 2 Alla 500 100
Fördelningen för en kontinuerlig variabel brukar illustreras med ett histogram. På x-axeln mar-
keras klassgränserna och ovanför varje klass avsätts en rektangelarea som är proportionell mot
frekvensen (eller relativa frekvensen). Om klasserna är lika breda (vilket de helst bör vara), så är
rektangelns höjd proportionell mot frekvensen.
För att konstruera histogram i Minitab måste man ha alla enskilda data inlagda. Här hade vi inte
data på den formen och därför får vi lov att själva rita ett histogram. Detta görs förmodligen
enklast för hand. Pröva! (Observera att en person som fyllt 29 år men ännu inte 30 anges med
åldern 29).
4. Sammanfattande mått på datamaterial I föregående kapitel har vi studerat olika sätt att illustrera hela fördelningen hos ett datamateri-
al. Ofta vill man sammanfatta denna information i några enkla mått som är smidigare att hante-
ra. Främst gäller detta om man har data på en kvantitativ variabel. De typer av mått som man
vanligen använder är dels mått på observationernas genomsnitt och dels mått på observatio-
nernas spridning kring genomsnittet.
4.1 Genomsnittsmått (lägesmått, centralmått)
Det i särklass vanligaste genomsnittsmåttet är (aritmetiska) medelvärdet, men man ser att även
medianen används i praktiken. Typvärdet fungerar främst för kvalitativa data och för klassinde-
lade kvantitativa.
Typvärdet är det vanligaste värdet, dvs det x-värde som har den största frekvensen.
Medianen (md) är det i storleksordning mittersta värdet (om antalet observationer är jämnt, så
definieras medianen som medelvärdet av de två mittersta värdena). Medianen delar alltså da-
tamaterialet mitt itu.
12
Medelvärdet ( x med statistiskt språkbruk) för ett datamaterial med n observationer beteckna-
de nxxx ,..., 21 definieras som
n
x
n
xsum
n
xxxx
n
i
i
in
121 )(...
Exempel 4 (baseras på exempel 2) Den första veckan är det observerade antalet olyckor 0, 0, 2, 0, 1, 4, 2. (med beteckningarna
ovan är t.ex. x1 = 0 och x7 = 2). Vi ser att typvärdet är 0, medan medianen är md = 1. Medelvärdet
av antalet olyckor är
3.17
9
7
2410200
x
Säg nu att sista dagen var en extrem halkdag och det blev inte alls 2 olyckor utan i stället 12!
Fortfarande är typvärdet 0 och medianen 1. Medelvärdet blir
7.27
19x
dvs väsentligt mycket större än ovan.
Detta är en generell lärdom: Medelvärden är känsliga för extremvärden, medan medianvärden
inte påverkas i nämnvärd grad.
Medianen kan därför vara ett lämpligare genomsnittsmått än medelvärdet i vissa sammanhang.
T.ex. används vanligen medianlön i stället för genomsnittslön i samband med löneförhandlingar
mellan företag och fack.
Exempel 5 Vi tar nu och studerar alla olycksdata i exempel 2.
Typvärdet är 1 olycka per dag.
Antalet dagar är 365, varför värde nr 183 (i storleksordning) är median. Vi har 102 st. 0:or och
125 st. 1:or, dvs värde nr 103 upp till och med nr 227 är alla lika med 1, vilket innebär att md = 1.
Medelvärdet är
13
36.1365
495
365
72605442033228011250102
365
365
1
i
ix
x
Med formelspråk kan medelvärdet för diskreta data skrivas
n
xfx
ii
Vi skall nu studera en litet besvärligare men i praktiken vanlig situation, när man har medelvär-
dena beräknade för ett antal grupper och vill beräkna medelvärdet för totala antalet observa-
tioner.
Antag för enkelhetens skull att vi har två grupper med antalet observationer n1 resp. n2. Antag
vidare att medelvärdena är
1
1
1n
x
xgrupp
i
resp.
2
2
2n
x
xgrupp
i
Det totala medelvärdet kan nu skrivas som
22
11221121
xn
nx
n
n
n
xnxn
n
xx
n
xx
grupp
i
grupp
i
i
dvs det totala medelvärdet är ett vägt medelvärde av gruppmedelvärdena och vikterna är grup-
pernas relativa frekvenser.
Exempel 6 Ett företag är bekymrat över sjukfrånvarons utveckling och följer därför upp frånvaron det se-
naste året. I tabellen nedan ges medelvärdet av antalet frånvarodagar uppdelat på företagets
två avdelningar och på kön.
Tabell 6 Medelantal frånvarodagar per år (antal personer inom parentes)
14
Kvinnor Män
Avd 1 5.8 (150) 6.0 (50) Avd 2 8.5 (100) 9.1 (700) Totalt ? (250) ? (750)
Vi börjar med att beräkna medelfrånvaron för kvinnor resp. män. För kvinnor blir den
9.688.640.348.35.88.5250100
250150 , medan motsvarande beräkning för män ger
medelvärdet 8.89 = 8.9. Männen har alltså i snitt 2 frånvarodagar fler än kvinnorna.
Hajar du inte till? Vi ser att på de två avdelningarna har männen något högre sjukfrånvaro i snitt,
men inte alls så mycket som 2 dagar. Då har vi väl räknat fel!?
Nej, faktiskt inte. Skälet till den stora skillnaden är att männen huvudsakligen finns på avdelning
2, och den avdelningen har i stort sett 3 sjukdagar flera än avdelning 1 (avdelningarnas medel-
värden kan med vägda medelvärden beräknas till 5.9 resp. 9.0).
Om man vill se skillnaden i frånvaro beroende på kön (oavsett avdelning), måste medelvärdena
vägas ihop med en gemensam fördelning för könen. Det vanligaste sättet att göra detta är med
s.k. standardvägning, där man som gemensam fördelning använder marginalfrekvenserna, dvs i
detta fall 200 på avdelning 1 och 800 på avdelning 2. Det standardvägda medelvärdet för kvin-
nor blir då 0.85.88.08.52.0 , medan männens medelvärde blir 8.5. Männen har alltså i
genomsnitt ”bara” en halv dag mera sjukfrånvaro än kvinnorna.
Det är helt korrekt att säga att männen på företaget har i genomsnitt 2 frånvarodagar fler än
kvinnorna. Här räknas både med ev. skillnader beroende på kön, men också skillnader beroende
på vilka arbetsuppgifter man har.
Är man ute efter att enbart spegla skillnaden mellan könen, måste man göra en standardiserad
jämförelse, dvs ta bort ev. skillnader i arbetsuppgifter. Ett enkelt sätt att göra detta är att jämfö-
ra standardvägda medelvärden.
4.2 Spridningsmått
Det är viktigt att som sammanfattande mått på ett datamaterial inte bara beräkna ett genom-
snitt utan att också ge ett mått på spridningen i data. Så t.ex. är medelvärdet 0 för siffrorna -1, 0
och 1, men samma medelvärde har vi också för -10, 0 och 10. Dock har det senare datamateria-
let betydligt mycket större spridning än det första.
Det absolut vanligaste spridningsmåttet är datamaterialets standardavvikelse. Ibland används
också kvartilavstånd och variationsbredd som enkla mått på spridning.
Variationsbredden är differensen mellan största och minsta värdet i datamaterialet.
15
Kvartilavståndet är differensen mellan den tredje och första kvartilen. Första, andra och tredje
kvartilen delar upp det storleksordnade datamaterialet i 4 lika stora delar, så att i varje del finns
en fjärdedel av totala antalet observationer. Andra kvartilen kallas vanligen för median.
Standardavvikelsen definieras som
1
)( 2
n
xxs
i
Kvadreras uttrycket erhålls variansen
1
)( 2
2
n
xxs
i
som i stort sett är medelvärdet av observationernas kvadratiska avvikelser från sitt genomsnitt.
Genom en algebraisk omskrivning kan formeln för variansen skrivas som
1
2)(2
2
n
xs
n
x
i
i
och denna formel är ofta enklare för numeriska beräkningar.
Exempel 7 Betrakta följande datamaterial där observationerna skrivits i storleksordning:
0, 0, 3, 3, 4, 6, 7, 8, 8, 9, 11, 13
Variationsbredden är 13 – 0 = 13
Datamaterialet indelas i följande fyra grupper
0, 0, 3 3, 4, 6 7, 8, 8 9, 11, 13
De tre kvartilerna blir därför rimligen 3, 6.5 och 8.5, varför kvartilavståndet är 8.5 – 3 = 5.5
Medelvärdet av de 12 observationerna är 61272 x , varför variansen är
91.1611
186
11
432618
11
618
11
1691218164644936169900
125184
1272
2
2
s
Standardavvikelsen är då
16
1.411186 s
Slutligen bör vi nämna att det finns ett antal olika sätt att beskriva datamaterial för att illustrera
materialets genomsnitt och spridning. I lådagram (eng. boxplot) begränsas lådan av första och
tredje kvartilen och dessutom ritas medianen in. Vidare går ”vingarna” ut till min.- och max.-
värdena. Nedan finns ett lådagram för vårt enkla exempel:
Figur 9 Exempel på lådagram
Anm.: I ett datamaterial för en diskret variabel förekommer varje värde med en viss frekvens,
och då kan formeln för variansen skrivas
11
)(2)(22
2
n
xf
n
xxfs
n
xf
iiii
ii
5. Övningsuppgifter 5.1 I en partisympatiundersökning intervjuades 800 personer och man fick följande sympatiför-
delning (antal som sympatiserar med): (s) 236, (v) 62, (mp) 39, (m) 201, (fp) 42, (c) 41, (kd)
30. Utan ställningstagande 149
a) Sätt upp en frekvenstabell över datamaterialet och rita ett stapeldiagram.
b) Illustrera datamaterialet med ett cirkeldiagram.
(Tänk igenom hur du vill behandla de osäkra)
(Vilken typ av data har vi i detta fall?)
10
5
0
C1
17
5.2 På en tenta på tekniska fakulteten deltar 86 studenter varav 24 är kvinnor. På tentan kan
man få betygen U, 3, 4 och 5. I tabellen nedan redovisas resultatet
U 3 4 5
Kvinnor 4 11 7 2
Män 15 27 13 7
Man vill jämföra tentaresultaten för kvinnor och män. Konstruera ett lämpligt sta-
peldiagram för jämförelsen och kommentera vad du ser.
(Vilken typ av data har vi i detta fall?)
5.3 På tentan ovan kan man maximalt erhålla 24 poäng. I tabellen nedan redovisas resultaten
för olika poängintervall:
Intervall 0-4 5-9 10-14 15-19 20-24
Antal 3 16 38 20 7
Illustrera datamaterialet med ett lämpligt histogram
(Vilken typ av data har vi i detta fall?)
5.4 Vid en avdelning för kvalitetskontroll gör man stickprov på de artiklar som produceras. Artik-
larna paketeras i lådor om 100 st. och vid kontrollen plockas lådorna ut slumpvis och alla ar-
tiklarna i en utvald låda kontrolleras. Man noterar antalet defekta artiklar och för 50 kontrol-
lerade lådor erhålls
Antal defekta 0 1 2 3 6
Antal lådor 36 8 3 2 1
a) Illustrera datamaterialet med ett stolpdiagram
18
b) Beräkna medelvärdet för antalet defekta artiklar i en låda
c) Beräkna medianen för antalet defekta artiklar i en låda
d) Vilket är typvärdet för antalet defekta artiklar i en låda
5.5 I en idrottsförening hör 60 % av medlemmarna till sektion 1 och resten till sektion 2. I tabel-
len nedan redovisas medelåldern uppdelad på sektion och på kön. I tabellen anges inte an-
talet män och kvinnor inom varje sektion, utan i stället den procentuella fördelningen.
Sektion 1 Sektion 2
Andel (%) Medelålder Andel (%) Medelålder
Kvinnor 30 22.4 60 26.3
Män 70 24.1 40 28.0
a) Beräkna medelåldern i sektion 1 resp. i sektion 2
b) Beräkna medelåldern i hela föreningen
c) Beräkna medelåldern för föreningens kvinnor
5.6 Vi fortsätter på uppgift 5.5.
a) Beräkna skillnaden i medelålder mellan sektion 2 och sektion 1
b) Hur stämmer resultatet i a) med de åldersskillnader man ser mellan sektionerna
för män resp. kvinnor? Varför får man olika resultat?
c) Vi vill ha åldersskillnaden mellan de två sektionerna när man standardiserar
könsfördelningen. Beräkna de standardiserade medelvärdena för de två sektio-
nerna och notera att man får den förväntade skillnaden i medelålder.
5.7 I en telefonväxel noterar man antalet inkommande samtal under varje arbetsdag. Under en
arbetsvecka har man erhållit följande data:
255, 267, 253, 256, 234
19
Beräkna medelvärde och standardavvikelse för antalet inkommande samtal per dag.
5.8 Se uppgift 5.4. Beräkna standardavvikelsen för antalet defekta artiklar i en låda.
5.9 I en hushållsundersökning studerade man bl.a. hushållens bilinnehav. Hushåll som inte hade
bil noterades med värdet 0, medan hushåll med minst en bil fick värdet 1. I studien deltog
1256 hushåll och följande resultat erhölls:
Tillgång till bil (x) 0 1
Frekvens (f) 164 1092
a) Beräkna medelvärdet för x. Tolka värdet
b) Beräkna variansen för x.
c) Beräkna 1
)1(
n
xxn och notera att det blir samma resultat som i b)
d) Försök visa matematiskt att 1
)1(2
n
xxns när man har observationer som
bara består av 0:or och 1:or.
Svar till övningsuppgifter
5.1 a) Frekvenstabell
Row Parti Antal
1 s 236
2 v 62
3 mp 39
4 m 201
5 fp 42
6 c 41
7 kd 30
8 osäkra 149
20
Stapeldiagram
b) Cirkeldiagram
Data är kvalitativa/kategoriska
5.2 Här är data på ordinalskala och i form av frekvenser. Jämförande stapeldiagram för be-
tygen uppdelade på kön (procentuell fördelning):
vsosäkrampmkdfpc
200
100
0
Parti
Su
m o
f A
nta
l
kd ( 30; 3,8%)
fp ( 42; 5,3%)
c ( 41; 5,1%)
v ( 62; 7,8%)
s (236; 29,5%)
osäkra (149; 18,6%)
mp ( 39; 4,9%)
m (201; 25,1%)
Pie Chart of Parti
21
5.3 Intervallgränserna sätts lämpligen vid 4.5, 9.5, 14.5 och 19.5. För att få lika breda klasser
sätts också första gränsen vid -0.5 och sista vid 24.5 (praktiskt lite konstigt!). Rita sedan
sammanhängande staplar med höjden proportionell mot frekvensen. (Här har vi kvanti-
tativa, klassindelade data)
5.4 a) Stolpdiagrammet
b) 0.52 c) 0 d) 0
5.5 a) 23.59 resp. 26.98 b) 24.95 c) 24.63
5.6 a) 3.39 b) Skillnad 3.9 för K resp. M. P.g.a. olika könsfördelning i sektionerna
erhålls inte denna åldersskillnad totalt, då könen har olika åldrar.
mk
100
50
0
Kön
Pe
rce
nt S
um
of
An
tal
U
5
4
3
U
5
4
3
6543210
40
30
20
10
0
Defekta
Fre
kve
ns