statystyka opisowa 1 - urząd miasta...
TRANSCRIPT
![Page 1: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/1.jpg)
Katarzyna Lubnauer 58
Podstawowe miary rozproszenia:
Wariancja z populacji:
22 2 2
1 1
1 1k k
i ii i
s x x x xn n
Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:
22
1
11
k
ii
s x xn
Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
1
1 66,95n
ii
x xn
2 2 2
1
1 306,77n
ii
s x xn
22
1
1 321,381
n
ii
s x xn
![Page 2: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/2.jpg)
Katarzyna Lubnauer 59
Odchylenie standardowe to pierwiastek z wariancji:
2
1
1 k
ii
s x xn
2
1
11
k
ii
s x xn
lub
Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
306,77 17,5s 321,38 17,9s
![Page 3: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/3.jpg)
Katarzyna Lubnauer 60
W szeregach rozdzielczych punktowych stosuje się tzw. wariancję, wyrażającą się wzorem:
22 2 2
1 1
1 1k k
i i i ii i
s n x x n x xn n
22
1
11
k
i ii
s n x xn
wartość wariantu i - tej klasy (przedziału)
liczebność i-tej klasy
Liczebność populacji
liczba klas
ix
in
k
n
![Page 4: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/4.jpg)
Katarzyna Lubnauer 61
Dla szeregu rozdzielczego przedziałowego:
środek i - tej klasy (przedziału)
liczebność i-tej klasy
Liczebność populacji
liczba klas
1
2i i
ix xx
in
k
n
22 2 2
1 1
1 1k k
i i i ii i
s n x x n x xn n
22
1
11
k
i ii
s n x xn
![Page 5: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/5.jpg)
Katarzyna Lubnauer 62
Współczynnik zmienności (niekiedy wynik jest podawany w procentach) Współczynnik zmienności mierzy zróżnicowanie względne i określa jaką część (ile procent) przeciętnego poziomu badanej cechy stanowi odchylenie standardowe.
svx
PrzykładMamy dwie maszyny rozsypujące cukier do torebek:1. Maszyna A rozsypuje cukier do torebek 1 kg, wyniki otrzymane przy kontroli wagi
pokazują następujące wyniki w kg: 0,85; 0,87; 0,9; 0,91; 1,03; 1,03; 1,08; 1,1; 1,122. Maszyna B rozsypuje cukier do worków 1 00kg, wyniki otrzymane przy kontroli wagi
pokazują następujące wyniki w kg: 86; 87,5; 91; 91; 100; 102; 105; 110; 115
svx
0,10533 0,1066330,987778
AA
A
svx
10,31315 0,10458498,61111
BB
B
svx
0,10533As
10,31315Bs
Badanie go ma sens tylko dla cech o dodatnich wartościach
![Page 6: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/6.jpg)
Katarzyna Lubnauer 63
Def. Odchylenie przeciętne SD - jest to średnia arytmetyczna bezwzględnych odchyleń wartości cechy od średniej arytmetycznej. Określa o ile jednostki danej zbiorowości różnią się średnio, ze względu na wartość cechy, od średniej arytmetycznej.
Odchylenie przeciętne
W szeregach szczegółowych stosuje się odchylenie przeciętne , wyrażającą się wzorem:
1
1 n
D ii
S x xn
![Page 7: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/7.jpg)
Katarzyna Lubnauer 64
W szeregach rozdzielczych punktowych stosuje się odchylenie przeciętne, wyrażającą się wzorem:
wartość wariantu i - tej klasy (przedziału)
liczebność i-tej klasy
Liczebność populacji
liczba klas
ix
in
k
n
1
1 k
D i ii
S n x xn
![Page 8: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/8.jpg)
Katarzyna Lubnauer 65
W szeregach rozdzielczych przedziałowych stosuje się odchylenie przeciętne, wyrażającą się wzorem:
Środek i - tej klasy (przedziału)
liczebność i-tej klasy
Liczebność populacji
liczba klas
ix
in
k
n
1
1 k
D i ii
S n x xn
![Page 9: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/9.jpg)
Katarzyna Lubnauer 66
DS s
Zachodzi następująca zależność między odchyleniem przeciętnym i standardowym
Dla powyższej miary rozrzutu też można zdefiniować współczynnik zmienności:
DD
svx
![Page 10: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/10.jpg)
Katarzyna Lubnauer 67
Rozstęp jest najprostszą miarą rozproszenia (zmienności). Jest niczym innym jak różnicą między wartością maksymalną a minimalną z naszego zbioru obserwacji. Pokazuje zatem jedynie jaki jest zakres naszych obserwacji nie informuje w żaden sposób co dzieje się "w środku" tego zakresu np. jaka wartość występowała najczęściej, czy jaka jest średnia dla tego zbioru obserwacji.
max minR x x Max Min Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
max min 98 38 60R x x
UwagaWartość miary R zależy jedynie od dwóch skrajnych (największej i najmniejszej) wartości zmiennej, nie dostarczając tym samym wyczerpującej informacji o zróżnicowaniu pozostałych wartości cechy . Jest to niewątpliwie słabością tej miary dyspersji.
![Page 11: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/11.jpg)
Katarzyna Lubnauer 68
Dlatego też często stosuje się inny rodzaj rozstępu, jakim jest odstęp międzykwartylowy.
Odstęp międzykwartylowy definiuje się wzorem:
1 3IQR Q Q
Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
1 3 79,75 52,5 17,25IQR Q Q
Min = 38 Q1=52,5 Q3=79,75 Max = 98
66,95x Me=70
![Page 12: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/12.jpg)
Katarzyna Lubnauer 69
Znając średnie, mediany, kwartyle oraz wartości skrajne możemy zbudować wykresy pudełkowe w celu porównywania dwóch podobnych populacji ze względu na tę samą cechę.
Na rysunki mamy wykresy pudełkowe dla 2 grup studentów i ich wyniki procentowe z tego samego egzaminu.Jakie wnioski możemy wyciągnąć porównując wykresy?
Min = 38 Q1=52,5 Q3=79,75 Max = 98
66,95x Me=70
Min = 45 Q1=60,5 Q3=72,5 Max = 88
62,25x Me=64
![Page 13: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/13.jpg)
Katarzyna Lubnauer 70
Przedział typowych wartości
[x - s, x + s]Jest to przedział, do którego należy większość danych statystycznych, interpretacja ta jest uzasadniona wtedy, gdy cecha ma rozkład zbliżony do rozkładu normalnego.
![Page 14: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/14.jpg)
Katarzyna Lubnauer 71
Miara rozproszenia Zalety Wady
Wariancja, odchyleniestandardowe
• Łatwo policzyć, jest zdefiniowanaalgebraicznie
• Uwzględnia wszystkie wartości wariantów cechy
• Duży wpływ mają na nią wartości odskakujące
• Zniekształcenie w przypadku rozkładów skośnych
• Trudno porównywać przy różnychwielkościach
Współczynnik zmienności
• Łatwo policzyć, jest zdefiniowanaalgebraicznie
• Uwzględnia wszystkie wartości wariantów cechy
• Można porównywać dwie różniące się wartościami populacje
• Duży wpływ mają na nią wartości odskakujące
• Zniekształcenie w przypadku rozkładów skośnych
Rozstęp • Łatwo znaleźć • Zniekształcony przez wartości odskakujące
• Pomija większość informacji• Nie jest zdefiniowana algebraicznie
IQR • Nie jest zniekształcona w przypadku rozkładów skośnych
• Brak wpływu wartości odskakujących
• Dobry w przypadku rozkładów skośnych
• Pomija większość informacji• Nie jest zdefiniowana algebraicznie• Nie powinno się stosować do małych
prób
Zalety i wady różnych miar rozproszenia
![Page 15: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/15.jpg)
Katarzyna Lubnauer 72
Miary asymetrii
Jak interpretujemy wartości miar asymetrii?
1 0x
2 0x
02468
1012141618
-3 -2 -1 0 1 2 3 4 5 6 7
02468
1012141618
-7 -6 -5 -4 -3 -2 -1 0 1 2 3
1 5,062279s
2 5,062279s
![Page 16: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/16.jpg)
Katarzyna Lubnauer 73
Znak współczynnika asymetrii wskazuje na kierunek asymetrii natomiast jego wartość bezwzględna określa siłę asymetrii.
Mówimy, że rozkład może być
symetryczny:
![Page 17: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/17.jpg)
Katarzyna Lubnauer 74
prawoskośny,
lewoskośny
![Page 18: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/18.jpg)
Katarzyna Lubnauer 75
DefRozkład symetryczny występuje, jeśli skupienie wyników znajduje się wokół środka rozkładu.Rozkład prawoskośny - (asymetria dodatnia) wyniki skupiają się przy niskich wartościach cechy.Rozkład lewoskośny - (asymetria ujemna) wyniki skupiają się przy wysokich wartościach cechy.
Skośność mierzymy przy pomocy miar asymetrii, najpopularniejsze to:
Współczynnik asymetrii (klasyczny)
3
13
1 n
ii
x xnA
s
![Page 19: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/19.jpg)
Katarzyna Lubnauer 76
Współczynnik asymetrii (klasyczny) dla szeregu punktowego:
3
13
1 k
i ii
n x xnA
s
3
13
1 k
i ii
n x xnA
s
Współczynnik asymetrii (klasyczny) dla szeregu przedziałowego:
Symbole we wzorach oznaczają to co zawsze.
![Page 20: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/20.jpg)
Katarzyna Lubnauer 77
Miary asymetrii
Jak interpretujemy wartości miar asymetrii?
1 0x
2 0x
02468
1012141618
-3 -2 -1 0 1 2 3 4 5 6 7
02468
1012141618
-7 -6 -5 -4 -3 -2 -1 0 1 2 3
1 5,062279s
2 5,062279s
1 0,077084A
2 0,077084A
![Page 21: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/21.jpg)
Katarzyna Lubnauer 78
Współczynnik asymetrii (klasyczny) - własności
na ogół
2 2A
• określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej , a dodatni prawostronnej
• o sile asymetrii mówi wartość bezwzględna z A:0-0,4 bardzo słaba asymetria, rozkład prawie symetryczny 0,4-0,8 słaba asymetria0,8-1,2 umiarkowana asymetria1,2-1,6 siła asymetriaPowyżej 1,6 bardzo silna asymetria.
Skośność (inna odmiana klasycznego współczynnika skośności)
3
311 2
ni
i
x xnAn n s
Z tego wzoru policzymy
skośność korzystając z Excela.
![Page 22: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/22.jpg)
Katarzyna Lubnauer 79
Wskaźnik asymetrii Pearsona:
x dAPs
Możemy go wyznaczać tylko, jeśli próba ma modę (dominantę) dna ogół
1 1AP określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej, a dodatni prawostronnejo sile asymetrii mówi wartość bezwzględna z AP :
0,0 - 0,2 bardzo słaba asymetria, rozkład prawie symetryczny 0,2 - 0,4 słaba asymetria0,4 - 0,6 umiarkowana asymetria0,6 - 0,8 silna asymetriaPowyżej 0,8 bardzo silna asymetria.
![Page 23: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/23.jpg)
Katarzyna Lubnauer 80
Zauważmy, że najprostszym, prymitywnym sposobem badania skośności może być porównywanie położenia średniej i mediany,
• Jeśli średnia jest na prawo od mediany
d Me x to mamy asymetrię prawoskośną
• Jeśli średnia jest na lewo od mediany
x Me d to mamy asymetrię lewośną
![Page 24: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/24.jpg)
Katarzyna Lubnauer 81
Miary skupienia (koncentracji)
Def.Koncentracja oznacza skupienie wartości cechy wokół średniej arytmetycznej z próby.
Def.Współczynnikiem kurtozy (koncentracji, spłaszczenia) nazywamy wartość K otrzymaną ze wzoru:
44
mKs
44
1
1 n
ii
m x xn
gdzie
Jest 4 momentem centralnym z populacji.
W celu oceny koncentracji badanego rozkładu porównuje się ją do rozkładu normalnego, dla którego 3K
![Page 25: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/25.jpg)
Katarzyna Lubnauer 82
Def.Współczynnikiem ekscesu nazywamy wartość liczoną ze wzoru:
3K K Jak widać celem wprowadzenia nowego pojęcia było przesunięcie wartości do 0.
Rozkłady prawdopodobieństwa można podzielić ze względu na wartość współczynnika ekscesu na rozkłady:mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnymplatokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym
![Page 26: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/26.jpg)
Katarzyna Lubnauer 83
![Page 27: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje](https://reader033.vdocuments.site/reader033/viewer/2022042911/5f41d8ea504ced1d8d7d3936/html5/thumbnails/27.jpg)
Katarzyna Lubnauer 84