analiza współzależności dwóch cech iimath.uni.lodz.pl/~skalskg/miswf/12wyklad11.pdfgrecja 11...
TRANSCRIPT
Analiza współzależności dwóch cech II
Dopasowanie funkcji regresji do danych empirycznych
Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością. W tym celu badamy dopasowanie funkcji regresji do danych empirycznych.
Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się tak zwane resztym które stanowią różnicę między rzeczywistymi i teoretycznymi (wyliczonymi z równania prostej) wartościami zmiennej zależnej:
ei = yi − yi .
Dopasowanie funkcji regresji do danych empirycznych
Funkcja regresji jest poprawnie oszacowana, jeśli wartości reszt są niewielkie i mają charakter przypadkowy.
W oparciu o reszty wyznacza się następujące miary dopasowania modelu do danych empirycznych:
• Średni błąd szacunku (średni błąd resztowy lub odchylenie standardowe składnika resztowego):
Se =
N∑i=1
(yi − yi)2
N − 2=
N∑i=1
e2i
N − 2.
Średni błąd szacunkuOkreśla on, o ile przeciętnie różnią się wartości zmiennej zależnej wyznaczone na podstawie funkcji regresji od jej wartości empirycznych. Im mniejszy jest błąd, tym lepsze dopasowanie funkcji regresji do danych rzeczywistych (tym mniej mylić się będziemy szacując wartość zmiennej zależnej na podstawie funkcji regresji).
Współczynnik determinacji
• Jest to najważniejsza miara dopasowania funkcji regresji do danych empirycznych. Przyjmuje on wartość z przedziału od 0 do 1, przy czym im większa jego wartość, tym lepsze dopasowanie funkcji. Określa, ile % zmienności cechy Y zostało wyjaśnione przy pomocy oszacowanej funkcji regresji (ile % tej zmienności wynika z czynników uwzględnionych w równaniu regresji). W przypadku prostej regresji liniowej
R2 = 1 −
N∑i=1
(yi − yi)2
N∑i=1
(yi − y)2.
R2 = (rxy)2 .
Przykład
Zbadamy dopasowanie oszacowanej funkcji regresji do danych empirycznych. Obliczenia należy zacząć od wyznaczenia teoretycznych wartości zmiennej zależnej wyznaczonych przez funkcję regresji, a następnie obliczamy reszty.
Numer pracownika Staż pracy (w latach) Wydajność pracy (w szt./h)
1 1 10
2 2 11
3 3 12
4 4 14
5 5 15
6 5 15
7 6 16
8 7 18
9 8 19
10 9 20
y = 8,5 + 1,3 ⋅ x .
PrzykładStaż pracy (w latach)
Wydajność pracy (w szt./h)
1 10 9,8 0,2 0,042 11 11,1 -0,1 0,013 12 12,4 -0,4 0,164 14 13,7 0,3 0,095 15 15 0,0 0,005 15 15 0,0 0,006 16 16,3 -0,3 0,097 18 17,6 0,4 0,168 19 18,9 0,1 0,019 20 20,2 -0,2 0,04
Razem — — 0,60
xi yi
yi = 8,5 + 1,3 ⋅ xi ei = yi − yi e2i = (yi − yi)2
N = 10, Se =
N∑i=1
e2i
N − 2=
0,610 − 2
= 0,27.
Przykład
Se =
N∑i=1
e2i
N − 2=
0,610 − 2
= 0,27.
Oznacza to, że wyznaczając wydajność pracy pracowników na podstawie oszacowanej funkcji regresji mylimy się średnio o ± 0,27 sztuk/h. Innymi słowy, teoretyczna (obliczona na podstawie funkcji regresji) wydajność pracy poszczególnych pracowników różni się od wydajności rzeczywistej o ± 0,27 sztuk na godzinę.
Przykład
1 10 9,8 0,2 0,04 252 11 11,1 -0,1 0,01 163 12 12,4 -0,4 0,16 94 14 13,7 0,3 0,09 15 15 15 0,0 0,00 05 15 15 0,0 0,00 06 16 16,3 -0,3 0,09 17 18 17,6 0,4 0,16 98 19 18,9 0,1 0,01 169 20 20,2 -0,2 0,04 25
Razem 150 — — 0,60 102
xi yi yi = 8,5 + 1,3 ⋅ xi e2i = (yi − yi)2
N = 10, y =15010
= 15, R2 = 1 −
N∑i=1
(yi − yi)2
N∑i=1
(yi − y)2= 1 −
0,6102
= 0,9941.
ei = yi − yi (yi − y)2
PrzykładR2 = 0,9941.
Otrzymano wartość bliską 1, a więc dopasowanie funkcji regresji do danych empirycznych jest bardzo dobre. Zmienność wydajności pracy została wyjaśniona przez badaną regresję aż w 99,41%.
Wyd
ajno
ść p
racy
7
10
13
16
19
22
Staż pracy0 1 2 3 4 5 6 7 8 9
y = 1,3x + 8,5R² = 0,9941
Wykorzystanie funkcji regresjiWłaściwie wyspecyfikowana, tzn. poprawna merytorycznie i dobrze dopasowana do danych empirycznych funkcja regresji może posłużyć do przewidywania wartości jednej zmiennej przy znanym poziomie drugiej. Warunkiem jest jednak, aby relacje między zmiennymi nie uległy znacznym zmianom, np. pod wpływem nieprzewidzianych, losowych okoliczności. Ponieważ jednak funkcja regresji z jedną zmienną niezależną stanowi bardzo mocne uproszczenie rzeczywistości, również prognozy dokonywane są nieco „na wyrost”.
PrzykładNa podstawie oszacowanej funkcji regresji z poprzedniego przykładu:
y = 8,5 + 1,3 ⋅ x
przewidzimy jakiej wydajności można się spodziewać po pracowniku o stażu dwunastoletnim.Interesuje nas, jaką wydajność może osiągnąć pracownik ze stażem
xP = 12
Prognozę tę wyznaczymy podstawiając powyższą wartość do równania regresji.
PrzykładOtrzymujemy:
y = 8,5 + 1,3 ⋅ xP = 8,5 + 1,3 ⋅ 12 = 24,1 szt./h .
Oznacza to, że po pracowniku z dwunastoletnim stażem można się spodziewać, że w ciągu godziny wyprodukuje średnio 24,1 sztuk wyrobu. Nasze szacunki są obarczone pewnym błędem, który przyjmujemy na poziomie średniego błędu szacunku. Zatem uwzględniając wartość błędu, do otrzymanego wyniku dodamy i odejmiemy 0,27 szt./h; uzyskujemy w ten sposób przedział liczbowy (23,83; 24,37). Urealniając ten wynik, możemy zatem przypuszczać, że pracownik z 12-letnim stażem wyprodukuje od 23 do 25 szt. wyrobu w ciągu godziny.
Współczynnik korelacji rang Spearmana
Służy on do badania zależności dwóch cech przedstawionych w szeregu korelacyjnym. Cechy te mogą być mierzalne lub niemierzalne ale porządkowe. Liczba badanych jednostek powinna być nieduża (poniżej 30).
Przypuśćmy, że badamy N jednostek analizując dwie cechy. Elementy te można można więc uporządkować ze względu na obie cechy. Poszczególnym uporządkowanym wariantom cechy nadajemy kolejne numery, które określa się mianem rang, a procedurę nadawania rang — rangowaniem.
RangowaniePoszczególnym uporządkowanym wariantom cechy przyporządkowujemy kolejne liczby naturalne. W sytuacji, gdy kilka jednostek badania ma takie same warianty cechy, rangi ustalane są wówczas jako średnia arytmetyczna z kolejnych pozycji na jakich znalazły się jednostki badania posiadające dany wariant cechy, np.
Nr jednostki Wariant cechy Ranga1 podstawowe 12 zawodowe 23 średnie 4
Średnia z 3, 4, 54 średnie 45 średnie 46 wyższe 6,5 Średnia z 6, 77 wyższe 6,5
Współczynnik korelacji rang Spearmana
Współczynnik korelacji rang Spearmana wyznacza się na podstawie następującego wzoru
gdzie di oznaczają różnice między rangami odpowiadających sobie wartości xi i yi tzn. rangami cech X i Y dla poszczególnych jednostek badania.
rs = 1 −6
N∑i=1
d2i
N(N2 − 1),
Współczynnik korelacji rang Spearmana
Współczynnik korelacji rang Spearmana przyjmuje wartości z przedziału od -1 do 1. Im wartość tego miernika jest bliższa -1, tym silniejsza ujemna korelacja między badanymi cechami, z kolei — im bliższa 1, tym silniejsza korelacja dodatnia. Wartości bliskie zeru wskazują na słabą zależność. Współczynnik ten jest symetryczny, to znaczy zależność Y od X jest taka sama jak zależność X od Y.
Sposób wyznaczania współczynnika rang zaprezentujemy dla dwóch sytuacji, w których zalecane jest jego użycie: dla obu cech mierzalnych oraz w sytuacji, gdy jedna z cech jest niemierzalna, ale której warianty dają się uporządkować.
Przykład IZa pomocą współczynnika rang ustalimy zależność między emisją zanieczyszczeń powietrza CO2 a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.
Kraj Liczba ludności (w tys.)
Emisja zanieczyszczeń powietrza CO2(w mln ton)
Austra 8 105 79,5Belgia 10 416 123,5Dania 5 401 50,5Finlandia 5 226 56,7Francja 60 044 415,7Grecja 11 015 110,5Hiszpania 43 768 368,3Irlandia 4 024 47,7Luksemburg 454 12,1Holandia 16 275 175,9Niemcy 82 561 876,8Portugalia 10 524 68,7Szwecja 8 991 51,5Wielka Brytania 59 561 555,6Włochy 57 537 488Polska 38 180 317,7
Przykład IRangowanie ze względu na pierwszą cechę - Liczbę ludności.
Kraj Liczba ludności (w tys.)
Ranga
Luksemburg 454 1Irlandia 4 024 2Finlandia 5 226 3Dania 5 401 4Austra 8 105 5Szwecja 8 991 6Belgia 10 416 7Portugalia 10 524 8Grecja 11 015 9Holandia 16 275 10Polska 38 180 11Hiszpania 43 768 12Włochy 57 537 13Wielka Brytania 59 561 14Francja 60 044 15Niemcy 82 561 16
Przykład IRangowanie ze względu na drugą cechę - Emisję zanieczyszczeń.
Kraj Emisja zanieczyszczeń powietrza CO2(w mln ton)
Ranga
Luksemburg 12,1 1Irlandia 47,7 2Dania 50,5 3Szwecja 51,5 4Finlandia 56,7 5Portugalia 68,7 6Austra 79,5 7Grecja 110,5 8Belgia 123,5 9Holandia 175,9 10Polska 317,7 11Hiszpania 368,3 12Francja 415,7 13Włochy 488 14Wielka Brytania 555,6 15Niemcy 876,8 16
Przykład IObliczenie różnic między rangami
Kraj
Liczba ludności (w tys.)
Emisja zanieczyszczeń powietrza CO2(w mln ton)
Rangi X Rangi Y Różnice rang Kwadraty różnic rang
Luksemburg 454 12,1 1 1 0 0Irlandia 4 024 47,7 2 2 0 0Finlandia 5 226 56,7 3 5 -2 4Dania 5 401 50,5 4 3 1 1Austra 8 105 79,5 5 7 -2 4Szwecja 8 991 51,5 6 4 2 4Belgia 10 416 123,5 7 9 -2 4Portugalia 10 524 68,7 8 6 2 4Grecja 11 015 110,5 9 8 1 1Holandia 16 275 175,9 10 10 0 0Polska 38 180 317,7 11 11 0 0Hiszpania 43 768 368,3 12 12 0 0Włochy 57 537 488 13 14 -1 1Wielka Brytania 59 561 555,6 14 15 -1 1Francja 60 044 415,7 15 13 2 4Niemcy 82 561 876,8 16 16 0 0Razem — — — — — 28
xi yi di d2i
Przykład I
xi yi di d2i
Przystępujemy do obliczenia współczynnika korelacji rang Spearmana.
N = 16,N
∑i=1
d2i = 28,
rs = 1 −6 ⋅
N∑i=1
d2i
N(N2 − 1)= 1 −
6 ⋅ 2816 ⋅ (162 − 1)
= 1 − 0,041 = 0,959.
Przykład I
xi
Otrzymany wynik współczynnika rang 0,959 wskazuje na dodatnią i silną zależność między emisją zanieczyszczeń powietrza dwutlenkiem węgla a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.
Emis
ja C
O2
(w m
ln to
n)
7
185,6
364,2
542,8
721,4
900
Liczba ludności (w tys.)0 20000 40000 60000 80000
Przykład IIZa pomocą współczynnika rang ustalimy zależność między czasem poświęconym na naukę języka obcego a poziomem znajomości tego języka
UczeńCzas poświęcony dziennie na naukę
(w godz.)
Poziom znajomości języka obcego
Katarzyna Beksa 5 biegły
Przemysław Bełkot 4 dobry
Paweł Dentka 3 dobry
Michalina Drzwi-Okno 3 przeciętny
Franciszek Głąb 2 przeciętny
Jacek Kolosalny 1 słaby
Leokadia Masełko 4 biegły
Rafał Nieuważny 4 biegły
Józef Piszpan 1 przeciętny
Zyglinda Żyłka 2 przeciętny
Przykład IIRangowanie dla cechy pierwszej — czas poświęcony nauce.
Nr UczeńCzas poświęcony dziennie na naukę
(w godz.)
Poziom znajomości języka obcego Rangi X
1 Jacek Kolosalny 1 słaby 1,5
2 Józef Piszpan 1 przeciętny 1,5
3 Franciszek Głąb 2 przeciętny 3,5
4 Zyglinda Żyłka 2 przeciętny 3,5
5 Paweł Dentka 3 dobry 5,5
6 Michalina Drzwi-Okno 3 przeciętny 5,5
7 Przemysław Bełkot 4 dobry 8
8 Leokadia Masełko 4 biegły 8
9 Rafał Nieuważny 4 biegły 8
10 Katarzyna Beksa 5 biegły 10
Przykład IIRangowanie dla cechy drugiej — poziom znajomości języka.
Nr UczeńCzas poświęcony dziennie na naukę
(w godz.)
Poziom znajomości języka obcego Rangi X Rangi Y
1 Jacek Kolosalny 1 słaby 1,5 1
2 Józef Piszpan 1 przeciętny 1,5 3,5
3 Franciszek Głąb 2 przeciętny 3,5 3,5
4 Zyglinda Żyłka 2 przeciętny 3,5 3,5
5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5
6 Paweł Dentka 3 dobry 5,5 6,5
7 Przemysław Bełkot 4 dobry 8 6,5
8 Leokadia Masełko 4 biegły 8 9
9 Rafał Nieuważny 4 biegły 8 9
10 Katarzyna Beksa 5 biegły 10 9
Przykład IIObliczanie różnic rang i ich kwadratów:
Nr UczeńCzas poświęcony dziennie na naukę
(w godz.)
Poziom znajomości języka obcego Rangi X Rangi Y
1 Jacek Kolosalny 1 słaby 1,5 1 0,5 0,25
2 Józef Piszpan 1 przeciętny 1,5 3,5 -2 4
3 Franciszek Głąb 2 przeciętny 3,5 3,5 0 0
4 Zyglinda Żyłka 2 przeciętny 3,5 3,5 0 0
5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5 2 4
6 Paweł Dentka 3 dobry 5,5 6,5 -1 17 Przemysław Bełkot 4 dobry 8 6,5 1,5 2,25
8 Leokadia Masełko 4 biegły 8 9 -1 19 Rafał Nieuważny 4 biegły 8 9 -1 1
10 Katarzyna Beksa 5 biegły 10 9 1 1
Razem — — — — — 14,5
di d2i
rs = 1 −6 ⋅
N∑i=1
d2i
N(N2 − 1)= 1 −
6 ⋅ 14,510 ⋅ (102 − 1)
= 1 − 0,09 = 0,91.
Przykład IIWartość współczynnika rang Speramana równa 0,91 wskazuje na dodatnią silną zależność między ilością godzin poświęconych dziennie na naukę języka obcego a poziomem znajomości tego języka. Oznacza to, że osoba poświęcająca dziennie więcej czasu na opanowanie języka obcego osiąga na ogół lepsze rezultaty w tym względzie.
Rang
i dla
cec
hy Y
0
2
4
6
8
10
Rangi dla cechy X1 2 3 4 5 6 7 8 9 10
Miary korelacji dla danych pogrupowanych w tablicy
Poprzednie rozdziały poświęcone były wykrywaniu korelacji w sytuacji, gdy materiał statystyczny był zawarty w szeregu korelacyjnym. Jednakże, przy dużej liczebności badanej zbiorowości szereg korelacyjny nie jest dogodną formą opisu zależności, gdyż zawiera zbyt wiele szczegółowych informacji. W celu uzyskania bardziej syntetycznego obrazu, konieczny jest podział jednostek na grupy według dwóch zmiennych (cech) jednocześnie. W efekcie otrzymujemy tablicę korelacyjną, zwaną też tablicą współzależności.
Schemat tablicy korelacyjnejWarianty zmiennej
niezależnej
Warianty zmiennej zależnej
…
…
…
. . . . .
. . . . .
. . . . .
…
…
xi
x1
x2
xl
y1 y2 yk
yj
n11
n21
n12 n1k
n2kn22
nl1 nl2 nlk
n∙j =l
∑i=1
nij n∙1 n∙2 n∙k
ni∙ =k
∑j=1
nij
n1∙
n2∙
nl∙
N
N - ogólna liczba jednostek,ni∙ - liczebności brzegowe cechy X,n∙j - liczebności brzegowe cechy Y .
nij - liczebności warunkowe odpowiadające:i-temu wariantowi cechy Xj-temu wariantowi cechy Y
Miary korelacji dla danych pogrupowanych w tablicy
Tablica korelacyjna składa się z l rozkładów warunkowych cechy Y (dla każdego xi):
⋮
Miary korelacji dla danych pogrupowanych w tablicy
i z k rozkładów cechy X (dla każdego yi):
⋯
Miary korelacji dla danych pogrupowanych w tablicy
oraz z dwóch rozkładów brzegowych: cechy X i cechy Y:
Miary korelacji dla danych pogrupowanych w tablicy
Bardzo ważne w analizie korelacji są rozkłady warunkowe. Jeśli między cechami nie ma zależności, to rozkłady warunkowe y nie zależą od X i tym samym średnie warunkowe (grupowe) Y będą niezależne od X.
y(x1) | pod warunkiem, że X = x1
y(x2) | pod warunkiem, że X = x2
y(xl) | pod warunkiem, że X = xl
średnie grupowe:
⋮
Miary korelacji dla danych pogrupowanych w tablicy
Jeśli natomiast wraz ze wzrostem wartości cechy X rosną średnie grupowe cechy Y, to mamy do czynienia z zależnością dodatnią. W przypadku przeciwnym istnieje zależność ujemna.
Obserwacja rozkładów warunkowych, a w szczególności średnich grupowych, to jedna z metod wykrywania zależności dwóch cech w tablicy korelacyjnej. Do innych metod pozwalających na wykrycie zależności tak zaprezentowanych danych należą: analiza wykresów rozrzutu punktów empirycznych oraz analiza liczebności w tablicy korelacyjnej.
Analiza wykresu rozrzutu punktów empirycznych
Cen
a di
amen
tu (w
dol
arac
h)
-1000
1000
3000
5000
7000
9000
11000
13000
15000
17000
19000
Waga diamentu (w caratach)0,1 0,4 0,7 1 1,3 1,6
Analiza liczebności w tablicy korelacyjnej
Jeżeli w każdym polu tablicy są jednakowe liczebności nij, to między cechami nie istnieje zależność. Gdy liczebności układają się wzdłuż przekątnej biegnącej od prawego górnego do lewego dolnego rogu tablicy wówczas można przypuszczać, że zależność istnieje, jest prostoliniowa i ma charakter ujemny. Rozkład liczebności warunkowych wzdłuż drugiej przekątnej oznacza korelację dodatnią, również liniową.
Analiza liczebności w tablicy korelacyjnej
Im mniej pasażerów zabieramy tym szybciej jedziemy?
Liczba pasazerów
Prędkość samochodu
45 — 55 55 — 65 65 — 75 75 — 85 85 — 95
0 0 1 1 1 01 1 3 3 0 12 1 2 3 1 03 2 3 0 0 04 0 2 0 0 0
xi
yj
Miary korelacji dla pogrupowanych danych
Istnieje kilka miar korelacji dwóch cech pogrupowanych w tablicy korelacyjnej i tablicy kontyngencji. Wybór właściwej miary uzależniony jest od: rodzaju cech statystycznych, kształtu zależności między badanymi cechami, wielkości tablicy korelacyjnej lub tablicy kontyngencji (liczby kolumn i wierszy). Szerokie zastosowanie mają następujące miary:
• Stosunek korelacji, eyx,
• Współczynnik C-Pearsona, C,
• Współczynnik Q-Yule’a, Q.
Stosunek korelacjiOparty jest na obserwacji, że przy braku korelacji wszystkie średnie grupowe cechy Y są jednakowe i równe średniej ogólnej cechy Y. Jest on relacją zróżnicowania średnich grupowych w stosunku do ogólnego zróżnicowania wartości cechy Y.
eyx =Sy(x)
Sy,
y - średnia ogólna cechy Y,
Sy - odchylenie standardowe cechy Y,
Sy(x) - odchylenie standardowe średnich grupowych: y(x1), …, y(xl) .
Stosunek korelacjiZ powyższego wzoru wynika, że obliczenia dotyczą tylko zmiennej Y, a zmienna X służy tylko do ustalenia grup wartości zmiennej Y. Zatem cecha X może być mierzalna lub niemierzalna.
y =1N
k
∑j=1
yjn∙j =1N
l
∑i=1
k
∑j=1
yjnij, Sy =1N
k
∑j=1
(yj − y)2n∙j ,
y(xi) =1ni∙
k
∑j=1
yjnij, Sy(x) =1N
l
∑i=1
(y(xi) − y)2ni∙ .
Stosunek korelacjiStosunek korelacji zawiera się w przedziale od 0 do 1:
0 ⩽ eyx ⩽ 1.
Przy braku korelacji
eyx = 0.
Im jego wartość jest bliższa 1, tym korelacja jest silniejsza.
Własności stosunku korelacji
• Stosunek korelacji nie jest miarą symetryczną, tzn. exy nie jest równe eyx, nawet gdy obie cechy X i Y są mierzalne i można obliczyć oba te współczynniki.
• Jeżeli w powyższym przypadku obliczymy współczynnik korelacji Pearsona, to
|rxy | ⩽ eyx,
A równość występuje tylko w przypadku zależności liniowej.
Własności stosunku korelacji
• Stosunek korelacji może być obliczony również dla zależności nieliniowej, ale cecha Y musi być mierzalna, np.
Miejsce zamieszkania
X
Ocena z matematyki na maturze YOgółem
3 4 5
Wieś 25 6 2 33
Małe miasto 5 38 1 44
Duże miasto 3 6 14 23
Ogółem 33 50 17 100
Przykład I — Obie cechy mierzalne
Wylosowano 100 jednoosobowych gospodarstw domowych i zbadano je pod względem wysokości miesięcznych dochodów w zł oraz procentowego udziału wydatków na żywność w wydatkach ogółem.
Miesięczne dochody w zł
X
Procentowy udział wydatków na żywność, YOgółem
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19
1200 — 1600 3 55 2 60
1600 — 2000 19 2 — 21
Ogółem 22 58 20 100
Przykład I — Obie cechy mierzalne
Miesięczne dochody w zł
X
Procentowy udział wydatków na żywność, YOgółem
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19
1200 — 1600 3 55 2 60
1600 — 2000 19 2 — 21
22 58 20 100
31 33 35 —
682 1914 700 3296
y =1N
k
∑j=1
∘yjn∙j =3296100
= 32,96 %
n∙j∘yj
n∙j∘yj
Przykład I — Obie cechy mierzalne
Miesięczne dochody w zł
X
Procentowy udział wydatków na żywność, YOgółem
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19
1200 — 1600 3 55 2 60
1600 — 2000 19 2 — 21
22 58 20 100
31 33 35 —
682 1914 700 3296
3,8416 0,0016 4,1616 —
84,52 0,09 83,23 167,84
n∙j∘yj
n∙j∘yj
( ∘yj − y)2
n∙j(∘yj − y)2
Przykład I — Obie cechy mierzalne
Sy =1N
k
∑j=1
( ∘yj − y)2n∙j =167,84
100= 1,3
Przykład I — Obie cechy mierzalne
Miesięczne dochody w zł
X
Proc. udz. wyd. na ż., Y
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19 663 34,89 71,1209
1200 — 1600 3 55 2 60 1978 32,97 0,0027
1600 — 2000 19 2 — 21 655 31,19 65,7555
Ogółem 22 58 20 100 3296 — 136,8791
ni∙
3
∑j=1
nij∘yj y(xi) (y(xi) − y)2 ⋅ ni∙
Sy(x) =1N
l
∑i=1
(y(xi) − y)2ni∙ =136,88
100= 1,17
Przykład I — Obie cechy mierzalne
Sy(x) = 1,17,
eyx =Sy(x)
Sy=
1,171,3
= 0,9.
Sy = 1,3,
Podstawiając odpowiednie wartości:
otrzymujemy, że stosunek korelacji jest równy
Uzyskany wynik mówi o silnej zależności udziału wydatków na żywność w wydatkach ogółem od dochodów badanych gospodarstw jednoosobowych, a malejące średnie grupowe potwierdzają znaną w ekonomii zależność — prawo Engela.
Przykład I — Obie cechy mierzalne
Śred
nie
grup
owe
cech
y Y
30
31
32
33
34
35
Środki klas dla cechy X1000 1160 1320 1480 1640 1800
Przykład II — Cecha X niemierzalna
W 2008 roku przeprowadzono badanie w grupie 100 studentów I roku prawa, mające na celu potwierdzenie zależności między miejscem zamieszkania a oceną z matematyki uzyskaną na maturze.
Miejsce zamieszkania
X
Ocena z matematyki na maturze YOgółem
3 4 5
Wieś 25 6 2 33
Małe miasto 5 38 1 44
Duże miasto 3 6 14 23
Ogółem 33 50 17 100
Przykład II — Cecha X niemierzalna
Miejsce zamieszkania
X
Ocena z matematyki na maturze YOgółem
3 4 5
Wieś 25 6 2 33
Małe miasto 5 38 1 44Duże miasto 3 6 14 23
33 50 17 100
99 200 85 384
0,7056 0,0256 1,3456 —23,2848 1,28 22,8752 47,44
n∙j
n∙jyj
(yj − y)2
n∙j(yj − y)2
y =1N
k
∑j=1
yjn∙j =384100
= 3,84 Sy =1N
k
∑j=1
(yj − y)2n∙j =47,44100
= 0,69
Przykład II — Cecha X niemierzalna
Miejsce zamieszkania
X
Ocena z matematyki na maturze Y
3 4 5
Wieś 25 6 2 33 109 3,30 9,52
Małe miasto 5 38 1 44 172 3,91 0,21
Duże miasto 3 6 14 23 103 4,48 9,37
Ogółem 33 50 17 100 384 — 19,09
ni∙
3
∑j=1
nijyj y(xi) (y(xi) − y)2 ⋅ ni∙
Sy(x) =1N
l
∑i=1
(y(xi) − y)2ni∙ =19,09100
= 0,44
Przykład II — Cecha X niemierzalna
Sy(x) = 0,44,
eyx =Sy(x)
Sy=
0,440,69
= 0,64.
Sy = 0,69,
Podstawiając odpowiednie wartości:
otrzymujemy, że stosunek korelacji jest równy
Uzyskany wynik mówi o umiarkowanej zależności między miejscem zamieszkania a oceną uzyskaną na maturze z matematyki. Rosnące średnie grupowe świadczą o korelacji dodatniej: im większe miejsce zamieszkania tym wyższa ocena.
Tablica kontyngencjiW przypadku, gdy obie cechy X i Y są niemierzalne zamiast tablicy korelacyjnej używa się określenia tablica kontyngencji lub tablica kontyngencyjna.
Miarą wykorzystywaną do określenia związku między cechami niemierzalnymi jest najczęściej współczynnik współzależności C-Pearsona:
C =χ2
χ2 + N,
gdzie χ2 to wartość statystyki χ2 (chi-kwadrat).
Tablica kontyngencjiWartość statystyki chi-kwadrat wyznaczamy na podstawie danych z tablicy kontyngencji według następującego wzoru
χ2 =l
∑i=1
k
∑j=1
(nij − nij)2
nij,
nij - liczebności warunkowe (empiryczne),gdzie
gdyby cechy były niezależne:nij - liczebności teoretyczne, czyli takie, które wystąpiłyby,
nij =ni∙ ⋅ n∙j
N.
Współczynnik C-PearsonaWspółczynnik C-Pearsona
C =χ2
χ2 + N
oblicza się dla przypadku cech jakościowych (niemierzalnych) oraz tablic wielopolowych, czyli tablic większych niż 2 x 2. Miara ta zawiera się w przedziale od 0 do 1. Wartości współczynnika bliskie 0 oznaczają słabą, a wartości współczynnika bliskie 1 — silną współzależność cech.
Skorygowany współczynnikC-Pearsona
Ponieważ poziom współczynnik C-Pearsona zależy od rozmiaru tablicy, aby móc porównywać współczynniki pochodzące z tablic różnej wielkości, proponuje się tzw. skorygowany współczynnik C-Pearsona:
Cskor = C ⋅C*
C* − 1,
gdzieC* = min(l, k),
l - liczba wierszy tablicy kontyngencji,k - liczba kolumn tablicy kontyngencji.
PrzykładW pewnej szkole języka angielskiego nauczano trzema metodami: tradycyjną (A), Callana (B), relaksacyjną (C). Pod koniec kursu przeprowadzono egzamin i otrzymano następujące wyniki:
WynikiX
Metoda nauczania, YRazem
A B C
Pozytywne 30 80 50 160
Negatywne 10 60 20 90
Razem 40 140 70 250
Ustalimy siłę zależności między tymi cechami niemierzalnymi.
PrzykładWyniki
X
Metoda nauczania, YRazem
A B C
Pozytywne
Negatywne
Razem
n11 = 30
n21 = 10
n∙1 = 40
n12 = 80
n22 = 60
n∙2 = 140
n13 = 50
n23 = 20
n∙3 = 70 N = 250
n1∙ = 160
n2∙ = 90
Liczebności teoretyczne:
n11 =n1∙ ⋅ n∙1
N=
160 ⋅ 40250
= 25,6 n12 =n1∙ ⋅ n∙2
N=
160 ⋅ 140250
= 89,6 n13 =n1∙ ⋅ n∙3
N=
160 ⋅ 70250
= 44,8
n21 =n2∙ ⋅ n∙1
N=
90 ⋅ 40250
= 14,4 n22 =n2∙ ⋅ n∙2
N=
90 ⋅ 140250
= 50,4 n23 =n2∙ ⋅ n∙3
N=
90 ⋅ 70250
= 25,3
Przykład
30 25,6 4,4 19,36 0,76
80 89,6 -9,6 92,16 1,03
50 44,8 5,2 27,04 0,60
10 14,4 -4,4 19,36 1,34
60 50,4 9,6 92,16 1,83
20 25,3 -5,3 28,09 1,11
Razem — — — 6,67
nij nij nij − nij (nij − nij)2 (nij − nij)2
nij
χ2 =(nij − nij)2
nij= 6,67 C =
χ2
χ2 + N=
6,676,67 + 250
= 0,16
PrzykładC =
χ2
χ2 + N=
6,676,67 + 250
= 0,16
Wartość współczynnika C-Pearsona jest niska i bliska zeru, gdyż C = 0,16. Współzależność między wynikami kursu językowego a metodą nauczania języka angielskiego jest bardzo słaba. Można zatem przypuszczać, że wszystkie trzy metody nauczania dają podobne wyniki.
Współczynnik współzależności Q-Yule’a
Najczęściej oblicza się go dla cech jakościowych i tablic czteropolowych:
Q =ad − bcad + bc
.
Warianty cechyniemierzalnej X
Warianty cechy niemierzalnej Y
y1 y2
x1 a b
x2 c d
Współczynnik współzależności Q-Yule’a
Współczynnik ten zawiera się w przedziale od -1 do 1. Jednak znak tego współczynnika jest tylko efektem ułożenia liczebności w tablicy. Im wartość bezwzględna tego współczynnika jest bliższa jedności, tym zależność jest silniejsza, a im bliższa zeru, tym związek między cechami jest słabszy.
PrzykładUważa się powszechnie, że egzamin na prawo jazdy lepiej zdają mężczyźni niż kobiety. Przeprowadzono badanie wśród 300 osób zdających ten egzamin i otrzymano następujące wyniki
EgzaminPłeć
RazemMężczyzna Kobieta
Zdany 70 125 195
Niezdany 20 85 105
Razem 90 210 300
PrzykładEgzamin
PłećRazem
Mężczyzna Kobieta
Zdany 70 125 195
Niezdany 20 85 105
Razem 90 210 300
Q =ad − bcad + bc
=70 ⋅ 85 − 125 ⋅ 2070 ⋅ 85 + 125 ⋅ 20
= 0,41.
Obliczony wynik wskazuje na istnienie umiarkowanej współzależności między zdawalnością egzaminu a płcią.