analiza - helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci...

10
Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Justyna Brzeziƒska Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R

Upload: others

Post on 04-Mar-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analiza - Helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z

Analiza logarytmiczno-liniowaTeoria i zastosowania z wykorzystaniem programu R

Justyna Brzeziƒska

Analiza logarytmiczno-liniowaTeoria i zastosowania z wykorzystaniem programu R

Page 2: Analiza - Helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z

Analiza logarytmiczno-liniowaTeoria i zastosowania z wykorzystaniem programu R

Analiza_log_lin_str:Statystyka_str 5/28/15 11:42 AM Page 1

Page 3: Analiza - Helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z

Rodzicom

Analiza_log_lin_str:Statystyka_str 5/28/15 11:42 AM Page 2

Page 4: Analiza - Helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z

Analiza logarytmiczno-liniowaTeoria i zastosowania z wykorzystaniem programu R

Justyna Brzeziƒska

WYDAWNICTWO C.H.BECKWARSZAWA 2015

Analiza_log_lin_str:Statystyka_str 5/28/15 11:42 AM Page 3

Page 5: Analiza - Helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z

Wydawca: Dorota Ostrowska-FurmanekRedakcja merytoryczna: Danuta Kamińska-Hass

Recenzent: prof. dr hab. Adam SaganProjekt okładki i stron tytułowych: Maryna Wiśniewska

Ilustracja na okładce: c©MarkEvans/iStockphoto

Seria: Metody ilościowe

Publikacja dofinansowana ze środków dotacji na działalność statutową(utrzymanie potencjału badawczego) Uniwersytetu Ekonomicznego

w Katowicach przyznanych w roku 2015

Złożono programem TEX

c© Wydawnictwo C.H. Beck 2015

Wydawnictwo C.H. Beck Sp. z o.o.ul. Bonifraterska 17, 00-203 Warszawa

Skład i łamanie: Wydawnictwo C.H. BeckDruk i oprawa: Elpil, Siedlce

ISBN 978-83-255-7322-5e-book 978-83-255-7323-2

Page 6: Analiza - Helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z

Spis treści

Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7Rozdział 1. Analiza zależności zmiennych niemetrycznych . . . . . . . . . . . 10

1.1. Pojęcie zależności w statystycznej analizie danych . . . . . . . . . . . . . 101.2. Analiza zależności zmiennych nominalnych . . . . . . . . . . . . . . . . 14

1.2.1. Dwuwymiarowe tablice kontyngencji 2× 2 . . . . . . . . . . . . 141.2.2. Dwuwymiarowe tablice kontyngencji H × J . . . . . . . . . . . . 241.2.3. Wielowymiarowe tablice kontyngencji 2× 2×K . . . . . . . . . 351.2.4. Wielowymiarowe tablice kontyngencji H × J ×K . . . . . . . . 39

1.3. Analiza zależności zmiennych porządkowych . . . . . . . . . . . . . . . 421.4. Tablice z zerowymi liczebnościami . . . . . . . . . . . . . . . . . . . . . 461.5. Interakcje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481.6. Przykłady z wykorzystaniem programu R . . . . . . . . . . . . . . . . . 49

Rozdział 2. Analiza korespondencji . . . . . . . . . . . . . . . . . . . . . . . 572.1. Geneza analizy korespondencji . . . . . . . . . . . . . . . . . . . . . . . 572.2. Klasyczna analiza korespondencji . . . . . . . . . . . . . . . . . . . . . 582.3. Wielowymiarowa analiza korespondencji . . . . . . . . . . . . . . . . . 602.4. Rozkład macierzy według wartości osobliwych SVD . . . . . . . . . . . 662.5. Ocena jakości odwzorowania oraz interpretacja wyników . . . . . . . . . 712.6. Przykłady z wykorzystaniem programu R . . . . . . . . . . . . . . . . . 75

Rozdział 3. Analiza logarytmiczno-liniowa . . . . . . . . . . . . . . . . . . . 803.1. Geneza modeli logarytmiczno-liniowych . . . . . . . . . . . . . . . . . . 803.2. Rozkłady prawdopodobieństwa zmiennych niemetrycznych w tablicy

kontyngencji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 813.3. Analiza logarytmiczno-liniowa dla tablic kontyngencji . . . . . . . . . . 84

3.3.1. Rola zmiennych w analizie logarytmiczno-liniowej . . . . . . . . . 843.3.2. Modele logarytmiczno-liniowe dla tablic dwuwymiarowych . . . . 863.3.3. Modele logarytmiczno-liniowe dla tablic wielowymiarowych . . . 923.3.4. Charakterystyka modeli hierarchicznych . . . . . . . . . . . . . . 963.3.5. Estymacja parametrów modelu metodą największej wiarygodności 1033.3.6. Wyznaczanie liczebności oczekiwanych . . . . . . . . . . . . . . 105

3.4. Modele logarytmiczno-liniowe dla zmiennych porządkowych . . . . . . . 1083.4.1. Jednorodny model asocjacji . . . . . . . . . . . . . . . . . . . . . 1093.4.2. Model efektów wierszowych i model efektów kolumnowych . . . . 1103.4.3. Model efektów wierszowych i kolumnowych (model RC Goodmana)112

3.5. Mierniki oceny jakości dopasowania modelu . . . . . . . . . . . . . . . . 114

5

Page 7: Analiza - Helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z

Spis treści

3.6. Przykłady z wykorzystaniem programu R . . . . . . . . . . . . . . . . . 120Rozdział 4. Analiza klas ukrytych . . . . . . . . . . . . . . . . . . . . . . . . 127

4.1. Geneza analizy klas ukrytych . . . . . . . . . . . . . . . . . . . . . . . . 1274.2. Cel analizy klas ukrytych . . . . . . . . . . . . . . . . . . . . . . . . . . 1294.3. Analiza klas ukrytych w modelach logarytmiczno–liniowych . . . . . . . 1314.4. Kryteria wyboru liczby klas . . . . . . . . . . . . . . . . . . . . . . . . 1344.5. Przykłady z wykorzystaniem programu R . . . . . . . . . . . . . . . . . 136

Rozdział 5. Metody wizualizacji zmiennych niemetrycznych w programie R . 1415.1. Geneza metod wizualizacyjnych . . . . . . . . . . . . . . . . . . . . . . 1415.2. Przykłady wizualizacji tablic dwuwymiarowych . . . . . . . . . . . . . . 142

5.2.1. Wykres czteropolowy . . . . . . . . . . . . . . . . . . . . . . . . 1425.2.2. Wykres sitkowy . . . . . . . . . . . . . . . . . . . . . . . . . . . 1455.2.3. Wykres mozaikowy . . . . . . . . . . . . . . . . . . . . . . . . . 1465.2.4. Wykres asocjacji . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

5.3. Przykłady wizualizacji tablic wielowymiarowych . . . . . . . . . . . . . 1485.3.1. Wykres czteropolowy dla tablic o wymiarach 2× 2×K . . . . . 1485.3.2. Wykres mozaikowy . . . . . . . . . . . . . . . . . . . . . . . . . 1495.3.3. Wykres sitkowy . . . . . . . . . . . . . . . . . . . . . . . . . . . 1515.3.4. Wykres dwuwarstwowy . . . . . . . . . . . . . . . . . . . . . . . 152

Zakończenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157Spis rysunków . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177Spis tabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178Indeks rzeczowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

Page 8: Analiza - Helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z

Wstęp

Niniejsza książka jest poświęcona szeroko rozumianej analizie zależnościzmiennych niemetrycznych ze szczególnym uwzględnieniem analizy logarytmicz-no-liniowej. Celem monografii jest prezentacja teoretycznych i metodologicznychpodstaw analizy logarytmiczno-liniowej oraz jej zastosowanie w analizie danychz wykorzystaniem programu R. W monografii przedstawiono również inne meto-dy analizy zależności, takie jak analiza korelacji, analiza korespondencji orazanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postacitablicy kontyngencji.

Książka ma charakter teoretyczno-empiryczny i składa się z pięciu rozdziałów.W rozdziale pierwszym zaprezentowano podstawowe pojęcia związane z ana-

lizą zależności zmiennych niemetrycznych dla tablic dwu- i wielowymiarowych.Przedstawiono tam opisowe metody wykorzystywane do badania siły zależno-ści w przypadku tablic o wymiarach 2 × 2, do których należą: współczynnikchi-kwadrat, korekta Yatesa, statystyka Fishera, współczynnik McNemara oraz łą-czona statystka chi-kwadrat. W kolejnej części rozdziału zaprezentowano miernikistosowane w przypadku tablic o wymiarach H × J , do których należą współczyn-niki: chi-kwadrat, Cressie’a i Reada, Yule’a, Pearsona, zbieżności Czuprowa orazGoodmana i Kruskala. W dalszej części rozdziału przedstawiono metody analizytablic o wymiarach 2×2×K, do których należą: współczynnik chi-kwadrat dla łą-czonych tablic kontyngencji, statystyka Mantela–Haenszela, zaprezentowano takżeparadoks Simpsona. Następnie przedstawiono metody analizy tablic wielowymia-rowych H × J ×K. Rozdział ten zakończono opisem metod analizy zależnościzmiennych porządkowych, do których należą: współczynniki τ i W Kendalla,γ Goodmana i Kruskala, d Somersa oraz współczynnik korelacji Spearmana.

Rozdział drugi poświęcono analizie korespondencji, której głównym celem jestocena współwystępowania kategorii zmiennych nominalnych. Metoda ta pozwalana graficzne przedstawienie związków i relacji zachodzących pomiędzy katego-riami zmiennych. W rozdziale tym omówiono klasyczną analizę korespondencji,która jest wykorzystywana w przypadku tablic dwuwymiarowych, a także sposobyzapisu danych w przypadku wielowymiarowej analizy korespondencji w postaci ta-blicy Burta, złożonej macierzy znaczników, wielowymiarowej tablicy kontyngen-cji oraz łączonej tablicy kontyngencji. Zaprezentowano tam także rozkład macierzywedług wartości osobliwych, który pozwala na wyznaczenie współrzędnych punk-tów reprezentujących kategorie wierszowe i kolumnowe. Porównano cztery sposo-

7

Page 9: Analiza - Helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z

Wstęp

by rozkładu macierzy różnic standaryzowanych według wartości osobliwych, któreprzeprowadzono na podstawie autorskich procedur napisanych w programie R.

Rozdział trzeci poświęcono analizie logarytmiczno-liniowej, która jest mo-delową metodą analizy zależności zmiennych niemetrycznych. W metodzie tejmodele logarytmiczno-liniowe uwzględniają interakcje pomiędzy zmiennymii wskazują na charakter związku między nimi, dzięki czemu można opisać wie-le rodzajów zależności. Celem analizy jest zbadanie, czy rozkład liczebnościwe wnętrzu danej tablicy kontyngencji może zostać wyrażony za pomocą prost-szej struktury niż ta, która uwzględnia wszystkie dostępne zmienne i interakcje.W metodzie tej buduje się wiele modeli według zasady hierarchiczności, a wybórmodelu najlepszego jest dokonywany w taki sposób, by różnica między liczeb-nościami empirycznymi a teoretycznymi była możliwie najmniejsza. Do ocenyjakości modeli wykorzystuje się liczne kryteria określające stopień tych odchyleń.Wybrany zostaje model o jak najmniejszej złożoności, który jednocześnie cechujesię wystarczającym dopasowaniem do danych.

Rozdział czwarty dotyczy analizy klas ukrytych, która znajduje zastosowaniewówczas, gdy badane zmienne są bezpośrednio nieobserwowalne. W metodzietej zarówno zmienne obserwowalne, jak i ukryte mają charakter zmiennych sko-kowych. Analiza klas ukrytych ma na celu znalezienie oraz zidentyfikowanieodpowiedniej liczby klas ukrytych, w których zmienne obserwowalne są od siebieniezależne. Zbudowany model przydziela w efekcie obserwacje do klas ukrytych,a w dalszym etapie pozwala na przypuszczenie, jak zmienne obserwowalne za-chowają się pod wpływem zmiennych ukrytych. W rozdziale tym zaprezentowanotakże liczne kryteria służące do oceny modelu.

W rozdziale piątym zaprezentowano metody wizualizacji danych zapisanychw tablicach dwu- i wielowymiarowych. Do omawianych w rozdziale wykre-sów należą: czteropolowy, sitkowy, mozaikowy, asocjacji oraz dwuwarstwowy.Graficzna forma prezentacji danych w postaci zaawansowanych wykresów peł-ni istotną rolę w procesie analizy, a niekiedy zastępuje nawet formalne kryteriawykorzystywane w celu wyboru modelu najlepszego.

Niniejsza monografia jest przeznaczona dla pracowników naukowych zaj-mujących się zastosowaniem metod analizy danych jakościowych w naukachspołecznych, a w szczególności w psychologii, socjologii, ekonomii czy politolo-gii. Ponadto odbiorcami książki mogą być studenci uczelni wyższych studiującyna specjalnościach ilościowych (informatyka ekonomiczna, statystyka i ekonome-tria, analityka gospodarcza), doktoranci, którzy wykorzystują w swych badaniachanalizę danych jakościowych oraz analitycy rynku i pracownicy agencji marke-tingowych przeprowadzający analizy danych niemetrycznych z wykorzystaniemprogramu R.

W badaniach empirycznych i we wszystkich obliczeniach prezentowanychw książce wykorzystano program R. Wersję instalacyjną programu oraz dodatkowepakiety zaprezentowane w niniejszej monografii można pobrać ze strony podadresem: http://www.r-project.org/.

8

Page 10: Analiza - Helionanaliza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z

Wstęp

Pragnę serdeczne podziękować Panu Profesorowi Eugeniuszowi Gatnarowiza życzliwą pomoc, cenne uwagi merytoryczne oraz opiekę naukową, na którązawsze mogłam liczyć. Dziękuję również Panu Profesorowi Markowi Walesiakowiz Uniwersytetu Ekonomicznego we Wrocławiu oraz Panu Profesorowi AdamowiSaganowi z Uniwersytetu Ekonomicznego w Krakowie za cenne i konstruktywneuwagi, które wpłynęły na ostateczny kształt monografii.

Tę książkę pragnę zadedykować moim Rodzicom, którzy są spiritus movenstego, co w mym życiu najwspanialsze.