sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_jajuga_walesiak_statystyka... ·...

13
- - ---- AKADEMIA EKONOMICZNA W POZNANIU Statystyka regionalna i integracja baz danych z konferencji Baranowo 25- 27.09.1996 r. Redaktor naukowy: Jan Paradysz 1997

Upload: vonhi

Post on 01-Mar-2019

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

_____ 4 _ _ _ - - ----

AKADEMIA EKONOMICZNA W POZNANIU

Statystyka regionalna Sondaż i integracja baz danych

Materiały z konferencji Baranowo 25- 27.09.1996 r.

Redaktor naukowy:

Jan Paradysz

Poznań 1997

Page 2: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

PROJEKT OKŁADKI

Leszek Siwka

REDAKCJA I KOREKTA

Alicja Tritt, Hanna Cieślińska

SKŁAD I ŁAMANIE

Zespół pod kierunkiem Andrzeja Rozpiątkowskiego

Wydanie opracowania dofinansowane przez Komitet Badań Naukowych

ISBN 83-907538-0-4

URZĄD STATYSTYCZNY W POZNANIU

WYDZIAŁ ANALIZ I INFORMACJI

Zam. 71

Nakład 250 egz. Ark. druk.l9,75

Form B-l. papier offset. k!III 70g

Oddano do druku w marcu 1997 r.

Druk ukończono w kwietniu 1997 r.

----- --- --- - ---'---------·-----------

Page 3: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

·· - ··- ··- -.. . ..... .... . . ..... . -·· ····· - . . .. ......... ... . ... .. ·· - ··· ·· - . ·- . . ·-.

Spis treści

~~ s

Rozdział l. METODOLOGIA BADAŃ NIEWYCZERPU­JĄCYCH

Andrzej Balicki , Mirosław Szreder, Uzyteczno!ć rejesn·ów urzędowych jako operarów losowania (Wyniki bada11 firm marketingowych) II

Janusz Wywiał, Analiza riokłarino!ci ocen wartości średnich cech małych firm 25

Krzysztof Jajuga, Marek Walesiak, Uwagi o badaniach niewyczerpujących przy zastosowaniu metod statystycznej analizy wielowymiarowej 33

Antoni Smołuk, O definicji wartości nwrialnej 42

Kazimierz Latuch, Regionalnie repreze/llacyjne barlania ankietowe warunków tycia gospodarstw domowych 49

Rozdział II. STATYSTYKA MAŁYCH OBSZARÓW

Jan Kordos, Wanmki efektywnego wykorzystania postępów w zakresie statystyki ma(ych obszarów 77

Czesław Domański, Krystyna Pruska, Metoda symulacyjna zwiększania rozmiaru próby dla małego obszaru 89

Grażyna Dehnel, Estymacja wskatników rozwoju gospodarczego regionów za pomocą Statystyki Małych Obszarów 99

Tomasz Kłimanek, Wykorzystanie Statystyki Małych Obszarów w KompLlterowych Systemach Informacji Przestrzennej- na przykładzie rolnictwa 110

Rozdział III. ZINTEGROWANE BAZY DANYCH JAKO ŹRÓDŁO ZASILANIA W STATYSTYCE REGIONALNEJ

.Jan Paradysz, lmegracja komputerowych baz danych - stare koncepcje i nowe perspektywy 123

Zdzisław Dąbrowski, Urszula Pużanowska, Zimegrowane bazy danych jako tródło informacji statysTycznych o regionie 136

Page 4: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

4 Sp1s treśc1

Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji o Terenie 148

Lidia Danielska, Maciej Pietrzyński , Wykorzystanie informacji o terenie dla zintegrowania zad01l administracjr rządowej i samorządowej 157

Kazimierz Kruszka, L.ródła informacji dla statystyki regionalnej - komec:.nośt i bariery integracji 164

Stanisława Szwalek, Systemy identyfikacji terytorialnej-podstawą integracji systemów informacyjnych 175

Rozdział IV. OBECNE ZASILANIA NEJ

I POTENCJALNE ŹRÓDŁA W STATYSTYCE REGIONAL-

Marek Obrębalski, Statystyka gmin i miejscowości w Polsce. Stan i możliwości 183 rozwoju

Lucyna Wojtasiewi c:~.., Statystyka lokalna a monitoring gmin 195

Zygmunt Bobowski, Tedeusz Borys, Statystyka obszartftv transgranicmych 209

Henryk Mruk, /Jadaniajakoścrowe w marketingowym zarządzaniu pr::;edsiębrorstwem 227

Iwona Roeske-Siomka, Badania httd;tetów gospodars/\1' domowych w Polsce 238

Danuta Strahl , Marek Obręba l s ki , Nomenklatura jednostek terytorrolnych w statystyce krajów Unii Europejskiej i mot/iwości jej stosowania w warunkach ~hl~ lli

Aleksandra Witkows ka, Marek Witkowski, Przydatnośt istniejących źródeł informacji statystycznej do prowadzenia badań aktywności podmiotów gospodarczych 11 • regionie 255

Rozdział V. RYNEK PRACY W BADANIACH REGIO­NALNYCH

Elżbieta Gołata , Statystyka Małych Obszarów a rynek pracy 163

Wiesława Makać, Wykorzystanie rejestrów bezrobotnych do barlwl sandatowych rynku pracy 28 1

Aleksander U. Chomra, Badame lokalnych rynków pracy na Ula·ainie 297

Indeks rzeczowy 302

Indeks nazwisk 307

Uczestnicy konferencji 314

Page 5: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

Krzysztof Jajuga, Marek Walesiak

Uwagi o badaniach niewyczerpujących pny zastoso­waniu metod statystycznej analizy wielowymiarowej

Wprowadzenie o statystycznej analizie wielowymiarowej

W ostatnich kilkunastu latach metody statystycznej analizy wielowymiarowej (SA W)

zyskują na znaczeniu w badaniach statystycznych. Z jednej strony wynika to z faktu,

że bardzo duża część analizowanych zjawisk empirycznych ma charakter złożony, tzn.

opisywane są one za pomocą więcej niż jedna zmiennej - mamy do czynienia z obser­

wacjami wielowymiarowymi. Z drugiej strony, burzliwy rozwój technologii kompute­

rowej spowodował, że skomplikowane metody SA W, dawniej bardzo czasochłonne,

mogą być obecnie stosunkowo szybko zastosowane w badaniach empirycznych.

W tym referacie przedstawimy rozważania dotyczące badań niewyczerpujących przy zastosowaniu metod SA W. Przedstawimy pewne sugestie dotyczące niezbędnej

liczebności próby przy stosowaniu metod SA W. Rozważania te poprzedzimy uwa­

gami porządkującymi i systematyzacyjnymi.

W każdym badaniu statystycznym, w tym również w niewyczerpującym badaniu

wielowymiarowym można przyjąć jedno z dwóch podejść . Są to:

podejście stochastyczne (stochastic approach);

podejście opisowe (data-analytic approach, distribution-free approach}.

W podejściu stochastycznym zakłada się, że zbiór obserwacji stanowi próbę lo­

sową pochodzącą z większego zbioru, zwanego populacją. Przy tym populacja może

być zbiorem nieskończonym lub skończonym (z reguły o dużej liczebności). W po­

dejściu stochastycznym rozpatrywane zmienne są losowe. Podejście stochastyczne wolno przyjąć przede wszystkim w przypadku badań eksperymentalnych, tzn. gdy

istnieje możliwość powtórzenia badania w takich samych warunkach. Wtedy zbiór obserwacji może być traktowany jako próba losowa.

W podejściu opisowym zmienne nie są losowe, lecz są zmiennymi w zwykłym

sensie. Badaniu nie podlegają wtedy właściwości stochastyczne zbioru obserwacji. Po­

dejście opisowe przyjmuje się z reguły wtedy, gdy dane pochodzą ze sprawozdawczości

statystycznej. Należy wyraźnie zaznaczyć, że zmienne można traktować jako losowe

wtedy, gdy badane obserwacje stanowią próbę losową. Tymczasem w badaniach em­

pirycznych zdarza się, że zbiór obserwacji odpowiada populacji. Wtedy badanie jest wyczerpujące i nie jest zasadne przyjęcie podejścia stochastycznego.

Page 6: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

34 Krzysztof Jajuga, Marek Walesiak

O systematyzacji metod statystycznej analizy wielowymiarowej

Metod SA W jest bardzo wiele i są one bardzo różnorodne, gdyż powstały w wyniku

potrzeb różnych nauk stosowanych. Systematyzacja metod SA W nie jest prostym

zadaniem. W światowej literaturze z zakresu statystycznej analizy wielowymiarowej

nie podejmowano wielu prób tej systematyzacji. Klasyfikacje metod statystycznej

analizy wielowymiarowej zaproponowali m.in.: Green, Tull i Albaurn (1988], Hair,

Anderson, Talbam i Black [1995], Jajuga [1987, 1993], Kendall [1975] oraz Kinnear

i Taylor [1991]. Najbardziej ogólnym kryterium systematyzacji metod SA W jest

kryterium wynikające z podejścia, na jakim opiera się metoda. Wyróżnia się zatem: metody oparte na podejściu stochastycznym;

metody oparte na podejściu opisowym.

Stosowanie konkretnej metody zależy więc od tego, jakie podejście zostało przy­

jęte w badaniu statystycznym. Metody oparte na podejściu stochastycznym nie po­winny być stosowane wtedy, gdy w badaniu przyjęto podejście opisowe. Z kolei

metody oparte na podejściu opisowym w zasadzie można stosować w dowolnej sytuacji.

Inna klasyfikacja metod SA W wynika z kryterium istnienia hipotez badawczych dotyczących rozpatrywanego zbioru obserwacji. Ze względu na to kryterium metody

SA W dzieli się na: metody weryfikujące (potwierdzające) hipotezy (confirmatory data analysis);

metody odkrywające właściwości (exploratory data analysis) .

W przypadku metod weryfikujących hipotezy badacz zakłada pewien model , który opisuje kształtowanie się wartości zmiennych. Model ten jest uproszczeniem danych

empirycznych, można przeto zapisać:

dane = model + reszty

Metody weryfikujące hipotezy są zwykle stosowane wtedy, gdy w badaniu przyj­muje się podejście stochastyczne. Wtedy sformułowanie modelu oznacza przyjęcie

pewnych założeń, np. założe6 dotyczących postaci rozkładu (np. wielowymiarowy

rozkład normalny). W metodach odkrywających właściwości nie ma u podstaw żadnego modelu

i hipotez. Zadaniem tych metod jest "wgląd" w zbiór analizowanych wielowymia­rowych obserwacji, tak aby mogla nastąpić syntetyzacja informacji o tym zbiorze obserwacji ewentualnie próba sformułowania hipotez badawczych prowadzących do pewnego modelu. Często metody te stosuje się we wstępnej analizie danych. Metody

te nie korzystają z wielu krępujących założe!l, np. tych dotyczących postaci rozkładu

wielowymiarowego a zatem z reguły stosuje się w badaniach, w których przyjęto podejście opisowe.

Page 7: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

Uwagi o badaniach niewyczerpujących przy zastosowaniu metod statystycznej ... 35

Z praktycznego punktu widzenia najbardziej istotnym podziałem metod SA W

jest podział oparty na kryterium istnienia w zbiorze badanych zmiennych zmiennej zależnej (zmiennych zależnych) od innych zmiennych. Z tego względu wyróżnia

się metody badania zależności (dependence methods), inaczej zwane metodami ba­dania zewnętrznych zależności oraz metody badania współwystępowania (interde­

pendence methods), inaczej zwane metodami badania wewnętrznych zależności.

W metodach badania zależności jedną lub więcej zmiennych określa się jako zmienną (zmienne) zależną od zbioru pozostałych zmiennych (zwanych niezależnymi). W me­

todach badania współwystępowania nie dzieli się zmiennych na zależne i niezależne. Za pomocą tych metod analizuje się określone wewnętrzne relacje między zmiennymi w zbiorze zmiennych Ueśli przedmiotem badania jest zmienna) lub relacje zacho­dzące pomiędzy obiektami opisanymi tymi zmiennymi (gdy przedmiotem badania

jest obiekt). Za pomocą tych metod analizuje się wzajemne położenie (usytuowanie)

obiektów lub zmiennych w wielowymiarowej przestrzeni. Do najważniejszych metod

współwystępowania należy zaliczyć:

metody prezentacji graficznej obserwacji wielowymiarowych;

metody dyskryminacji i klasyfikacji;

metody wnioskowania odnośnie do parametrów rozkładu wielowymiarowego;

metody wnioskowania odnośnie do postaci rozkładu wielowymiarowego.

Metody prezentacji graficznej obserwacji wielowymiarowych polegają na przed­stawieniu obserwacji na płaszczyźnie w celu umożliwienia wzrokowej analizy zbioru obserwacji . Są to z reguły metody zaliczane do grupy metod odkrywających wła­

ściwości oraz do grupy metod opartych na podejściu opisowym. Metody dyskryminacji i klasyfikacji polegają na wyodrębnieniu w zbiorze obserwacji

pewnych podzbiorów, charakteryzujących się wyróżniającymi je właściwościami.

Metody wnioskowania odnośnie do parametrów rozkładu wielowymiarowego sto­

sowane są w obu podejściach, stochastycznym i opisowym. W podejściu stochasty­cznym jest to wnioskowanie odnośnie do parametrów rozkładu wielowymiarowego, gdy założy się postać tego rozkładu . Z kolei w podejściu opisowym jest to wnio­

skowanie odnośnie do charakterystyk rozkładu wielowymiarowego, takich jak wektor

położenia czy macierz rozrzutu. Metody wnioskowania odnośnie do postaci rozkładu wielowymiarowego stoso­

wane są jedynie w przypadku przyjęcia podejścia stochastycznego i polegają na

określeniu gęstości rozkładu wielowymiarowego. Z kolei przejdziemy do systematyzacji metod badania zależności. Warto je skla-

syfikować biorąc pod uwagę dwa następujące kryteria:

liczba zmiennych zależnych; skale pomiaru zmiennych (skale pomiaru zmiennej lub zmiennych zależnych

i skale pomiaru zmiennych niezależnych) .

Page 8: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

36 Krzysztof Jajuga, Marek Walesiak

Efekt tej systematyzacji przedstawia rysunek l .

Rys. l. Klasyfikacja metod statystycznej analizy wiełowymiarowej

Źródło: Opracowanie własne na podstawie prac: Hair, Anderson, Tatham i Błack [1995, s. 18-19] ; Green, Tuli i Albaurn [1988, s. 426] ; Kinnear i Taylor [1991 , s. 625]; Walesiak [1996] .

Page 9: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

Uwagi o badaniach niewyczerpujących przy zastosowaniu metod statystycznej. .. 37

Sugestie w zakresie niezbędnej liczebności próby 1

W każdym badaniu za pomocą metod statystycznej analizy wielowymiarowej należy

zwracać uwagę na liczebność próby, ponieważ zbyt mała próba powoduje, że:

a) za pomocą testów trudno jest zidentyfikować rezultaty statystycznie istotne

(ze wzgl~du na małą moc testów2);

b) stosunkowo łatwo można otrzymać rezultaty, które są zbyt dobrze (w sposób

sztuczny) dopasowane do danych z próby. W tej sytuacji nie można uogólniać

otrzymanych wyników.

Zwiększanie liczebności próby powoduje powstawanie coraz mniej rezultatów

nieistotnych statystycznie. Przy zbyt dużej liczebności próby prawie wszystkie re­

zultaty będą statystycznie istotne. Również i w tym przypadku nie będzie można

uogólniać otrzymanych wyników.

Badania z wykorzystaniem niektórych metod statystycznej analizy wielowymia­

rowej (skalowanie wielowymiarowe, metody klasyfikacji, eonjoint measurement) nie

bazują na pojęciu próby w sensie statystycznym. Jednak i w przypadku stosowania

tych metod zachodzi potrzeba ustalenia niezbędnej liczebności zbioru obserwacji.

Największe wymagania co do dużej liczebności zbioru obserwacji występują

w przypadku metod wnioskowania odnośnie do parametrów rozkładu wielowymia­

rowego. Wynika to z faktu [por. Jajuga, 1993], że wiele rozkładów statystyk są to

rozkłady graniczne. Poniżej przedstawimy pewne sugestie co do liczebności próby

w przypadku innych metod SA W.

Analiza regresji wielorakiej

W analizie regresji wielorakiej liczba obserwacji przypadających na jedną zmienną

niezależną nie może być mniejsza od 5. Pożądanym poziomem jest 15 do 20 ob­

serwacji dla każdej zmiennej niezależnej. W tej sytuacji rezultaty analizy regresji

mogą być uogólnione na całą populację, pod warunkiem, że próba jest reprezenta-

1 Punkt ten opracowano w znacznej mierze na pracy Hair, Andersona, Tathama i Btacka

[1995]. 2 Mocą testu statystycznego dla pewnej hipotezy nazywa się prawdopodobieństwo

odrzucenia hipotezy alternatywnej. gdy jest ona fałszywa [por. Kendall i Buckland, 1986, s. 1 O 1]. Moc testu wyraża się wzorem 1- p (błąd 11 rodzaju) . Przy danym poziomie istotności

moc testu wzrasta, gdy zwiększa się liczebność próby, [por. Hair, Andersen, Tatham i Black, 1995, s. 11] .

Page 10: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

38 Krzysztof Jajuga, Marek Walesiak

tywna. Jeśli stosowana jest regresja krokowa pożądany poziom wynosi 50 obserwacji

na każdą zmienną niezależną.

Tablica l pokazuje wpływ liczebności próby statystycznej na minimalną wartość

współczynnika determinacji R2, która jest istotna statystycznie, przy mocy testu

równej 0,80, danym poziomie istotności i danej liczbie zmiennych niezależnych.

Tablica l. Minimalna warto~ć Ji2 istotna statystycznie przy mocy testu 80% oraz danej liczbie zmiennych niezale1nych l wielko~ci próby

Liczba zmiennych niezależnych Liczba zm1ennych niezależnych

Liczebność próby (poziom istotności a- 0,0 l) (poziom istotności a- 0,05)

2 5 10 2 5 10

20 0,45 0,56 0,71 0,39 0,48 0,64

50 0,23 0,29 0,36 0,19 0,23 0,29

100 0,13 0,16 0,20 0,10 0,12 0,15

250 0,05 O,Q7 0,08 0,04 0,05 0,06

500 O,Q3 O,Q3 0,04 0,03 0,04 0,05

1000 0,01 O,Q2 0,02 0,01 0,01 0,02

Źródło: Hair, Anderson, Tatham i B la ck [ 1995, s. l 04) .

Analiza dyskryminacyjna

W analizie dyskryminacyjnej na jedną zmienną niezależną powinno przypadać od

15 do 20 obserwacji. W tej metodzie należy również ustalić liczbę obserwacji dla

każdej grupy. Najmniej liczna grupa powinna zawierać więcej obserwacji niż wynosi

liczba zmiennych niezależnych. W praktyce sugeruje się, aby w każdej grupie było

więcej niż 20 obserwacji. Trzeba mieć na względzie również to, że nie mogą wy­

stępować zbyt duże różnice w liczebności obserwacji między grupami.

Wielowymiarowa analiza wariancji

Minimalnym progiem w wielowymiarowej analizie wariancji MANOV A dla każdej

grupy jest liczba obserwacji większa od liczby zmiennych zależnych. Tablica 2

pokazuje wymaganą liczbę obserwacji w wielowymiarowej analizie wariancji przy

mocy testu równej 80%, danej liczbie grup, zmiennych zależnych i efekcie skali.

Page 11: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

Uwagi o badaniach niewyczerpujących przy zastosowaniu metod statystycznej ...

Tablica 2. Wymagana liczba obserwacji w grupie przy mocy testu równej 80% w wielowymiarowej analizie wariancji

Liczbagrup

3 4 Efekt skali*

39

s

Liczba zmiennych zależnych Liczba zmiennych zależnych Liczba zmiennych zależnych

2 4 6 8 2 4 6 8 2 4 6 8

Bardzo duży . . 13 16 l& 21 14 18 21 23 16 21 24 27

Duży ...... 26 33 38 42 29 37 44 48 34 44 52 58

Średni ... . . 44 56 66 72 50 64 74 84 60 76 90 100

Mały ... ... 98 125 145 160 115 145 165 185 135 170 200 230

* Jest to oszacowany stopiel'i w jakim badane zjawisko (różnica między średnimi grupo­wymi podzielonymi przez ich odchylenia standardowe) występuje w populacji .

Źródło: Hair, Anderson, Tatham i Black [1995, s. 279] .

Na podstawie wyników tablicy 2 można wyciągnąć następujące wnioski:

zwiększenie liczby zmiennych zależnych powoduje zwiększenie liczebności

próby dla zachowania mocy testu,

im oczekiwany efekt skali będzie słabszy tym coraz liczniejsza próba jest

wymagana dla zachowania mocy testu.

Modele równań jednoczesnych

Za optymalną uznaje się tu próbę pomiędzy 100 a 200 obserwacji. W sytuacji, gdy

próba osiąga od 400 do 500 obserwacji występuje sytuacja taka, że prawie wszystkie

rezultaty są statystycznie istotne. W tym przypadku nie będzie można uogólniać otrzy­

manych wyników. Należy pamiętać, że za minimalną przyjmuje się liczbę 5 obserwacji

przypadającą na każdy szacowany parametr w modelu równań jednoczesnych.

Analiza korelacji kanonicznej

W analizie korelacji kanonicznej pożądanym poziomem jest co najmniej l O obser­

wacji przypadających na jedną zmienną niezależną.

Metoda detekcji interakcji

Głównym celem metody detekcji interakcji (automatic interaction detection) jest

podział badanej próby statystycznej na mniejsze relatywnie jednorodne grupy mające

istotnie mniejszą zmienność niż całkowita próba statystyczna. Wymaga ona dyspo­

nowania bardzo dużą próbą statystyczną obejmującą co najmniej 1000 obserwacji,

ponieważ minimalnym progiem dla każdej otrzymanej klasy jest 30 obserwacji [Aa­

ker i Day, 1980, s. 466].

Page 12: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

40 Krzysztof Jajuga, Marek Walesiak

Pomiar łącznego oddziaływania zmiennych ( eonjoint measurement)

Według szacunków WiUinka i Cattina [1982] próba powinna obejmować od 100 do

10000 respondentów, przy czym za typową należy uznać próbę od 300 do 550. Na

podstawie komercyjnych zastosowaó tej metody na rynku amerykaóskim i zacho­dnioeuropejskim Wittink i Cattin [1989) ustalili, że mediana wielkości próby wy­

nosiła 300 elementów. O ile wielkość tę można uznać za zasadną dla rynku dóbr

i usług konsumpcyjnych, o tyle dla rynku dóbr i usług produkcyjnych dopuszczalne będą próby mniejsze od l 00 elementów.

Analiza czynnikowa

W analizie czynnikowej za zasadę przyjmuje się, że liczba obserwacji powinna co

najmniej 5-krotnie przewyższać liczbę analizowanych zmiennych, przy czym sto­

sunek l O do l uznaje się tutaj za preferowany przez badaczy. Zbyt duża liczba obserwacji powoduje z kolei, że coraz mniejsze wartości ładunków czynnikowych zostają uznane za istotne, por. ta b. 3.

Tablica 3. Związek między istotnością ładunków czynnikowych a wymaganą liczbą obserwacji"

Ładunki czynnikowe (wartość bezwzględna)

0,30

0,35

0,40

0,45

0,50

0,55

0,60

0,65

0,70

0,75

Wymagana wielko~ć próby

350

250

200

ISO

120

100

85

70

60

50

•obliczenia wykonane przy założeniu poziomu istotności i mocy testu równej 80%.

Źródło: Hair, Anderson, Tatham i Black [1995, s. 385] .

Skalowanie wielowymiarowe

Badania z wykorzystaniem skalowania wielowymiarowego nie bazują na pojęciu próby w sensie statystycznym. Jednak i w przypadku stosowania tej metody za­chodzi potrzeba ustalenia niezbędnej liczebności zbiorowości obiektów. Liczba

obiektów uzależniona jest od liczby wymiarów, w których przeprowadza się ska­

lowanie. W celu otrzymania stabilnych rezultatów liczbę obiektów wyznacza się

Page 13: Sondaż i integracja baz danychkeii.ue.wroc.pl/pracownicy/mw/1997_Jajuga_Walesiak_Statystyka... · 4 Sp1s treśc1 Aleksander Danielski, GEO-INFO podstawmva baza Systemuinformacji

Uwagi o badaniach niewyczerpujących przy zastosowaniu metod statystycznej. .. 41

ze wzoru: n :;::: 2r + l (gdzie: n - liczba obiektów, r - liczba wymiarów skalowania) [por. Hair, Anderson, Tatham i Black, 1995). Z drugiej strony zwiększanie liczby obie­

któw jest kłopotliwe w ich porównywaniu przez respondentów. Liczbę wszystkich po­równywanych par obiektów wyznacza się ze wzoru:

n(n+l)

2

Dla 15 obiektów otrzymujemy więc 105 porównywanych par. Przy ustalaniu liczeb­

ności obiektów musimy brać pod uwagę zdolność percepcji potencjalnych respon­

dentów.

Metody klasyfikacji

Podobnie jak w przypadku skalowania wielowymiarowego badania z wykorzystaniem

metod klasyfikacji nie bazują na pojęciu próby w sensie statystycznym. Często ba­

dania te obejmują swym zakresem całą populację. Jeśli badania wykorzystujące me­

tody klasyfikacji oparte są na próbie to należy zwracać uwagę, aby była ona

reprezentatywna.

Literatura

Aaker D.A., Day G.S. [1980). Marketing research: private and public sector decisions. New York: Wiley .

Cattin P., Wittink D.R. [ 1982], Commerciał use o f eonjoint analysis: a survey. "lournal of Marketing" s. 44-53.

Green P.E., Tuli D.S, Albaurn G. [1988], Research for marketing decisions . Englewood

Cliffs: Prentice-Hall . Hair J.F., Anderson R.E., Tatham R.L., Black W.C. [1995], Multivariate data analysis

with readings. Englewood Cliffs: Prentice Hall. Jajuga K. [1987], Statystyka ekonomicznych zjawisk złożonych - wykrywanie i analiza nie­

jednorodnych rozkładów wielowymiarowych. Prace Naukoo,ve AE we Wrocławiu nr 371. Seria: Monografie i opracowania nr 39.

Jajuga K. [1993], Statystyczna analiza wielowymiarowa. Warszawa: PWN.

Kendałl M.G., Buckland W.R. [1986], Słownik terminów statystycznych. Warszawa: PWE. Kendalł M. G. [ 1975], Multivariate analysis . London: Griffin . Kinnear T.C., Taylor J.R. [1991], Marketing research . A n applied approach. New York:

McGraw-Hill. Walesiak M. [ 1996), Metody analizy danych marketingowych. Warszawa: PWN. Wittink D.R., Cattin P. [1989), Commerciał use of eonjoint analysis: an update. "lournal

of Marketing" s. 91-96.