historia rachunku prawdopodobienstwa i statystyki wyk ad ... · test zgodności chi-kwadrat (x...

24
Historia Rachunku Prawdopodobieństwa i Statystyki WYKLAD VI: Galton, Edgeworth i Karl Pearson. MiNI PW, semestr zimowy 2016/2017 Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Upload: others

Post on 24-Jun-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Historia Rachunku Prawdopodobieństwa iStatystyki

WYKŁAD VI: Galton, Edgeworth i Karl Pearson.

MiNI PW, semestr zimowy 2016/2017

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 2: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Galton, Edgeworth i Pearson

Trzej badacze, którzy razem, korzystając wzajemnie ze swoich wynikówosiągnęli więcej, niż każdy z nich osiągnąlby osobno (efekt synergii).

I Francis Galton: miał bardzo dobre pomysły, ale nie miał dobrychpodstaw matematycznych i nie umiał uogólnić swych częsciowychwyników;

I Francis Edgeworth: dobry matematyk, umiał wyciągnąc wnioskiogólne z wyników częściowych, mial problemy z przekazaniem ichszerzej i nie umiał zebrać danych, aby swe ogólne wnioskipotwierdzić;

I Karl Pearson: nie miał zdolności Galtona i głebokości Edgewortha,ale cechowały go ambicja i upór, które pozwoliły mu, razem zYule’m na stworzenie związanej z odkryciami poprzedników spójnejmetodologii i ’sprzedanie’ jej światu.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 3: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Francis Galton (1822-1911)

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 4: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Francis Galton (1822-1911)

FG był lekarzem w Cambridge, który po odziedziczeniu spadku przerwalpracę zarobkową i zajął się działalnoscią naukową.Główne zainteresowania:

I eksploracja Afryki 1850–1852 (złoty medal KrólewskiegoTowarzystwa Geograficznego w 1853);

I meteorologia (sporządzenie map meteorologicznych);I psychologia, antropologia, socjologia, edukacja...I głowne zainteresowania po 1865 dotyczyły dziedziczności.

Być może jeden z ostatnich ’naukowców gentelmenów’ gentlemenscientists (Stigler), niezależnych finansowo naukowców nie związanych zżadną instytucją naukową.Stephen Wolfram ?Merytorycznie był potomkiem Queteleta.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 5: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Główne osiągnięcia:I Narzędzia eksploracyjnej analizy danych (wykres pudełkowy, wykres

kwantylowy (ogive)I korelacja;I regresjaI prawa dziedziczności, problemy dziedziczenia zdolności;I quincunx (deska Galtona);I ......

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 6: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Wykres pudełkowy

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 7: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Ogiwa: protoptyp funkcji kwantylowej

FG przedstawiał rozkład w próbie na wykresie zależności wartości cechyod jej rangi.Zbadał jej kształt dla populacji normalnej i nazwał tę krzywą ogiwą

OgiwaJan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 8: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Problem dziedziczenia i oceny zdolności

Miara ilościowa stopnia zdolności:Porządkował ludzi w grupie względem zdolności i i-tej randzeprzyporządkowywał Φ−1((n + i − 1/2)/2n).Opublikował książke Hereditary Genius, w której starał sie udowodnić, napodstawie zebranych danych o rodzinach polityków, naukowców, poetówitp., że talent jest dziedziczny.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 9: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 10: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Regresja w kierunku średniej

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 11: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Problem Galtona

Nie umiał przez długi czas poradzić sobie z problemem:Jak to możliwe, że dla cechy, której rozklad w populacji jest normalny(np. dla wzrostu), a więc powinna być, na podstawie warunkówzapewniających CTG (warunki Laplace’a) wynikiem działania wielu cecho mniej wiecej takiej samej sile, a jednocześnie cecha rodzicielska siędziedziczy , czyli jest dominująca ..CTG musi zachodzić również przy innych załozeniach niż warunkiLaplace’a .

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 12: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Koncepcja deski Galtona

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 13: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Karl Pearson (1857 -1936)

Z wykształcenia prawnik o szerokich zainteresowaniach, od 1892 roku,pod wpływem Galtona, zajał się statystyką.Ksiązki:

I Regression, Heredity, and Panmixia,I On the general theory of skew correlation and nonlinear regressionI On the theory of contingency

Załozyciel jednego z najważniejszych pismbiometrycznych/statystycznych Biometrika (1902).

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 14: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Karl Pearson (1857 -1936)

Główne osiągnięcia:I analiza dwuwymiarowego rozkładu normalnego;I analiza rozkładów skośnych i rodzina rozkładów Pearsona;I test chi-kwadrat zgodności rozkładów;I analiza tablic kontyngencji;I metoda momentów.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 15: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Rodzina rozkładów Pearsona

Rodzina gęstości spełniających równanie

d ln p(x)dx

=x + a

b0 + b1x + b2x2

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 16: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Test zgodności chi-kwadrat

(X1, . . . ,Xk) obserwacja z rozkładu wielomianowego Mult(n, p1, . . . , pk) i

ei = Xi − npi

róznice między wartościami oczekiwanymi liczby obserwacji w komórkacha Xi . Statystyka chi kwadrat

χ2 =k∑i=1

e2inpi

=k∑i=1

(Xi − npi )2

npi

i udowodnił, że ma asymptotycznie rozkład χ2 z k − 1 stopniamiswobody.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 17: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Test zgodności chi-kwadrat z estymowanym parametrami

Co w sytuacji, gdy pi nie są znane a jedynie znamy ich formęparametryczną pi = pi (θ) ?. Estymujemy wartość parametru i

p̂i = pi (θ̂)

KP załozył błednie, ze zamiana pi na p̂i nie spowoduje zmiany rozkłąduasymptotycznego.Długa kontrowersja z R. Fisherem, który udowodnił, ze rozkladasymptotyczny to χ2k−l , gdzie l liczba restrykcji na parametry.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 18: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Spór z G. Yule’m dotyczący analizy danych jakościowych

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 19: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Spór z G. Yule’m dotyczący analizy danych jakościowych

KP uważal, że należy tablice kontyngencji traktować jako wynikobserwacji wartości dwuwymiarowego rozkładu normalnego i szukałtakiego rozkładu normalnego, dającego prawdopodobieństwa równeczęstościom klatek przy równości rozkładów brzegowych.współczynnik korelacji tetrachorycznej.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 20: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Spór z G. Yule’m dotyczący analizy danych jakościowych

G. Yule uważał, że pewne zmienne są z natury dyskretnie i to coobserwujemy w tablicy kontyngencji to wartości dwuwymiarowej zmiennejo wartościach dyskretnych.Wprowdził iloraz szans (odds ratio) zdefiniowany dla rozkładu 2x2

θ =P(X = 1|Y = 1)

P(X = 0|Y = 1)/P(X = 1|Y = 0)

P(X = 0|Y = 0)=π11π00π01π10

θ̂ =n00n11n01n10

.

Q Yule’a

Q =θ̂ − 1

θ̂ + 1=n00n11 − n01n10n00n11 + n01n10

.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 21: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Spór z G. Yule’m dotyczący analizy danych jakościowych

Pearson i Heron (1913) 150-stronicowy atak na Yule’a i jego miarę:If Mr Yule’s views are acccepted, incomparable demage will be done tothe growth of modern statistical theory ..Zaatakowano ’half-baked ideas’ Yule’a i ’specious reasoning’ i pogląd, zeYule powinien wycofać swoje koncepcje jeśli chce zachować swojąreputację jako statystyk.W zależności od danych jedno z konkurencyjnych podejść KP i BY marację bytu ...

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 22: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Inne osiągnięcia Yule’a

Analiza regresji dla pauper data.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 23: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Analiza regresji dla pauper data

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 24: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD ... · Test zgodności chi-kwadrat (X 1,...,X k) obserwacja z rozkładu wielomianowego Mult(n,p 1,...,p k) i e i = X i −np

Użycia i nadużycia testu chi kwadrat ..

Przy H0 np̂i = 851/12 = 70.917. .0025 < p = 0.0283 < 0.05.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki