agnieszka nowak - brzezińska instytut informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/r.pdf · 1...
TRANSCRIPT
![Page 1: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/1.jpg)
Statystyczne metody analizy danych przy użyciu środowiskaR
Agnieszka Nowak - BrzezińskaInstytut Informatyki, Uniwersytet Śląski
Wybrane zagadnienia
![Page 2: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/2.jpg)
Plan wystąpienia
1. Wprowadzenie.
2. Środowisko R.3. Wybrane metody analizy danych:
� Prezentacja danych.� Regresja liniowa, predykcja danych.� Obserwacje odstające a obserwacje wpływowe.
4. Podsumowanie.
![Page 3: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/3.jpg)
Środowisko R
� Jest to bardzo elastyczne (darmowe) środowisko analityczne o bogatejfunkcjonalności, które jest stosowane w wielu badawczych i praktycznychpracach dotyczących analizy danych i odkrywania wiedzy.
� R jako język programowania dostarcza wbudowanych operacjiułatwiających przetwarzanie tabelarycznych zbiorów danych, mechanizmówgraficznego opisu danych, bogatych bibliotek funkcji analitycznych,obejmujących szeroki zakres metod statystycznych i metod odkrywaniawiedzy oraz - co niezwykle ważne - interaktywny interpreter poleceń i (dlaniektórych platform) graficzny interfejs użytkownika.
� Wszystkie niezbędne informacje o języku R znajdziemy na stronach CRAN(The Comprehensive R Archive Network), gdzie dostępne są pakietyźródłowe, dokumentacja, oraz obszerne zasoby bibliotek.
![Page 4: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/4.jpg)
Rysunek: Okno główne środowiska R
![Page 5: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/5.jpg)
Pomoc w nauce R
� Godnym polecenia materiałem umożliwiającym przyswojeniepodstawowych zagadnień jest darmowy kurs pt. ”Wprowadzenie do językaR” dostępny na stroniehttp://cran.r-project.org/doc/contrib/Komsta-Wprowadzenie.pdf atakże źródło anglojęzyczne pt. ”An Introduction to R” do ściągnięcia zestrony http://cran.r-project.org/doc/manuals/R-intro.html.
� The R Language Definition - źródło:http://cran.r-project.org/doc/manuals/R-lang.html
� The R Language – A Short Companion - źródło:http://cran.r-project.org/doc/contrib/R_language.pdf
� R Reference Card - źródło:http://cran.r-project.org/doc/contrib/refcard.pdf
![Page 6: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/6.jpg)
Pomoc środowiska R
![Page 7: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/7.jpg)
Statystyka opisowa za pomocą R-aWyznaczanie miar rozkładu
Bardzo prostą metodą w zakresie statystyki opisowej jest tworzenie opisu zbiorudanych za pomocą tzw. emphmiar rozkładu cechy. Miary rozkładu możnapodzielić na kilka podstawowych kategorii:
� miary położenia, np. kwantyl, miary tendencji centralnej (np. średniaarytmetyczna, średnia geometryczna, średnia harmoniczna, średniakwadratowa, mediana, moda),
� miary zróżnicowania, np. odchylenie standardowe, wariancja, rozstęp,rozstęp ćwiartkowy, średnie odchylenie bezwzględne, odchyleniećwiartkowe, współczynnik zmienności,
� miary asymetrii, np. współczynnik skośności, współczynnik asymetrii, trzecimoment centralny,
� miary koncentracji, np. współczynnik Giniego, miara kurtozy [2].
![Page 8: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/8.jpg)
Funkcja summary:
Pakiet Hmisc i komenda library(Hmisc)
![Page 9: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/9.jpg)
Funkcja describe z pakietu psych
otrzymujemy: nazwę zmiennej (kolumny, cechy), jej numer w całym zbiorze danych(var), liczba wartości w zbiorze (n) a także statystyki typu: średnia (mean), odchyleniestandardowe (sd), mediana (median), elementy minimalny (min) i maksymalny (max),skośność (skew) oraz kurtoza (kurtosis).
![Page 10: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/10.jpg)
Graficzna prezentacja wyników
� histogramy i wykresy częstości (ang. density plot)- przedstawiające rozkładempiryczny cechy,
� wykresy rozrzutu (ang. scatterplots) - pozwalające wykrywać pewnezależności (i ich typ) między wartościami ciągłymi obserwacji w pewnejmierzonej skali. Każdy punkt wykresu reprezentuje pojedynczą obserwację,
� wykresy pudełkowe (ang. boxplot) - prezentowane za pomocą pudełka,którego lewy bok jest wyznaczony przez pierwszy kwartyl, zaś prawy bokprzez trzeci kwartyl. Szerokość pudełka odpowiada wartości rozstępućwiartkowego. Wewnątrz pudełka znajduje się pionowa linia, określającawartość mediany. Rysunek uzupełniamy po prawej i lewej stronieodcinkami. Lewy koniec lewego odcinka wyznacza najmniejszą wartość wzbiorze, natomiast prawy koniec prawego odcinka to wartość największa.
![Page 11: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/11.jpg)
Histogramy
> dane<-c(3,4,5,6,7,7,7,8,8,8,9)> hist(dane,col="red",xlab="wartości",main="Histogram")
![Page 12: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/12.jpg)
Wykresy pudełkowe
Wykresy pudełkowe spotykane są najczęściej w pakietach komputerowychwspomagających proces analizy i interpretacji danych statystycznych.
Oczywiście:� Lower whisker - wartość najmniejsza
dla danej zmiennej.
� Lower quartile - punkt dokładnie na25% zbioru obserwacji.
� Median - punkt rozgraniczającydokładnie 50% obserwacji.
� Upper quartile - Punkt, przed którymjest 75% obserwacji.
� Upper whisker - najwyższa wartość wzbiorze.
� Mean - wartość średnia w zbiorzeobserwacji.
![Page 13: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/13.jpg)
Wykres pudełkowy
boxplot(dane,col="red",xlab="wartości",main="Wykrespudełkowy")
![Page 14: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/14.jpg)
Wykresy w R
Ogromną zaletą środowiska R jest jego system graficzny i możliwości łatwejwizualizacji danych. Bardzo skrótowo (ale jednocześnie wystarczająco)generowanie wykresów zostało przedstawione w kursie dostępnym pod adresem:http://www.oginet.pl/~rasp/r/wykresy.html. Generalizując powiemy, żenależy wyróżnić dwa rodzaje funkcji graficznych w R:
� wyskopoziomowe funkcje rysują kompletne wykresy ( i usuwającepoprzednie),
� niskopoziomowe funkcje dodające do wykresów nowe elementy typulegenda, punkty, linie, tekst.
![Page 15: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/15.jpg)
Wykres rozrzutu - przykład 1
![Page 16: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/16.jpg)
Wykres rozrzutu - przykład 2
![Page 17: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/17.jpg)
Wykres mieszany - przykład 3
![Page 19: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/19.jpg)
Regresja - metoda najmniejszych kwadratów
![Page 20: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/20.jpg)
Model regresji liniowej
![Page 21: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/21.jpg)
Obserwacje odstające
Obserwacja odstająca (ang. outlier)
jest obserwacją, która nie spełnia równości regresji czyli nie należy do modeluprostej regresji. Obserwacje odstające mogą znacząco wpłwać na postać prostejregresji: b0 + b1x dla której wartość sumy:
∑ni=1(yi − yi )2 a więc i sumy∑n
i=1(yi − (b0 + b1xi ))2 ma być możliwie najmniejsza.
Jeśli analizujemy tylko pojedyncze zmienne objaśniające, to identyfikacjaobserwacji odstających jest dość prosta. Wystarczy generować wykresy rozrzutubądź histogramy. Jeśli zaś chcemy szukać obserwacji odstających globalnie (niedla pojedynczej zmiennej objaśniającej ale dla wielu) wówczas możemyanalizować rezydua lub rezydua studentyzowane i wśród nich szukać wartościodstających.
![Page 22: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/22.jpg)
Wyznaczenie obserwacji odstających
![Page 23: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/23.jpg)
Wyznaczenie obserwacji odstających
1. Mając wektor wartości resztowych(rezyduów) e = (e1, e2, . . . , en),gdzie wartośćresztowa ei = yi − yi (ei = yi − (b0xi + b1))powiemy, że błąd standardowyrezyduum ei jest równy:
SEei = S ∗√
1− (1
n+
(xi − x)2∑ni=1
(xi − x)2).
Wtedy studentyzowana wartość resztowa będzie odpowiadać wartości:
ri =eiSEei.
2. Sporządzając wykres wartości studentyzowanych rezyduów ri względem ichindeksu będziemy potrafili rozpoznawać te duże wartości, które przypuszczalniebędą odstającymi.
Podsumowując powiemy, że nowa obserwacja będzie punktem odstającym jeśli będziesię cechować dużą wartością standaryzowanej reszty. W praktyce, obserwacje odstająceto takie, których wartość bezwzględnych standaryzowanych reszt przekracza 2.
![Page 24: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/24.jpg)
Wyznaczenie obserwacji odstających w R
W środowisku R wykrycie obserwacji odstających możliwe jest na kilkasposobów. Jednym z nich jest użycie funkcji rstudent. Jak widać naponiższym kodzie, w analizowanym przez nas zbiorze występuje obserwacjaodstająca. Jest to obserwacja o numerze 8 i wartości −2.176429.
![Page 25: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/25.jpg)
Wyznaczenie obserwacji odstających w R
Alternatywnie, możemy użyć funkcji outlier.test z biblioteki car .
![Page 26: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/26.jpg)
Obserwacje wpływowe
Obserwacja jest wpływowa (ang. influential)
jeśli jej obecność wpływa na prostą regresji, w taki sposób, że zmienia sięwspółczynnik kierunkowy tej prostej. Inaczej powiemy, że jeśli obserwacja jestwpływowa to inaczej wygląda prosta regresji w zależności od tego czy taobserwacja została ujęta w zbiorze, czy też nie (gdyż została usunięta).
W praktyce, jeśli obserwowana wartość leży w Q1 (czyli ma wartość mniejsząniż 25 centyl), to mówimy, że ma ona mały wpływ na regresję. Obserwacjeleżące między Q1 a Q3 kwartylem nazywamy wpływowymi. Wykrycie obserwacjiwpływowych umożliwia pomiar odległości Cooka z tzw. modyfikowanymirezyduami. Usuwamy obserwację potencjalnie wpływową i obliczamy różnicę.Obserwacja jest wpływowa jeśli ta różnica będzie wysoka. Odległość Cookamierzy poziom wpływu obserwacji i jest obliczana jako:
Di =
∑n
j=1(yj− ˆyj(i))2
pS2 =e2ipS2
hi(1−hi )2 ,gdzie yj jest wartością przewidywaną dla j-tej obserwacji
obliczoną w modelu z usuniętą obserwacją i-tą zaś ˆyj(i)jest wartością przewidywaną dla j-tej
obserwacji w modelu, w którym nie usunięto i-tej obserwacji (potencjalnie wpływowej).
![Page 27: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/27.jpg)
Wyznaczenie obserwacji wpływowych w RTeraz jeśli chcemy poznać obserwacje wpływowe możemy użyć komendy:
której efektem będzie wykres:
![Page 28: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/28.jpg)
Do wykrycia obserwacji wpływowych możemy także użyć funkcji >influence.measures(lm(b ∼ a)), której efekt będzie następujący:
Ostatnia kolumna wskazuje na obserwacje wpływowe zaznaczając przy nichsymbol ∗. Są to obserwacje 1 i 9.
![Page 29: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/29.jpg)
Zbiór Cereals.data
![Page 30: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/30.jpg)
Zbiór Cereals.data
� źródło: http://lib.stat.cmu.edu/DASL/Datafiles/Cereals.html
� Zbiór zawiera dane 77 rodzajów płatków śniadaniowych,które opisane są14 atrybutami warunkowymi i jednym atrybutem decyzyjnym ratingmówiącym o wartości odżywczej płatków w oparciu o informacje typu:calories, sugars, fiber , sodium, vitamins czy weight (ora zinne).
![Page 31: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/31.jpg)
Zbiór Cereals.data
![Page 32: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/32.jpg)
Zbiór Cereals.data
![Page 33: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/33.jpg)
Wyznaczenie obserwacji odstających w modelu z wieloma zmiennymiobjaśniającymi
Obserwacje odstające będziemy wykrywać przy użyciu znanego już pakietu cari funkcji outlier.test w ramach tego pakietu.
Wykryliśmy jedną obserwację odstającą (płatki o nazwie Golden Crisp).
![Page 34: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/34.jpg)
![Page 35: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/35.jpg)
Obserwacje wpływowe w zbiorze CerealsFunkcja: influence.measures
Za wpływowe uznamy 6 obserwacji:100% Bran,All-Bran, All-Bran with Extra Fiber czy Frosted Mini-Wheats,Golden Crisp (które zresztą uznaliśmy za obserwację odstającą, outlier) oraz
Post Nat. Raisin Bran.
![Page 36: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/36.jpg)
Bardzo ważne dla wykrycia obserwacji odstających są tzw. studentyzowanereszty. Wykres dla nich możemy wykonac wywołując komendę:
> qq.plot(model, main="QQ Plot")
Efektem będzie wykres z rozkładem obserwacji między I i III kwartylem, stądnazwa wykresu ”międzykwartylny”
![Page 37: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/37.jpg)
Regresja liniowa dla zbioru Cereals
![Page 38: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/38.jpg)
Predykcja dla zbioru Cereals
Równanie regresji:gdy zmienną objaśnianą będzie zmienna rating (wartość odżywcza płatków) zaśobjaśniającą sugars (poziom cukrów), będzie następującej postaci:
rating = -2.4 * sugars + 59.3
Gdy poziom cukrów wynosi np 1 to wartość odżywcza płatków będzie wynosić 56.9 zaś gdy poziom
cukrów będzie wynosił np 10 wówczas wartość odżywcza zmaleje do wartości 35.3.
![Page 39: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/39.jpg)
Inne metody analizy danych
� analizy dyskryminacyjna:� library(MASS)i funkcja lda()
� analiza skupień:� pam(), kmeans(), pvclust(), hclust().
� drzewa klasyfikacyjne:� rpart(), printcp()
� analiza składowych głównych:� princomp(), factanal()
![Page 40: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/40.jpg)
Analiza dyskryminacyjna
![Page 41: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/41.jpg)
Analiza skupień - statystyki danych
![Page 42: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/42.jpg)
Analiza skupień - klasyczny algorytm k-średnich
![Page 43: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/43.jpg)
Drzewa klasyfikacyjne
![Page 44: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/44.jpg)
Analiza składowych głównych
![Page 45: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/45.jpg)
Analiza składowych głównych
![Page 46: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/46.jpg)
Podsumowanie
� R jest wykorzystywany w badaniach naukowych i dydaktyce na najlepszychuczelniach na świecie, w dziedzinach biologii, socjologii, psychologii,ekonomii.
� R to środowisko do obliczeń statystycznych, a jednocześnie językprogramowania.
� R może działać na systemach Windows, Linux i MacOS.
![Page 47: Agnieszka Nowak - Brzezińska Instytut Informatyki ...zsi.tech.us.edu.pl/~nowak/odzw/R.pdf · 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ](https://reader034.vdocuments.site/reader034/viewer/2022050214/5f60547eba4205624469398e/html5/thumbnails/47.jpg)
Bibliografia
Smith L.I.,A tutorial on Principal Components Analysis,http://kybele.psych.cornell.edu/~edelman/Psych-465-Spring-2003/PCA-tutorial.pdf, 2002.
Redakcja naukowa: Walesiak M. and Gatnar E., Statystyczna analizadanych z wykorzystaniem programu R, PWN, 2009, Warszawa, Polska
Larose Daniel T., Metody i modele eksploracji danych. PWN, Warszawa,Polska, 2008.
Ćwik J. and Mielniczuk J., Statystyczne systemy uczące się. Ćwiczenia woparciu o pakiet R. Oficyna Wydawnicza Politechniki Warszawskiej,Warszawa, Polska, 2009.
Koronacki J. and Mielniczuk J., Statystyka dla studentów kierunkówtechnicznych i przyrodniczych. Wydawnictwa Naukowo-Techniczne,Warszawa, Polska, 2006.
Koronacki J. and Ćwik J., Statystyczne systemy uczące się. EXIT.Warszawa, Polska, 2008.