czym jest weka? w weka wprowadzenie do...

38
Wprowadzenie do WEKA Adam Zagdański, Artur Suchwalko (www.suchwalko.pl) Czym jest WEKA? Moduly dostępne w WEKA Modul Explorer Modul Knowledge Flow WEKA – informacje techniczne Dodatkowe informacje Wprowadzenie do WEKA Adam Zagdański, Artur Suchwalko 5 marca 2011 Adam Zagdański, Artur Suchwalko Wprowadzenie do WEKA 1 / 38

Upload: phungdieu

Post on 28-Feb-2019

246 views

Category:

Documents


1 download

TRANSCRIPT

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical

Wprowadzenie do WEKA

Adam Zagdański, Artur Suchwałko

5 marca 2011

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 1 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Plan prezentacji I

Część:

1 Czym jest WEKA?Główne cechy projektuWersje oprogramowania

2 Moduły dostępne w WEKA

3 Moduł ExplorerPreprocessingWizualizacjaKlasyfikacjaAnaliza skupień

4 Moduł Knowledge Flow

5 WEKA – informacje techniczneWymagane oprogramowanieFormat danych

6 Dodatkowe informacjeUżyteczne linkiWybrane projekty stworzone na bazie WEKAKsiążka – DM z wykorzystaniem WEKAWEKA – dokumentacja techniczna

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 2 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Czym jest WEKA?Weka Machine Learning Project, The University of Waikato, New Zelandhttp://www.cs.waikato.ac.nz/ml/weka/Część:

Weka: Oprogramowanie z zakresu uczenia maszynowego (machinelearning) i pozyskiwania wiedzy (data mining), stworzonew języku Java,

Weka: Zestaw algorytmów wykorzystywanych do realizacji zadań dataminingu,

Weka: Oprogramowanie wykorzystywane w badaniach naukowych,edukacji, a także do zastosowań praktycznych,

Weka: Narzędzia do obróbki wstępnej danych (pre-processing),klasyfikacji, regresji, analizy skupień, odkrywania regułasocjacyjnych i wizualizacji,

Weka: Oprogramowanie towarzyszące książce „Data Mining:Practical Machine Learning Tools and Techniques” autorstwaI.H. Wittena i E. Franka,

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 3 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Czym jest WEKA?Weka Machine Learning Project, The University of Waikato, New Zelandhttp://www.cs.waikato.ac.nz/ml/weka/Część:

Weka: Wygodna baza dla rozwijania nowych algorytmów uczeniamaszynowego,

Weka: Algorytmy, które mogą być stosowane z wykorzystaniemdostępnych graficznych interfejsów użytkownikalub wywoływane z poziomu własnego kodu/aplikacji napisanejw języku Java, Możliwe jest wykorzystanie klas WEKAw innych programach(np. w środowisku R lub RapidMiner)

Weka: Oprogramowanie typu open source udostępnione na licencjiGNU General Public License,

Weka: To także... ptak nielot, zagrożony wyginięciem, występującywyłącznie na terenie Nowej Zelandii.

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 4 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Czym jest WEKA?Główne cechy projektuCzęść: Główne cechy projektu

Obszerny zestaw narzędzi do przetwarzania wstępnego danych(pre-processing’u),

Algorytmy uczenia maszynowego i metody oceniające ichefektywność,

Przyjazne graficzne interfejsy użytkownika (w tym, narzędziado wizualizacji danych),

Wygodne środowisko do porównania efektywności algorytmów.

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 5 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Czym jest WEKA?Wersje oprogramowania ICzęść: Wersje oprogramowania

book version – wersja towarzysząca książce „Data Mining:Practical Machine Learning Tools and Techniques” autorstwaI.H. Wittena i E. Franka. Wersja została „zamrożona” w 2005wraz z publikacją książki i nie pojawiają się już dla niej nowefunkcjonalności (np. nowe algorytmy, itd.), a jedyniekorygowane są dostrzeżone błędy,

Rysunek: v.3.4.12 (book)

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 6 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Czym jest WEKA?Wersje oprogramowania IICzęść: Wersje oprogramowania

stable version – aktualna wersja stabilna

Rysunek: v.3.6.4 (stable)

developer version – wersja aktualnie rozwijana, uzupełnianao nowe algorytmy, usprawnienia, itp. (v.3.7.3)

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 7 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Cztery główne moduły dostępne w WEKA

Część:

Explorer CLI

Experimenter Knowledge Flow

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 8 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Cztery główne moduły dostępne w WEKA I

Część:

1 Explorer – główny moduł oferujący dostępdo najważniejszych funkcjonalności. Szereg rozwiązańułatwiających użytkownikowi przeprowadzenie analiz (łatwakonfiguracja parametrów, kontrola kolejności wykonywaniaanaliz, parametry domyślne, podpowiedzi kontekstowe).Zalecany na początek i dla większości użytkownikóww zupełności wystarczający!

2 CLI – interfejs tekstowy (Command Line Interface). Dostępdo funkcjonalności systemu poprzez wpisywanie komendtekstowych. Zalecany dla doświadczonych użytkowników!

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 9 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Cztery główne moduły dostępne w WEKA II

Część:

3 Experimenter – zaprojektowany aby umożliwićprzeanalizowanie, która metoda (np. klasyfikacji lub regresji)i jaki zestaw parametrów jest najlepszy dla naszego problemu.W module zastosowano rozwiązania umożliwiająceprzeprowadzania złożonych eksperymentów obliczeniowychna wielką skalę. Zaawansowani użytkownicy mają np.możliwość przeprowadzania obliczeń rozproszonych (na wielukomputerach równocześnie), dzięki wykorzystaniu technologiiJava RMI (Remote Method Invocation),

4 Knowledge Flow – interfejs graficzny, pozwalającyzaprojektować schemat potokowego przetwarzania danych.Wykorzystując technikę „przeciągnij i upuść” możemy łatwołączyć bloki reprezentujące poszczególne etapy analizy.

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 10 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerGłówny panelCzęść:

Rysunek: Moduł Explorer

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 11 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerZakładkiCzęść:

1 Preprocess – Wczytanie i obróbka wstępna danych,2 Classify – konstrukcja prognoz z wykorzystaniem metod

klasyfikacji i regresji; uczenie metody i weryfikacjajej efektywności,

3 Cluster – grupowanie obiektów (analiza skupień),4 Associate – odkrywanie reguł asocjacyjnych,5 Select attributes – wybór najważniejszych/najbardziej

istotnych atrybutów (cech),6 Visualize – wizualizacja danych w 2D (z elementami

interaktywnymi).

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 12 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerEdytor danychCzęść: Preprocessing

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 13 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerPreprocessing – filtryCzęść: Preprocessing

Narzędzia obróbki wstępnej (pre-processing’u) w programie WEKA są nazywanefiltrami

W tej grupie znajdują się m.in. metody pozwalające przeprowadzić:

dyskretyzację (przedziałowanie) cech,

standaryzację (normalizację) danych,

próbkowanie,

wybór atrybutów,

transformacje i łączenie atrybutów,

wyznaczenie składowych głównych (metoda PCA),

Podział filtrów:

unsupervised – nienadzorowane,

supervised – nadzorowane,

Dla obu kategorii (unsupervised i supervised) wyróżnia się filtry stosowane dla:

atrybutów/cech (attribute),

przypadków (instance).

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 14 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerPreprocessing – przygotowanie danych do analizCzęść: Preprocessing

Rysunek: Przykład – przekształcenia wstępne(dyskretyzacja cech ciągłych)

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 15 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerPreprocessing – przygotowanie danych do analizCzęść: Preprocessing

Rysunek: Przykład – skategoryzowane wykresy słupkowe dla wszystkichatrybutów (opcja: Visualize All)

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 16 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerWizualizacjaCzęść: Wizualizacja

Rysunek: Przykład – wykresy rozrzutu (scatterplots)

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 17 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerKlasyfikacjaCzęść: Klasyfikacja

Klasyfikatorami w programie WEKA są nazywane modele pozwalającena prognozowanie zmiennych nominalnych (etykietki klas) lub liczbowych (np.modele regresyjne)

Wybrane, zaimplementowane w WEKA algorytmy klasyfikacji

drzewa decyzyjne,

lasy losowe (random forest),

metody najbliższego sąsiada (instance-based classifiers),

Support Vector Machines (SVM),

sieci neuronowe wielowarstwowe,

regresja liniowa i logistyczna,

naiwny klasyfikator bayesowski,

sieci bayesowskie,

Meta-classifiers – klasyfikatory złożone (zaagregowane),

UserClassifier – klasyfikator (w formie drzewa decyzyjnego) budowany

interaktywnie przez użytkownika,ZeroR – klasyfikator referencyjny, prognozowana jest najczęstsza klasa lub

wartość średnia (w przypadku prognoz ilościowych),

wiele innych...

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 18 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerKlasyfikacja – podział metodCzęść: Klasyfikacja

W WEKA wyróżnia się następujący podział algorytmówklasyfikacji:

bayes

functions

lazy

meta

mi

misc

trees

rules

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 19 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł Explorer IKlasyfikacja – podział metodCzęść: Klasyfikacja

bayes – klasyfikatory bayesowskie (m.in.: sieci bayesowskiei naiwny klasyfikator bayesowski),

functions – klasyfikatory, które w naturalny sposób możnaprzedstawić jako równania matematyczne, m.in.: regresjaliniowa i logistyczna, sieci neuronowe, SVM. Wyjątkiem jestnp. naiwny klasyfikator bayesowski, który należy do osobnejgrupy,

lazy – klasyfikatory, które przechowują przypadki ze zbioruuczącego i nie wykonują żadnych obliczeń, aż do momentuklasyfikacji nowych obiektów (m.in.: różne warianty metodynajbliższego sąsiada, ale także metoda LBR – Lazy BayesianRules),

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 20 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł Explorer IIKlasyfikacja – podział metodCzęść: Klasyfikacja

meta – meta-classifiers, klasyfikatory złożone, poprawiająceefektywność klasyfikatorów bazowych:

różne warianty komitetów/rodzin klasyfikatorów (np. bagging,boosting),CostSensitiveClassifier – modyfikacja wag przypadkówzgodnie z kryterium kosztu przypisanym każdej z klas lubprognozowanie tej klasy, której odpowiada najmniejszyoczekiwany błąd klasyfikacji (zamiast prognozowania klasynajbardziej prawdopodobnej),AttributeSelectedClassifier – klasyfikator z optymalniewybranymi atrybutami (zastosowanie metod wyboru cechzwanych wrapper’ami),metody oparte na „zamianie typu zadania”, np.:klasteryzacja ⇒ klasyfikacja, predykcja ⇒ klasyfikacja,m.in.: ClassificationViaRegression, RegressionByDiscretization,ClassificationViaClustering, OrdinalClassClassifier,MultiClassClassifier,

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 21 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł Explorer IIIKlasyfikacja – podział metodCzęść: Klasyfikacja

misc – pozostałe, niestandardowe algorytmy klasyfikacji,

trees – klasyfikatory oparte na drzewach(m.in.: DecisionStump, Id3, J4.8, RandomForest,UserClassifier),

rules – metody oparte na generowaniu (indukcji) reguł.

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 22 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerKlasyfikacja – przykład wykorzystania drzew decyzyjnychCzęść: Klasyfikacja

Rysunek: Przykład – klasyfikacja z wykorzystaniem drzewklasyfikacyjnych

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 23 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerKlasyfikacja – przykład wykorzystania sieci neuronowychCzęść: Klasyfikacja

Rysunek: Przykład – klasyfikacja z wykorzystaniem sieci neuronowych

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 24 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerAnaliza skupień – zaimplementowane algorytmyCzęść: Analiza skupień

k-Means – klasyczna metoda k-średnich,

EM – klasteryzacja z wykorzystaniem algorytmu EM(Expectation Maximization),Cobweb – implementacja algorytmów: Cobweb dla zmiennychjakościowych oraz algorytmu Classit dla cech numerycznych.Wynikiem działania jest drzewo. Dla każdego przypadkuwybierana jest najlepsza z czterech możliwości:

Dodanie przypadku do najlepszego hosta,Utworzenie nowego liścia,Połączenie dwóch najlepszych hostów i dodanie przypadkudo połączonego węzła,Podział najlepszego hosta i dodanie przypadku do jednegoz otrzymanych podzbiorów,

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 25 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerAnaliza skupień – zaimplementowane algorytmyCzęść: Analiza skupień

X-means – rozszerzona wersja algorytmu k-means, uzupełniealgorytmu o etap Improve-Structure. W tym etapie próbuje siępodzielić centra (środki) w obrębie ich rejonu. Porównaniei wybór pomiędzy strukturą oryginalną i struktura uzyskaną popodziale centrów, odbywa się na bazie wartości kryteriów BIC(odpowiadających obu strukturom),

FarthestFirst – metoda klasteryzacji oparta na algorytmieprzeszukiwania farthest first, autorstwa Hochbauma i Shmoys’a(1985); szybka i prosta, metoda poszukiwania k-średnich,

DBScan – Density-Based Spatial Clustering of Applicationswith Noise; algorytm oparty na gęstościach,

OPTICS – uporządkowanie obiektów umożliwiająceidentyfikację skupisk (interfejs graficzny).

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 26 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerAnaliza skupień – dodatkowe informacjeCzęść: Analiza skupień

W WEKA nie są w tej chwili zaimplementowane klasycznemetody klasteryzacji hierarchicznej,

Możliwa jest wizualizacja wyników analizy skupieńi ich ewentualne porównanie z prawdziwymi grupami (jeżelitakie są znane),

Możliwa jest ocena wyników oparta na funkcji wiarogodności,jeżeli algorytm klasteryzacji bazuje na założeniach dotyczącychrozkładów,

Klasa/wrapper MakeDensityBasedClusterer umożliwia„opakowanie” dowolnego algorytmu klasteryzacji,tak aby zwracał on rozkład i gęstość. Dopasowany jest rozkładnormalny oraz rozkład dyskretny, oszacowane wewnątrzkażdego skupiska, „wyprodukowanego” przez wyjściowyalgorytm klasteryzacji.

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 27 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł ExplorerAnaliza skupień – przykład zastosowania metody k-meansCzęść: Analiza skupień

Rysunek: Przykład – zastosowanie metody k-means

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 28 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Moduł Knowledge FlowProjektujemy schemat potokowego przetwarzania danychCzęść:

Schemat możemy budować łącząc (metodą „przeciągnij i upuść”) bloki reprezentujące:źródła danych, narzędzia obróbki wstępnej, algorytmy uczenia, metody ocenyefektywności, moduły do wizualizacji wyników.

Rysunek: Przykładowy schemat wykorzystany do oceny dokładnościklasyfikacji

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 29 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical WEKA – informacje techniczneWymagane oprogramowanieCzęść: Wymagane oprogramowanie

WEKA może być uruchomiana praktycznie na dowolnejplatformie (Windows, Linux, Mac),

Do uruchomienia WEKA 3.4.x (i starszych wersji) wymaganajest Java 1.4 (lub nowsza wersja),

Środowisko uruchomieniowe Java można pobrać za darmo np.ze strony www Sun Microsystems (http://www.sun.com/),

Wersja rozwojowa (developer version), począwszy od v.3.5.3,wymaga już Java 5.0.

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 30 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical WEKA – informacje techniczneFormat danychCzęść: Format danych

Dane mogą być importowane z plików w rożnych formatach:ARFF, CSV, C4.5, format binarny,

Można również wczytywać dane podając adres URLlub komunikując się z bazą danych za pomocą języka SQL(wykorzystywany jest JDBC – Java DataBase Connectivity),

Domyślnym formatem danych wykorzystywanym w WEKAi opracowanym specjalnie na potrzeby tego projektu jestformat ARFF – Attribute-Relation File Format,

ARFF jest rodzajem pliku tekstowego ASCII, zawierającymdodatkowo informacje o typach atrybutów.

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 31 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical WEKA – informacje techniczneFormat danychCzęść: Format danych

Przykładowe dane w formacie ARFF% 1. Title: Iris Plants Database%% 2. Sources:% (a) Creator: R.A. Fisher% (b) Donor: Michael Marshall (MARSHALL%[email protected])% (c) Date: July, 1988%@RELATION iris

@ATTRIBUTE sepallength NUMERIC@ATTRIBUTE sepalwidth NUMERIC@ATTRIBUTE petallength NUMERIC@ATTRIBUTE petalwidth NUMERIC@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa4.6,3.1,1.5,0.2,Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa5.4,3.9,1.7,0.4,Iris-setosa4.6,3.4,1.4,0.3,Iris-setosa5.0,3.4,1.5,0.2,Iris-setosa4.4,2.9,1.4,0.2,Iris-setosa4.9,3.1,1.5,0.1,Iris-setosa

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 32 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical WEKA – użyteczne linki

Część: Użyteczne linki

WEKA Homepagehttp://www.cs.waikato.ac.nz/~ml/weka/

WEKA Mailing listhttps://list.scms.waikato.ac.nz/mailman/listinfo/wekalist

WekaWikihttp://weka.wikispaces.com/

Frequently Asked Questions (FAQ)http://weka.wikispaces.com/Frequently+Asked+Questions

Weka-related Projectshttp://www.cs.waikato.ac.nz/~ml/weka/index_related.html

Javadochttp://weka.sourceforge.net/doc/

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 33 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Wybrane projekty stworzone na bazie WEKAŹródło: Weka-related Projects,http://www.cs.waikato.ac.nz/ml/weka/index_related.htmlCzęść: Wybrane projekty stworzone na bazie WEKA

YALE - Yet Another Learning Environment,

Weka-Parallel - parallel processing for Weka,

Automatic Knowledge Miner - online data mining reports,

Weka Visualization tools - using PMML, VisWiz, andROCOn,

Weka on Text - software for text mining,

Judge - software for document classification and clustering,

Grid Weka - grid computing with Weka,

FAEHIM - Data Mining Web services,

Fuzzy algorithms - for clustering and classification.

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 34 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Wybrane projekty stworzone na bazie WEKAŹródło: Weka-related Projects,http://www.cs.waikato.ac.nz/ml/weka/index_related.htmlCzęść: Wybrane projekty stworzone na bazie WEKA

BioWeka - knowledge discovery and analysis for biologists,

Mathematica interface for Weka,

weka4WS - distributed data mining,

RWeka - an R interface to Weka,

Mayday - Machine Learning for Microarrays - plugin for theWEKA machine Learning Library,

PROMPT - Statistical comparison and mapping of proteinsets. Import/Export of WEKA arff data files,

GeneticProgramming - Genetic Programming Classifier forWeka,

Weka-GDPM - extended version of Weka 3.4 to supportautomatic geographic data preprocessing for spatial datamining.

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 35 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Książka – DM z wykorzystaniem WEKA

Część: Książka – DM z wykorzystaniem WEKA

Ian H. Witten, Eibe Frank, Data Mining: Practical MachineLearning Tools and Techniques (Second Edition), MorganKaufmann, 2005

Adres www:http://www.cs.waikato.ac.nz/~ml/weka/book.html

Wyjaśnienie idei działania algorytmów Data mining

Pomoc w wyborze odpowiedniego algorytmu dla określonegoproblemu oraz odpowiedniej metod oceny efektywności

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 36 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical WEKA – dokumentacja techniczna w formacie javadoc

Część: WEKA – dokumentacja techniczna

Metody zaimplementowane w WEKA mogą być wykorzystywane bez koniecznościuruchomiania graficznych interfejsów użytkownika,Kod źródłowy (klasy) zaimplementowane w ramach projektu WEKA mogą byćwykorzystywane np. we własnych aplikacjach napisanych w języku Java lubw innych programach, np. w systemie statystycznym R(http://cran.r-project.org/web/packages/RWeka/RWeka.pdf) lub w programieRapidMiner (http://www.rapidminer.com/),Korzystanie z klas WEKA ułatwia szczegółowa dokumentacja techniczna w formaciejavadoc.

Rysunek: Struktura klas Rysunek: Klasa J48 (drzewoklasyfikacyjne)

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 37 / 38

Wprowadzeniedo WEKA

Adam Zagdański,Artur Suchwałko

(www.suchwalko.pl)

Czym jest WEKA?

Moduły dostępnew WEKA

Moduł Explorer

Moduł KnowledgeFlow

WEKA – informacjetechniczne

Dodatkoweinformacje

criti

cal

adva

nce

priv

ilege

s

ratin

g

com

plai

nts

lear

ning

rais

es

raises

learning

complaints

rating

privileges

advance

critical Bibliografia

Część: WEKA – dokumentacja techniczna

Weka home page.Internet.http://www.cs.waikato.ac.nz/ml/weka/.

Weka wiki.Internet.http://weka.wikispaces.com/.

I.H. Witten and E. Frank.Data Mining: Practical Machine Learning Tools andTechniques.Morgan Kaufmann, 2005.

Adam Zagdański, Artur Suchwałko Wprowadzenie do WEKA 38 / 38