wykŁad 1 wprowadzenie w tematykę kursu - ii.pwr.edu.plzieba/[w1_miw].pdf · pojęcie wiedzy...
TRANSCRIPT
Wrocław University of Technology
WYKŁAD 1
Wprowadzenie w tematykę kursu
autor: Maciej Zięba
Politechnika Wrocławska
Informacje dotyczące zajęć
Cykl 8 wykładów.
Konsultacje odbywają się w sali 121 w budynku C3 w terminach(proszę o wcześniejsze potwierdzenie mailem):
PN, 8.00 - 9.00.
CZ, 11.00 - 13.00.
ND, 12.00 -13.00.
Kontakt do prowadzącego: [email protected].
Strona prowadzącego: http://www.ii.pwr.wroc.pl/~zieba/.
Na ostatnim wykładzie kolokwium zaliczeniowe.
2/34
Zawartość merytoryczna (1)
1. Zagadnienia podstawowe:
metody pozyskiwania, wykorzystywania i integracji wiedzy;
wprowadzenie niezbędnych pojęć związanych zprawdopodobieństwem;
typowe rozkłady dyskretne i ciągłe.
2. Modele probabilistyczne:
reprezentacja wiedzy w postaci modelu probabilistycznego;
wnioskowanie na podstawie modeli probabilistycznych;
ekstrakcja wiedzy z modeli probabilistycznych;
integracja modeli probabilistycznych;
złożone modele probabilistyczne.
3/34
Zawartość merytoryczna (2)
3. Modele funkcyjne, reguły i drzewa decyzyjne:
metody ekstrakcji wiedzy dla modeli funkcyjnych;
metody konstrukcji drzew i reguł decyzyjnych;
metody konstrukcji zespołów modeli;
metody integracji modeli o różnych reprezentacjach wiedzy.
4. Inne rodzaje reprezentacji wiedzy:
zbiory rozmyte;
ontologie;
5. Przykłady integracji wiedzy.
4/34
Pojęcie wiedzy
Pojęcie wiedzy po raz pierwszy wprowadziłPlaton. Uważał on, że wiedza to prawdziwe iuzasadnione przekonanie.
Arystoteles z kolei wyodrębnia wiedzęteoretyczną i praktyczną.
Podział wiedzy ze względu na kryteriumdoświadczenia:
Wiedza a priori jest niezależna od zmysłów idotyczy prawd ”absolutnych” lubuniwersalnych jakimi są prawa logiki, prawamatematyki.
Wiedza a posteriori jest wiedzą nabytąpoprzez zmysły i jej prawdziwość może byćobalona poprzez następne obserwacje.
5/34
Pojęcie wiedzy w sztucznej inteligencji
Pojęcie wiedzy w sztucznej inteligencji odnosi siędo struktur modeli reprezentujących pewne procesypodejmowania decyzji.
W zależności od procesu podejmowania decyzjiwiedza może być reprezentowana w postacirozmaitych struktur, takich jak funkcje, drzewa,grafy, reguły, bądź zbiory.
Wiedza może mieć charakter:
zrozumiały (interpretowalny);
niejawny (nieinterpretowalny).
Źródła wiedzy:
wiedza eksperta;
wiedza pozyskana z danych.
6/34
Pojęcie wiedzy w sztucznej inteligencji
Pojęcie wiedzy w sztucznej inteligencji odnosi siędo struktur modeli reprezentujących pewne procesypodejmowania decyzji.
W zależności od procesu podejmowania decyzjiwiedza może być reprezentowana w postacirozmaitych struktur, takich jak funkcje, drzewa,grafy, reguły, bądź zbiory.
Wiedza może mieć charakter:
zrozumiały (interpretowalny);
niejawny (nieinterpretowalny).
Źródła wiedzy:
wiedza eksperta;
wiedza pozyskana z danych.
6/34
Uczenie maszynowe i eksploracja danych (1)
Uczenie maszynowe (ang. machine learning)to proces pozyskiwania wiedzy do rozwiązaniapewnego zadania w oparciu o doświadczeniei z wykorzystaniem pewnej miary jakości.
Wraz ze wzrostem doświadczenia, następujeprzyrost wiedzy potrzebnej do realizacjizadania mierzony z wykorzystaniem miaryjakości.
Eksploracja (ekstrakcja) danych (ang. datamining) to proces pozyskiwania wiedzy zdanych reprezentowanej przez pewne wzorce.
ZADANIEJaka to litera ?
DOŚWIADCZENIE
MIARA JAKOŚCI
7/34
Uczenie maszynowe i eksploracja danych (2)
Metody uczenia maszynowego:
są wykorzystywane jako narzędziaw procesach eksploracji danych.
mają wymiar teoretyczny;
modelują zjawiska wspomagającsię danymi;
modelują rzeczywistość w sposóbprobabilistyczny;
zorientowane głownie na modelenieinterpretowalne;
Metody eksploracji danych:
jako narzędzia wykorzystująmetody uczenia maszynowego.
mają wymiar praktyczny;
koncentrują się na analiziedanych;
modelują rzeczywistość w sposóbdeterministyczny;
zorientowane głownie na modeleinterpretowalne.
8/34
Dane w uczeniu maszynowym
Jeżeli rozważamy problem uczenia nadzorowanego (predykcji), tointeresuje nas znalezienie mapowania wartości wejściowych x nawartości wyjściowe y.
Mapowanie to odbywa się na podstawie tzn. zbioru uczącego(treningowego), który zawiera pary wejście-wyjście nazywaneprzykładami:
D = {(xn, yn)}Nn=1. Każdy element wejściowy xi zawiera zestaw wartości nominalnych i
liczbowych, które nazywane są cechami, bądź atrybutami.
Każdy element wyjściowy yi reprezentowany jest przez wartośćliczbową (regresja), bądź też nominalną (klasyfikacja).
Jeżeli rozważamy problem uczenia nienadzorowanego(deskrypcji) to interesuje nas znalezienie ”ciekawych wzorców” wdanych:
D = {xn}Nn=1.
9/34
Źródła danych
DANE BANKOWE
OBRAZY
DANE O KLIENTACH
DANE MEDYCZNE
DANE MAILOWE
DANE Z CZUJNIKÓW
DANE DŹWIĘKOWE
PORTALESPOŁECZNOŚCIOWE
DANE GIEŁDOWE
10/34
Problemy uczenia maszynowego
Uczenie z nadzorem (ang. supervised learning):
klasyfikacja (ang. classification);
regresja (ang. regression);
Uczenie bez nadzoru (ang. unsupervised learning):
grupowanie (klasteryzacja, analiza skupień) (ang. clustering);
redukcja wymiarów (ang. dimensionality reduction);
uzupełnianie wartości (ang. matrix completion).
Uczenie ze wzmocnieniem (ang. reinforcement learning).
11/34
Podstawowe problemyUczenie z nadzorem: Regresja
Regresja (ang. Regression):
Dysponujemy obserwacjami zodpowiadającymi im wartościamiciągłymi.
Celem uczenia jest skonstruowaniemodelu regresji na podstawie danych.
Model konstruowany jest tak, abymożliwe było przewidywanie nowychobserwacji.
12/34
Podstawowe problemyUczenie z nadzorem: Regresja
Regresja (ang. Regression):
Dysponujemy obserwacjami zodpowiadającymi im wartościamiciągłymi.
Celem uczenia jest skonstruowaniemodelu regresji na podstawie danych.
Model konstruowany jest tak, abymożliwe było przewidywanie nowychobserwacji.
12/34
Podstawowe problemyUczenie z nadzorem: Regresja
Regresja (ang. Regression):
Dysponujemy obserwacjami zodpowiadającymi im wartościamiciągłymi.
Celem uczenia jest skonstruowaniemodelu regresji na podstawie danych.
Model konstruowany jest tak, abymożliwe było przewidywanie nowychobserwacji.
12/34
Podstawowe problemyUczenie z nadzorem: Regresja
Regresja (ang. Regression):
Dysponujemy obserwacjami zodpowiadającymi im wartościamiciągłymi.
Celem uczenia jest skonstruowaniemodelu regresji na podstawie danych.
Model konstruowany jest tak, abymożliwe było przewidywanie nowychobserwacji.
12/34
Podstawowe problemyRegresja: Śledzenie ruchu
Cel: Wyznaczenie następnego położeniaobiektu.
Dane: Sekwencja obrazów z poruszającymi sięobiektami.
Na podstawie dotychczaszarejestrowanej sekwencji obrazówwyznaczane jest położenie obiektu.
13/34
Podstawowe problemyRegresja: Predykcja notowań giełdowych
Cel: Wycena akcji.
Dane: Notowania akcji z poprzednich okresóworaz inne czynniki wpływające na cenęakcji.
Na podstawie notowań historycznych iinnych czynników mających wpływ nacenę akcji budowany jest modelpredykcyjny.
Model aktualizowany jest zwykorzystaniem bieżących notowań.
14/34
Podstawowe problemyRegresja: Predykcja przeżywalności pooperacyjnej
Cel: Określenie jaki okres czasu pacjentprzeżyje po operacji.
Dane: Wyniki badań pacjentaprzeprowadzonych przed i po operacji,ogólna charakterystyka zdrowiapacjenta.
Na podstawie danych o pacjencienależy określić jaki okres czasuprzeżyje on po operacji.
15/34
Podstawowe problemyUczenie z nadzorem: Klasyfikacja
Klasyfikacja (ang. Classification):
Dysponujemy obserwacjami z etykietami(klasami), które przyjmują wartościnominalne.
Celem uczenia jest skonstruowanieklasyfikatora separującego obiektynależące do różnych klas.
Klasyfikator konstruowany jest tak, abymożliwe było przewidywanie klas nowych,niesklasyfikowanych obserwacji.
16/34
Podstawowe problemyUczenie z nadzorem: Klasyfikacja
Klasyfikacja (ang. Classification):
Dysponujemy obserwacjami z etykietami(klasami), które przyjmują wartościnominalne.
Celem uczenia jest skonstruowanieklasyfikatora separującego obiektynależące do różnych klas.
Klasyfikator konstruowany jest tak, abymożliwe było przewidywanie klas nowych,niesklasyfikowanych obserwacji.
16/34
Podstawowe problemyUczenie z nadzorem: Klasyfikacja
Klasyfikacja (ang. Classification):
Dysponujemy obserwacjami z etykietami(klasami), które przyjmują wartościnominalne.
Celem uczenia jest skonstruowanieklasyfikatora separującego obiektynależące do różnych klas.
Klasyfikator konstruowany jest tak, abymożliwe było przewidywanie klas nowych,niesklasyfikowanych obserwacji.
16/34
Podstawowe problemyUczenie z nadzorem: Klasyfikacja
Klasyfikacja (ang. Classification):
Dysponujemy obserwacjami z etykietami(klasami), które przyjmują wartościnominalne.
Celem uczenia jest skonstruowanieklasyfikatora separującego obiektynależące do różnych klas.
Klasyfikator konstruowany jest tak, abymożliwe było przewidywanie klas nowych,niesklasyfikowanych obserwacji.
16/34
Podstawowe problemyKlasyfikacja: Rozpoznawanie znaków
Cel: Określenie, jaki znak (cyfra, litera)znajduje się na obrazku.
Dane: Zestaw obrazków treningowychreprezentujących różne znaki wraz zkorespondującymi etykietami.
Wydobywane są cechy obrazkaróżnicujące reprezentowane znaki.
Na podstawie cech i wykorzystującdane treningowe wykonywana jestklasyfikacja obrazka do najbardziejprawdopodobnego znaku.
17/34
Podstawowe problemyKlasyfikacja: Detekcja obiektów
Cel: Wykrycie obiektu na obrazie.
Dane: Obraz na którym bada się wystąpienieobiektu, oraz zestaw obrazówtreningowych przedstawiających danyobiekt.
Do analizy obrazu wykorzystuje sięokno przesuwne.
W każdym kroku obraz z oknaprzesuwnego klasyfikowany jest jakoobiekt poszukiwany lub nie.
18/34
Podstawowe problemyKlasyfikacja: Detekcja SPAMU
Cel: Zbadać, czy dana wiadomość jestSPAMEM.
Dane: Zestaw zawierający zaetykietowanewiadomości mailowe.
Wydobywane są cechy (występowaniesłów) różnicujące SPAM od zwykłejpoczty.
Klasyfikacja nowej wiadomości odbywasię z wykorzystaniem wydobytych cech.
19/34
Podstawowe problemyKlasyfikacja: Credit Scoring
Cel: Zbadać zdolność kredytową klientabankowego.
Dane: Charakterystyki klientów bankowychpochodzące z systemówinformatycznych i kwestionariuszy.
Wydobywane są cechy mające wpływna decyzje kredytowe.
Klasyfikatory do oceny zdolnościkredytowej są powszechnie stosowanymnarzędziem.
20/34
Podstawowe problemyUczenie bez nadzoru: Klasteryzacja
Klasteryzacja (ang. Clustering):
Dysponujemy obserwacjami bez etykiet.
Celem uczenia jest znalezienie grup(klastrów), w których skupione są dane.
Obserwacje z danej grupy charakteryzująsię podobieństwem.
Inne nazwy: grupowanie, analizaskupień.
21/34
Podstawowe problemyUczenie bez nadzoru: Klasteryzacja
Klasteryzacja (ang. Clustering):
Dysponujemy obserwacjami bez etykiet.
Celem uczenia jest znalezienie grup(klastrów), w których skupione są dane.
Obserwacje z danej grupy charakteryzująsię podobieństwem.
Inne nazwy: grupowanie, analizaskupień.
21/34
Podstawowe problemyKlateryzacja: Grupowanie osób w sieci społecznej
Cel: Wyodrębnienie grup znajomych w siecispołecznej.
Dane: Dane o interakcji między osobami.
Wyodrębnione grupy znajomych przypomocy TouchGraph dla Facebook’a.
Znajomi w tych samych klastrachcharakteryzują się wewnętrznąinterakcją między sobą.
22/34
Podstawowe problemyUczenie bez nadzoru: Redukcja wymiarów
Redukcja wymiarów(ang. Dimensionality reduction):
Dysponujemy obserwacjami bez etykiet.
Celem uczenia jest znalezienieniskowymiarowej podprzestrzeni(rozmaitości), na której leżą dane.
Obserwacje mogą zostać zakodowaneprzy pomocy układu współrzędnychzwiązanego z niskowymiarowąpodprzestrzenią.
23/34
Podstawowe problemyUczenie bez nadzoru: Redukcja wymiarów
Redukcja wymiarów(ang. Dimensionality reduction):
Dysponujemy obserwacjami bez etykiet.
Celem uczenia jest znalezienieniskowymiarowej podprzestrzeni(rozmaitości), na której leżą dane.
Obserwacje mogą zostać zakodowaneprzy pomocy układu współrzędnychzwiązanego z niskowymiarowąpodprzestrzenią.
23/34
Podstawowe problemyRedukcja wymiarów: Kodowanie i kompresja zdjęć
Cel: Znalezienie twarzy bazowych rozpinających niskowymiarowąprzestrzeń.
Dane: Zdjęcia twarzy.
Wyróżnione M twarzy bazowych rozpina M -wymiarowąpodprzestrzeń w przestrzeni twarzy.
Twarze mogą być kodowane poprzez położenie na niskowymiarowejprzestrzeni.
Metoda może służyć, jako automatyczna ekstrakcja cech ze zdjęć.
24/34
Podstawowe problemyUczenie bez nadzoru: Uzupełnianie wartości
Uzupełnianie wartości(ang. Matrix completion):
Dysponujemy obserwacjami bez etykiet.
Celem uczenia jest znalezieniebrakujących wartości dlaniekompletnych obserwacji.
Obserwacje uzupełniane są poprzezwstawienie najbardziejprawdopodobnych wartości.
25/34
Podstawowe problemyUczenie bez nadzoru: Uzupełnianie wartości
Uzupełnianie wartości(ang. Matrix completion):
Dysponujemy obserwacjami bez etykiet.
Celem uczenia jest znalezieniebrakujących wartości dlaniekompletnych obserwacji.
Obserwacje uzupełniane są poprzezwstawienie najbardziejprawdopodobnych wartości.
25/34
Podstawowe problemyUczenie bez nadzoru: Uzupełnianie wartości
Uzupełnianie wartości(ang. Matrix completion):
Dysponujemy obserwacjami bez etykiet.
Celem uczenia jest znalezieniebrakujących wartości dlaniekompletnych obserwacji.
Obserwacje uzupełniane są poprzezwstawienie najbardziejprawdopodobnych wartości.
25/34
Podstawowe problemyUzupełnianie wartości: Rekonstrukcja obrazu
Cel: Odtworzyć zakłócony obraz.
Dane: Zestaw niezakłóconych zdjęć, orazzakłócony obraz do rekonstrukcji.
W oparciu o niezakłócone zdjęcia ianalizowany obraz konstruowany jestrozkład prawdopodobieństwa nabrakujące piksele.
Na podstawie rozkładu uzupełniane sąbrakujące wartości pikseli poprzezwstawianie wartości najbardziejprawdopodobnych.
26/34
Podstawowe problemyUzupełnianie wartości: Rekomendacja produktów
Cel: Zaproponować klientowi produkty,które skłonny jest kupić.
Dane: Produkty do tej pory kupione przezklienta i transakcje zrealizowane przezinnych klientów.
W oparciu o zakupiony koszykproduktów nabytych przez klienta izestaw transakcji konstruowany jestrozkład prawdopodobieństwa naprodukty.
Na podstawie rozkładu wybierane dorekomendacji są produktycharakteryzujące się najwyższymprawdopodobieństwem.
27/34
Reprezentacje wiedzyWiedza w postaci funkcyjnej
Wiedza reprezentowania jest w postacifunkcji i jej parametrów.
Proces podejmowania decyzji odbywa siępoprzez wyznaczenie wartości funkcji dlazadanych wartości argumentów.
Uczenie najczęściej odbywa się poprzezestymację parametrów w procesieoptymalizacji pewnego kryterium.
Przykład: f(WZROST,WAGA) =
2 ∗WAGA+WZROST − 320.
f(176, 85) = 26 > 0;
Wniosek: osoba, która ma 176 cm wzrostu iważy 85 kg jest rugbistą.
28/34
Reprezentacje wiedzyWiedza w postaci funkcyjnej
Wiedza reprezentowania jest w postacifunkcji i jej parametrów.
Proces podejmowania decyzji odbywa siępoprzez wyznaczenie wartości funkcji dlazadanych wartości argumentów.
Uczenie najczęściej odbywa się poprzezestymację parametrów w procesieoptymalizacji pewnego kryterium.
Przykład: f(WZROST,WAGA) =
2 ∗WAGA+WZROST − 320.
f(176, 85) = 26 > 0;
Wniosek: osoba, która ma 176 cm wzrostu iważy 85 kg jest rugbistą.
28/34
Reprezentacje wiedzyWiedza w postaci funkcyjnej
Wiedza reprezentowania jest w postacifunkcji i jej parametrów.
Proces podejmowania decyzji odbywa siępoprzez wyznaczenie wartości funkcji dlazadanych wartości argumentów.
Uczenie najczęściej odbywa się poprzezestymację parametrów w procesieoptymalizacji pewnego kryterium.
Przykład: f(WZROST,WAGA) =
2 ∗WAGA+WZROST − 320.
f(176, 85) = 26 > 0;
Wniosek: osoba, która ma 176 cm wzrostu iważy 85 kg jest rugbistą.
28/34
Reprezentacje wiedzyWiedza w postaci probabilistycznej
Wiedza reprezentowania jest w postacirozkładów prawdopodobieństwa.
Proces podejmowania decyzji odbywa siępoprzez wybór najbardziejprawdopodobnego wariantu.
Uczenie realizowane jest poprzez estymacjęrozkładów prawdopodobieństwa.
Przykład:
p(176, 85|rugbista) = 0.17;
p(176, 85|skoczek) = 0.01. Wniosek: bardziej prawdopodobne jest, że
jeśli osoba jest rugbistą, to ma 176 cmwzrostu i waży 85 kg.
29/34
Reprezentacje wiedzyWiedza w postaci probabilistycznej
Wiedza reprezentowania jest w postacirozkładów prawdopodobieństwa.
Proces podejmowania decyzji odbywa siępoprzez wybór najbardziejprawdopodobnego wariantu.
Uczenie realizowane jest poprzez estymacjęrozkładów prawdopodobieństwa.
Przykład:
p(176, 85|rugbista) = 0.17;
p(176, 85|skoczek) = 0.01. Wniosek: bardziej prawdopodobne jest, że
jeśli osoba jest rugbistą, to ma 176 cmwzrostu i waży 85 kg.
29/34
Reprezentacje wiedzyWiedza w postaci reguł decyzyjnych
Wiedza reprezentowania jest w postaci reguł decyzyjnych.
Każda reguła opisana jest w formie implikacji, na którą składa siękoniunkcja wartości atrybutów (lewa strona implikacji), oraz jedenz możliwych wariantów decyzyjnych (prawa strona implikacji).
Proces podejmowania decyzji odbywa się poprzez wybórodpowiedniej reguły (bądź reguł) decyzyjnych, która dotyczy(pokrywa) danego zagadnienia i na jej podstawie przeprowadzenieprocesu wnioskowania.
Uczenie polega na znalezieniu zestawu reguł najlepiej opisującychrzeczywistość.
Interpretowalna reprezentacja wiedzy.
Przykładowa reguła:
(Kwota kredytu > 700)∧(Dochod < 1100)⇒ (status = odmowa))
30/34
Reprezentacje wiedzyWiedza w postaci drzew decyzyjnych
Wiedza reprezentowania jest w strukturze drzewa.
Drzewo decyzyjne w wierzchołkach przechowuje atrybuty,krawędzie reprezentują podział wartości dla danego atrybutu,natomiast w liściach przechowywane są możliwe wariantydecyzyjne.
Proces podejmowania decyzji odbywa się poprzez przejście jednąz możliwych ścieżek w drzewie i odczytaniu wariantu decyzyjnegoz liścia.
Uczenie odbywa się poprzez wybór najbardziej informacyjnejcechy, umieszczenie jej w danym wierzchołku i wprowadzenienajbardziej informacyjnego podziału jej wartości.
Interpretowalna reprezentacja wiedzy.
Każda ścieżka reprezentuje odrębną regułę decyzyjną. Zbiórwszystkich ścieżek reprezentuje kompletny i niesprzeczny zestawreguł.
31/34
Reprezentacje wiedzyPrzykład drzewa decyzyjnego
Employment status
Duration of credit
Checking account
status
Personal status
Credit amount
good
bad
Credit amount
<0 $
> =13 000 $<13 000 $
full-time
part-time
good
bad
unemployment
Employment status
good
full-time
part-time
bad
>= 0 $
> =13 000 $<13 000 $
good
> =18 months
unemployment
<18 months
good
divorced or
widowed
good good bad
married single
32/34
Integracja wiedzy
Integracja wiedzy (bądź danych napotrzeby pozyskania wiedzy) odbywa sięgłównie celem:
podejmowania decyzji na podstawiewielu modeli;
wydobywanie interpretowalnejwiedzy na podstawie wielu modeli;
integracja danych rozłożonych danychw różnych obszarach przestrzeni.
33/34
Literatura
Należy zapoznać się z treścią książki(Rozdział 1 i 2):
Murphy, Kevin P. Machine learning: aprobabilistic perspective. MIT Press, 2012.
34/34