wykŁad 1 wprowadzenie w tematykę kursu - ii.pwr.edu.plzieba/[w1_miw].pdf · pojęcie wiedzy...

Wrocław University of Technology

WYKŁAD 1

Wprowadzenie w tematykę kursu

autor: Maciej Zięba

Politechnika Wrocławska

Informacje dotyczące zajęć

Cykl 8 wykładów.

Konsultacje odbywają się w sali 121 w budynku C3 w terminach(proszę o wcześniejsze potwierdzenie mailem):

PN, 8.00 - 9.00.

CZ, 11.00 - 13.00.

ND, 12.00 -13.00.

Kontakt do prowadzącego: [email protected].

Strona prowadzącego: http://www.ii.pwr.wroc.pl/~zieba/.

Na ostatnim wykładzie kolokwium zaliczeniowe.

2/34

http://www.ii.pwr.wroc.pl/~zieba/

Zawartość merytoryczna (1)

1. Zagadnienia podstawowe:

metody pozyskiwania, wykorzystywania i integracji wiedzy;

wprowadzenie niezbędnych pojęć związanych zprawdopodobieństwem;

typowe rozkłady dyskretne i ciągłe.

2. Modele probabilistyczne:

reprezentacja wiedzy w postaci modelu probabilistycznego;

wnioskowanie na podstawie modeli probabilistycznych;

ekstrakcja wiedzy z modeli probabilistycznych;

integracja modeli probabilistycznych;

złożone modele probabilistyczne.

3/34

Zawartość merytoryczna (2)

3. Modele funkcyjne, reguły i drzewa decyzyjne:

metody ekstrakcji wiedzy dla modeli funkcyjnych;

metody konstrukcji drzew i reguł decyzyjnych;

metody konstrukcji zespołów modeli;

metody integracji modeli o różnych reprezentacjach wiedzy.

4. Inne rodzaje reprezentacji wiedzy:

zbiory rozmyte;

ontologie;

5. Przykłady integracji wiedzy.

4/34

Pojęcie wiedzy

Pojęcie wiedzy po raz pierwszy wprowadziłPlaton. Uważał on, że wiedza to prawdziwe iuzasadnione przekonanie.

Arystoteles z kolei wyodrębnia wiedzęteoretyczną i praktyczną.

Podział wiedzy ze względu na kryteriumdoświadczenia:

Wiedza a priori jest niezależna od zmysłów idotyczy prawd ”absolutnych” lubuniwersalnych jakimi są prawa logiki, prawamatematyki.

Wiedza a posteriori jest wiedzą nabytąpoprzez zmysły i jej prawdziwość może byćobalona poprzez następne obserwacje.

5/34

Pojęcie wiedzy w sztucznej inteligencji

Pojęcie wiedzy w sztucznej inteligencji odnosi siędo struktur modeli reprezentujących pewne procesypodejmowania decyzji.

W zależności od procesu podejmowania decyzjiwiedza może być reprezentowana w postacirozmaitych struktur, takich jak funkcje, drzewa,grafy, reguły, bądź zbiory.

Wiedza może mieć charakter:

zrozumiały (interpretowalny);

niejawny (nieinterpretowalny).

Źródła wiedzy:

wiedza eksperta;

wiedza pozyskana z danych.

6/34

Uczenie maszynowe i eksploracja danych (1)

Uczenie maszynowe (ang. machine learning)to proces pozyskiwania wiedzy do rozwiązaniapewnego zadania w oparciu o doświadczeniei z wykorzystaniem pewnej miary jakości.

Wraz ze wzrostem doświadczenia, następujeprzyrost wiedzy potrzebnej do realizacjizadania mierzony z wykorzystaniem miaryjakości.

Eksploracja (ekstrakcja) danych (ang. datamining) to proces pozyskiwania wiedzy zdanych reprezentowanej przez pewne wzorce.

ZADANIEJaka to litera ?

DOŚWIADCZENIE

MIARA JAKOŚCI

7/34

Uczenie maszynowe i eksploracja danych (2)

Metody uczenia maszynowego:

są wykorzystywane jako narzędziaw procesach eksploracji danych.

mają wymiar teoretyczny;

modelują zjawiska wspomagającsię danymi;

modelują rzeczywistość w sposóbprobabilistyczny;

zorientowane głownie na modelenieinterpretowalne;

Metody eksploracji danych:

jako narzędzia wykorzystująmetody uczenia maszynowego.

mają wymiar praktyczny;

koncentrują się na analiziedanych;

modelują rzeczywistość w sposóbdeterministyczny;

zorientowane głownie na modeleinterpretowalne.

8/34

Dane w uczeniu maszynowym

Jeżeli rozważamy problem uczenia nadzorowanego (predykcji), tointeresuje nas znalezienie mapowania wartości wejściowych x nawartości wyjściowe y.

Mapowanie to odbywa się na podstawie tzn. zbioru uczącego(treningowego), który zawiera pary wejście-wyjście nazywaneprzykładami:

D = {(xn, yn)}Nn=1. Każdy element wejściowy xi zawiera zestaw wartości nominalnych i

liczbowych, które nazywane są cechami, bądź atrybutami.

Każdy element wyjściowy yi reprezentowany jest przez wartośćliczbową (regresja), bądź też nominalną (klasyfikacja).

Jeżeli rozważamy problem uczenia nienadzorowanego(deskrypcji) to interesuje nas znalezienie ”ciekawych wzorców” wdanych:

D = {xn}Nn=1.

9/34

Źródła danych

DANE BANKOWE

OBRAZY

DANE O KLIENTACH

DANE MEDYCZNE

DANE MAILOWE

DANE Z CZUJNIKÓW

DANE DŹWIĘKOWE

PORTALESPOŁECZNOŚCIOWE

DANE GIEŁDOWE

10/34

Problemy uczenia maszynowego

Uczenie z nadzorem (ang. supervised learning):

klasyfikacja (ang. classification);

regresja (ang. regression);

Uczenie bez nadzoru (ang. unsupervised learning):

grupowanie (klasteryzacja, analiza skupień) (ang. clustering);

redukcja wymiarów (ang. dimensionality reduction);

uzupełnianie wartości (ang. matrix completion).

Uczenie ze wzmocnieniem (ang. reinforcement learning).

11/34

Podstawowe problemyUczenie z nadzorem: Regresja

Regresja (ang. Regression):

Dysponujemy obserwacjami zodpowiadającymi im wartościamiciągłymi.

Celem uczenia jest skonstruowaniemodelu regresji na podstawie danych.

Model konstruowany jest tak, abymożliwe było przewidywanie nowychobserwacji.

12/34

Podstawowe problemyRegresja: Śledzenie ruchu

Cel: Wyznaczenie następnego położeniaobiektu.

Dane: Sekwencja obrazów z poruszającymi sięobiektami.

Na podstawie dotychczaszarejestrowanej sekwencji obrazówwyznaczane jest położenie obiektu.

13/34

Podstawowe problemyRegresja: Predykcja notowań giełdowych

Cel: Wycena akcji.

Dane: Notowania akcji z poprzednich okresóworaz inne czynniki wpływające na cenęakcji.

Na podstawie notowań historycznych iinnych czynników mających wpływ nacenę akcji budowany jest modelpredykcyjny.

Model aktualizowany jest zwykorzystaniem bieżących notowań.

14/34

Podstawowe problemyRegresja: Predykcja przeżywalności pooperacyjnej

Cel: Określenie jaki okres czasu pacjentprzeżyje po operacji.

Dane: Wyniki badań pacjentaprzeprowadzonych przed i po operacji,ogólna charakterystyka zdrowiapacjenta.

Na podstawie danych o pacjencienależy określić jaki okres czasuprzeżyje on po operacji.

15/34

Podstawowe problemyUczenie z nadzorem: Klasyfikacja

Klasyfikacja (ang. Classification):

Dysponujemy obserwacjami z etykietami(klasami), które przyjmują wartościnominalne.

Celem uczenia jest skonstruowanieklasyfikatora separującego obiektynależące do różnych klas.

Klasyfikator konstruowany jest tak, abymożliwe było przewidywanie klas nowych,niesklasyfikowanych obserwacji.

16/34

Podstawowe problemyKlasyfikacja: Rozpoznawanie znaków

Cel: Określenie, jaki znak (cyfra, litera)znajduje się na obrazku.

Dane: Zestaw obrazków treningowychreprezentujących różne znaki wraz zkorespondującymi etykietami.

Wydobywane są cechy obrazkaróżnicujące reprezentowane znaki.

Na podstawie cech i wykorzystującdane treningowe wykonywana jestklasyfikacja obrazka do najbardziejprawdopodobnego znaku.

17/34

Podstawowe problemyKlasyfikacja: Detekcja obiektów

Cel: Wykrycie obiektu na obrazie.

Dane: Obraz na którym bada się wystąpienieobiektu, oraz zestaw obrazówtreningowych przedstawiających danyobiekt.

Do analizy obrazu wykorzystuje sięokno przesuwne.

W każdym kroku obraz z oknaprzesuwnego klasyfikowany jest jakoobiekt poszukiwany lub nie.

18/34

Podstawowe problemyKlasyfikacja: Detekcja SPAMU

Cel: Zbadać, czy dana wiadomość jestSPAMEM.

Dane: Zestaw zawierający zaetykietowanewiadomości mailowe.

Wydobywane są cechy (występowaniesłów) różnicujące SPAM od zwykłejpoczty.

Klasyfikacja nowej wiadomości odbywasię z wykorzystaniem wydobytych cech.

19/34

Podstawowe problemyKlasyfikacja: Credit Scoring

Cel: Zbadać zdolność kredytową klientabankowego.

Dane: Charakterystyki klientów bankowychpochodzące z systemówinformatycznych i kwestionariuszy.

Wydobywane są cechy mające wpływna decyzje kredytowe.

Klasyfikatory do oceny zdolnościkredytowej są powszechnie stosowanymnarzędziem.

20/34

Podstawowe problemyUczenie bez nadzoru: Klasteryzacja

Klasteryzacja (ang. Clustering):

Dysponujemy obserwacjami bez etykiet.

Celem uczenia jest znalezienie grup(klastrów), w których skupione są dane.

Obserwacje z danej grupy charakteryzująsię podobieństwem.

Inne nazwy: grupowanie, analizaskupień.

21/34

Podstawowe problemyKlateryzacja: Grupowanie osób w sieci społecznej

Cel: Wyodrębnienie grup znajomych w siecispołecznej.

Dane: Dane o interakcji między osobami.

Wyodrębnione grupy znajomych przypomocy TouchGraph dla Facebook’a.

Znajomi w tych samych klastrachcharakteryzują się wewnętrznąinterakcją między sobą.

22/34

Podstawowe problemyUczenie bez nadzoru: Redukcja wymiarów

Redukcja wymiarów(ang. Dimensionality reduction):


Celem uczenia jest znalezienieniskowymiarowej podprzestrzeni(rozmaitości), na której leżą dane.

Obserwacje mogą zostać zakodowaneprzy pomocy układu współrzędnychzwiązanego z niskowymiarowąpodprzestrzenią.

23/34

Podstawowe problemyRedukcja wymiarów: Kodowanie i kompresja zdjęć

Cel: Znalezienie twarzy bazowych rozpinających niskowymiarowąprzestrzeń.

Dane: Zdjęcia twarzy.

Wyróżnione M twarzy bazowych rozpina M -wymiarowąpodprzestrzeń w przestrzeni twarzy.

Twarze mogą być kodowane poprzez położenie na niskowymiarowejprzestrzeni.

Metoda może służyć, jako automatyczna ekstrakcja cech ze zdjęć.

24/34

Podstawowe problemyUczenie bez nadzoru: Uzupełnianie wartości

Uzupełnianie wartości(ang. Matrix completion):


Celem uczenia jest znalezieniebrakujących wartości dlaniekompletnych obserwacji.

Obserwacje uzupełniane są poprzezwstawienie najbardziejprawdopodobnych wartości.

25/34

Podstawowe problemyUzupełnianie wartości: Rekonstrukcja obrazu

Cel: Odtworzyć zakłócony obraz.

Dane: Zestaw niezakłóconych zdjęć, orazzakłócony obraz do rekonstrukcji.

W oparciu o niezakłócone zdjęcia ianalizowany obraz konstruowany jestrozkład prawdopodobieństwa nabrakujące piksele.

Na podstawie rozkładu uzupełniane sąbrakujące wartości pikseli poprzezwstawianie wartości najbardziejprawdopodobnych.

26/34

Podstawowe problemyUzupełnianie wartości: Rekomendacja produktów

Cel: Zaproponować klientowi produkty,które skłonny jest kupić.

Dane: Produkty do tej pory kupione przezklienta i transakcje zrealizowane przezinnych klientów.

W oparciu o zakupiony koszykproduktów nabytych przez klienta izestaw transakcji konstruowany jestrozkład prawdopodobieństwa naprodukty.

Na podstawie rozkładu wybierane dorekomendacji są produktycharakteryzujące się najwyższymprawdopodobieństwem.

27/34

Reprezentacje wiedzyWiedza w postaci funkcyjnej

Wiedza reprezentowania jest w postacifunkcji i jej parametrów.

Proces podejmowania decyzji odbywa siępoprzez wyznaczenie wartości funkcji dlazadanych wartości argumentów.

Uczenie najczęściej odbywa się poprzezestymację parametrów w procesieoptymalizacji pewnego kryterium.

Przykład: f(WZROST,WAGA) =

2 ∗WAGA+WZROST − 320.

f(176, 85) = 26 > 0;

Wniosek: osoba, która ma 176 cm wzrostu iważy 85 kg jest rugbistą.

28/34

Reprezentacje wiedzyWiedza w postaci probabilistycznej

Wiedza reprezentowania jest w postacirozkładów prawdopodobieństwa.

Proces podejmowania decyzji odbywa siępoprzez wybór najbardziejprawdopodobnego wariantu.

Uczenie realizowane jest poprzez estymacjęrozkładów prawdopodobieństwa.

Przykład:

p(176, 85|rugbista) = 0.17;

p(176, 85|skoczek) = 0.01. Wniosek: bardziej prawdopodobne jest, że

jeśli osoba jest rugbistą, to ma 176 cmwzrostu i waży 85 kg.

29/34

Reprezentacje wiedzyWiedza w postaci reguł decyzyjnych

Wiedza reprezentowania jest w postaci reguł decyzyjnych.

Każda reguła opisana jest w formie implikacji, na którą składa siękoniunkcja wartości atrybutów (lewa strona implikacji), oraz jedenz możliwych wariantów decyzyjnych (prawa strona implikacji).

Proces podejmowania decyzji odbywa się poprzez wybórodpowiedniej reguły (bądź reguł) decyzyjnych, która dotyczy(pokrywa) danego zagadnienia i na jej podstawie przeprowadzenieprocesu wnioskowania.

Uczenie polega na znalezieniu zestawu reguł najlepiej opisującychrzeczywistość.

Interpretowalna reprezentacja wiedzy.

Przykładowa reguła:

(Kwota kredytu > 700)∧(Dochod < 1100)⇒ (status = odmowa))

30/34

Reprezentacje wiedzyWiedza w postaci drzew decyzyjnych

Wiedza reprezentowania jest w strukturze drzewa.

Drzewo decyzyjne w wierzchołkach przechowuje atrybuty,krawędzie reprezentują podział wartości dla danego atrybutu,natomiast w liściach przechowywane są możliwe wariantydecyzyjne.

Proces podejmowania decyzji odbywa się poprzez przejście jednąz możliwych ścieżek w drzewie i odczytaniu wariantu decyzyjnegoz liścia.

Uczenie odbywa się poprzez wybór najbardziej informacyjnejcechy, umieszczenie jej w danym wierzchołku i wprowadzenienajbardziej informacyjnego podziału jej wartości.

Interpretowalna reprezentacja wiedzy.

Każda ścieżka reprezentuje odrębną regułę decyzyjną. Zbiórwszystkich ścieżek reprezentuje kompletny i niesprzeczny zestawreguł.

31/34

Reprezentacje wiedzyPrzykład drzewa decyzyjnego

Employment status

Duration of credit

Checking account

status

Personal status

Credit amount

good

bad

Credit amount

<0 $

> =13 000 $<13 000 $

full-time

part-time

good

bad

unemployment

Employment status

good

full-time

part-time

bad

>= 0 $

> =13 000 $<13 000 $

good

> =18 months

unemployment

<18 months

good

divorced or

widowed

good good bad

married single

32/34

Integracja wiedzy

Integracja wiedzy (bądź danych napotrzeby pozyskania wiedzy) odbywa sięgłównie celem:

podejmowania decyzji na podstawiewielu modeli;

wydobywanie interpretowalnejwiedzy na podstawie wielu modeli;

integracja danych rozłożonych danychw różnych obszarach przestrzeni.

33/34

Literatura

Należy zapoznać się z treścią książki(Rozdział 1 i 2):

Murphy, Kevin P. Machine learning: aprobabilistic perspective. MIT Press, 2012.

34/34

wykŁad 1 wprowadzenie w tematykę kursu - ii.pwr.edu.plzieba/[w1_miw].pdf · pojęcie wiedzy...

Documents