warsaw data science meetup - mateusz grzyb · • 108 języków. • 92 państw. • 24 gatunków....

63
WARSAW DATA SCIENCE MEETUP

Upload: duongxuyen

Post on 28-Feb-2019

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

WA R S AW D ATA S C I E N C E M E E T U P

Page 2: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Mateusz Grzybkonsultant technologiczny Microsoft Polskamateuszgrzyb.pl

Page 3: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 4: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Plan prezentacji

1. Zbiory rozmyte.2. Logika rozmyta.3. Systemy rekomendacyjne.4. Przykład silnika rekomendacji wykorzystującego zbiory rozmyte.5. Pytania do was.6. Pytania do mnie.

Page 5: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Logika trójwartościowa - Jan Łukasiewicz

19651913 1970 1973 1982

Zbiory rozmyte - Lofti Zadeh

Niepełna informacja liniowa- Edward Kofler

Logika rozmyta- Lorfi Zadeh(A. Tarski, J. Łukasiewicz)

Zbiory przybliżone- Zdzisław Pawlak

"Miękkie" modelowanie - historia

Page 6: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 7: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Zbiory rozmyte

Page 8: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Zbiory rozmyte - zapis matematyczny

Page 9: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 10: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

185 cm - wysoki czy niski?

Page 11: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Losowy zbiór mężczyzn

Page 12: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Losowy zbiór mężczyzn

Page 13: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Losowy zbiór koszykarzy ligi NBA

Page 14: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Losowy zbiór koszykarzy ligi NBA

Page 15: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 16: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Co warto zapamiętać z teorii zbiorów rozmytych?• Istnieje wiele pośrednich stopni prawdy.• Nie istnieją tu pojęcia prawdopodobieństwa i szansy.• Każdy element zbioru to tzw. dwójka uporządkowana.• Każdy element może przynależeć do zbioru z dowolną wartością stopnia

przynależności z przedziału [0,1].

Page 17: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 18: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Logika rozmyta

Page 19: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Logika rozmyta - przykład

Page 20: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 21: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Silniki rekomendacji

Page 22: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Content based filtering

Systemy rekomendacyjne - metody filtrowania

Collaborative filtering

Rozwiązania hybrydowe

Filtrowanie w oparciu o indywidualne preferencje użytkownika

Filtrowanie w oparciu o preferencje użytkowników o podobnym guście.

Filtrowanie łączące obie metody.

Page 23: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Brak problemu "zimnego

startu"

Content based filtering - wady i zalety

Szybkość Daje gorsze rezultaty niż CF *

Page 24: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 25: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Silnik rekomendacji filmów z filtrowaniem opartym o logikę rozmytą• 2727 filmów.• 15986 aktorów.• 6563 słów kluczowych.• 1633 reżyserów.• 108 języków.• 92 państw.• 24 gatunków.

Page 26: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 27: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Filtrowanie filmów lubianych przez daną osobę.

21 3 4

Filtrowanie atrybutów filmów.

Wyznaczenie stopnia podobieństwa pomiędzy filmami.

Wyznaczenie współczynnika wsparcia rekomendacji

Etapy budowania silnika rekomendacji

Page 28: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Filtrowanie fimów lubianych przez daną osobę.

211 3 4

Filtrowanie atrybutów filmów.

Wyznaczenie stopnia podobieństwa pomiędzy filmami.

Wyznaczenie współczynnika wsparcia rekomendacji

Etapy budowania silnika rekomendacji

Page 29: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Kiedy możemy uznać, że użytkownik polubił dany film?

Page 30: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Kiedy możemy uznać, że użytkownik polubił dany film? - Przykład nr. 1.W skali 1-5 użytkownik ocenił "film A" na 4.

Stopień przynależności jest większy niż 0.5, a więc film można zaliczyć do zbioru filmów lubianych przez danego użytkownika.

Page 31: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Kiedy możemy uznać, że użytkownik polubił dany film? - Przykład nr. 2.W skali 1-5 użytkownik ocenił "film B" na 3.

Stopień przynależności jest równyniż 0.5, a więc filmu nie można zaliczyć do zbioru filmów lubianych przez danego użytkownika.

Page 32: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Filmy ocenione przez Dominika

Page 33: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Filtrowanie fimów lubianych przez daną osobę.

2 3 4

Filtrowanie atrybutów filmów.

Wyznaczenie stopnia podobieństwa pomiędzy filmami.

Wyznaczenie współczynnika wsparcia rekomendacji

Etapy budowania silnika rekomendacji

121

Page 34: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Filtrowanie atrybutów filmówObliczenie stopnia przynależności filmu do danego gatunku/aktora/języka/kraju produkcji.

Page 35: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Filtrowanie atrybutów filmów - "The Goodfather"

Tytuł GatunekThe Godfather Crime

The Godfather Drama

Page 36: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Filtrowanie atrybutów filmów - "Goodfellas"

Tytuł JęzykGoodfellas EnglishGoodfellas Italian

Page 37: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Filtrowanie atrybutów filmów - "Casino"

Tytuł GatunekCasino BiographyCasino CrimeCasino Drama

Page 38: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Filtrowanie fimów lubianych przez daną osobę.

4

Filtrowanie atrybutów filmów.

Wyznaczenie stopnia podobieństwa pomiędzy filmami.

Wyznaczenie współczynnika wsparcia rekomendacji

Etapy budowania silnika rekomendacji

1 132

Page 39: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Wyznaczanie stopnia podobieństwa pomiędzy filmamiDwie podstawowe metody:• Fuzzy Set Theoretic

• Fuzzy Theoretic Cosine

Page 40: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Wyznaczanie stopnia podobieństwa pomiędzy filmamiOstatecza forma wzoru na stopień podobieństwa pomiędzy filmami miała postać:

Page 41: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Wyznaczanie stopnia podobieństwa pomiędzy filmami - Przykład: "The Godfather" vs "Casino"

Tytuł Gatunek DoMThe Godfather Crime 0.667The Godfather Drama 0.333Casino Biography 0.5Casino Crime 0.333Casino Drama 0.167

Page 42: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Wyznaczanie stopnia podobieństwa pomiędzy filmami - Przykład: "The Godfather" vs "Casino"Fuzzy Set Theoretic

Fuzzy Theoretic Cosine

Page 43: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Wyznaczanie stopnia podobieństwa pomiędzy filmami

Tytuł Tytuł Stopień podobieństwaGoodfellas Casino 0.838Goodfellas The Godfather 0.587The Godfather Casino 0.512

Page 44: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Jakie filmy są do siebie najbardziej podobne?

Page 45: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 46: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Największe podobieństwo

Page 47: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Najmniejsze podobieństwo

Page 48: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Filtrowanie fimów lubianych przez daną osobę.

Filtrowanie atrybutów filmów.

Wyznaczenie stopnia podobieństwa pomiędzy filmami.

Wyznaczenie współczynnika wsparcia rekomendacji

Etapy budowania silnika rekomendacji

1 2 3 14

Page 49: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Wyznaczanie współczynnika wsparcia rekomendacji

Page 50: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Jakie filmy zarekomendujemy Dominikowi?

Page 51: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 52: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba
Page 53: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Która para filmów ocenionych przez Dominika była ze sobą najmocniej skoreowana?

Page 54: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Odp: "Chłopcy z ferajny" i "Kasyno"

Page 55: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Które para filmów z TOP 20 miała najmniejszy stopień podobieństwa?

Page 56: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Odp: Casablanba i Władca Pierścieni

Page 57: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Który film został zarekomendowany Dominikowi na pierwszym miejscu?

Page 58: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Odp: Donnie Brasco

Page 59: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Jakiego pojęcie używamy w teorii zbiorów rozmytych i logice rozmytej w alternatywie do

prawdopodobieństwa.

Page 60: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Odp: Stopnia przynależności

Page 61: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Jaka jest główna zaleta Content Based Filtering?

Page 62: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Odp: Brak problemu "zimnego startu".

Page 63: WARSAW DATA SCIENCE MEETUP - Mateusz Grzyb · • 108 języków. • 92 państw. • 24 gatunków. Filtrowanie filmów lubianych przez daną osobę. 1 2 3 4 Filtrowanie ... Odp: Casablanba

Materiały: mateuszgrzyb.pl/WDSKontakt: [email protected]