skálázható kollaboratív filtering módszerek a netflix prize versenyen

17
Skálázható kollaboratív filtering módszerek a Netflix Prize versenyen The Budapest New Technology July Meeting 2008. július 2. Tikk Domonkos Gravity Research & Development Kft. web: http://gravitrd.com

Upload: uriel-oneil

Post on 30-Dec-2015

35 views

Category:

Documents


0 download

DESCRIPTION

Skálázható kollaboratív filtering módszerek a Netflix Prize versenyen. The Budapest New Technology July Meeting 2008. július 2. Tikk Domonkos Gravity Research & Development Kft. web: http://gravitrd.com. A feladat. A feladat. 1. 4. 3. 4. 4. 4. 2. 4. A feladat. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

Skálázható kollaboratív filtering

módszerek a Netflix Prize

versenyen The Budapest New Technology July Meeting

2008. július 2.

Tikk DomonkosGravity Research & Development Kft.web: http://gravitrd.com

Page 2: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

A feladat

Page 3: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

A feladat

1 4 3

4

4 4

4

2

Page 4: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

A feladat

A jelenség az (U, I, R) véletlen hármassal modellezhető.

U: felhasználó azonosító (értékkészlet: {1, …, M})

I: termék azonosító (értékkészlet: {1, …, N}) R: értékelés (értékkészlet: {r1, …, rL}) A jelenségnek egy (u, i, r) realizációja azt

jelenti, hogy az u. felhasználó az i. termékre r értékelést adott.

Page 5: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

A feladat

A cél: R becslése (U, I) alapján. Hibakritérium: várható négyzetes eltérés. Tehát a feladat egy klasszikus

regresszióbecslés. De!!! A klasszikus módszerek

a prediktorváltozók szokatlan volta miatt csődöt mondanak.

Page 6: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen
Page 7: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

Netflix verseny A Netflix DVD kölcsönző cég hirdette meg. Cél: az ajánlórendszerük RMSE hibájának

10%-kal való csökkentése. Fődíj: 1 millió dollár. Résztvevők: 170 országból 3000 csapat. Probléma dimenzió: M ≈ 500000, N ≈ 20000. Tanító készlet: ~100 millió db (felhasználó,

film, értékelés, dátum) négyes. Validációs készlet: ~1.5 millió db

(felhasználó, film, dátum) hármas.

Page 8: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

Megközelítések Mátrix faktorizáció: közelítsük az

értékelésmátrixot két alacsonyabb rangú mátrix szorzatával!

Szupport alapú módszerek: jellemezzük a felhasználókat a binarizált értékelésmátrix alapján!

Szomszéd módszerek: definiáljunk hasonlóságot az értékelésmátrix sorai vagy oszlopai között!

Boltzmann-gép: sztochasztikus, visszacsatolt neurális hálózat.

Page 9: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

Mátrix faktorizáció

Ötlet: közelítsük az értékelésmátrixot két alacsonyabb rangú mátrix szorzatával!

R ≈ P ∙ Q R: értékelésmátrix, (M x N)-es P: felhasználójellemző mátrix, (M x K)-s Q: termékjellemző mátrix: (K x N)-es Probléma: rengeteg (akár 10 millió)

paraméter, R egy része ismeretlen. Megoldás: inkrementális gradiens módszer.

Page 10: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

1 4 3

4

4 4

4

2

1,4

-0,2

0,8

0,5

-1,3

-0,4 1,6

-0.1 0.5

0,3

1,2 -0,51,1 -0,4

1,2 0,9

0,4 -0,4

1,2 -0,3

1,3

-0,1

0,9

0,4

1,1 -0,2

1,5

0,0

1,1 0,8

-1,2

-0,3

1,2 0,9

1,6

0,11,5

0,0

0,5 -0,3

-1,1

-0,2

0,4 -0,20,5 -0,1

0.6

0,2

P

Q

R

Page 11: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen
Page 12: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

1 4 3

4

4 4

4

2

1,5

-1,0

2,1

0,8

1,0

1,6 1,8

0.7 1.6

0,0

1,4 1,1

0,9 1,9

2,5 -0,3

P

Q

R3.3 2.4

-0.5 3.5 1.5

1.14.9

Page 13: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

2D mátrixfaktorizáció

Ötlet: Jellemzőket síkban helyezzük el Hasonló jellemzők legyenek közel egymáshoz Gradienst számolunk, de a szomszédokat is frissítjük

Consantine film mátrixa

Page 14: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

2D mátrixfaktorizáció

Mátrix triológia jellemzőmátrixai, azonos a faktorizációval készítve

Page 15: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

ha 2 film hasonló értékeléseket kapott, akkor a 2 film hasonlóha 2 film hasonló, akkor hasonló értékeléseket kellFilm-szomszéd módszer: a felhasználó által értékelt hasonló filmek értékelései alapján következtetünkUser-szomszéd módszer: a film-szomszéd módszer duálisa”

Szomszéd módszerek

Page 16: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

fjk: a k. filmről következtet a j. filmre• sjk: a j. és a k. film közti hasonlóság• sjk:=|rjk|α

Film-szomszéd módszerek

rjk pontatlan, ha kevés közös értékelés vansjk számolható egy MF film-jellemzői alapján is.Az MF film-jellemzőket beszorozhatjuk a user jellemzőivelcsak a K leghasonlóbb film alapján következtetünk

a film átlagos értékelését is figyelembe vesszük, β súllyal.

Page 17: Skálázható kollaboratív filtering módszerek  a  Netflix Prize versenyen

A versenyen vezető csapatok, 2006-07