asynchronous peer-to-peer data mining with stochastic ...ihegedus/publ/phd_prez2.pdftitle:...
TRANSCRIPT
![Page 1: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/1.jpg)
Peer-to-peer (P2P) gépi tanulás
Hegedűs István
![Page 2: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/2.jpg)
Motiváció• Adatokban rejlő információk kinyerésének
fontossága adatbányászat, gépi-tanulás, modell építés– Különböző módszerekkel összegyűjtött adatok
feldolgozása– Adathalmazokban rejlő minták azonosítása– Minták (osztályok) egymástól való elkülönítése
• Lehetséges felhasználási területek:– Spam szűrés– Vélemény detekció– Ajánló rendszerek
![Page 3: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/3.jpg)
Motiváció
• Napjainkban rengeteg információkeletkezik „lokálisan” (szenzor hálózatok, „okos” telefonok)– Adatok „centralizálása” modell építése– Modell építése centralizálás nélkül p2p
pletyka alapú algoritmusok alkalmazása• (személyes információk a lokális gépen maradnak
meglévő algoritmusainkat át kell alakítanunk)
![Page 4: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/4.jpg)
Rendszer- és adatmodell• Adott számítógépek (node, peer) egy hálózata• Az adatbázis el van osztva a hálózaton
– Node-onként egy vagy csak néhány példa• A node-ok el tudják kérni egy véletlenszerűen
választott node címét a hálózatban– a NewsCast nevű protokoll segítségével
• Egy node üzenetet tud küldeni egy másik node-nak, ha ismeri a címét
• Cél: modell építése üzenete segítségével, de lokális számítást alkalmazva
![Page 5: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/5.jpg)
• Két-osztályos eset– Adottak tanító példák,
ahol és– Feladat: keresünk egy modellt ,amely
helyesen szét tudja választani a különböző osztályba tartozó példákat minimalizálja az alábbi formulát
– Lineáris esetben a modell egy dimenziós hiperpsíknak ( ) felel meg
• Egy lehetséges módszer a keresett modell megtalálására a sztochasztikus gradiens módszer (SGD)
Osztályozás
![Page 6: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/6.jpg)
Stochastic Gradient Descent (SGD)centralizált eset
• A SGD egy optimalizálási módszer, amely egy előre definiált függvény ( ) minimumának a helyét próbálja megtalálni gradiens lépé-sek sorozatával.
• Minden egyes iterációban egyetlenvéletlenül választott példa segítsé-gével kiszámolja az gradiens lépést és frissíti a modellt
• Miért SGD: mivel iterációnként ele-gendő egy példa az egész adatbá-zis helyett
![Page 7: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/7.jpg)
Stochastic Gradient Descent (SGD)centralizált eset
• Legyen a hibafüggvény
• Ekkor a gradiens
• Így a gradiens alapú frissítés
• De mivel az SGD egy példaalapján frissít
![Page 8: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/8.jpg)
P2P SGD• Ötlet: a modellek node-ról node-ra „ugrálnak” és
frissítik magukat az ott található tanító példa segítségével
• Az algoritmus megegyezik az eredeti SGD algoritmus egy „kifordított” változatával– Ha tudjuk garantálni a mintázás véletlenszerűségét,
akkor az algoritmusunk ugyan abba az optimumba konvergál
• További előnyök: az adatok sosem hagyják el a node-okat, személyes, érzékeny információk helyben maradnak
![Page 9: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/9.jpg)
P2P adatbányász keretrendszer
NetworkNode
![Page 10: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/10.jpg)
P2P adatbányász keretrendszer
NetworkNode join
![Page 11: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/11.jpg)
P2P adatbányász keretrendszer
NetworkNode join
Model Initialization
![Page 12: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/12.jpg)
P2P adatbányász keretrendszer
NetworkNode joinj
Model Initialization
![Page 13: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/13.jpg)
P2P adatbányász keretrendszer
NetworkNode joinj
wait(Δ)
Model Initialization
![Page 14: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/14.jpg)
P2P adatbányász keretrendszer
NetworkNode joinj
p
wait(Δ)select
Model Initialization
![Page 15: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/15.jpg)
P2P adatbányász keretrendszer
NetworkNode joinj
p
model
wait(Δ)select and send
Model Initialization
![Page 16: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/16.jpg)
P2P adatbányász keretrendszer
NetworkNode joinj
p
model
update, store
wait(Δ)select and send
Model Initialization
![Page 17: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/17.jpg)
• Pegasos SVM– SGD alapú ML algoritmus– Egy olyan szeparáló hiper-
síkot keres ( ), amely még maximalizálja a „margót” is
SGD alapú Support Vector Machines (SVM)
![Page 18: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/18.jpg)
P2Pegasos SVM algoritmus
• Definiálnunk kell az updateModel és az initModelmetódusokat a különféle ML algoritmusok imple-mentálásához
• Pegasosesetén:
![Page 19: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/19.jpg)
P2Pegasos SVM algoritmus
• Definiálnunk kell az updateModel és az initModelmetódusokat a különféle ML algoritmusok imple-mentálásához
• Pegasosesetén:
![Page 20: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/20.jpg)
P2Pegasos SVM algoritmus
• Definiálnunk kell az updateModel és az initModelmetódusokat a különféle ML algoritmusok imple-mentálásához
• Pegasosesetén:
![Page 21: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/21.jpg)
P2Pegasos SVM algoritmus
• Definiálnunk kell az updateModel és az initModelmetódusokat a különféle ML algoritmusok imple-mentálásához
• Pegasosesetén:
![Page 22: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/22.jpg)
P2Pegasos SVM algoritmus
• Definiálnunk kell az updateModel és az initModelmetódusokat a különféle ML algoritmusok imple-mentálásához
• Pegasosesetén:
![Page 23: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/23.jpg)
P2Pegasos SVM algoritmus
• Definiálnunk kell az updateModel és az initModelmetódusokat a különféle ML algoritmusok imple-mentálásához
• Pegasosesetén:
![Page 24: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/24.jpg)
• Minden node megtartja az utolsó néhány fogadott modellt és azok alapján predikál– Egy modell esetén
– Több modell esetén (szavaztatás)
Predikció – kiértékelés
![Page 25: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/25.jpg)
Kommunikációs költség
• A módszer kommunikációs költsége megegyezik a „pletyka” alapú módszerek költségével– Minden node a hálózatban Δ időközönként
küld egy modellt egy véletlenszerűen választott node-nak
– O(n) a hálózatban– O(1) node-onként– Tartalmazza a peer szelekció költségét is
![Page 26: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/26.jpg)
Algoritmus összefoglaló
• Véletlen séta alapú P2P SGD módszer– Modell küldés példa „gyűjtögetés” helyett
• Node-ok modelleket gyűjtenek– Sima és szavaztatott predikció
• Lokális számítások és kiértékelés– Nincs extra kommunikációs költség
• Minden node a hálózatban ugyan azt az algoritmust futtatja
![Page 27: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/27.jpg)
Tesztelés• PeerSim szimulációs környezet• NewsCast alapú peer szelekció• A 10 utolsó modell használata szavaztatás esetén• Baseline-ok: Pegasos, SVMLight• Adatbázisok: Iris, Reuters, SpamBase, Malicious• Esetek:
– Hibamentes (No Failure)– Üzenet vesztéses (Drop only): 0.5 valószínűség– Késleltetéses (Delay only): [Δ, 10Δ] –ből véletlenszerűen– Churn (Churn only): Log-normal eloszlásból– Minden együtt (All Failures)
![Page 28: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/28.jpg)
Adatbázis jellemzők
![Page 29: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/29.jpg)
Hálózati hibák hatásai
![Page 30: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/30.jpg)
Méret és tanulhatóság• Nincs összefüggés
az adatbázis mérete és tanulhatósága között
• A tanulhatóság inkább az adatbázis struktúrájától függ, mint a méretétől
![Page 31: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/31.jpg)
Konvergencia
• A teljesítmény és a modell hasonlóság között összefüggés van
• A modell hasonlóság nő a teljesítménnyel– mivel a modellek
ugyan abba az op-timumba konvergál-nak
![Page 32: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/32.jpg)
További eredmények
![Page 33: Asynchronous Peer-to-peer Data Mining with Stochastic ...ihegedus/publ/phd_prez2.pdfTitle: Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent Author: ��Heged](https://reader033.vdocuments.site/reader033/viewer/2022051605/60101039cdba804d1b6cac29/html5/thumbnails/33.jpg)
Összefoglaló
• P2P SGD alapú keretrendszer bemutatása• A keretrendszerbe a Pegasos SVM
implementálása valamit az algoritmus tesztelése
• Elvárt teljesítmény sikeres elérése P2P esetben
• Az algoritmus extrém környezetben is megfelelően működik