ritka események kezelése intelligens adatfeldolgozás segítségével
DESCRIPTION
Ritka események kezelése intelligens adatfeldolgozás segítségével. Autonóm és hibatűrő információs rendszerek Előadó: Kocsis Imre, fóliák: Salánki Ágnes ikocsis@ mit.bme.hu , salanki.agnes @ inf.mit.bme.hu 2013.12.02. Fontosak a szabályok…. Fontosak a szabályok…. Kivételek?. Kivételek?. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/1.jpg)
Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék
Ritka események kezelése intelligens adatfeldolgozás segítségével
Autonóm és hibatűrő információs rendszerek
Előadó: Kocsis Imre, fóliák: Salánki Á[email protected], [email protected]
2013.12.02.
![Page 2: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/2.jpg)
Fontosak a szabályok…
![Page 3: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/3.jpg)
Fontosak a szabályok…
![Page 4: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/4.jpg)
Kivételek?
![Page 5: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/5.jpg)
Kivételek?
![Page 6: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/6.jpg)
Alapfogalmak Ritka esemény
o Arányaiban ritkán fordul előo Hasonló
ok/következmény/jellemzők
o Ritka? Mennyire ritka?
Outlier/anomália o Egyetlen, a többitől független adatponto Semmilyen közös vonása nincs másokkal
![Page 7: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/7.jpg)
Sűrűségfüggvény emlékeztető
𝑝 [100 ≤𝑋 ≤110 ]=∫100
110
𝑓 (𝑥 )d 𝑥≈10×0.014=0.14
![Page 8: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/8.jpg)
Kétdimenziós sűrűségfüggvény
![Page 9: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/9.jpg)
Alapfogalmak Ritka esemény
o Arányaiban ritkán fordul előo Hasonló
ok/következmény/jellemzők
o Ritka? Mennyire ritka?
Outlier/anomália o Egyetlen, a többitől független adatponto Semmilyen közös vonása nincs másokkal
![Page 10: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/10.jpg)
Egy dimenzióban
![Page 11: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/11.jpg)
Két dimenzióban?
![Page 12: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/12.jpg)
Alapfogalmak
![Page 13: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/13.jpg)
Ritka események a gyakorlatban – dDOS
Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-
![Page 14: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/14.jpg)
R. események a gyakorlatban – SPAM detektálás
Kép forrása: D. Conway, J.M. Whyle: Machine Learning for Hackers
A SPAM valószínűsége
kisebb
A SPAM valószínűsége
nagyobb
A SPAM-ek száma
arányaiban sokkal kisebb
![Page 15: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/15.jpg)
R. események a gyakorlatban – csalásfelderítés
Kép forrása: http://visualizeit.wordpress.com/
X tengely: számlavezetők
Y tengely: tranzakciók száma / nap
színezés: mennyire biztos a csalás?
![Page 16: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/16.jpg)
Felügyelt és nem felügyelt tanulás Felügyelt tanulás
o Adott néhány pontra az elvárt kimenet iso a tanuló példákból való általánosításo Output: függvény
• a meglévő mintapontokra jól képez le • megfelelően általánosítható
Nem felügyelt tanuláso Nincs meg az elvárt kimeneto Visszajelzés nélkül építi a modellto szabályok, összefüggések keresése (ismeretfeltárás)
Tanulóhalmaz – amin építjük a modelltTeszthalmaz – amin ellenőrizzük
![Page 17: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/17.jpg)
Felügyelt és nem fel. tanulás – folyamatábra
Kép forrása: http://practiceovertheory.com/blog/2010/02/15/machine-learning-who-s-the-boss/
![Page 18: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/18.jpg)
Osztályozás alapfeladat
Képosztályozás: a képen látható objektum madár vagy repülő?
![Page 19: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/19.jpg)
Osztályozás alapfeladat
Levelek osztályozása: SPAM vagy nem SPAM?
![Page 20: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/20.jpg)
Osztályozás alapfeladat
Szabályok alapján Severity osztályozása
Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp
![Page 21: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/21.jpg)
Osztályozás Input: (, ), ahol
o változó vektoro az ún. osztálycímke
Osztályozás (klasszifikálás):o az ismert () párok alapján kitalálni az ismeretlen
osztálycímkék értékét (előre megadott lehetőségek közül)
Feladó – ismert vagy ismeretlen? Tárgy – tartalmazza-e a luxury szót? Üzenet tartalma – term-doc. matrix
SPAM?
![Page 22: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/22.jpg)
Osztályozás – alapfeladat
Osztálycímke?Attribútumok?
Input?Tanuló algoritmus?
![Page 23: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/23.jpg)
Példák osztályozási módszerekre – döntési fa
![Page 24: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/24.jpg)
Példák osztályozási módszerekre – döntési fa Döntési fák
oMinden szinten tesztelünk egy attribútumot, az értékek alapján kettévágjuk az értékkészletet
o Levelek: többségre döntünk Milyen attribútum szerint vágunk?
o Legjobb: legtöbb információt hordozza
Meddig menjünk?
![Page 25: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/25.jpg)
Döntési fa vs diagram Döntési diagrammal összekötni
Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD.
Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos
![Page 26: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/26.jpg)
Példák osztályozási módszerekre – naiv Bayes Bayes tétel
Naiv Bayes modello Számoljuk ki minden . osztályra a posteriori
valószínűségeket• , • stb.
o Döntsünk a legnagyobbra
![Page 27: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/27.jpg)
Példák osztályozási módszerekre – naiv Bayes Valószínűségi képlet kifejtése:
Naiv Bayes modell: feltételezzük, hogy az egyes attribútumok egymástól függetlenek
Valami konstans
![Page 28: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/28.jpg)
Példák osztályozási módszerekre – naiv Bayes Osztályozás menete
o Az ismert osztályváltozók alapján meghatározzuk az egyszeres feltételes valószínűségeket
o Kiszámítjuk a szorzat értékét
„A statisztikák szerint a SPAM levelek 45%-a tartalmazza a <HTML> taget és 20%-uk a <TABLE> taget. Ez a levél tartalmazza a <HTML> taget, de a <TABLE>-t nem. SPAM?”
![Page 29: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/29.jpg)
Csoportosítás Csoportosítás (clustering) – megtalálni az
egymáshoz hasonló elemeketo Output: klaszterek
Egymáshoz hasonló?
![Page 30: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/30.jpg)
Csoportosítási módszerek Középpont alapú
o a pont a hozzá legközelebb lévő középpont klaszterébe tartozik
o Pl. k-Means Kapcsolat alapú
o legalább egy ponthoz közelebb van a saját klaszterében, mint a többiekében
o Pl. single-link Sűrűség alapú
o a klaszterek sűrűség alapján felismerhetőeko Pl. DBScan
Egyéb
![Page 31: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/31.jpg)
Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb
![Page 32: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/32.jpg)
Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb
![Page 33: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/33.jpg)
Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb
![Page 34: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/34.jpg)
A különbség
Kép forrása: Ramaswamy S , Golub T R JCO 2002;20:1932-1941
![Page 35: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/35.jpg)
Kis kitérő: attribútumszelekció Emlékeztető: szondakiválasztás
o Függőségi mátrix: sorokban szondák, oszlopokban komponensek
o Keressük azt a minimális szondahalmazt, amiben minden hibára legalább 1 szonda jelez
Általánosítás: attribútumszelekcióo Bemeneti adatmátrix függőségi mátrixo Keressük azt a minimális attribútumhalmazt (vagy annak
egy transzformációját), ami elegendő információt szolgáltat az adathalmaz egészéről
Mi az, amit először dobunk el?
![Page 36: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/36.jpg)
Alapproblémák Detektálás
o Minden ritka osztályból legalább 1 reprezentáns megtalálásao Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis
időre leállt. Mikor? Jellemzés
o A reprezentánsok alapján a teljes ritka osztály megtalálásao Pl.: Tudjuk, hogy az adott pillanatban már nem élt a
szolgáltatás, mettől meddig tartott a kiesés? Analízis
o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők?
o Pl.: Mi okozta a leállást?
Miért nem jó erre egy klasszikus osztályozás/feature
selection?
![Page 37: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/37.jpg)
Majdnem jó módszerek Kiegyensúlyozatlan klasszifikáció
o Alulmintavételezzük amit már láttunk
Anomália detektáláso Olyan különálló pontokat keresünk, amik mindegyik mástól
különböznek
Klasszikus attribútumkiválasztáso Olyat keres, ami a többségire jó
Klasszikus klaszterezéso Sűrűség, kapcsolat alapú algoritmusok még akár jók is lehetnek
![Page 38: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/38.jpg)
Kiindulási feltételek Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
Kompaktságo A ritka osztályba tartozó elemek egymástól vett
távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
![Page 39: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/39.jpg)
Kiindulási feltételek Simaság
o A többségi osztály eloszlásfüggvénye megfelelően simaoMatematikája kell?
Kompaktságo A ritka osztályba tartozó elemek egymástól vett
távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
![Page 40: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/40.jpg)
FELÜGYELT DETEKTÁLÁS
Cél: minden ritka osztályból legalább egy reprezentánst megtalálni
![Page 41: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/41.jpg)
Feladat Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle a pontokat,
hogy a lehető leggyorsabban megtaláljuk a ritkákat?
Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni
Variációk egy témárao Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok
is?)
![Page 42: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/42.jpg)
Apriori információval,1 ritka osztály – NNDB Adottak: Amit keresünk: nagy lokális sűrűségváltások
Módszer? Ellenőrizzük a szomszédokat!
Analógia: sűrűség alapú klaszterezés vagy edge-detection a képfeldolgozásban
![Page 43: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/43.jpg)
Algoritmus1. -re , az adott ciklusban megengedhető maximális
sugár2. -re 3. Sejtett ritka elem: ,
amire maximális.4. Ha ritka, vége.5. Ha nem,
,ugrás 1-re.
|𝑁𝑁|=7|𝑁𝑁|=14
![Page 44: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/44.jpg)
Apriori információval – NNDB , na de mekkora legyen ?
Ötlet: ha a ritkák aránya , akkor legyen számítsuk ki -re a . legközelebbi elem távolságát: .
Legyen .
Ha a ritkák tényleg nagyon közel vannak egymáshoz,
akkor beleférnek egy körbe
![Page 45: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/45.jpg)
Változatok Több minor osztály?
oMint a bináris eset, csak addig kérdezünk, amíg minden osztályt meg nem találunk
Kevesebb apriori információ?o Adottak: és semmi más𝑆oMódszer: eloszlásbecslés, majd azon mesterséges
sűrűségszámítás
Relációs kapcsolatok is adottak?oMódosítani kell a hasonlóságszámítást
![Page 46: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/46.jpg)
Szintetikus adat
![Page 47: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/47.jpg)
Éles adat?
![Page 48: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/48.jpg)
Éles adat?
![Page 49: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/49.jpg)
Éles adat?
![Page 50: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/50.jpg)
Éles adat?
![Page 51: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/51.jpg)
Éles adat?
![Page 52: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/52.jpg)
FELÜGYELET NÉLKÜLI ANALÍZIS
Cél: megtalálni orákulum nélkül a ritka eseményeket és a jellemző attribútumokat
![Page 53: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/53.jpg)
Feladat Mi van akkor, ha nincs orákulum?
Input: bemeneti adathalmaz Output
o Ritka eseményeko Jellemző attribútumok
Ötlet: egyébként is projektálnánk valamilyen attribútumtérbe az adathalmazt – próbáljuk ki az összes megfelelő teret is
![Page 54: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/54.jpg)
Analízis, mint optimalizációs feladat
Célfüggvény:
Kompaktság: a ritka elemek közelebb vannak egymáshoz, mint a többiekhez
– dimenziószám (attribútumhalmaz
mérete)
Összesen ritka elemet feltételezünk
Összesen attribútumot várunk
![Page 55: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/55.jpg)
Partial Augmented Lagrangian Method Célfüggvény, peremfeltételek: túl sok a változó Gradiens módszer: előbb közelítjük -t, aztán -t
Működne-e a kimerítő keresés (mondjuk =100.000 𝑛 és =100)𝑑 ?
Célfüggvény:
![Page 56: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/56.jpg)
PALM szintetikus adatok𝑛=100 ,𝑛𝑝2=5 ,𝑑=4 ,𝑑𝑟=2
![Page 57: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/57.jpg)
Palm éles adatok? Nagyon érzékeny az attribútumok skálájára
oMB vs kB?o Ballooning adatok: csak 0 vagy 1, miközben néhány
CPU-adat fel van szorozva 1000-rel
Futásidő
![Page 58: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/58.jpg)
KARAKTERIZÁLÁS
Cél: megkeresni a ritka osztályok minden példányát
![Page 59: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/59.jpg)
Feladat Felügyelt detektáló algoritmus vége: legalább 1
ritka elem minden osztálybólo Jelölés: többi
Input: a biztosan többségi és biztosan ritka elemek indexei
Output: ritkának feltételezett elemek indexei
Ötlet: zárjuk be a ritkákat egy -dimenziós hipergömbbe, mert ők úgyis annyira közel vannak egymáshoz
![Page 60: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/60.jpg)
Karakterizálás, mint optimalizációs feladat
Célfüggvény:
𝜶𝟏
𝜷𝟏
𝜷𝟐
𝑹
![Page 61: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/61.jpg)
RACH – Rare Category Characterization Célfüggvény, peremfeltételek: túl sok a változó Ötlet: gradiens módszer
o Kiszámítjuk egy középponthoz az ideális -to Ha megvan, milyen pontokat fedtünk le, számítunk egy
új középpontot
Módosítás: vetített szubgradiens módszero Előbb egy ideális megoldást(pl. középpontra), aztán a
hozzá legközelebb lévő olyan, ami ki is elégíti a feltételeket
![Page 62: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/62.jpg)
Hátrányok Futásidő:
o Távoli pontok eldobásao „Okosítás”: pl. a ritka pontok úgyis mindenütt benne
vannak a gömbben, rájuk egyszerűbb számolni -dimenziós hipergömb néha túl általános
o Skálázás? Néha nem konvergál
![Page 63: Ritka események kezelése intelligens adatfeldolgozás segítségével](https://reader035.vdocuments.site/reader035/viewer/2022062720/568132f2550346895d99ad33/html5/thumbnails/63.jpg)
Alapproblémák Detektálás
o Minden ritka osztályból legalább 1 reprezentáns megtalálásao Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis
időre leállt. Mikor? Jellemzés
o A reprezentánsok alapján a teljes ritka osztály megtalálásao Pl.: Tudjuk, hogy az adott pillanatban már nem élt a
szolgáltatás, mettől meddig tartott a kiesés? Analízis
o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők?
o Pl.: Mi okozta a leállást?