megerősítéses tanulási módszerek éstompa/korszeruinftech_lev/1_rl.pdf · megerősítéses...
TRANSCRIPT
![Page 1: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/1.jpg)
MISKOLCI EGYETEM
GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR
Korszerű információs technológiák
Megerősítéses tanulási módszerek és
alkalmazásaik
Tompa Tamástanársegéd
Általános Informatikai Intézeti Tanszék
Miskolc, 2020. szeptember 18.
![Page 2: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/2.jpg)
Tartalom
Mesterséges intelligencia
Gépi tanulás története
Gépi tanulás típusai
A megerősítéses tanulás
Q-learning
SARSA
Fuzzy logika
FRIQ-learning
FRIQ-learning Maze, Pong alkalmazás példák
![Page 3: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/3.jpg)
Mesterséges intelligencia bevezető
Mi az MI?
több definíció létezik
2 dimenzió mentén
gondolati folyamatok, következtetés
viselkedés
Siker mérése az emberi teljesítményhez
Intelligencia ideális koncepciója -> racionalitás
egy rendszer akkor racionális ha a tudásához viszonyítva
helyesen cselekszik
![Page 4: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/4.jpg)
Mesterséges intelligencia meghatározása
Forrás: Sturat Russel, Peter Norvig: Mesterséges intelligencia modern megközelítéseben
![Page 5: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/5.jpg)
Mesterséges intelligencia – Turing-teszt
Alan Turing (1950) intelligenciára egy megfelelő definíció keresése
teszt
embertől való megkülönböztethetetlenség
akkor állja ki a próbát a gép, ha néhány írásos kérdés feltevése után
nem lehet eldönteni, hogy az írásos válasz egy embertől vagy a
géptől érkezett-e
fizikai kölcsönhatás (kérdező-számítógép) szándékos elkerülése
nem szükséges egy személy fizikai szimulációja az intelligenciához
Teljes Turing-teszt: videójelek feldolgozása
érzékelési képesség tesztelése is, gépi látás, robotika
60 év után is releváns
Nem sok erőfeszítés a teszt teljesítése érdekében
repülés – madarak utánzása -> aerodinamika
![Page 6: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/6.jpg)
Mesterséges intelligencia – Turing-teszt
MI területei
Természetes nyelvfeldolgozás (párbeszédek)
Tudásreprezentáció (információ tárolása)
Automatizált következtetés (tárolt információ alapján
következtetések levonása)
Gépi tanulás (új körülményekhez való
alkalmazkodás)
Gépi látás (objektumok érzékelése)
Robotika (objektumok mozgatása)
![Page 7: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/7.jpg)
A gépi tanulás története
1947-ben Arthur Lee Samuel
dáma játék, ami képes legyőzni a világbajnokot
motiváló okok:
szimbolikus számítás hatékonyságának bemutatása
szükség van PC-re az egyetemeken
20 évnyi fejlesztés gépi tanulás alappillérjeinek megalkotása
![Page 8: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/8.jpg)
A gépi tanulás
A gépi tanulás alapgondolata
egy ágens képességeinek javítása
mi az az ágens?:
ágens bármi lehet, amit úgy tekinthetünk, mint ami az
érzékelői segítségével érzékeli a környezetét, és
beavatkozói segítségével megváltoztatja azt.
az ágens viselkedését az ágensfüggvény írja le, ami az adott
érzékelési sorozatot egy cselekvésre képezi le.
![Page 9: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/9.jpg)
A gépi tanulás
A gépi tanulás egy eljárás, amely
a rendszerben változásokat hoz létre
a változtatások következtében a problémát a
rendszer már helyesebben oldja meg
alkalmazás területei:
képfeldolgozás
adatbányászat
hangfelismerés
optika karakterfelismerés
stb…
![Page 10: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/10.jpg)
A gépi tanulás formái
Felügyelt (ellenőrzött, supervised learning )
példákhoz helyes osztálycímkék
a feladat a még nem ismert példákhoz a hozzájuk tartozó
osztálycímke megmondása a minták alapján
(x1,y1),…(xi,yi): xi minta, yi osztálycímke
egyosztályos, kétosztályos, regressszió
Felügyelet nélküli (nem ellenőrzött, unsupervised learning
nem adottak az osztálycímkék
pl klaszterezés
Megerősítéses
reinforcement learning
![Page 11: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/11.jpg)
A megerősítéses tanulás
Egy módszer, amely
megerősítési információk alapján tanul
a környezetből érkező visszajelzések a
megerősítések (reward)
jutalmak/büntetések (sikerek/kudarcok)
cél: várható jutalmak maximalizálása (optimális
stratégia keresése)
Pl.: egy ismeretlen
játék játszása
![Page 12: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/12.jpg)
A megerősítéses tanulás típusa
Passzív
rögzített stratégia -> viselkedés
cél: stratégia jóságának megtanulása
Aktív
nincs rögzített stratégia
cselekvés választásának eldöntése (mohó például)
cél: cselekvésérték-függvény tanulása
![Page 13: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/13.jpg)
A megerősítéses tanulás elemei
állapot (s), akció (a), jutalom (r)
politika (policy)
jutalom függvény (reward function)
értékelő függvény (value funciton)
környezet modellje (model of the environment)
13
![Page 14: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/14.jpg)
Ágens-környezet modell
![Page 15: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/15.jpg)
Ágens-környezet modell – példa
![Page 16: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/16.jpg)
Ágens-környezet modell
ágens lehet bármi, ami (érzékelőivel) érzékeli a környezetét és
(beavatkozóival) megváltoztatja azt
környezet determinisztikus: következő állapota, csakis a jelenlegi
állapotától és a végrehajtott cselekvéstől függ
nem determinisztikus: következő állapotát nem határozza meg az előző állapot és a végrehajtott cselekvés
![Page 17: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/17.jpg)
Ágens-környezet modell
állapot (s), akció (a), jutalom (r), politika (π)
állapot: az ágens megfigyelése a környezetről
akció: cselekvés, ez hat a környezetre
jutalom: egyetlen szám
politika: állapot-akció leképezés
![Page 18: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/18.jpg)
Ágens-környezet modell
diszkrét idő ( t=1, 2, 3, …)
minden egyes t időpillanatban az ágens
megkapja a környezet
ez alapján választ egy akciót
a választott akció függvényeként kap egy
jutalmat
majd egy új állapotba kerül
az ágens célja: hosszú távon maximalizálja az
összegyűjtött jutalmakat
epizódikusság
![Page 19: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/19.jpg)
Ágens-környezet modell
19
st st+1
rt+1
at
st: állapot a t időpillanatban
at: a végrehajtott akció a t időpillanatban
rt+1: a kapott jutalom a t+1 időpillanatban
st+1: az új állapot
Πt(s, a): s-ben a lépés a t időpontban
![Page 20: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/20.jpg)
Ágens-környezet modell
Az összegyűjtött jutalmak összegét hozamnak
nevezzük:
ahol T, az utolsó időpillanat
ha nem beszélhetünk utolsó időpillanatról akkor:
gond: Rt végtelen lehet
megoldás: diszkontálás, a diszkontált hozam:
![Page 21: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/21.jpg)
Ágens-környezet modell
Összefoglalva, a hozamfüggvény a következő
formában írható fel:
γ a diszkontálási paraméter: a jelen állapot
jövőre vetíthetőségének mértéke.
mekkora súllyal vegyük figyelembe egy későbbi
állapot hasznosságát
értéke: [0;1]
![Page 22: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/22.jpg)
Ágens-környezet modell
A feladat realizálása:
interakció
a környezet modellje: az átmeneti valószínűségek és
jutalmak
cél: maximális várható jutalom, optimális stratégia
megtalálása
![Page 23: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/23.jpg)
A Markov-feltevés
Feltesszük, hogy a múlt nem számít
Markov-tulajdonság : egy folyamat jövőbeli
feltételezett állapota csak a jelenlegi állapottól függ,
még akkor is, ha ismerjük a korábbi történéseket
nincs „emlékezés”
az átmeneti valószínűség megadja az s′ állapotba
kerülés valószínűségét s állapotból a akció választása
mellett:
a várható jutalom:
azokra a feladatokra alkalmazható a megerősítéses
tanulás módszere, amelyek Markov-tulajdonságúak
![Page 24: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/24.jpg)
Az állapot értékelő függvény
Eπ jelöli a π politika követése melletti várható
értéket, a t tetszőleges időpillanatban.
Megadjuk az s állapotban a akció választásának
értékét a π politika mellett. Ezt Qπ (s,a) -val
jelöljük:
![Page 25: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/25.jpg)
A Bellman-egyenlet
Az előzőek alapján a következő egyenlet a Vπ -re
vonatkozó Bellman-egyenlet:
egy állapot hasznosságának meghatározása
egy állapot hasznossága, az állapotban tartózkodás
jutalmának és a következő állapot várható
hasznosságának összege
az állapotok hasznosságai a Bellman-egyenletek egy
rendszerének egyértelmű megoldásai
![Page 26: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/26.jpg)
A Bellman-egyenlet
Optimális:
V*(s): s-ből indulva
Q*(s,a): s-ben a
A Bellman-egyenlet megoldása:
dinamikus programozással
értékiteráció
minden egyes állapot hasznosságának számítása ->
optimális cselekvés választása
eljárásmód-iteráció
ha egy akció jobb mint a többi -> a releváns állapotok
hasznosságainak nagyságát nem szükséges precízen tudni -
>értékelés;javítás. Leáll ha nincs hasznosságváltozás.
![Page 27: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/27.jpg)
Megerősítéses tanulási algoritmusok
Q-learning
SARSA
Fuzzy Q-learning
FRI based Q-learning
Stb.
![Page 28: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/28.jpg)
Q-learning
az egyik leggyakrabban alkalmazott megerősítéses
tanulási módszer
Q – quality érték
Q(s,a): s-ben a végrehajtásának jósága -> Q(s,a) párok
->Q-függvény; Q-tábla
Update formula:
![Page 29: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/29.jpg)
Q-learning - algoritmus
![Page 30: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/30.jpg)
Q-learning - algoritmus
![Page 31: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/31.jpg)
SARSA
Szintén megerősítéses tanulási algoritmus
State-Action-Reward-State-Action
A Q-learning hasonló módszer
Update formula:
31
![Page 32: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/32.jpg)
SARSA - algoritmus
32
![Page 33: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/33.jpg)
Q-learning vs. SARSA
33
![Page 34: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/34.jpg)
RL alkalmazások
34
TD-Gammon (Tesauro, 1992)
Robotirányítási alkalmazások
inverz inga (cart-pole)
mountain- car
maze
pong
rc drift autó: video
és számos egyéb...
![Page 35: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/35.jpg)
Q-learning hátrány
35
lehetséges állapotok exponenciálisan sok száma
állapottér növekedése
Q-tábla növekedése
konvergenciája exponenciálisan lassú lehet
Kb. 10000 a kezelhető állapotok száma
Pl. n db állapotleíró, k részre osztva: kn az
állapotok száma
Egyik megoldási lehetőség
Fuzzy logika
![Page 36: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/36.jpg)
Fuzzy logika - röviden
A klasszikus halmazelmélet szerint az X tartományon definiált
A halmazba egy x ∈ X elem vagy beletartozik vagy sem
Leíró karakterisztikus függvény:
Az emberi gondolkodás működése más! Miért?
mert nincs éles elkülönítés
Pl. „hűvös van” kijelentés. Mi számít hűvösnek?
egy konkrét hőmérsékelt? 18 ◦C
vagy inkább egy tartomány? [8,11] ◦C
„kicsit hűvös van” kijelentéssel mi a helyzet?
homokkupac paradoxon
bizonytalanság…
![Page 37: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/37.jpg)
Fuzzy logika - röviden
Hogyan lehet ezt a bizonytalanságot matematikailag
kifejezni?
Megoldás: Fuzzy logika
1965 - Lotfi A. Zadeh
![Page 38: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/38.jpg)
Fuzzy logika - röviden
Az előző példában a [8,11] ◦C hőmérséklet tartományhoz
hűvös lingvisztikai változó hozzárendelése
A hozzárendelés egy tagsági függvény definiálja
µhűvös : [8◦C, 11◦C] → [0, 1]
µhűvös(t) = 1 -> t hűvös
µhűvös(t) = 0 -> t nem hűvös
általánosságban: µA(x) ∈ [0, 1] , x ∈ X
![Page 39: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/39.jpg)
Fuzzy logika - röviden
Tagsági függvény például
![Page 40: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/40.jpg)
Fuzzy logika - röviden
Tagsági függvény típusok
a „körülbelül 2” fogalmat reprezentáló különböző alakú fuzzy halmazok
![Page 41: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/41.jpg)
Fuzzy logika - röviden
Tagsági függvény jellemzők
fuzzy halmazok jelentősen különböző alakkal
modelltől függ, hogy adott fuzzy halmaz alakja
milyen legyen
háromszög vagy trapéz alak az elterjed
szakaszonként lineáris
![Page 42: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/42.jpg)
Fuzzy logika - röviden
Intervallumértékű fuzzy halmaz
valamely alaphalmazbeli elemhez rendelt tagsági érték a valóságban
rendelkezésre álló információkhoz képest gyakran túl precíz
megoldás: intervallumértékű fuzzy halmaz
az elemekhez rendelt tagságifüggvény-
értékek bizonytalanságát modellezi
két görbe- > az egyes elemek alsó és
felső korlátja
![Page 43: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/43.jpg)
Fuzzy logika - röviden
Fuzzy irányítási rendszer
![Page 44: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/44.jpg)
Fuzzy logika - röviden
Szabálybázis:
x ∈ X a bemeneti változó
y ∈ Y a kimeneti változó vagy következtetés,
X, illetve Y rendre a bemeneti, illetve kimeneti változók
alaphalmaza
A és B nyelvi változók.
A az R szabály antecedense (előzménye), B pedig az R szabály
konzekvense (következménye).
![Page 45: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/45.jpg)
Fuzzy logika - röviden
Illeszkedés mértékét meghatározó egység:
a szabálybázis antecedens elemeit hasonlítja össze
az aktuális megfigyelés függvényével vagy konkrét
értékével,
a tüzelő szabályoknál - tehát azon szabályoknál,
ahol az antecedens rész metszete a megfigyeléssel
nem üres –
meghatároz egy 0 és 1 közötti fuzzy illeszkedési
mértéket
![Page 46: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/46.jpg)
Fuzzy logika - röviden
Következtető gép:
lényege, hogy az illeszkedési mérték meghatározása
után a kapott súlyokat valamilyen módon a fuzzy
szabálybázisban található tüzelő
szabályok konzekvenseivel általában egy konjunkció
segítségével kombinálja.
![Page 47: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/47.jpg)
Fuzzy logika - röviden
Defuzzifikációs modul
a következtetési algoritmus eredményül fuzzy halmazt
ad
gyakorlati alkalmazások esetében numerikus értékre
van szükség
Fuzzy halmazból ki kell választani egy konkrték
értéket, amely a halmazt a legjobban jellemzi:
defuzzifikálás
különböző módszerek: COG, MOM, COA, COM, stb.
![Page 48: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/48.jpg)
Fuzzy logika - röviden
A hagyományos fuzzy következtetéssel működő fuzzy
rendszerek a szabály antecedensek és a megfigyelést leíró
nyelvi értékek illeszkedése alapján a szabály konzekvensek
súlyozott kombinációjaként határozzák meg a
következményt
Fedő szabálybázis
Ritka szabálybázis
![Page 49: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/49.jpg)
Fuzzy logika - röviden
Fedő szabálybázis:
azaz bármely bemenő adat
esetén léteznie kell legalább
egy olyan szabálynak
amelynek antecedense ε>0
mértékben fedi a
megfigyelést a bemeneti tér
minden dimenziójában
bármely megfigyelésre
kiértékelhető következtetést
eredményez
![Page 50: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/50.jpg)
Fuzzy logika - röviden
Ritka szabálybázis:
van olyan megfigyelés
amelyre nincs
következtetés
ekkor valamely fuzzy
szabály-interpolációs
módszer segítség ével
határozzák meg a
következményt.
![Page 51: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/51.jpg)
FRIQ-learning
Az előzőleg bemutatott Q-learning módszer
diszkrét állapot-akció térre alkalmazható
fuzzy modell bevezetésével azonban kiterjeszthető
folytonos állapot- és akciótérre
A fuzzy szabály interpoláció alapú Q-tanulás
(FRIQ-learning)
az FQ-learning (fuzzy Q-learning) kiegészítése
ritka szabálybázisok alkalmazhatósága
![Page 52: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/52.jpg)
FRIQ-learning
A diszkrét Q-learning fuzzy modell alkalmazásával
kiterjeszthető folytonos állapot-akció térre
Fuzzy Q-learning (FQ-learning)
E.g. 0-order Takagi-Sugeno Fuzzy Inference model
Probléma: a szabályszám exponenciálisan nő az
állapot dimenzió (antecedens) számával
Lehetséges megoldás: Fuzzy Rule Interpolation (FRI)
FQ-learning + FRI FIVE: FRIQ-learning
![Page 53: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/53.jpg)
FRIQ-learning példák
Nézzünk működő alkalmazásokat : )
Maze
Pong
![Page 54: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/54.jpg)
FRIQ-learning példák - Maze
2 állapot leíró
x pozíció: 0-8
y pozíció: 0-5
1 akció: elmozdulás (fel, le, jobbra, balra)
![Page 55: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/55.jpg)
FRIQ-learning példák - Pong
4 állapot leíró
labda x pozíció
labda y pozíció
labda iránya (6 eset)
ütő pozíciója
1 akció: elmozdulás (fel, le, semerre)
![Page 56: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/56.jpg)
FRIQ-learning példák
Matlab bemutató : )
![Page 57: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/57.jpg)
Felhasznált irodalom
Richard S. Sutton and Andrew G. Barto – Reinforcement Learning:
An Introduction
Peter Norvig, Stuart J. Russel – Mesterséges intelligencia – Modern
megközelítésben
http://project.mit.bme.hu/mi_almanach/books/aima/index
László T. Kóczy, Domonkos Tikk - Fuzzy rendszerek
57
![Page 58: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai](https://reader035.vdocuments.site/reader035/viewer/2022080720/5f79c970004c7e2d215f0765/html5/thumbnails/58.jpg)
Köszönöm a figyelmet!