adaptácia na rýchle zmeny prostrediamraz/evorob/predn9n.pdf · adaptácia na rýchle zmeny...
TRANSCRIPT
Adaptácia na rýchle zmenyprostredia
Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí sdravcami, rôznymi druhmi potravy a inými objektmiorganizmus sa skladal z 2 modulov:
výkonný – vrstevnatá NS s dopredným šírením; výstup sú pravdepodobnostivykonania akciívyhodnocovací – výstupom je spätná väzba – učiaci signál; závisí na zmenáchvýstupu hodnotiaceho modulu v čase
genetický algoritmus vyvíjal váhy pre výkonný i vyhodnocovací modul, alepočas života jedinca sú váhy výkonného modulu menené na základespätnej väzby z vyhodnocovacieho modulu
kladná hodnota zvyšuje váhu a záporná znižujefinálne váhy sa do genotypu naspäť neprepisujú
organizmy sa môžu reprodukovať, keď majú dostatok energie a blízko sebapartnera, ktorý je pripravený k reprodukcii
Ackley, Littman
akcie
pravdepodobnosti
vstupy
výkonný modul
spätná väzba
vstupy
vyhodnocovací modul
Adaptácia na rýchle zmenyprostredia
potomkovia vznikajú krížením a mutáciouorganizmus zomiera, keď je starý alebo nemá energiuautori porovnávali1. Evolúcia bez učenia2. Učenie bez evolúcie3. Evolúcia s učením – evolutionary reinforcement learning (ERL)
ERL – najvýkonnejšie; viac než 3000 generáciíprvých 600 generácií sa jedinci museli učiť hľadať potravuneskôr to už vedeli od „narodenia“evolúcia formovala učenie – autonómne samo-učenie, ktoré rozhodovalo kedy ačo sa učiť
Nolfi, Parisi - premenlivé steny
Khepera má nájsť cieľ v aréne, kde steny môžu meniť farbu (ibasimulovaný experiment)aréna 60x20 cm, cieľ – kruh s priemerom 2 cm náhodne umiestnenýKhepera nepozná, či našla cieľ, ale fitness je tým vyššia, čím skôr nájdecieľ – má čo najefektívnejšie preskúmať arénu2 prostredia
tmavé steny – musí sa pohybovať opatrne, keď „vidí“ stenu, tak je užveľmi blízko pri stenesvetlé steny – aby preskúmala celú plochu, tak sa stenám musí vyhýbaťaž pri veľmi silnom signále zo senzorov
Premenlivé steny
Robot nevie do ktorého prostredia sa dostal – musí to rozlíšiť anaučiť sa adekvátne pohybovať
4 vstupy – infračidlá združené po dvoch4 výstupy
2 rýchlosti motorov2 učiace signály
učenie delta-pravidlom2 podsiete – štandardná a učiacavšetky váhy sú geneticky vyvíjané, aleváhy štandardnej sa môžu meniť počasživota jedinca; váhy učiacej sa počasživota nemenia
motory učenie
senzory
Výsledky
Učenie závisí od váh učiacej podsiete (nemenných) a odsenzorových vstupov (závisia na prostredí)porovnanie
učení x neučení – učení lepší po pár generáciáchdospelí učení v oboch prostrediach, testovaní každý v obochprostrediach
vo „svojom prostredí“ jasne lepšie
učení v dvoch rôznych prostrediachiné úrovne vstupných signálov po celý životiné úrovne signálov na rovnakých senzoroch (porovnávali sa najaktívnejšie)
vyvinutí učiaci sa jedinci x vyvinutí neučiaci sa jedincipred učením – učiaci sa boli horšípo učení – učiaci sa boli lepšíteda jedinci boli vyberaní podľa toho ako sa dokážu učiť
Predispozície k učeniu
počiatočné podmienky (napr. počiatočné váhy)evolúcia môže zvoliť počiatočné váhy vhodné na učenie
keď nechali jedincom náhodné počiatočné váhy, tak sa síce celý život učili,ale neboli príliš úspešní – chyba klesala, ale efektivita prehľadávania sanemenila
predispozícia učiť sa prehľadávať – v zdedených váhach štandardnejsiete, ale tiež v zdedených váhach učiacej siete
pri náhodných váhach učiacej siete – mizerný výkonpri riadení robota učiacimi signálmi – tiež
nájdené siete mali predispozíciu k učeniu, nie k chovaniu; chovanievziká emergentne interakciou štandardných váh, učiacich váh aprostrediavyvinutí jedinci majú predispozície k voľbe užitočných skúseností
po „narodení“ sa správajú tak, aby zosilnili vnímateľné rozdiely medziprostrediami a mohli sa naučiť 2 rôzne správania pre rôzne prostredia
Záver
Evolučné učenie sa líši od tradičnéhotradičné učenie nezohľadňuje vlastnosti jedinca pred učenímevolučné učenie ich využíva
evolúcia učiacich pravidielkratší genómjedinci sú vyvíjaní pre ich schopnosť prispôsobovať sa prostrediu avyvíjať si chovanie, ktoré vyhovuje selekčnému kritériutakto vyvinuté roboty sú schopné sa „preučiť“ aj bez ďalšiehoevolučného vývoja
Kompeptitívna ko-evolúcia
Súčasná evolúcia dvoch alebo viacerých populácií s previazanoufitness funkciousúťaženie populácií môže postupne viesť k stále zložitejšímsprávaniam „preteky v zbrojení“, napr. korisť-dravecinkrementálne učenie - postupná zmena fitness a prostredia - veľmiúspešné, ale vyžaduje dobré plánovanie od experimentátorakorisť-dravec: na začiatku môžu mať obidve populácie jednoduchéstratégie, ktoré si postupne v súťaži zdokonaľujúk zlepšovaniu dochádza aj keď sa nemení ani prostredie aniselekčné kritériáv priebehu života sa jedinec stretne s určitým počtom súperov z tejistej alebo dvoch generácií; takíto súperi sa postupne zdokonaľujútakže vyvinuté stratégie sa zdokonaľujú
Kompetitívna ko-evolúcia
porovnanie s evolúciou dravcov proti nemennej koristimenej obecná stratégia, ak sa korisť zmení, tak nemusí fungovaťak sa začína vývoj proti dokonalej koristi, tak nevyvinutí dravci ničnechytia a nefunguje selekcia
ko-evolúcia môže pomôcť vyhnúť sa lokálnym minimámhistoricky prvý model - 1925-26 Lotka, VolteraN1 hustota populácie dravcovN2 hustota populácie koristi
r1 prírastok koristi bez dravcov, r2 úbytok dravcov bez koristi, b1 úbytokkoristi požieraním dravcami, b2 schopnosť dravcov uloviť korisť
( ) ( ),, 12222
21111 NbrN
tNNbrN
tN
+−=∂∂
−=∂∂
Problémy
Rovnice nepostihovali vývoj druhov
ko-evolúcia nemusí viesť z zdokonaľovaniu jedincov - vývojs cyklicky sa opakujúcimi stratégiami
- úplne sa eliminujú výhody súťaže
zmena v jednom druhu zmení fitness druhého druhu „efekt červenejkráľovnej“ (Alenka v ríši divov) - pokrok sa nedá sledovaťmonitorovaním priemernej alebo najlepšej fitness
A1>B1A1<B2A2>B2A2<B1
A1 B1A1 B2A2 B2A2 B1A1 B1A1 B2M
Problémy ko-evolúcie
Ako sledovať vývoj?
Pravdepodobnosťreprodukcie
Priestor genotypu
I
Evolúcia jedného druhu
Priestor genotypu
I
Ko-evolúcia dvoch druhov
II
fitness
generácie generácie
pri ko-evolúcii nestačísledovať fitness, pretožetá zavísí na meniacej sastratégii súťažiacehodruhu
Problémy ko-evolúcie
Monitorovanie ko-evolučného pokroku:CIAO (Current Individual vs. Ancestral Opponents) - najlepšíz generácie proti najlepším súperom z prechádzajúcich generáciímajstrovstvá - najlepší z generácie proti najlepším zo všetkých (ajneskorších) generácií (dá sa použiť na výber najlepšieho v prípadeoptimalizácie)
Už bola úspešne použitá pri vývojitriediacich programov - súperom boli parazitné programy, ktoré volilitestovacie podmienky pre triediace programyhráča pre Tic-Tac-Toe
Ciele
Rola ko-evolúcie v robotikekedy ko-evolúcia vedie k „pretekom v zbrojení“
ukážeme experimenty, kde dostaneme rôznorodé stratégie, ale pokrátkom čase sa vývoj dostane do cykluopakovanie sa dá obmedziť - „sieň slávy“: uchovávame všetky vminulosti objavené stratégie a používame ich na testovanie každéhojedinca
- biologicky neadekvátne- nemusí viesť k lepšiemu výkonu (jednoduchá ko-evolúcia môže byťlepšia)
ukážeme, že ko-evolúcia dokáže riešiť problémy, na ktoréjednoduchá evolúcia nestačí
Ko-evolúcia robotického dravca akoristi
Kombinácia experimentov na reálnych robotoch a simuláciearéna 47x47 cm s bielymi stenami, dravec:
Khepera s lineárnym videním; 64 pixelov s 256 stupňami šedi, zornýuhol 36°dravec „vidí“ korisť ako čiernu škvrnu na bielom pozadí8 infra senzorov; detekujú stenu na 3 cm, druhého robota na 1,5 cm
korisť:korisť dvakrát rýchlejšia než dravec8 infra senzorov; detekujú stenu na 3 cm, druhého robota na 1,5 cm
oba roboty detekujú dotyk druhého robota (vodivý prúžok okolorobota)
Dravec - korisť
Riadenie - NS s rekurentnými spojmi na výstupochkorisť - slepá, ale dvakrát rýchlejšia než dravec
8 vstupov z infra senzorov2 výstupy pre motory
dravec - to isté + 5 neurónov pre videnie
Dravec - korisť
Dva genetické algoritmy bežia na pracovnej stanici, NS sa nahrajúdo robotovzápas končí buď dotykom dravca a koristi alebo po 500 krokoch(50s) prežitia koristi; doba prežitia koristi je fitness pre korisť i predravcaokrem reálnych robotov mali simuláciu založenú na vzorkovaní
rýchle testovanie variantvýpočtovo náročná analýza fitness
parametre simulácie; genetické kódovanieváhy a prahy 5 bitov (znamienko + 4 bity hodnota)dravec 5 x (30 váh + 2 prahy) bitovkorisť 5 x (20 váh + 2 prahy) bitov2 populácie po 100 jedincoch; 100 generácií
Dravec - korisť: simulácia
Každý jedinec bol testovaný proti 10 súperom najlepším vpredchádzajúcich 10 generáciách
v generácii 0 súperi vyberaní náhodne z tejto generáciev generáciách 1-9: súperi vyberaní náhodne z najlepších jedincov zpredchádzajúcich generácií
počiatočná poloha na vodorovnej čiare v strede, vzdialenosťpolovičnej šírky arény s náhodnou orientácioufitness korisť dravec
reprodukovať sa mohlo 20 najlepších jedincov z generácie
MaxKrokovactTimeToCont
MaxKrokovactTimeToCont
−1
Dravec - korisť:výsledky simulácie
zo začiatku mala korisť vysoké skóre - dravci nevedeli loviťneskôr vznikli oscilácie vo fitness; avšak fitness koristi mala vyššievrcholy (výhoda polohy a rýchlosti koristi)Pokrok jedného druhu bol nasledovaný pokrokom druhéhomajstrovstvá: jedinci z neskorších generácií nemusia byť lepší, nežjedinci z predchádzajúcich populáciína fyzických robotoch to dopadlo podobnetypické zápasy obr. str.203 stratégie:
korisť krúži okolo arény, dravec útočí iba, keď je korisť blízkokorisť krúži na mieste, keď sa priblíži dravec, tak rýchle utečie - prílišrýchla korisť nedokáže v rýchlosti zareagovať na dravca - zistí ho prílišneskoro)dravec po neúspešnom útoku ide po oblúku a snaží sa dostať ku koristiz boku (tam nemá infra čidlá)
Dravec - korisť analýza stratégií
rovnaké stratégie sú opätovne objavované znova a znova, tedaefektívne stratégie sa môžu strácať namiesto ich uchovania azdokonaľovaniaTriedy stratégií pre dravcov:
A1 prenasleduj korisť a snaž sa k nej priblížiťA2 sleduj korisť, ale zostaň viacej-menej tam, kde si, zaútoč iba, ak jekorisť v špeciálnej pozícii vzhľadom k dravcovi
Triedy stratégií pre korisť:B1 stoj na mieste, ale „krytý“ pri stene (dravec obyčajne nechodí blízkosteny, aby nenarazil.B2 rýchle sa pohybuj a vyhýbaj sa dravcovi i stenám
A1>B1A1<B2A2>B2A2<B1
Dravec - korisť analýza stratégií
Pozorovanie stratégií nie je jednoduché:1. Pozorované stratégie sú triedy podobných stratégií2. Výhoda/nevýhoda konkrétnej stratégie oproti inej sa meníkvantitatívne a je pravdepodobnostná3. Populácie v jednej generácii obecne používajú viacej stratégií4. Niektoré stratégie sa dajú objaviť jednoduchšie než iné
Dravec-korisť a „sieň slávy“
„Sieň slávy“ - ako elitizmus, ale cez všetky predchádzajúcegenerácie; účelom má byť vyvolanie „pretekov v zbrojení“ azabrániť opakovaniu
biologicky nepodložená metódaso zvyšujúcim sa počtom generácií bude klesať miera adaptácie -tendencia hľadať efektívnejšie stratégie proti súčasnému súperovi budepotlačená hľadaním stratégií proti minulým súperom
pri simulácii každý jedinec zápasil s 10 súpermi náhodne vybranýmiz predchádzajúcich (všetkých) generáciíporovnanie s predchádzajúcou simuláciou obr. str. 206nájdené stratégie boli z rovnakých tried ako u obyčajnej ko-evolúcie, ale boli stabilnejšie, nemenili sa tak často a mali čas navylepšovanie
Metóda „siene slávy“ by mala viesť na obecnejšie stratégie -potvrdilo sa
pravdepodobnosti víťazstva druhu nad súperom„štandardným“získaným metódou „siene slávy“chyba
1.0
0.75
0.5
0.25
0
Dravec-korisť a „sieň slávy“
dravec korisť dravec korisť
štandardní jedinci jedinci získaní „sieňou slávy“
Dravec-korisť: zmenená korisť
Senzorový systém koristi je veľmi obmedzený, možno že kvôli nemunie je možné ďalej zdokonaľovať stratégiu obete; keď ho zmeníme,tak bude možno korisť schopná postupne zlepšovať svoju stratégiubez rýchleho prepínania medzi stratégiamikorisť vybavili videním - 150 receptorov dávajúcich 256 stupňovšedi, zorný uhol 240°
5 neurónov, každý pre 48°
štandardná ko-evolúcia, jedinci sa testovali proti najlepším súperomz 10 predchádzajúcich generáciípo dobu 100 generácií rástol výkon jedincov - teda zmenapodmienok umožnila postupné vylepšovanie jedincov bez skoréhozacyklenia
Dravec-korisť: zmenená korisť
ďalej porovnali jedince získané štandardnou ko-evolúciou sjedincami získanými metódou „sieň slávy“pri „sieni slávy“ sa výborne zlepšovali jedinci, ale nakoniec nebolilepší, než jedinci získaní zo štandardnej ko-evolúcie⇒ „sieň slávy“ zmenšuje pravdepodobnosť, že sa budú opakovaťstratégie, ale nemusí jednoznačne dávať lepšie výsledky, akštandardná ko-evolúcia dokáže dostatočne dlho robiť „preteky vzbrojení“, tak môže byť lepšia než „sieň slávy“ (tá naviac pri dlhšomvývoji bude menej a menej efektívna)
Dravec-korisť
Existuje problém, ktorý dokáže vyriešiť ko-evolúcia, ale niejednoduchá evolúcia?
Pri ko-evolúcii jedinci dostávajú viacej vonkajších podnetovko-evolúcia môže spustiť „preteky v zbrojení“
skúsili vyvíjať (jednoduchou evolúciou) dravcov proti najlepšejkoristi získanej z ko-evolúcie a naopak vyvíjať korisť protinajlepšiemu dravcovi
evolúcia bola schopná nájsť efektívne stratégie proti jednej najlepšejstratégii
ďalší experiment - dravec i korisť bez videnia, ale so zapnutýmisenzorami na okolité svetlo (druhý režim infra senzorov); naviacoba roboty majú svietiacu žiarovku, v aréne (60 x 60 cm) je 13valcovitých prekážok
Dravec-korisť bez videnia
16 senzorov (8 infra + 8 svetlo)genotyp 8 x 34 bitov
16 x 2 váh + 2 prahy
ko-evolúcia zlepšovala oba robotyjednoduchá evolúcia (evolúcia jednej populácie proti jednému(najlepšiemu z ko-evolúcie) súperovi) nefungovala v 8/10 prípadochdravec nedokázal chytiť korisť
naproti tomu pri ko-evolúcii v 9/10 simulácií dravec chytil aspoň v 25%prípadovproblém asi v tom, že počiatoční dravci majú nulovú úspešnosť
jednoduchá evolúcia fungovala pre korisť - stačila jednoduchástratégia
ko-evolúcia „vymyslela“ stratégiu počkať až sa dravec priblíži na 10 cma potom ujsť
Dravec-korisť: rast
Iba v 1 zo 4 experimentov bola jednoduchá evolúcia neúspešná,inak vždy dokázala nájsť jednoduchú a efektívnu stratégiu protijednotlivcovije možné, že sú úlohy, pre ktoré neexistuje úplne obecné riešenie -potom je zacyklenie v stratégiách nevyhnutné a je to optimálneriešeniekeď obecné riešenie existuje a dá sa nájsť zmenami v genotype,tak ko-evolúcia vedie k takémuto riešeniuak obecné riešenie neexistuje alebo je málo pravdepodobné, že sanájde, tak ko-evolúcia povedie na cyklicky menené stratégie také,že:
sú vhodné proti aktuálnemu súperovidajú sa ľahko zmeniť, keď súper v budúcnosti zmení svoje správanie
Dravec-korisť a celoživotnéučenie
Cyklicky menené stratégie - ontogenetická adaptáciaučenie by mohlo zlepšiť výkon jedinca, dokázal by sa adaptovať nazmenu súpera už priebehu jednej generácie2 druhy úspešných jedincov:
úplne obecný - s jednou univerzálnou stratégiouplasticky obecný - s množinou jednoduchých stratégií a mechanizmomvýberu z nich
úplne obecný je efektívnejší, ale môže byť nedostupnýnájsť plasticky obecného jedinca môže byť tiež ťažké
musí mať viacej stratégiímusí byť schopný správne vybrať vhodnú stratégiu
Dravec-korisť a celoživotnéučenie
Experiment: genotyp kóduje vlastnosti váh a pravidlá učenia (vizminulá prednáška); dravec vidí, korisť nevidí
znamienko váhy (1 bit), učiace pravidlo (2 bity), učiaca konštanta (2bity); počiatočné váhy malé náhodné čísla
učenie zlepšovalo výsledky; ale aj tu sa dalo vysledovaťprispôsobovanie stratégie stratégii aktuálneho súpera, ale nie takmarkantne ako bez učeniazmena stratégie dravca v priebehu života - obr. str. 218
príklad zmeny stratégie korisť sa otáča po malom kruhu, dravec sa 3krát otočí (upravuje váhy) a potom vyrazí za korisťou
koristi to vôbec nepomáha, kvôli obmedzeným senzoromplastickí dravci sa vedia prispôsobiť stratégiám B1 (čakať pri stene…) a B2 (rýchly pohyb okolo arény)
Dravec-korisť: záver
Ko-evolúcia je zaujímaváadaptácia v stále sa meniacom prostredíinkrementálna evolúcia bez dohľadu
problém cykleniadá sa redukovať porovnávaním jedinca s minulými riešeniami (napr.náhodne vybraná vzorka z predchádzajúcich, „sieň slávy“)pravdepodobne sa jej nedá zbaviť (ako lokálne minimá)ko-evolúcia môže viesť k hľadaniu obecnýcg stratégiíobecnosť sa dá dosiahnuť ko-evolúciou plastických (učiteľných)jedincov