adaptácia na rýchle zmeny prostrediamraz/evorob/predn9n.pdf · adaptácia na rýchle zmeny...

Adaptácia na rýchle zmenyprostredia

Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí sdravcami, rôznymi druhmi potravy a inými objektmiorganizmus sa skladal z 2 modulov:

výkonný – vrstevnatá NS s dopredným šírením; výstup sú pravdepodobnostivykonania akciívyhodnocovací – výstupom je spätná väzba – učiaci signál; závisí na zmenáchvýstupu hodnotiaceho modulu v čase

genetický algoritmus vyvíjal váhy pre výkonný i vyhodnocovací modul, alepočas života jedinca sú váhy výkonného modulu menené na základespätnej väzby z vyhodnocovacieho modulu

kladná hodnota zvyšuje váhu a záporná znižujefinálne váhy sa do genotypu naspäť neprepisujú

organizmy sa môžu reprodukovať, keď majú dostatok energie a blízko sebapartnera, ktorý je pripravený k reprodukcii

Ackley, Littman

akcie

pravdepodobnosti

vstupy

výkonný modul

spätná väzba

vstupy

vyhodnocovací modul

Adaptácia na rýchle zmenyprostredia

potomkovia vznikajú krížením a mutáciouorganizmus zomiera, keď je starý alebo nemá energiuautori porovnávali1. Evolúcia bez učenia2. Učenie bez evolúcie3. Evolúcia s učením – evolutionary reinforcement learning (ERL)

ERL – najvýkonnejšie; viac než 3000 generáciíprvých 600 generácií sa jedinci museli učiť hľadať potravuneskôr to už vedeli od „narodenia“evolúcia formovala učenie – autonómne samo-učenie, ktoré rozhodovalo kedy ačo sa učiť

Nolfi, Parisi - premenlivé steny

Khepera má nájsť cieľ v aréne, kde steny môžu meniť farbu (ibasimulovaný experiment)aréna 60x20 cm, cieľ – kruh s priemerom 2 cm náhodne umiestnenýKhepera nepozná, či našla cieľ, ale fitness je tým vyššia, čím skôr nájdecieľ – má čo najefektívnejšie preskúmať arénu2 prostredia

tmavé steny – musí sa pohybovať opatrne, keď „vidí“ stenu, tak je užveľmi blízko pri stenesvetlé steny – aby preskúmala celú plochu, tak sa stenám musí vyhýbaťaž pri veľmi silnom signále zo senzorov

Premenlivé steny

Robot nevie do ktorého prostredia sa dostal – musí to rozlíšiť anaučiť sa adekvátne pohybovať

4 vstupy – infračidlá združené po dvoch4 výstupy

2 rýchlosti motorov2 učiace signály

učenie delta-pravidlom2 podsiete – štandardná a učiacavšetky váhy sú geneticky vyvíjané, aleváhy štandardnej sa môžu meniť počasživota jedinca; váhy učiacej sa počasživota nemenia

motory učenie

senzory

Výsledky

Učenie závisí od váh učiacej podsiete (nemenných) a odsenzorových vstupov (závisia na prostredí)porovnanie

učení x neučení – učení lepší po pár generáciáchdospelí učení v oboch prostrediach, testovaní každý v obochprostrediach

vo „svojom prostredí“ jasne lepšie

učení v dvoch rôznych prostrediachiné úrovne vstupných signálov po celý životiné úrovne signálov na rovnakých senzoroch (porovnávali sa najaktívnejšie)

vyvinutí učiaci sa jedinci x vyvinutí neučiaci sa jedincipred učením – učiaci sa boli horšípo učení – učiaci sa boli lepšíteda jedinci boli vyberaní podľa toho ako sa dokážu učiť

Predispozície k učeniu

počiatočné podmienky (napr. počiatočné váhy)evolúcia môže zvoliť počiatočné váhy vhodné na učenie

keď nechali jedincom náhodné počiatočné váhy, tak sa síce celý život učili,ale neboli príliš úspešní – chyba klesala, ale efektivita prehľadávania sanemenila

predispozícia učiť sa prehľadávať – v zdedených váhach štandardnejsiete, ale tiež v zdedených váhach učiacej siete

pri náhodných váhach učiacej siete – mizerný výkonpri riadení robota učiacimi signálmi – tiež

nájdené siete mali predispozíciu k učeniu, nie k chovaniu; chovanievziká emergentne interakciou štandardných váh, učiacich váh aprostrediavyvinutí jedinci majú predispozície k voľbe užitočných skúseností

po „narodení“ sa správajú tak, aby zosilnili vnímateľné rozdiely medziprostrediami a mohli sa naučiť 2 rôzne správania pre rôzne prostredia

Záver

Evolučné učenie sa líši od tradičnéhotradičné učenie nezohľadňuje vlastnosti jedinca pred učenímevolučné učenie ich využíva

evolúcia učiacich pravidielkratší genómjedinci sú vyvíjaní pre ich schopnosť prispôsobovať sa prostrediu avyvíjať si chovanie, ktoré vyhovuje selekčnému kritériutakto vyvinuté roboty sú schopné sa „preučiť“ aj bez ďalšiehoevolučného vývoja

Kompeptitívna ko-evolúcia

Súčasná evolúcia dvoch alebo viacerých populácií s previazanoufitness funkciousúťaženie populácií môže postupne viesť k stále zložitejšímsprávaniam „preteky v zbrojení“, napr. korisť-dravecinkrementálne učenie - postupná zmena fitness a prostredia - veľmiúspešné, ale vyžaduje dobré plánovanie od experimentátorakorisť-dravec: na začiatku môžu mať obidve populácie jednoduchéstratégie, ktoré si postupne v súťaži zdokonaľujúk zlepšovaniu dochádza aj keď sa nemení ani prostredie aniselekčné kritériáv priebehu života sa jedinec stretne s určitým počtom súperov z tejistej alebo dvoch generácií; takíto súperi sa postupne zdokonaľujútakže vyvinuté stratégie sa zdokonaľujú

Kompetitívna ko-evolúcia

porovnanie s evolúciou dravcov proti nemennej koristimenej obecná stratégia, ak sa korisť zmení, tak nemusí fungovaťak sa začína vývoj proti dokonalej koristi, tak nevyvinutí dravci ničnechytia a nefunguje selekcia

ko-evolúcia môže pomôcť vyhnúť sa lokálnym minimámhistoricky prvý model - 1925-26 Lotka, VolteraN1 hustota populácie dravcovN2 hustota populácie koristi

r1 prírastok koristi bez dravcov, r2 úbytok dravcov bez koristi, b1 úbytokkoristi požieraním dravcami, b2 schopnosť dravcov uloviť korisť

( ) ( ),, 12222

21111 NbrN

tNNbrN

tN

+−=∂∂

−=∂∂

Problémy

Rovnice nepostihovali vývoj druhov

ko-evolúcia nemusí viesť z zdokonaľovaniu jedincov - vývojs cyklicky sa opakujúcimi stratégiami

- úplne sa eliminujú výhody súťaže

zmena v jednom druhu zmení fitness druhého druhu „efekt červenejkráľovnej“ (Alenka v ríši divov) - pokrok sa nedá sledovaťmonitorovaním priemernej alebo najlepšej fitness

A1>B1A1<B2A2>B2A2<B1

A1 B1A1 B2A2 B2A2 B1A1 B1A1 B2M

Problémy ko-evolúcie

Ako sledovať vývoj?

Pravdepodobnosťreprodukcie

Priestor genotypu

I

Evolúcia jedného druhu

Priestor genotypu

I

Ko-evolúcia dvoch druhov

II

fitness

generácie generácie

pri ko-evolúcii nestačísledovať fitness, pretožetá zavísí na meniacej sastratégii súťažiacehodruhu

Problémy ko-evolúcie

Monitorovanie ko-evolučného pokroku:CIAO (Current Individual vs. Ancestral Opponents) - najlepšíz generácie proti najlepším súperom z prechádzajúcich generáciímajstrovstvá - najlepší z generácie proti najlepším zo všetkých (ajneskorších) generácií (dá sa použiť na výber najlepšieho v prípadeoptimalizácie)

Už bola úspešne použitá pri vývojitriediacich programov - súperom boli parazitné programy, ktoré volilitestovacie podmienky pre triediace programyhráča pre Tic-Tac-Toe

Ciele

Rola ko-evolúcie v robotikekedy ko-evolúcia vedie k „pretekom v zbrojení“

ukážeme experimenty, kde dostaneme rôznorodé stratégie, ale pokrátkom čase sa vývoj dostane do cykluopakovanie sa dá obmedziť - „sieň slávy“: uchovávame všetky vminulosti objavené stratégie a používame ich na testovanie každéhojedinca

- biologicky neadekvátne- nemusí viesť k lepšiemu výkonu (jednoduchá ko-evolúcia môže byťlepšia)

ukážeme, že ko-evolúcia dokáže riešiť problémy, na ktoréjednoduchá evolúcia nestačí

Ko-evolúcia robotického dravca akoristi

Kombinácia experimentov na reálnych robotoch a simuláciearéna 47x47 cm s bielymi stenami, dravec:

Khepera s lineárnym videním; 64 pixelov s 256 stupňami šedi, zornýuhol 36°dravec „vidí“ korisť ako čiernu škvrnu na bielom pozadí8 infra senzorov; detekujú stenu na 3 cm, druhého robota na 1,5 cm

korisť:korisť dvakrát rýchlejšia než dravec8 infra senzorov; detekujú stenu na 3 cm, druhého robota na 1,5 cm

oba roboty detekujú dotyk druhého robota (vodivý prúžok okolorobota)

Dravec - korisť

Riadenie - NS s rekurentnými spojmi na výstupochkorisť - slepá, ale dvakrát rýchlejšia než dravec

8 vstupov z infra senzorov2 výstupy pre motory

dravec - to isté + 5 neurónov pre videnie

Dravec - korisť

Dva genetické algoritmy bežia na pracovnej stanici, NS sa nahrajúdo robotovzápas končí buď dotykom dravca a koristi alebo po 500 krokoch(50s) prežitia koristi; doba prežitia koristi je fitness pre korisť i predravcaokrem reálnych robotov mali simuláciu založenú na vzorkovaní

rýchle testovanie variantvýpočtovo náročná analýza fitness

parametre simulácie; genetické kódovanieváhy a prahy 5 bitov (znamienko + 4 bity hodnota)dravec 5 x (30 váh + 2 prahy) bitovkorisť 5 x (20 váh + 2 prahy) bitov2 populácie po 100 jedincoch; 100 generácií

Dravec - korisť: simulácia

Každý jedinec bol testovaný proti 10 súperom najlepším vpredchádzajúcich 10 generáciách

v generácii 0 súperi vyberaní náhodne z tejto generáciev generáciách 1-9: súperi vyberaní náhodne z najlepších jedincov zpredchádzajúcich generácií

počiatočná poloha na vodorovnej čiare v strede, vzdialenosťpolovičnej šírky arény s náhodnou orientácioufitness korisť dravec

reprodukovať sa mohlo 20 najlepších jedincov z generácie

MaxKrokovactTimeToCont

MaxKrokovactTimeToCont

−1

Dravec - korisť:výsledky simulácie

zo začiatku mala korisť vysoké skóre - dravci nevedeli loviťneskôr vznikli oscilácie vo fitness; avšak fitness koristi mala vyššievrcholy (výhoda polohy a rýchlosti koristi)Pokrok jedného druhu bol nasledovaný pokrokom druhéhomajstrovstvá: jedinci z neskorších generácií nemusia byť lepší, nežjedinci z predchádzajúcich populáciína fyzických robotoch to dopadlo podobnetypické zápasy obr. str.203 stratégie:

korisť krúži okolo arény, dravec útočí iba, keď je korisť blízkokorisť krúži na mieste, keď sa priblíži dravec, tak rýchle utečie - prílišrýchla korisť nedokáže v rýchlosti zareagovať na dravca - zistí ho prílišneskoro)dravec po neúspešnom útoku ide po oblúku a snaží sa dostať ku koristiz boku (tam nemá infra čidlá)

Dravec - korisť analýza stratégií

rovnaké stratégie sú opätovne objavované znova a znova, tedaefektívne stratégie sa môžu strácať namiesto ich uchovania azdokonaľovaniaTriedy stratégií pre dravcov:

A1 prenasleduj korisť a snaž sa k nej priblížiťA2 sleduj korisť, ale zostaň viacej-menej tam, kde si, zaútoč iba, ak jekorisť v špeciálnej pozícii vzhľadom k dravcovi

Triedy stratégií pre korisť:B1 stoj na mieste, ale „krytý“ pri stene (dravec obyčajne nechodí blízkosteny, aby nenarazil.B2 rýchle sa pohybuj a vyhýbaj sa dravcovi i stenám

A1>B1A1<B2A2>B2A2<B1

Dravec - korisť analýza stratégií

Pozorovanie stratégií nie je jednoduché:1. Pozorované stratégie sú triedy podobných stratégií2. Výhoda/nevýhoda konkrétnej stratégie oproti inej sa meníkvantitatívne a je pravdepodobnostná3. Populácie v jednej generácii obecne používajú viacej stratégií4. Niektoré stratégie sa dajú objaviť jednoduchšie než iné

Dravec-korisť a „sieň slávy“

„Sieň slávy“ - ako elitizmus, ale cez všetky predchádzajúcegenerácie; účelom má byť vyvolanie „pretekov v zbrojení“ azabrániť opakovaniu

biologicky nepodložená metódaso zvyšujúcim sa počtom generácií bude klesať miera adaptácie -tendencia hľadať efektívnejšie stratégie proti súčasnému súperovi budepotlačená hľadaním stratégií proti minulým súperom

pri simulácii každý jedinec zápasil s 10 súpermi náhodne vybranýmiz predchádzajúcich (všetkých) generáciíporovnanie s predchádzajúcou simuláciou obr. str. 206nájdené stratégie boli z rovnakých tried ako u obyčajnej ko-evolúcie, ale boli stabilnejšie, nemenili sa tak často a mali čas navylepšovanie

Metóda „siene slávy“ by mala viesť na obecnejšie stratégie -potvrdilo sa

pravdepodobnosti víťazstva druhu nad súperom„štandardným“získaným metódou „siene slávy“chyba

1.0

0.75

0.5

0.25

0

Dravec-korisť a „sieň slávy“

dravec korisť dravec korisť

štandardní jedinci jedinci získaní „sieňou slávy“

Dravec-korisť: zmenená korisť

Senzorový systém koristi je veľmi obmedzený, možno že kvôli nemunie je možné ďalej zdokonaľovať stratégiu obete; keď ho zmeníme,tak bude možno korisť schopná postupne zlepšovať svoju stratégiubez rýchleho prepínania medzi stratégiamikorisť vybavili videním - 150 receptorov dávajúcich 256 stupňovšedi, zorný uhol 240°

5 neurónov, každý pre 48°

štandardná ko-evolúcia, jedinci sa testovali proti najlepším súperomz 10 predchádzajúcich generáciípo dobu 100 generácií rástol výkon jedincov - teda zmenapodmienok umožnila postupné vylepšovanie jedincov bez skoréhozacyklenia

Dravec-korisť: zmenená korisť

ďalej porovnali jedince získané štandardnou ko-evolúciou sjedincami získanými metódou „sieň slávy“pri „sieni slávy“ sa výborne zlepšovali jedinci, ale nakoniec nebolilepší, než jedinci získaní zo štandardnej ko-evolúcie⇒ „sieň slávy“ zmenšuje pravdepodobnosť, že sa budú opakovaťstratégie, ale nemusí jednoznačne dávať lepšie výsledky, akštandardná ko-evolúcia dokáže dostatočne dlho robiť „preteky vzbrojení“, tak môže byť lepšia než „sieň slávy“ (tá naviac pri dlhšomvývoji bude menej a menej efektívna)

Dravec-korisť

Existuje problém, ktorý dokáže vyriešiť ko-evolúcia, ale niejednoduchá evolúcia?

Pri ko-evolúcii jedinci dostávajú viacej vonkajších podnetovko-evolúcia môže spustiť „preteky v zbrojení“

skúsili vyvíjať (jednoduchou evolúciou) dravcov proti najlepšejkoristi získanej z ko-evolúcie a naopak vyvíjať korisť protinajlepšiemu dravcovi

evolúcia bola schopná nájsť efektívne stratégie proti jednej najlepšejstratégii

ďalší experiment - dravec i korisť bez videnia, ale so zapnutýmisenzorami na okolité svetlo (druhý režim infra senzorov); naviacoba roboty majú svietiacu žiarovku, v aréne (60 x 60 cm) je 13valcovitých prekážok

Dravec-korisť bez videnia

16 senzorov (8 infra + 8 svetlo)genotyp 8 x 34 bitov

16 x 2 váh + 2 prahy

ko-evolúcia zlepšovala oba robotyjednoduchá evolúcia (evolúcia jednej populácie proti jednému(najlepšiemu z ko-evolúcie) súperovi) nefungovala v 8/10 prípadochdravec nedokázal chytiť korisť

naproti tomu pri ko-evolúcii v 9/10 simulácií dravec chytil aspoň v 25%prípadovproblém asi v tom, že počiatoční dravci majú nulovú úspešnosť

jednoduchá evolúcia fungovala pre korisť - stačila jednoduchástratégia

ko-evolúcia „vymyslela“ stratégiu počkať až sa dravec priblíži na 10 cma potom ujsť

Dravec-korisť: rast

Iba v 1 zo 4 experimentov bola jednoduchá evolúcia neúspešná,inak vždy dokázala nájsť jednoduchú a efektívnu stratégiu protijednotlivcovije možné, že sú úlohy, pre ktoré neexistuje úplne obecné riešenie -potom je zacyklenie v stratégiách nevyhnutné a je to optimálneriešeniekeď obecné riešenie existuje a dá sa nájsť zmenami v genotype,tak ko-evolúcia vedie k takémuto riešeniuak obecné riešenie neexistuje alebo je málo pravdepodobné, že sanájde, tak ko-evolúcia povedie na cyklicky menené stratégie také,že:

sú vhodné proti aktuálnemu súperovidajú sa ľahko zmeniť, keď súper v budúcnosti zmení svoje správanie

Dravec-korisť a celoživotnéučenie

Cyklicky menené stratégie - ontogenetická adaptáciaučenie by mohlo zlepšiť výkon jedinca, dokázal by sa adaptovať nazmenu súpera už priebehu jednej generácie2 druhy úspešných jedincov:

úplne obecný - s jednou univerzálnou stratégiouplasticky obecný - s množinou jednoduchých stratégií a mechanizmomvýberu z nich

úplne obecný je efektívnejší, ale môže byť nedostupnýnájsť plasticky obecného jedinca môže byť tiež ťažké

musí mať viacej stratégiímusí byť schopný správne vybrať vhodnú stratégiu

Dravec-korisť a celoživotnéučenie

Experiment: genotyp kóduje vlastnosti váh a pravidlá učenia (vizminulá prednáška); dravec vidí, korisť nevidí

znamienko váhy (1 bit), učiace pravidlo (2 bity), učiaca konštanta (2bity); počiatočné váhy malé náhodné čísla

učenie zlepšovalo výsledky; ale aj tu sa dalo vysledovaťprispôsobovanie stratégie stratégii aktuálneho súpera, ale nie takmarkantne ako bez učeniazmena stratégie dravca v priebehu života - obr. str. 218

príklad zmeny stratégie korisť sa otáča po malom kruhu, dravec sa 3krát otočí (upravuje váhy) a potom vyrazí za korisťou

koristi to vôbec nepomáha, kvôli obmedzeným senzoromplastickí dravci sa vedia prispôsobiť stratégiám B1 (čakať pri stene…) a B2 (rýchly pohyb okolo arény)

Dravec-korisť: záver

Ko-evolúcia je zaujímaváadaptácia v stále sa meniacom prostredíinkrementálna evolúcia bez dohľadu

problém cykleniadá sa redukovať porovnávaním jedinca s minulými riešeniami (napr.náhodne vybraná vzorka z predchádzajúcich, „sieň slávy“)pravdepodobne sa jej nedá zbaviť (ako lokálne minimá)ko-evolúcia môže viesť k hľadaniu obecnýcg stratégiíobecnosť sa dá dosiahnuť ko-evolúciou plastických (učiteľných)jedincov

adaptácia na rýchle zmeny prostrediamraz/evorob/predn9n.pdf · adaptácia na rýchle zmeny...

Documents