adaptácia na rýchle zmeny prostrediamraz/evorob/predn9n.pdf · adaptácia na rýchle zmeny...

31
Adaptácia na rýchle zmeny prostredia Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami, rôznymi druhmi potravy a inými objektmi organizmus sa skladal z 2 modulov: výkonný – vrstevnatá NS s dopredným šírením; výstup sú pravdepodobnosti vykonania akcií vyhodnocovací – výstupom je spätná väzba – učiaci signál; závisí na zmenách výstupu hodnotiaceho modulu v čase genetický algoritmus vyvíjal váhy pre výkonný i vyhodnocovací modul, ale počas života jedinca sú váhy výkonného modulu menené na základe spätnej väzby z vyhodnocovacieho modulu kladná hodnota zvyšuje váhu a záporná znižuje finálne váhy sa do genotypu naspäť neprepisujú organizmy sa môžu reprodukovať, keď majú dostatok energie a blízko seba partnera, ktorý je pripravený k reprodukcii

Upload: others

Post on 11-Aug-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Adaptácia na rýchle zmenyprostredia

Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí sdravcami, rôznymi druhmi potravy a inými objektmiorganizmus sa skladal z 2 modulov:

výkonný – vrstevnatá NS s dopredným šírením; výstup sú pravdepodobnostivykonania akciívyhodnocovací – výstupom je spätná väzba – učiaci signál; závisí na zmenáchvýstupu hodnotiaceho modulu v čase

genetický algoritmus vyvíjal váhy pre výkonný i vyhodnocovací modul, alepočas života jedinca sú váhy výkonného modulu menené na základespätnej väzby z vyhodnocovacieho modulu

kladná hodnota zvyšuje váhu a záporná znižujefinálne váhy sa do genotypu naspäť neprepisujú

organizmy sa môžu reprodukovať, keď majú dostatok energie a blízko sebapartnera, ktorý je pripravený k reprodukcii

Page 2: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Ackley, Littman

akcie

pravdepodobnosti

vstupy

výkonný modul

spätná väzba

vstupy

vyhodnocovací modul

Page 3: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Adaptácia na rýchle zmenyprostredia

potomkovia vznikajú krížením a mutáciouorganizmus zomiera, keď je starý alebo nemá energiuautori porovnávali1. Evolúcia bez učenia2. Učenie bez evolúcie3. Evolúcia s učením – evolutionary reinforcement learning (ERL)

ERL – najvýkonnejšie; viac než 3000 generáciíprvých 600 generácií sa jedinci museli učiť hľadať potravuneskôr to už vedeli od „narodenia“evolúcia formovala učenie – autonómne samo-učenie, ktoré rozhodovalo kedy ačo sa učiť

Page 4: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Nolfi, Parisi - premenlivé steny

Khepera má nájsť cieľ v aréne, kde steny môžu meniť farbu (ibasimulovaný experiment)aréna 60x20 cm, cieľ – kruh s priemerom 2 cm náhodne umiestnenýKhepera nepozná, či našla cieľ, ale fitness je tým vyššia, čím skôr nájdecieľ – má čo najefektívnejšie preskúmať arénu2 prostredia

tmavé steny – musí sa pohybovať opatrne, keď „vidí“ stenu, tak je užveľmi blízko pri stenesvetlé steny – aby preskúmala celú plochu, tak sa stenám musí vyhýbaťaž pri veľmi silnom signále zo senzorov

Page 5: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Premenlivé steny

Robot nevie do ktorého prostredia sa dostal – musí to rozlíšiť anaučiť sa adekvátne pohybovať

4 vstupy – infračidlá združené po dvoch4 výstupy

2 rýchlosti motorov2 učiace signály

učenie delta-pravidlom2 podsiete – štandardná a učiacavšetky váhy sú geneticky vyvíjané, aleváhy štandardnej sa môžu meniť počasživota jedinca; váhy učiacej sa počasživota nemenia

motory učenie

senzory

Page 6: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Výsledky

Učenie závisí od váh učiacej podsiete (nemenných) a odsenzorových vstupov (závisia na prostredí)porovnanie

učení x neučení – učení lepší po pár generáciáchdospelí učení v oboch prostrediach, testovaní každý v obochprostrediach

vo „svojom prostredí“ jasne lepšie

učení v dvoch rôznych prostrediachiné úrovne vstupných signálov po celý životiné úrovne signálov na rovnakých senzoroch (porovnávali sa najaktívnejšie)

vyvinutí učiaci sa jedinci x vyvinutí neučiaci sa jedincipred učením – učiaci sa boli horšípo učení – učiaci sa boli lepšíteda jedinci boli vyberaní podľa toho ako sa dokážu učiť

Page 7: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Predispozície k učeniu

počiatočné podmienky (napr. počiatočné váhy)evolúcia môže zvoliť počiatočné váhy vhodné na učenie

keď nechali jedincom náhodné počiatočné váhy, tak sa síce celý život učili,ale neboli príliš úspešní – chyba klesala, ale efektivita prehľadávania sanemenila

predispozícia učiť sa prehľadávať – v zdedených váhach štandardnejsiete, ale tiež v zdedených váhach učiacej siete

pri náhodných váhach učiacej siete – mizerný výkonpri riadení robota učiacimi signálmi – tiež

nájdené siete mali predispozíciu k učeniu, nie k chovaniu; chovanievziká emergentne interakciou štandardných váh, učiacich váh aprostrediavyvinutí jedinci majú predispozície k voľbe užitočných skúseností

po „narodení“ sa správajú tak, aby zosilnili vnímateľné rozdiely medziprostrediami a mohli sa naučiť 2 rôzne správania pre rôzne prostredia

Page 8: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Záver

Evolučné učenie sa líši od tradičnéhotradičné učenie nezohľadňuje vlastnosti jedinca pred učenímevolučné učenie ich využíva

evolúcia učiacich pravidielkratší genómjedinci sú vyvíjaní pre ich schopnosť prispôsobovať sa prostrediu avyvíjať si chovanie, ktoré vyhovuje selekčnému kritériutakto vyvinuté roboty sú schopné sa „preučiť“ aj bez ďalšiehoevolučného vývoja

Page 9: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Kompeptitívna ko-evolúcia

Súčasná evolúcia dvoch alebo viacerých populácií s previazanoufitness funkciousúťaženie populácií môže postupne viesť k stále zložitejšímsprávaniam „preteky v zbrojení“, napr. korisť-dravecinkrementálne učenie - postupná zmena fitness a prostredia - veľmiúspešné, ale vyžaduje dobré plánovanie od experimentátorakorisť-dravec: na začiatku môžu mať obidve populácie jednoduchéstratégie, ktoré si postupne v súťaži zdokonaľujúk zlepšovaniu dochádza aj keď sa nemení ani prostredie aniselekčné kritériáv priebehu života sa jedinec stretne s určitým počtom súperov z tejistej alebo dvoch generácií; takíto súperi sa postupne zdokonaľujútakže vyvinuté stratégie sa zdokonaľujú

Page 10: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Kompetitívna ko-evolúcia

porovnanie s evolúciou dravcov proti nemennej koristimenej obecná stratégia, ak sa korisť zmení, tak nemusí fungovaťak sa začína vývoj proti dokonalej koristi, tak nevyvinutí dravci ničnechytia a nefunguje selekcia

ko-evolúcia môže pomôcť vyhnúť sa lokálnym minimámhistoricky prvý model - 1925-26 Lotka, VolteraN1 hustota populácie dravcovN2 hustota populácie koristi

r1 prírastok koristi bez dravcov, r2 úbytok dravcov bez koristi, b1 úbytokkoristi požieraním dravcami, b2 schopnosť dravcov uloviť korisť

( ) ( ),, 12222

21111 NbrN

tNNbrN

tN

+−=∂∂

−=∂∂

Page 11: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Problémy

Rovnice nepostihovali vývoj druhov

ko-evolúcia nemusí viesť z zdokonaľovaniu jedincov - vývojs cyklicky sa opakujúcimi stratégiami

- úplne sa eliminujú výhody súťaže

zmena v jednom druhu zmení fitness druhého druhu „efekt červenejkráľovnej“ (Alenka v ríši divov) - pokrok sa nedá sledovaťmonitorovaním priemernej alebo najlepšej fitness

A1>B1A1<B2A2>B2A2<B1

A1 B1A1 B2A2 B2A2 B1A1 B1A1 B2M

Page 12: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Problémy ko-evolúcie

Ako sledovať vývoj?

Pravdepodobnosťreprodukcie

Priestor genotypu

I

Evolúcia jedného druhu

Priestor genotypu

I

Ko-evolúcia dvoch druhov

II

fitness

generácie generácie

pri ko-evolúcii nestačísledovať fitness, pretožetá zavísí na meniacej sastratégii súťažiacehodruhu

Page 13: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Problémy ko-evolúcie

Monitorovanie ko-evolučného pokroku:CIAO (Current Individual vs. Ancestral Opponents) - najlepšíz generácie proti najlepším súperom z prechádzajúcich generáciímajstrovstvá - najlepší z generácie proti najlepším zo všetkých (ajneskorších) generácií (dá sa použiť na výber najlepšieho v prípadeoptimalizácie)

Už bola úspešne použitá pri vývojitriediacich programov - súperom boli parazitné programy, ktoré volilitestovacie podmienky pre triediace programyhráča pre Tic-Tac-Toe

Page 14: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Ciele

Rola ko-evolúcie v robotikekedy ko-evolúcia vedie k „pretekom v zbrojení“

ukážeme experimenty, kde dostaneme rôznorodé stratégie, ale pokrátkom čase sa vývoj dostane do cykluopakovanie sa dá obmedziť - „sieň slávy“: uchovávame všetky vminulosti objavené stratégie a používame ich na testovanie každéhojedinca

- biologicky neadekvátne- nemusí viesť k lepšiemu výkonu (jednoduchá ko-evolúcia môže byťlepšia)

ukážeme, že ko-evolúcia dokáže riešiť problémy, na ktoréjednoduchá evolúcia nestačí

Page 15: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Ko-evolúcia robotického dravca akoristi

Kombinácia experimentov na reálnych robotoch a simuláciearéna 47x47 cm s bielymi stenami, dravec:

Khepera s lineárnym videním; 64 pixelov s 256 stupňami šedi, zornýuhol 36°dravec „vidí“ korisť ako čiernu škvrnu na bielom pozadí8 infra senzorov; detekujú stenu na 3 cm, druhého robota na 1,5 cm

korisť:korisť dvakrát rýchlejšia než dravec8 infra senzorov; detekujú stenu na 3 cm, druhého robota na 1,5 cm

oba roboty detekujú dotyk druhého robota (vodivý prúžok okolorobota)

Page 16: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec - korisť

Riadenie - NS s rekurentnými spojmi na výstupochkorisť - slepá, ale dvakrát rýchlejšia než dravec

8 vstupov z infra senzorov2 výstupy pre motory

dravec - to isté + 5 neurónov pre videnie

Page 17: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec - korisť

Dva genetické algoritmy bežia na pracovnej stanici, NS sa nahrajúdo robotovzápas končí buď dotykom dravca a koristi alebo po 500 krokoch(50s) prežitia koristi; doba prežitia koristi je fitness pre korisť i predravcaokrem reálnych robotov mali simuláciu založenú na vzorkovaní

rýchle testovanie variantvýpočtovo náročná analýza fitness

parametre simulácie; genetické kódovanieváhy a prahy 5 bitov (znamienko + 4 bity hodnota)dravec 5 x (30 váh + 2 prahy) bitovkorisť 5 x (20 váh + 2 prahy) bitov2 populácie po 100 jedincoch; 100 generácií

Page 18: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec - korisť: simulácia

Každý jedinec bol testovaný proti 10 súperom najlepším vpredchádzajúcich 10 generáciách

v generácii 0 súperi vyberaní náhodne z tejto generáciev generáciách 1-9: súperi vyberaní náhodne z najlepších jedincov zpredchádzajúcich generácií

počiatočná poloha na vodorovnej čiare v strede, vzdialenosťpolovičnej šírky arény s náhodnou orientácioufitness korisť dravec

reprodukovať sa mohlo 20 najlepších jedincov z generácie

MaxKrokovactTimeToCont

MaxKrokovactTimeToCont

−1

Page 19: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec - korisť:výsledky simulácie

zo začiatku mala korisť vysoké skóre - dravci nevedeli loviťneskôr vznikli oscilácie vo fitness; avšak fitness koristi mala vyššievrcholy (výhoda polohy a rýchlosti koristi)Pokrok jedného druhu bol nasledovaný pokrokom druhéhomajstrovstvá: jedinci z neskorších generácií nemusia byť lepší, nežjedinci z predchádzajúcich populáciína fyzických robotoch to dopadlo podobnetypické zápasy obr. str.203 stratégie:

korisť krúži okolo arény, dravec útočí iba, keď je korisť blízkokorisť krúži na mieste, keď sa priblíži dravec, tak rýchle utečie - prílišrýchla korisť nedokáže v rýchlosti zareagovať na dravca - zistí ho prílišneskoro)dravec po neúspešnom útoku ide po oblúku a snaží sa dostať ku koristiz boku (tam nemá infra čidlá)

Page 20: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec - korisť analýza stratégií

rovnaké stratégie sú opätovne objavované znova a znova, tedaefektívne stratégie sa môžu strácať namiesto ich uchovania azdokonaľovaniaTriedy stratégií pre dravcov:

A1 prenasleduj korisť a snaž sa k nej priblížiťA2 sleduj korisť, ale zostaň viacej-menej tam, kde si, zaútoč iba, ak jekorisť v špeciálnej pozícii vzhľadom k dravcovi

Triedy stratégií pre korisť:B1 stoj na mieste, ale „krytý“ pri stene (dravec obyčajne nechodí blízkosteny, aby nenarazil.B2 rýchle sa pohybuj a vyhýbaj sa dravcovi i stenám

A1>B1A1<B2A2>B2A2<B1

Page 21: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec - korisť analýza stratégií

Pozorovanie stratégií nie je jednoduché:1. Pozorované stratégie sú triedy podobných stratégií2. Výhoda/nevýhoda konkrétnej stratégie oproti inej sa meníkvantitatívne a je pravdepodobnostná3. Populácie v jednej generácii obecne používajú viacej stratégií4. Niektoré stratégie sa dajú objaviť jednoduchšie než iné

Page 22: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec-korisť a „sieň slávy“

„Sieň slávy“ - ako elitizmus, ale cez všetky predchádzajúcegenerácie; účelom má byť vyvolanie „pretekov v zbrojení“ azabrániť opakovaniu

biologicky nepodložená metódaso zvyšujúcim sa počtom generácií bude klesať miera adaptácie -tendencia hľadať efektívnejšie stratégie proti súčasnému súperovi budepotlačená hľadaním stratégií proti minulým súperom

pri simulácii každý jedinec zápasil s 10 súpermi náhodne vybranýmiz predchádzajúcich (všetkých) generáciíporovnanie s predchádzajúcou simuláciou obr. str. 206nájdené stratégie boli z rovnakých tried ako u obyčajnej ko-evolúcie, ale boli stabilnejšie, nemenili sa tak často a mali čas navylepšovanie

Page 23: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Metóda „siene slávy“ by mala viesť na obecnejšie stratégie -potvrdilo sa

pravdepodobnosti víťazstva druhu nad súperom„štandardným“získaným metódou „siene slávy“chyba

1.0

0.75

0.5

0.25

0

Dravec-korisť a „sieň slávy“

dravec korisť dravec korisť

štandardní jedinci jedinci získaní „sieňou slávy“

Page 24: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec-korisť: zmenená korisť

Senzorový systém koristi je veľmi obmedzený, možno že kvôli nemunie je možné ďalej zdokonaľovať stratégiu obete; keď ho zmeníme,tak bude možno korisť schopná postupne zlepšovať svoju stratégiubez rýchleho prepínania medzi stratégiamikorisť vybavili videním - 150 receptorov dávajúcich 256 stupňovšedi, zorný uhol 240°

5 neurónov, každý pre 48°

štandardná ko-evolúcia, jedinci sa testovali proti najlepším súperomz 10 predchádzajúcich generáciípo dobu 100 generácií rástol výkon jedincov - teda zmenapodmienok umožnila postupné vylepšovanie jedincov bez skoréhozacyklenia

Page 25: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec-korisť: zmenená korisť

ďalej porovnali jedince získané štandardnou ko-evolúciou sjedincami získanými metódou „sieň slávy“pri „sieni slávy“ sa výborne zlepšovali jedinci, ale nakoniec nebolilepší, než jedinci získaní zo štandardnej ko-evolúcie⇒ „sieň slávy“ zmenšuje pravdepodobnosť, že sa budú opakovaťstratégie, ale nemusí jednoznačne dávať lepšie výsledky, akštandardná ko-evolúcia dokáže dostatočne dlho robiť „preteky vzbrojení“, tak môže byť lepšia než „sieň slávy“ (tá naviac pri dlhšomvývoji bude menej a menej efektívna)

Page 26: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec-korisť

Existuje problém, ktorý dokáže vyriešiť ko-evolúcia, ale niejednoduchá evolúcia?

Pri ko-evolúcii jedinci dostávajú viacej vonkajších podnetovko-evolúcia môže spustiť „preteky v zbrojení“

skúsili vyvíjať (jednoduchou evolúciou) dravcov proti najlepšejkoristi získanej z ko-evolúcie a naopak vyvíjať korisť protinajlepšiemu dravcovi

evolúcia bola schopná nájsť efektívne stratégie proti jednej najlepšejstratégii

ďalší experiment - dravec i korisť bez videnia, ale so zapnutýmisenzorami na okolité svetlo (druhý režim infra senzorov); naviacoba roboty majú svietiacu žiarovku, v aréne (60 x 60 cm) je 13valcovitých prekážok

Page 27: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec-korisť bez videnia

16 senzorov (8 infra + 8 svetlo)genotyp 8 x 34 bitov

16 x 2 váh + 2 prahy

ko-evolúcia zlepšovala oba robotyjednoduchá evolúcia (evolúcia jednej populácie proti jednému(najlepšiemu z ko-evolúcie) súperovi) nefungovala v 8/10 prípadochdravec nedokázal chytiť korisť

naproti tomu pri ko-evolúcii v 9/10 simulácií dravec chytil aspoň v 25%prípadovproblém asi v tom, že počiatoční dravci majú nulovú úspešnosť

jednoduchá evolúcia fungovala pre korisť - stačila jednoduchástratégia

ko-evolúcia „vymyslela“ stratégiu počkať až sa dravec priblíži na 10 cma potom ujsť

Page 28: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec-korisť: rast

Iba v 1 zo 4 experimentov bola jednoduchá evolúcia neúspešná,inak vždy dokázala nájsť jednoduchú a efektívnu stratégiu protijednotlivcovije možné, že sú úlohy, pre ktoré neexistuje úplne obecné riešenie -potom je zacyklenie v stratégiách nevyhnutné a je to optimálneriešeniekeď obecné riešenie existuje a dá sa nájsť zmenami v genotype,tak ko-evolúcia vedie k takémuto riešeniuak obecné riešenie neexistuje alebo je málo pravdepodobné, že sanájde, tak ko-evolúcia povedie na cyklicky menené stratégie také,že:

sú vhodné proti aktuálnemu súperovidajú sa ľahko zmeniť, keď súper v budúcnosti zmení svoje správanie

Page 29: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec-korisť a celoživotnéučenie

Cyklicky menené stratégie - ontogenetická adaptáciaučenie by mohlo zlepšiť výkon jedinca, dokázal by sa adaptovať nazmenu súpera už priebehu jednej generácie2 druhy úspešných jedincov:

úplne obecný - s jednou univerzálnou stratégiouplasticky obecný - s množinou jednoduchých stratégií a mechanizmomvýberu z nich

úplne obecný je efektívnejší, ale môže byť nedostupnýnájsť plasticky obecného jedinca môže byť tiež ťažké

musí mať viacej stratégiímusí byť schopný správne vybrať vhodnú stratégiu

Page 30: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec-korisť a celoživotnéučenie

Experiment: genotyp kóduje vlastnosti váh a pravidlá učenia (vizminulá prednáška); dravec vidí, korisť nevidí

znamienko váhy (1 bit), učiace pravidlo (2 bity), učiaca konštanta (2bity); počiatočné váhy malé náhodné čísla

učenie zlepšovalo výsledky; ale aj tu sa dalo vysledovaťprispôsobovanie stratégie stratégii aktuálneho súpera, ale nie takmarkantne ako bez učeniazmena stratégie dravca v priebehu života - obr. str. 218

príklad zmeny stratégie korisť sa otáča po malom kruhu, dravec sa 3krát otočí (upravuje váhy) a potom vyrazí za korisťou

koristi to vôbec nepomáha, kvôli obmedzeným senzoromplastickí dravci sa vedia prispôsobiť stratégiám B1 (čakať pri stene…) a B2 (rýchly pohyb okolo arény)

Page 31: Adaptácia na rýchle zmeny prostrediamraz/EvoRob/Predn9n.pdf · Adaptácia na rýchle zmeny prostredia]Ackley, Littman, 1991: umelé organizmy v simulovanom prostredí s dravcami,

Dravec-korisť: záver

Ko-evolúcia je zaujímaváadaptácia v stále sa meniacom prostredíinkrementálna evolúcia bez dohľadu

problém cykleniadá sa redukovať porovnávaním jedinca s minulými riešeniami (napr.náhodne vybraná vzorka z predchádzajúcich, „sieň slávy“)pravdepodobne sa jej nedá zbaviť (ako lokálne minimá)ko-evolúcia môže viesť k hľadaniu obecnýcg stratégiíobecnosť sa dá dosiahnuť ko-evolúciou plastických (učiteľných)jedincov