estimation of distribution algorithms Část ii

28
Estimation of Distribution Algorithms Část II Petr Pošík Prezentace pro předmět Kognitivní procesy 6. dubna 2006

Upload: lysa

Post on 12-Jan-2016

52 views

Category:

Documents


0 download

DESCRIPTION

Estimation of Distribution Algorithms Část II. Petr Pošík Prezentace pro předmět Kognitivní procesy 6. dubna 2006. V minulém díle jste viděli. Z minula >. Co už známe…. Black-box optimalizace GA vs. EDA GA používají přístup select – crossover – mutate - PowerPoint PPT Presentation

TRANSCRIPT

Estimation of Distribution Algorithms

Část II

Petr Pošík

Prezentace pro předmětKognitivní procesy

6. dubna 2006

V minulém díle jste viděli...

Machine Learning & Softcomputing3 / XX

Co už známe…Co už známe…

Black-box optimalizace

GA vs. EDAGA používají přístup select – crossover – mutate EDA používají přístup select – model – sample

EDA s binární reprezentací Nejpřesnější model: úplná sdružená pst

pst výskytu každé možné kombinace bitů

2D-1 parametrů, exponenciální složitost Použití méně přesných, ale jednodušších

pravděpodobnostních modelů

Z minula >

Machine Learning & Softcomputing4 / XX

Typy EDA s binární reprezentacíTypy EDA s binární reprezentací

Bez interakcí 1-rozměrné marginální psti P(X=x) PBIL, UMDA

Párové interakce podmíněné psti P(X=x|Y=y) řetězce (MIMIC), stromy (COMIT), lesy (BMDA)

Vícenásobné interakce podmíněné psti P(X=x|Y=y, Z=z, ...) bayesovské sítě (BOA, EBNA, LFDA)

Z minula >

Machine Learning & Softcomputing5 / XX

Obsah přednášekObsah přednášek

1. EDAs pro vektory diskrétních hodnot (např. binární) Motivační příklad Bez interakcí Párové interakce Vyšší interakce

2. EDAs pro vektory reálných čísel Histogramy Gaussovo rozdělení Evoluční strategie CMA-ES

Úvod >

EDA pro vektory reálných čísel

Machine Learning & Softcomputing7 / XX

Fundamentální odlišnosti RFundamentální odlišnosti RDD od od {0,1}{0,1}DD

Binární prostor1. Každé kandidátské řešení

se nachází v některém rohu hyperkrychle

2. Žádné mezilehlé hodnoty

3. Konečný počet prvků

Reálný prostor1. Interval v jednotlivých dimenzích nemusí být stanoven

2. I když stanoven je, existuje nekonečně mnoho mezilehlých hodnot (teoreticky, prakticky jsme omezeni numerickou přesností daného stroje)

3. Nekonečný počet prvků

Reálná reprezentace >

Machine Learning & Softcomputing8 / XX

Fundamentální odlišnosti RFundamentální odlišnosti RDD od od {0,1}{0,1}DD

Jak definovat lokální okolí? Kletba rozměrnosti!

Jako množinu bodů, jejichž vzdálenost nepřesáhne jistou hranici? Objem lokálního okolí vůči objemu st. prostoru

exponenciálně klesá Se vzrůstající dimenzí se okolí stává čím dál tím víc

lokálním

Jako množinu bodů, které jsou aktuálnímu bodu nejblíž a jejichž sjednocení zabírá jistou část objemu st. prostoru? Rozměry lokálního okolí rostou s rostoucí dimenzí prostoru Se vzrůstající dimenzí lokální okolí přestává být lokálním

Reálná reprezentace >

Machine Learning & Softcomputing9 / XX

Přímé analogie s diskrétními EDAPřímé analogie s diskrétními EDA

Bez interakcí UMDA – stejný princip, mění se jen typ hustoty

pravděpodobnosti Jednorozměrné histogramy? Jednorozměrné gaussovské rozdělení? Jednorozměrná směs gaussovských rozdělení?

Párové interakce, interakce vyšších řádů Mnoho různých typů interakcí! Model, který by uměl efektivně zachytit

všechny typy interakcí, je těžké nalézt!

Reálná reprezentace >

Machine Learning & Softcomputing10 / XX

UMDAUMDA

Sdružená hustota pravděpodobnosti je faktorizována jako:

kde pd(xd) je jednorozměrná hustota

pravděpodobnosti ve formě histogramu, gaussiánu, směsi gaussiánů, ...

Jednotlivé souřadnice nových vektorů se generují nezávisle na sobě

Reálná reprezentace >

D

ddd xpxp

1

)()(

Machine Learning & Softcomputing11 / XX

Histogram se stejnou šířkou binůHistogram se stejnou šířkou binů

Nejpřímější analogie s diskrétními histogramy

Nevýhoda: pokud nepadne do binu ani jeden vektor, není možné v tomto binu už žádný jiný vektor vygenerovat!

Reálná reprezentace > UMDA

Machine Learning & Softcomputing12 / XX

Histogram se stejnou výškou binůHistogram se stejnou výškou binů

Místo fixní šířky binu se zafixuje četnost bodů, které do binů padnou!

Neexistují prázdné biny, vždy je možné vygenerovat vektor kdekoliv v hyperkrychli pokryté histogramem.

Reálná reprezentace > UMDA

Machine Learning & Softcomputing13 / XX

Histogram s hranicemi v největších mezeráchHistogram s hranicemi v největších mezerách

Najdou se největší mezery mezi vektory a do nich se umístí hranice binů

Neexistují prázdné biny, vždy je možné vygenerovat vektor kdekoliv v hyperkrychli pokryté histogramem.

Reálná reprezentace > UMDA

Machine Learning & Softcomputing14 / XX

Směs gaussiánůSměs gaussiánů

Hledá se pomocí EM algoritmu (pstní obdoba k-means shlukování)

Vhodnější pro stavové prostory neomezené hyperkrychlí

Reálná reprezentace > UMDA

Machine Learning & Softcomputing15 / XX

Testovací funkce: 2D Two PeaksTestovací funkce: 2D Two Peaks

Optimum v [1,1,...,1]

2D lokálních optim

Evoluce hranic binů (center složek pro MOG):

Reálná reprezentace > UMDA

Machine Learning & Softcomputing16 / XX

Histogramové UMDA: shrnutíHistogramové UMDA: shrnutí

Vhodné, když: je stavový prostor omezen hyperkrychlí mezi jednotlivými dimenzemi nejsou velké

závislosti

Je možné předzpracovat populaci pomocí rotace souřadného systému UMDA pak umí pracovat s lineárními interakcemi

Reálná reprezentace > UMDA

Machine Learning & Softcomputing17 / XX

Optimalizace pomocí Gaussova rozděleníOptimalizace pomocí Gaussova rozdělení

Případová studie:

Optimalizace kvadratické funkce

Truncation sel., z nejlepších je tvořen model

Model: Gaussovo rozdělení Parametry odhadované metodou max.

věrohodnosti

Dvě situace: Úvodní populace v okolí optima Úvodní populace vzdálena od optima

Reálná reprezentace >

Machine Learning & Softcomputing18 / XX

...pro monotónní fitness funkci...pro monotónní fitness funkci

Změna populačních statistik během 1 generace:

Reálná reprezentace > Gaussovo rozdělení

)(

)(),(|1

)()(min

)1(

ddxXXE ttt

21112)(2)1( )()()1(

1)(),()()(

cctt

Machine Learning & Softcomputing19 / XX

...pro monotónní fitness funkci...pro monotónní fitness funkci

Populační statistiky v generaci t pro monotónní funkci:

Konvergence populačních statistik:

Vzdálenost, kam může „docestovat“ populace u tohoto algoritmu, je omezená. Předčasná konvergence!

Reálná reprezentace > Gaussovo rozdělení

tt

t

i

it

c

dc

)()()(

)()(

2)0(2)(

1

1)0()0()(

0)(

)(1

1)(

2)(

)0()0()(

tt

tt

dc

Machine Learning & Softcomputing20 / XX

ŘešeníŘešení

Nastavit hranici, pod kterou rozptyl nemůže klesnout

K adaptaci rozptylu (mutačního kroku) použít jiné schéma než metodu max. věrohodnosti

Závěry:

Max. věrohodné odhady jsou vhodné v situaci, kdy model dobře odpovídá fitness funkci (alespoň v oblasti, kde se nachází populace) Gauss je vhodný v okolí optima Gauss je mnohem méně vhodný na „svahu“

Reálná reprezentace > Gaussovo rozdělení

Machine Learning & Softcomputing21 / XX

Evoluční strategieEvoluční strategie

Klasické metody využívající Gaussovo rozdělení

(,)-ES nebo (+)-ES rodičů, potomků (,) ... potomci kompletně nahrazují rodiče (+) ... potomci jsou spojeni s rodiči

Potomci vytvářeni pomocí mutace jako

, kde x je rodič a x’ je potomek

N(0,2) je izotropní normální rozdělení se směrodatnou odchylkou

Reálná reprezentace >

),0( 2Nxx dd

Machine Learning & Softcomputing22 / XX

Zvýšení flexibility: adaptace Zvýšení flexibility: adaptace

už není konstantní po celou dobu běhu ES

Deterministické snižování

Zpětnovazební regulace (pravidlo 1/5)

Použít autoadaptaci se stává součástí chromozomu chromozom obsahuje instrukce pro svou

vlastní změnu

Reálná reprezentace > Evoluční strategie

),0(

),0(exp2

2

Nxx

N

dd

Machine Learning & Softcomputing23 / XX

Zvýšení flexibility: složitost modeluZvýšení flexibility: složitost modelu

není stejné ve všech dimenzích

Použít diagonální kovarianční matici:

Použít plnou kovarianční matici

Ke změnám d příp. se obvykle používá

autoadaptace

Změny v kovarianční struktuře jsou stále velice náhodné!

Reálná reprezentace > Evoluční strategie

),0( Nxx

),0( 2ddd Nxx

Machine Learning & Softcomputing24 / XX

CMA-ESCMA-ES

Derandomizovaná evoluční strategie

(1,)-ES s adaptací kovarianční matice:

1. Vygeneruj potomků:

2. Na základě potomků aktualizuj parametry modelu:

Reálná reprezentace > Evoluční strategie

DDttDt

tttti

σ

σN

)()()(

)(2)()()(

,,

))(,0(

Cμx

)1()(

)1()(

)1()(

tt

tt

tt

σσ

CC

μμ

Machine Learning & Softcomputing25 / XX

CMA-ES: Adaptace parametrůCMA-ES: Adaptace parametrů

adaptace metodou max. věrohodnosti:

adaptace metodou max. věrohodnosti:

adaptace takovým způsobem, aby bylo dosaženo konjugovanosti dvou po sobě jdoucích kroků, tj. konceptuálně

Reálná reprezentace > Evoluční strategie

)1()( tt σσ

)1()( tt μμ

(t)selected

)1()1((t)selected tj.max,| xμμx ttP

)1()( tt CC

max| )1((t)

)((t)selected

tt

CP

μx

0)( 2)1(

)()1(1)1()2(

t

ttTtt

μμ

Cμμ

Machine Learning & Softcomputing26 / XX

CMA-ES: průběh optimalizaceCMA-ES: průběh optimalizace

Reálná reprezentace > Evoluční strategie

Machine Learning & Softcomputing27 / XX

CMA-ES: shrnutíCMA-ES: shrnutí

CMA-ES má kořeny v ES, ale vykazuje rysy typické pro EDA (adaptace a učení pstního modelu)

Vykazuje vlastnosti lokálního optimalizátoru

Přesto je považována za špičkovou metodu reálné black-box optimalizace, její výhody se projevují už při počtu 5-10 optimalizovaných proměnných

Byla použita pro řešení mnoha optimalizačních úloh z reálného světa (ladění parametrů elektronických filtrů, prokládání nelineárních funkcí, ...)

Reálná reprezentace > Evoluční strategie

Machine Learning & Softcomputing28 / XX

EDA pro reálnou reprezentaci: shrnutíEDA pro reálnou reprezentaci: shrnutí

Mnohem méně rozvinuté než pro diskrétní řetězce

Za obtížnost může hlavně: kletba rozměrnosti množství různých typů závislostí, které mohou

mezi proměnnými existovat

Přesto EDA (a obecně EA) pro reálnou reprezentaci dosahují lepších výsledků než konvenční optimalizační techniky (line search, Nelder-Mead simplex search, ...)

Reálná reprezentace > Evoluční strategie