estimation of distribution algorithms Část ii
DESCRIPTION
Estimation of Distribution Algorithms Část II. Petr Pošík Prezentace pro předmět Kognitivní procesy 6. dubna 2006. V minulém díle jste viděli. Z minula >. Co už známe…. Black-box optimalizace GA vs. EDA GA používají přístup select – crossover – mutate - PowerPoint PPT PresentationTRANSCRIPT
Estimation of Distribution Algorithms
Část II
Petr Pošík
Prezentace pro předmětKognitivní procesy
6. dubna 2006
Machine Learning & Softcomputing3 / XX
Co už známe…Co už známe…
Black-box optimalizace
GA vs. EDAGA používají přístup select – crossover – mutate EDA používají přístup select – model – sample
EDA s binární reprezentací Nejpřesnější model: úplná sdružená pst
pst výskytu každé možné kombinace bitů
2D-1 parametrů, exponenciální složitost Použití méně přesných, ale jednodušších
pravděpodobnostních modelů
Z minula >
Machine Learning & Softcomputing4 / XX
Typy EDA s binární reprezentacíTypy EDA s binární reprezentací
Bez interakcí 1-rozměrné marginální psti P(X=x) PBIL, UMDA
Párové interakce podmíněné psti P(X=x|Y=y) řetězce (MIMIC), stromy (COMIT), lesy (BMDA)
Vícenásobné interakce podmíněné psti P(X=x|Y=y, Z=z, ...) bayesovské sítě (BOA, EBNA, LFDA)
Z minula >
Machine Learning & Softcomputing5 / XX
Obsah přednášekObsah přednášek
1. EDAs pro vektory diskrétních hodnot (např. binární) Motivační příklad Bez interakcí Párové interakce Vyšší interakce
2. EDAs pro vektory reálných čísel Histogramy Gaussovo rozdělení Evoluční strategie CMA-ES
Úvod >
Machine Learning & Softcomputing7 / XX
Fundamentální odlišnosti RFundamentální odlišnosti RDD od od {0,1}{0,1}DD
Binární prostor1. Každé kandidátské řešení
se nachází v některém rohu hyperkrychle
2. Žádné mezilehlé hodnoty
3. Konečný počet prvků
Reálný prostor1. Interval v jednotlivých dimenzích nemusí být stanoven
2. I když stanoven je, existuje nekonečně mnoho mezilehlých hodnot (teoreticky, prakticky jsme omezeni numerickou přesností daného stroje)
3. Nekonečný počet prvků
Reálná reprezentace >
Machine Learning & Softcomputing8 / XX
Fundamentální odlišnosti RFundamentální odlišnosti RDD od od {0,1}{0,1}DD
Jak definovat lokální okolí? Kletba rozměrnosti!
Jako množinu bodů, jejichž vzdálenost nepřesáhne jistou hranici? Objem lokálního okolí vůči objemu st. prostoru
exponenciálně klesá Se vzrůstající dimenzí se okolí stává čím dál tím víc
lokálním
Jako množinu bodů, které jsou aktuálnímu bodu nejblíž a jejichž sjednocení zabírá jistou část objemu st. prostoru? Rozměry lokálního okolí rostou s rostoucí dimenzí prostoru Se vzrůstající dimenzí lokální okolí přestává být lokálním
Reálná reprezentace >
Machine Learning & Softcomputing9 / XX
Přímé analogie s diskrétními EDAPřímé analogie s diskrétními EDA
Bez interakcí UMDA – stejný princip, mění se jen typ hustoty
pravděpodobnosti Jednorozměrné histogramy? Jednorozměrné gaussovské rozdělení? Jednorozměrná směs gaussovských rozdělení?
Párové interakce, interakce vyšších řádů Mnoho různých typů interakcí! Model, který by uměl efektivně zachytit
všechny typy interakcí, je těžké nalézt!
Reálná reprezentace >
Machine Learning & Softcomputing10 / XX
UMDAUMDA
Sdružená hustota pravděpodobnosti je faktorizována jako:
kde pd(xd) je jednorozměrná hustota
pravděpodobnosti ve formě histogramu, gaussiánu, směsi gaussiánů, ...
Jednotlivé souřadnice nových vektorů se generují nezávisle na sobě
Reálná reprezentace >
D
ddd xpxp
1
)()(
Machine Learning & Softcomputing11 / XX
Histogram se stejnou šířkou binůHistogram se stejnou šířkou binů
Nejpřímější analogie s diskrétními histogramy
Nevýhoda: pokud nepadne do binu ani jeden vektor, není možné v tomto binu už žádný jiný vektor vygenerovat!
Reálná reprezentace > UMDA
Machine Learning & Softcomputing12 / XX
Histogram se stejnou výškou binůHistogram se stejnou výškou binů
Místo fixní šířky binu se zafixuje četnost bodů, které do binů padnou!
Neexistují prázdné biny, vždy je možné vygenerovat vektor kdekoliv v hyperkrychli pokryté histogramem.
Reálná reprezentace > UMDA
Machine Learning & Softcomputing13 / XX
Histogram s hranicemi v největších mezeráchHistogram s hranicemi v největších mezerách
Najdou se největší mezery mezi vektory a do nich se umístí hranice binů
Neexistují prázdné biny, vždy je možné vygenerovat vektor kdekoliv v hyperkrychli pokryté histogramem.
Reálná reprezentace > UMDA
Machine Learning & Softcomputing14 / XX
Směs gaussiánůSměs gaussiánů
Hledá se pomocí EM algoritmu (pstní obdoba k-means shlukování)
Vhodnější pro stavové prostory neomezené hyperkrychlí
Reálná reprezentace > UMDA
Machine Learning & Softcomputing15 / XX
Testovací funkce: 2D Two PeaksTestovací funkce: 2D Two Peaks
Optimum v [1,1,...,1]
2D lokálních optim
Evoluce hranic binů (center složek pro MOG):
Reálná reprezentace > UMDA
Machine Learning & Softcomputing16 / XX
Histogramové UMDA: shrnutíHistogramové UMDA: shrnutí
Vhodné, když: je stavový prostor omezen hyperkrychlí mezi jednotlivými dimenzemi nejsou velké
závislosti
Je možné předzpracovat populaci pomocí rotace souřadného systému UMDA pak umí pracovat s lineárními interakcemi
Reálná reprezentace > UMDA
Machine Learning & Softcomputing17 / XX
Optimalizace pomocí Gaussova rozděleníOptimalizace pomocí Gaussova rozdělení
Případová studie:
Optimalizace kvadratické funkce
Truncation sel., z nejlepších je tvořen model
Model: Gaussovo rozdělení Parametry odhadované metodou max.
věrohodnosti
Dvě situace: Úvodní populace v okolí optima Úvodní populace vzdálena od optima
Reálná reprezentace >
Machine Learning & Softcomputing18 / XX
...pro monotónní fitness funkci...pro monotónní fitness funkci
Změna populačních statistik během 1 generace:
Reálná reprezentace > Gaussovo rozdělení
)(
)(),(|1
)()(min
)1(
ddxXXE ttt
21112)(2)1( )()()1(
1)(),()()(
cctt
Machine Learning & Softcomputing19 / XX
...pro monotónní fitness funkci...pro monotónní fitness funkci
Populační statistiky v generaci t pro monotónní funkci:
Konvergence populačních statistik:
Vzdálenost, kam může „docestovat“ populace u tohoto algoritmu, je omezená. Předčasná konvergence!
Reálná reprezentace > Gaussovo rozdělení
tt
t
i
it
c
dc
)()()(
)()(
2)0(2)(
1
1)0()0()(
0)(
)(1
1)(
2)(
)0()0()(
tt
tt
dc
Machine Learning & Softcomputing20 / XX
ŘešeníŘešení
Nastavit hranici, pod kterou rozptyl nemůže klesnout
K adaptaci rozptylu (mutačního kroku) použít jiné schéma než metodu max. věrohodnosti
Závěry:
Max. věrohodné odhady jsou vhodné v situaci, kdy model dobře odpovídá fitness funkci (alespoň v oblasti, kde se nachází populace) Gauss je vhodný v okolí optima Gauss je mnohem méně vhodný na „svahu“
Reálná reprezentace > Gaussovo rozdělení
Machine Learning & Softcomputing21 / XX
Evoluční strategieEvoluční strategie
Klasické metody využívající Gaussovo rozdělení
(,)-ES nebo (+)-ES rodičů, potomků (,) ... potomci kompletně nahrazují rodiče (+) ... potomci jsou spojeni s rodiči
Potomci vytvářeni pomocí mutace jako
, kde x je rodič a x’ je potomek
N(0,2) je izotropní normální rozdělení se směrodatnou odchylkou
Reálná reprezentace >
),0( 2Nxx dd
Machine Learning & Softcomputing22 / XX
Zvýšení flexibility: adaptace Zvýšení flexibility: adaptace
už není konstantní po celou dobu běhu ES
Deterministické snižování
Zpětnovazební regulace (pravidlo 1/5)
Použít autoadaptaci se stává součástí chromozomu chromozom obsahuje instrukce pro svou
vlastní změnu
Reálná reprezentace > Evoluční strategie
),0(
),0(exp2
2
Nxx
N
dd
Machine Learning & Softcomputing23 / XX
Zvýšení flexibility: složitost modeluZvýšení flexibility: složitost modelu
není stejné ve všech dimenzích
Použít diagonální kovarianční matici:
Použít plnou kovarianční matici
Ke změnám d příp. se obvykle používá
autoadaptace
Změny v kovarianční struktuře jsou stále velice náhodné!
Reálná reprezentace > Evoluční strategie
),0( Nxx
),0( 2ddd Nxx
Machine Learning & Softcomputing24 / XX
CMA-ESCMA-ES
Derandomizovaná evoluční strategie
(1,)-ES s adaptací kovarianční matice:
1. Vygeneruj potomků:
2. Na základě potomků aktualizuj parametry modelu:
Reálná reprezentace > Evoluční strategie
DDttDt
tttti
σ
σN
)()()(
)(2)()()(
,,
))(,0(
Cμ
Cμx
)1()(
)1()(
)1()(
tt
tt
tt
σσ
CC
μμ
Machine Learning & Softcomputing25 / XX
CMA-ES: Adaptace parametrůCMA-ES: Adaptace parametrů
adaptace metodou max. věrohodnosti:
adaptace metodou max. věrohodnosti:
adaptace takovým způsobem, aby bylo dosaženo konjugovanosti dvou po sobě jdoucích kroků, tj. konceptuálně
Reálná reprezentace > Evoluční strategie
)1()( tt σσ
)1()( tt μμ
(t)selected
)1()1((t)selected tj.max,| xμμx ttP
)1()( tt CC
max| )1((t)
)((t)selected
tt
CP
μx
0)( 2)1(
)()1(1)1()2(
t
ttTtt
μμ
Cμμ
Machine Learning & Softcomputing26 / XX
CMA-ES: průběh optimalizaceCMA-ES: průběh optimalizace
Reálná reprezentace > Evoluční strategie
Machine Learning & Softcomputing27 / XX
CMA-ES: shrnutíCMA-ES: shrnutí
CMA-ES má kořeny v ES, ale vykazuje rysy typické pro EDA (adaptace a učení pstního modelu)
Vykazuje vlastnosti lokálního optimalizátoru
Přesto je považována za špičkovou metodu reálné black-box optimalizace, její výhody se projevují už při počtu 5-10 optimalizovaných proměnných
Byla použita pro řešení mnoha optimalizačních úloh z reálného světa (ladění parametrů elektronických filtrů, prokládání nelineárních funkcí, ...)
Reálná reprezentace > Evoluční strategie
Machine Learning & Softcomputing28 / XX
EDA pro reálnou reprezentaci: shrnutíEDA pro reálnou reprezentaci: shrnutí
Mnohem méně rozvinuté než pro diskrétní řetězce
Za obtížnost může hlavně: kletba rozměrnosti množství různých typů závislostí, které mohou
mezi proměnnými existovat
Přesto EDA (a obecně EA) pro reálnou reprezentaci dosahují lepších výsledků než konvenční optimalizační techniky (line search, Nelder-Mead simplex search, ...)
Reálná reprezentace > Evoluční strategie