2. algorithmes stochastiques en optimisation globale2. algorithmes stochastiques en optimisation...

25
2. Algorithmes stochastiques en optimisation globale L. Dumas Formulation math´ ematique Algoirthmes stochastiques Mod` eles approch´ es 2. Algorithmes stochastiques en optimisation globale Laurent Dumas Laboratoire de Math´ ematiques de Versailles Universit´ e de Versailles Saint Quentin en Yvelines Ecole d’´ et´ e Math´ ematiques et Interactions, Agadir, 17 mai 2011

Upload: others

Post on 20-Oct-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    2. Algorithmes stochastiquesen optimisation globale

    Laurent Dumas

    Laboratoire de Mathématiques de VersaillesUniversité de Versailles Saint Quentin en Yvelines

    Ecole d’été Mathématiques et Interactions, Agadir, 17 mai 2011

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    1 Formulation mathématique

    2 Algorithmes stochastiques

    3 Modèles approchés

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    1 Formulation mathématique

    2 Algorithmes stochastiques

    3 Modèles approchés

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Problème d’optimisation à résoudre

    On s’intéresse ici au problème de l’optimisation globale d’unefonction J : O → IR dont le calcul peut éventuellement êtrecomplexe et coûteux.

    Dans le cas où O ⊂ IRn, le choix doit se porter vers uneméthode d’optimisation sans gradient.

    La plupart des méthodes déterministes existantes (Nelder Mead,NEWUOA, etc...) ne permettent de rechercher qu’un minimumlocal.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    1 Formulation mathématique

    2 Algorithmes stochastiques

    3 Modèles approchés

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Algorithmes stochastiques : historique

    Les méthodes de type Monte Carlo et leurs variantes (recuitsimulé) sont les premiers algorithmes stochastiques ayant étéintroduits en optimisation.

    Développés plus récemment, les algorithmes évolutionnaires(algorithmes génétiques, stratégies d’évolution, PSO, etc...) sontdes algorithmes stochastiques d’optimisation qui tirent leur nomd’une analogie avec la théorie de l’évolution des espèces deDarwin.

    Références : Holland (1976), Goldberg (1989), Cerf (1994),Schoenaueur (1996), Hansen (2001), etc...

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Algorithmes stochastiques

    On présente ici 4 méthodes (SA, GA, ES, PSO) qui seronttestées sur la fonction de Rastrigin :

    Rast(x1, ..., xn) =n∑

    i=1

    (x2i − cos(2πxi )

    )+ n

    0

    10

    20

    30

    40

    50

    60

    Z

    64

    20

    24

    6 X

    64

    20

    24

    6Y

    Celle-ci possède un grand nombre de minimas locaux (10n sur[−5, 5]) et un seul minimum global.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Principe général du recuit simulé (SA)

    Choix d’un élément initial X 1 ∈ Ofor n from 1 to Ngen

    Mutation : remplacer X n par Y n, choisi aléatoirement dans unvoisinage.

    Evaluation de J(Y n).

    si J(Y n) < J(X n), alors X n+1 = Y n.si J(Y n) ≥ J(X n), alors X n+1 = Y n avec une probabilitéexp(− J(Y

    n)−J(Xn)T

    ) et X n+1 = X n sinon.

    Mise à jour du paramètre T (T → 0 lentement)end for

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Principe général d’un algorithme génétique (GA)

    Choix d’une population initiale P1 = {X 1i ∈ O, 1 ≤ i ≤ Np}for n from 1 to Ngen

    Evaluation de {J(X ni ), 1 ≤ i ≤ Np}.Creation d’une population de Np individus par :

    Selection de (X nα,Xnβ) en fonction de leur facteur de santé.

    Croisement : remplacer (X nα,Xnβ) par (Y

    nα,Y

    nβ ).

    Mutation : remplacer (Y nα,Ynβ ) par (Z

    nα,Z

    nβ).

    end for

    Generation de la nouvelle population Pn+1.

    end for

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Principe général d’une stratégie d’évolution (ES)

    Choix d’une population initiale de µ parents :P1 = {X 1i ∈ O, 1 ≤ i ≤ µ}for n from 1 to Ngen

    Creation d’une population de λ ≥ µ enfants On par :Croisement à ω parents Y ni =

    (∑ω

    j=1 Xnj )

    Mutation : remplacer Y ni par Zni

    Evaluation de {J(Z ni ), 1 ≤ i ≤ λ}Selection des meilleurs µ parents dans la population Pn ∪ On.end for

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Principe général d’un essaim de particules (PSO)

    Choix d’une population initiale P1 = {(X 1i , v 1i , p1i ), 1 ≤ i ≤ Np}de particules ayant la position actuelle Xi ∈ O, la vitesse vi etune meilleure position pi .

    for n from 1 to Ngen

    Evaluation de {J(X ni ), 1 ≤ i ≤ Np}.Actualisation de la meilleure position individuelle et globale(png )

    Calcul des nouvelles vitesses de chaque particule :

    vn+1i = ωvni + c1ρ1(p

    ni − xni ) + c2ρ2(png − xni )

    Calcul des nouvelles positions de chaque particule :

    X n+1i = Xni + v

    n+1i

    end for

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Principaux avantages

    Grâce à leur caractère stochastique, il s’agit de méthodesd’optimisation globale.

    Grâce à l’utilisation d’une population, il s’agit de méthodesfacilement parallélisables.

    Toutes ces méthodes permettent de gérer les contraintes demanière relativement simple et efficace par un principe depénalisation statique ou dynamique ou de stochastic ranking.

    La plupart de ces méthodes possèdent une version multi-objectifpermettant de déterminer un front de Pareto.

    Ces méthodes sont également très stables par rapport auxerreurs numériques commises sur la fonction J.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Principaux inconvénients

    Le principal inconvénient de ces méthodes est leur coût de calculimportant lié au grand nombre d’évaluations de la fonction J àeffectuer.

    La vitesse de convergence est également très lente comparée àune méthode déterministe.

    Le choix des paramètres est très influent sur la qualité desrésultats obtenus.

    Il existe très peu de résultats de convergence théorique de cesméthodes.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Un résultat de convergence pour les ES

    La plupart des résultats de convergence concernent des fonctionssphériques : J(x) = g(||x ||2) avec g croissante.Soit par exemple une stratégie d’évolution (1, 1) représentée parla suite de vecteurs aléatoires (Xn) et ayant une mutationgaussienne de variance σ||Xn||. Sous certaines hypothèsestechniques et pour une fonction sphérique, Xn converge presquesurement vers le minimum de J et :

    limn→+∞

    1

    nln

    (||Xn||||X0||

    )= c < 0

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    1 Formulation mathématique

    2 Algorithmes stochastiques

    3 Modèles approchés

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Modèles approchés

    Pour rendre plus performants les algorithmes évolutionnaires,l’incorporation d’un modèle approché, affiné au cours desitérations, permet d’améliorer grandement leur efficacité.

    De manière générale, l’objectif consiste à construire une fonctionapprochée J̃ (surrogate ou metamodèle) de la fonction exacte Jà partir d’un certain nombre de points (Xi , J(Xi ))1≤i≤N où lafonction exacte est supposée connue.

    Références : Giannakoglou (2001), Jin (2005), etc...

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Modèles approchés : méthode RBF

    Une méthode possible, appelée méthode RBF, est construitecomme une combinaison linéaire de fonctions radiales centréesen chacun des points Xi .

    L’approximation de la fonction coût en un point X ∈ IRn s’écritalors :

    J̃(X ) =N∑i=1

    wih(||X − Xi ||)

    où h désigne une fonction r 7→ h(r) dite fonction de base radiale.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Modèles approchés : méthode RBF

    Les poids (wi )1≤i≤N sont calculés par résolution de l’équationmatricielle Aw = z traduisant l’exactitude du réseau sur lespoints (Xi )1≤i≤N , où la matrice A ∈MN(R) a pour termegénéral ai,j = h(||Xi − Xj ||) et le second membre a pour termegénéral zi = J(Xi ).

    On a donc ici :J̃(X ) = RTA−1z

    où R est le vecteur colonne de terme général h(||X − Xi ||).Pour des fonctions h bien choisies, on peut montrer que lamatrice A est toujours inversible voire définie positive.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Modèles approchés : méthode RBF

    Une fonction continue f définie sur R∗+ est dite (définie) positivesi pour toute famille de points distincts X1, ...,XN de Rn, laforme quadratique

    q(c1, ..., cN) =∑ ∑

    1≤i,j≤N

    cicj f (||Xi − Xj ||)

    est (définie) positive.

    Théorème (Schoenberg) : Une fonction f est totalementmonotone sur R∗+ si et seulement si la fonction r → f (r 2) estpositive.

    Ainsi, les fonctions r 7→ e−r2 et r 7→ (1 + r 2)−α avec α > 0peuvent être utilisées comme fonctions de base dans les réseauxRBF.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Modèles approchés : méthode RBF

    Théorème (Micchelli) : soit h une fonction dérivable sur R+,strictement positive sur R∗+. Si la première dérivée de h esttotalement monotone et non constante sur R∗+, alors pour toutefamille de points distincts X1, ...,XN de Rn :

    (−1)N−1det([

    h(||Xi − Xj ||2)])> 0

    Ainsi, les fonctions r → (c2 + r 2)α avec c ∈ R et 0 < α < 1peuvent être utilisées comme fonction de base radiale dans lesréseaux RBF.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Modèles approchés : méthode RBF

    Afin de déterminer les paramètres optimaux des fonctions debase du modèle RBF, une méthode de type ’leave-one out’ peutêtre utilisée.

    Cette méthode consiste à entrainer le réseau sur tous les pointssauf un et à tester l’erreur commise sur ce point. En répétant ceprocédé sur tous les points, on aboutit à une erreur globale qu’ils’agit de rendre minimale.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Modèles approchés : méthode RBF

    Dans le cas où le nombre de points N est trés grand, la matriceA peut être mal conditionnée. Afin d’éviter ce problème, deuxchoix sont possibles.

    Soit un procédé de régularisation de Tychonov est ajoutépermettant de réduire le conditionnement de A. Dans ce cas, laméthode RBF cesse d’être une méthode d’interpolation.

    Soit le nombre de points N est réduit à m en ne considérant queles plus proches points du point X à calculer. Dans ce cas, leréseau construit devient local.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Modèles approchés : méthode RBF

    Exemple sur la fonction de Rastrigin :

    Rast(x1, ..., xn) =n∑

    i=1

    (x2i − cos(2πxi )

    )+ n

    0.2 1

    2

    2

    2

    2

    2

    3

    3

    3

    3

    3

    3

    3

    3

    4

    4

    4

    4

    −1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0−1.0

    −0.8

    −0.6

    −0.4

    −0.2

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    2

    2

    2

    2

    3

    3

    3

    4

    −1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0−1.0

    −0.8

    −0.6

    −0.4

    −0.2

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.2

    1

    1 2

    2

    2

    2

    2

    2

    3

    3 3

    3

    4

    4

    −1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0−1.0

    −0.8

    −0.6

    −0.4

    −0.2

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0.2 1

    2

    2

    2

    2

    2

    3

    3 3

    3

    4

    4 4

    4

    −1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0−1.0

    −0.8

    −0.6

    −0.4

    −0.2

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    La figure ci-dessus compare les contours de la fonction deRastrigin et trois modèles approchés, construit à partir d’unréseau RBF avec 40 ou 200 points d’exemples.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Incorporation dans un algorithme évolutionnaire

    A partir d’un algorithme évolutionnaire de type AlgorithmeGénétique, un algorithme plus performant peut être construit.

    Il consiste à introduire le modèle approché de type RBF enl’améliorant au fil des itérations à l’aide de nouveaux pointsd’exemples.

    Ces nouveaux points correspondent aux éléments les plusperformants,au sens de la fonction approchée.

    Le nombre de nouveaux points d’exemples décroit au cours desgénérations pour ne concerner plus que quelques éléments lorsde la dernière génération de l’algorithme.

  • 2. Algorithmesstochastiques en

    optimisationglobale

    L. Dumas

    Formulationmathématique

    Algoirthmesstochastiques

    Modèlesapprochés

    Exemple d’utilisation de l’algorithme AGA

    Sur la fonction de Rastrigin, le gain comparé à un AG classiquese situe entre un facteur 2 et 10 (pour n = 6 et n = 20représentés ci dessous) :

    0 500 1000 1500 2000 2500

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    20

    convergence history

    Neval

    fmin

    AGA

    GA

    0 2000 4000 6000 8000 10000 12000

    0

    20

    40

    60

    80

    100

    120

    convergence history

    Neval

    fmin

    AGA

    GA

    Formulation mathématiqueAlgorithmes stochastiquesModèles approchés