quelques aspects num´eriques de la commande optimale ...bonnans/notes/cos.pdf · 2 ce polycopi´e...

61
Quelques Aspects Num ´ eriques de la Commande Optimale Stochastique Fr´ ed´ eric Bonnans 1 24 juillet 2009 1 Projet Commands, INRIA-Saclay et Ecole Polytechnique, France. [email protected]

Upload: vudang

Post on 16-Sep-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Quelques Aspects Numeriques dela Commande Optimale

Stochastique

Frederic Bonnans 1

24 juillet 2009

1Projet Commands, INRIA-Saclay et Ecole Polytechnique, France. [email protected]

2

Ce polycopie est une version actualisee et completee des cours d’introduction a lacommande optimale stochastique donnes dans le cadre du mastere de mathematiques ap-pliquees de l’Ecole Nationale d’Ingenieurs de Tunis, du 19 au 23 janvier 2004, a l’invitationde Henda El Fekih, directrice du LAMSIN, et de l’Ecole CIMPA Analyse, Optimisation etCommande Optimale, Lima, Perou, du 9 au 27 fevrier 2004, organisee par Marc Lassonde,professeur a l’Universite Antilles-Guyane.

Apres une breve presentation des problemes de commande optimale de chaınes deMarkov, et une derivation formelle de l’equation de Hamilton-Jacobi-Bellman, on presentequelques schemas de resolution numerique de type differences finies.

Le principe de comparaison des sur et sous solutions est expose en detail, et le coursse termine par une discussion des estimations d’erreur des schemas numeriques.

L’actualisation fin 2008 consiste principalement en l’amelioration de la minoration dela solution du schema de differences finies dans le chapitre 3 (qui fait passer l’estimation deh1/3 a h1/2), et la discussion de l’estimation inverse et des questions ouvertes. Il faut noterqu’en dehors des points techniques, la grande question ouverte est l’obtention d’estimationsd’erreur pour des hamiltoniens non convexes (cas des jeux par exemple).

L’actualisation de juillet 2009 detaille certains points des estimations d’erreur, analyseles algorithmes semi lagrangiens, et a beneficie d’une relecture d’Imene Ben Latifa, del’ENIT.

L’auteur remercie les organisateurs de ces cours pour leurs invitations, ainsi que leseleves et collegues pour leurs remarques et questions qui ont contribue a l’amelioration dutexte.

Table des matieres

1 Chaınes de Markov commandees 22 07 09 5

1.1 Problemes a horizon fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.2 Chaınes de Markov et valeurs associees . . . . . . . . . . . . . . . . 5

1.1.3 Quelques lemmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.4 Principe de Programmation dynamique . . . . . . . . . . . . . . . . 8

1.2 Problemes a horizon infini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.1 Caracterisation des solutions . . . . . . . . . . . . . . . . . . . . . . 9

1.2.2 Analyse de sensibilite . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2.3 Algorithmes numeriques . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3 Extensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.3.1 Problemes de temps de sortie . . . . . . . . . . . . . . . . . . . . . . 14

1.3.2 Problemes avec decision d’arret . . . . . . . . . . . . . . . . . . . . . 15

1.3.3 Un algorithme implementable . . . . . . . . . . . . . . . . . . . . . . 16

1.4 Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Problemes en temps et espace continus 22 07 09 21

2.1 Approche informelle de l’equation HJB . . . . . . . . . . . . . . . . . . . . . 21

2.1.1 Position du probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1.2 Probleme discretise en temps . . . . . . . . . . . . . . . . . . . . . . 22

2.2 Schemas de differences finies . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.1 Schemas monotones : dimension 1 . . . . . . . . . . . . . . . . . . . 23

2.2.2 Differences finies classiques . . . . . . . . . . . . . . . . . . . . . . . 25

2.2.3 Differences finies generalisees . . . . . . . . . . . . . . . . . . . . . . 28

2.2.4 Analyse de la condition de consistance forte . . . . . . . . . . . . . . 30

2.3 Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3 Estimations d’erreur 24 07 09 33

3.1 Principe de comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.1 Solutions de viscosite . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.2 Lemme d’Ishii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.1.3 Separation des variables . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.1.4 Principe de comparaison abstrait . . . . . . . . . . . . . . . . . . . . 41

3

4 TABLE DES MATIERES

3.1.5 Unicite forte en commande optimale stochastique . . . . . . . . . . . 433.2 Estimations d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.2.1 Immersion du schema dans IRn . . . . . . . . . . . . . . . . . . . . . 443.2.2 Cas de solutions lisses . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2.3 Un procede general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.2.4 Minoration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.2.5 Majoration de la solution du schema . . . . . . . . . . . . . . . . . . 51

3.3 Algorithme semi lagrangien . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.3.2 Stabilite de la solution du schema . . . . . . . . . . . . . . . . . . . 523.3.3 Erreur de consistance . . . . . . . . . . . . . . . . . . . . . . . . . . 553.3.4 Estimation d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.3.5 Discretisation spatiale . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Chapitre 1

Chaınes de Markov commandees

22 07 09

1.1 Problemes a horizon fini

1.1.1 Quelques exemples

Un exemple classique de commande de chaınes de Markov est la gestion de stock : lesachats des clients arrivent de maniere aleatoire, et la commande consiste a reapprovision-ner, avec paiement de penalites pour tout achat non honore. Autre exemple, la maintenanced’un parc d’outils de production. L’etat du systeme est l’ensemble des outils en etat defonctionnement, et la commande consiste a effectuer les reparations des outils en panne.Il s’agit au fond de conception de systemes fiables.

Enfin les problemes de commande optimale (deterministes ou stochastiques) en espacecontinu (et temps continu ou discret) resolus en discretisant l’equation HJB reviennent,comme on le verra, a resoudre un probleme de commande d’une chaıne de Markov. Enparticulier, les problemes d’evaluation d’options financiere, d’identification de volatiliteimplicite, et de gestion de portefeuille sont de cette nature.

1.1.2 Chaınes de Markov et valeurs associees

Considerons un systeme dynamique dont l’etat peut prendre un nombre fini ou denom-brable de valeurs, soit 1, . . . ,m, avec m fini ou non. Il est utile de traiter le cas m = ∞pour discuter le probleme de discretisation de systemes continus.

On note xk la valeur de l’etat au temps k, ou k ∈ IN . On suppose connue la probabiliteMkij de transition de l’etat i au temps k, a l’etat j au temps k+ 1. Autrement dit, notant

P la loi de probabilite, on a

P(xk+1 = j|xk = i) = Mkij . (1.1)

On supposera cette loi markovienne, c’est a dire

P(xk+1 = j|xk = i, xk−1 = ik−1, . . . , x0 = i0) = Mk

ij . (1.2)

5

6 CHAPITRE 1. CHAINES DE MARKOV COMMANDEES 22 07 09

Ceci signifie que si on connaıt la valeur de l’etat au temps k, la connaissance des etatspasses n’apporte rien pour la prediction du futur.

La “matrice” Mk = Mkij, ou i et j varient de 1 a m, est le tableau (fini ou non) de

valeur Mkij en ligne i et colonne j. Tous ses elements sont positifs ou nuls, et la somme des

elements d’une ligne vaut 1. Une telle matrice est dite stochastique.Si m = ∞, l’extension naturelle du calcul matriciel : produit de deux matrices, produit

d’une matrice avec un vecteur (vertical) a droite ou (horizontal) a gauche, et produit dedeux matrices, demande quelques precautions : il faut que les quantites en jeu soient som-mables. Plus precisement, soient ℓ1 et ℓ∞, respectivement, l’espace des suites sommableset bornees, dont les elements sont indices de 1 a m, et representes comme des vecteurshorizontaux (pour ℓ1) et verticaux (pour ℓ∞). Si x ∈ ℓ1 et v ∈ ℓ∞, et si M est une matricestochastique, on peut definir leur produit xM ∈ ℓ1 et Mv ∈ ℓ∞ par

(xM)j :=

m∑

i=1

xiMij ; (Mv)i :=

m∑

j=1

Mijvj .

On a en effet ‖xM‖1 ≤ ‖x‖1 et ‖Mv‖∞ ≤ ‖v‖∞. Autrement dit, une matrice stochastiqueest non expansive a droite et a gauche. Si M1 et M2 sont deux matrices stochastiques, onpeut definir leur produit M1M2 par

(M1M2)ij :=m∑

k=1

M1ikM

2kj.

Il est facile de verifier que le produit de deux matrices stochastiques est une matricestochastique. On interpretera

p ∈ ℓ1; pi ≥ 0, i = 1, . . . ,m;m∑

i=1

pi = 1

comme l’espace de probabilites pour l’etat du systeme a un temps donne, et ℓ∞ comme unespace de valeurs. Notons que si p est une probabilite, et M est stochastique, alors pM estune probabilite.

Si l’etat xk du systeme a l’instant k est connu, la loi de probabilite de xk+1 est laligne de Mk d’indice xk. Si on dispose seulement d’une loi de probabilite pour xk, noteepk = (pk1 , . . . , p

km), et consideree comme un vecteur horizontal, alors la loi de probabilite

de xk+1 verifie l’equation de Kolmogorov avant

pk+1 := P(xk+1|pk) =∑

i

pkiMki,· = pkMk, (1.3)

d’ou on deduit par recurrence, si la probabilite initiale est p0,

P(xk+1|p0) = p0M0M1 . . .Mk. (1.4)

Associons maintenant a ce processus la fonction cout cki , i = 1, . . . ,m, k ∈ IN .On suppose que ck := cki i=1,...,m appartient a ℓ∞, ce qui veut dire que les couts sont

1.1. PROBLEMES A HORIZON FINI 7

uniformement bornes en espace, et que ck est represente comme un vecteur vertical. Soitϕ une application 1, . . . ,m → ℓ∞, appelee cout final. Definissons la fonction valeur duprobleme avec etat initial i et instant initial k comme

V ki := IE

(

N−1∑

ℓ=k

cℓxℓ + ϕ(xN ) | xk = i

)

. (1.5)

Ici N > 0 est l’horizon, et IE represente l’esperance mathematique.

Proposition 1.1 Pour tout k = 0, . . . ,N , la fonction valeur V k est bien definie et appar-tient a ℓ∞. De plus, la suite V k est solution de l’equation de recurrence de Kolmogorovarriere

V k = ck +MkV k+1, k = 0, . . . ,N − 1,V N = ϕ.

(1.6)

Proof. La condition finale est triviale. De plus, si xk a la valeur i, alors d’apres l’equationde Kolmogorov avant

V ki = cki +

m∑

j=1

MkijV

k+1j ,

d’ou le resultat.

Considerons maintenant un probleme avec ck = c ∈ ℓ∞ et Mk = M independants dutemps, horizon infini, et taux d’actualisation β ∈]0, 1[. La valeur de ce probleme, c’est adire

Vi := IE

(

∞∑

k=0

βk+1cxk |x0 = i

)

, (1.7)

est bien definie et appartient a ℓ∞. En raison de l’equation de Kolmogorov avant, elle estsolution de l’equation

V = β(c+MV ). (1.8)

Comme M est non expansive, cette equation est celle d’un operateur de point fixe stricte-ment contractant et a donc une solution unique.

1.1.3 Quelques lemmes

Commencons par le rappel du theoreme de point fixe de Banach-Picard.

Lemme 1.2 Soient X un espace de Banach et C une partie fermee de X. Soit T unoperateur contractant de C vers lui meme. Autrement dit, il existe c ∈ [0, 1[ tel que, sixi ∈ C, i = 1, 2, alors Txi ∈ C, i = 1, 2, et

‖Tx2 − Tx1‖ ≤ c‖x2 − x1‖. (1.9)

Alors T a un unique point fixe x∗ ∈ C (c.a.d. l’equation Tx = x a pour solution uniquex∗). De plus, quel que soit x0 ∈ C, la suite xk telle que xk+1 = Txk converge vers x∗, et

‖xk − x∗‖ ≤ ck‖x0 − x∗‖. (1.10)

8 CHAPITRE 1. CHAINES DE MARKOV COMMANDEES 22 07 09

Voici un autre lemme, qui sera utile a plusieurs reprises.

Lemme 1.3 Soit M une matrice stochastique, β ∈]0, 1[, ε > 0 et w ∈ ℓ∞ tels que w ≤ε1 + βMw. Alors w ≤ (1 − β)−1ε1.

Proof. On a Mw ≤ (supw)1 puisque M est une matrice stochastique, et donc w ≤(ε+ β supw)1. En consequence, supw ≤ ε+ β supw, d’ou la conclusion.

1.1.4 Principe de Programmation dynamique

Considerons maintenant une chaıne de Markov dont les probabilites de transitionMij(u) dependent d’une variable de commande u ∈ Ui, ou Ui est un ensemble quelconquedependant de l’etat i (certains resultats supposeront Ui metrique compact). Donnons nousdes couts dependant de la commande, de l’etat, et du temps, soit cki (u) : Ui → IR, bornee,c’est a dire telle que

‖c‖∞ := sup

|cki (u)|; 1 ≤ i ≤ m; u ∈ Ui; 0 ≤ k ≤ N − 1

<∞. (1.11)

On considere le probleme de minimisation du critere sur horizon fini

V ki (u) := IE

(

N−1∑

ℓ=k

cℓxℓ(uℓ) + ϕ(xN )|xk = i

)

. (1.12)

Ici uℓ est la valeur de la commande au temps ℓ ; pour donner un sens a ce probleme, ilfaut specifier l’information dont on dispose au temps k pour choisir la valeur de uk. Nousallons nous limiter au cas de l’observation complete, dans lequel l’etat xk est connu. Cecipermet de choisir la commande en fonction de l’etat x, et bien sur du temps k. Autrementdit, on choisit une strategie de retour d’etat, c’est a dire un element de l’ensemble

U := ensemble des applications (ℓ, i) 7→ uℓi , avec ℓ ∈ IN , i ∈ 1, . . . ;m, et uℓi ∈ Ui.(1.13)

On considere donc le probleme de calcul d’un retour d’etat optimal minimisant simul-tanement les differentes fonctions V k

i :

V ki := inf

uV ki (u); uki ∈ Ui i = 1, . . . ,m, k = 1, . . . ,N − 1,

V Ni := ϕ(i), i = 1, . . . ,m.

(1.14)

Proposition 1.4 La fonction valeur V k, solution du probleme (1.14) avec observationcomplete, est solution du principe de programmation dynamique

V ki = inf

ui∈Ui

cki (ui) +∑

j

Mkij(ui)V

k+1j

, i = 1, . . . ,m, k = 0, . . . ,N − 1,

V N = ϕ.

(1.15)

1.2. PROBLEMES A HORIZON INFINI 9

De plus, l’ensemble Uki (eventuellement vide) des commandes optimales a l’instant klorsque xk = i est

Uki = argminui∈Ui

cki (ui) +∑

j

Mkij(ui)V

k+1j

. (1.16)

Proof. On raisonne par recurrence. Il est clair que V N = ϕ. Fixons k < N et i ∈1, . . . ,m. Si xk = i, d’apres l’equation de Kolmogorov arriere, le choix de la commandeui a l’instant k donne la valeur cki (ui) +

jMkij(ui)V

k+1j . On obtient donc V k

i en prenantl’infimum de cette quantite, et une commande est optimale si elle appartient a l’argumentdu minimum. De plus la quantite

‖V k‖∞ ≤ supu

‖ck(u)‖ + ‖V k+1‖∞

est bien bornee.

1.2 Problemes a horizon infini

1.2.1 Caracterisation des solutions

Dans cette section, nous supposons la fonction cout et la matrice de transition inde-pendantes du temps, notees c(u) et M(u), et le cout actualise avec un coefficient β ∈]0, 1[.Le theoreme suivant caracterise les strategies optimales.

Theoreme 1.5 (i) Dans le cas de l’observation complete, la fonction valeur definie par

Vi := infu∈U

IE

∞∑

k=0

βk+1cxk(ukxk)|x0 = i

, i = 1, . . . ,m, (1.17)

ou β ∈]0, 1[, satisfait

‖V ‖ ≤ β

1 − β‖c‖∞. (1.18)

De plus, c’est la solution unique de l’equation de programmation dynamique suivante :trouver v ∈ IRm tel que

vi = β infui∈Ui

ci(ui) +∑

j

Mij(ui)vj

, i = 1, . . . ,m. (1.19)

(ii) Soit ε ≥ 0 et u ∈ U une strategie telle que, pour tout 1 ≤ i ≤ m :

β

ci(ui) +∑

j

Mij(ui)Vj

≤ Vi + ε, 1 ≤ i ≤ m. (1.20)

10 CHAPITRE 1. CHAINES DE MARKOV COMMANDEES 22 07 09

Posons ε′ := (1−β)−1ε. Alors la strategie u est ε′ sous optimale, dans le sens ou la valeurassociee V (u) satisfait

Vi(u) ≤ Vi + ε′, pour tout i ∈ 1, . . . ,m. (1.21)

(iii) L’existence d’une strategie optimale est assuree si

Ui est metrique compact pour tout i,Les fonctions ci(u) et Mij(u) sont continues pour tout i et j.

(1.22)

Proof. a) Montrons d’abord que (1.19) possede une solution unique. Cette equation estde la forme v = Tv, avec

(Tw)i := β infui∈Ui

ci(ui) +∑

j

Mij(ui)wj

. (1.23)

Montrons que T est un operateur contractant dans ℓ∞. On a

‖Tw‖∞ ≤ β(‖c‖∞ + ‖w‖∞), (1.24)

ce qui montre que T est un operateur de ℓ∞ dans lui meme. Utilisant la regle

infua(u) − inf

ub(u) ≤ sup

u(a(u) − b(u)) (1.25)

et etant donnes w et w′ dans ℓ∞, utilisant le fait que la somme des elements d’une lignede M(u) vaut 1, il vient :

∣(Tw′)i − (Tw)i∣

∣ ≤ β supui∈Ui

m∑

j=1

∣Mij(ui)(w′ − w)j

∣ ≤ β‖w′ −w‖∞.

En consequence, T est une contraction de rapport β dans ℓ∞. Il decoule alors du lemme1.2 que l’equation (1.19) a une solution unique v∗, et (1.18) est consequence de (1.24).b) Soit u ∈ U une strategie et V (u) la valeur associee, solution de

V (u) = β(c(u) +M(u)V (u)). (1.26)

Montrons que v∗ ≤ V (u). En effet, soit i ∈ 1, . . . ,m. Utilisant

v∗ ≤ β(c(u) +M(u)v∗), (1.27)

il vientv∗ − V (u) ≤ βM(u)(v∗ − V (u)). (1.28)

Le lemme 1.3 assure que v∗ ≤ V (u), comme il fallait le demontrer.c) Etant donne ε ≥ 0, soit u une strategie satisfaisant (1.20) (une telle strategie existe siε > 0), et V la valeur associee. Utilisant V = β(c(u) +M(u)V ) et (1.20), il vient

V − v∗ ≤ ε1 + βM(u)(V − v∗). (1.29)

1.2. PROBLEMES A HORIZON INFINI 11

On en deduit (1.21) avec le lemme 1.3. D’autre part, on sait que v∗ ≤ V pour toute valeurV associee a une strategie. Il en resulte que v∗ est egal a la valeur V , d’ou (i) et (ii).(d) D’apres le point (ii), l’existence d’une strategie optimale equivaut a la possibilited’atteindre, pour tout etat i, l’infimum dans (1.19). Montrons que ceci est consequencedes hypotheses du point (iii). Pour i fixe, notons uqi une suite minimisante de l’infimumdans (1.19) ; autrement dit uqi ∈ Ui, et ci(u

qi )+

jMij(uqi )Vj → Vi. Puisque Ui est metrique

compact, extrayant une sous-suite si necessaire, on peut supposer que la suite convergevers ui ∈ Ui. A tout ε ∈]0, 1[, on peut associer une partition (I, J) de 1, . . . ,m, telle queI est de cardinal fini et

j∈IMij(ui) ≥ 1− 12ε. Puisque I est fini, pour q assez grand, on

a∑

j∈IMij(uqi ) ≥ 1 − ε, et donc

j∈JMij(uqi ) ≤ ε. De la

∆ :=

lim supq

(ci(uqi ) +

j

Mij(uqi )V − ci(ui) −

j

Mij(ui)V )

=

lim supq

j∈J

(Mij(uqi ) −Mij(ui))Vj)

≤ lim supq

j∈J

|Mij(uqi ) −Mij(ui)|‖V ‖∞ ≤ 2ε‖V ‖∞.

Ceci etant vrai pour tout ε > 0, on en deduit (iii).

1.2.2 Analyse de sensibilite

On aura besoin, dans la discussion de la discretisation des problemes a espace d’etatcontinu, de resultats de sensibilite de la valeur par rapport aux donnees c et M . Soient(c,M) et (c′,M ′) couts et matrice de transition de chaıne de Markov commandees avec lesmemes ensembles de commandes admissibles U et coefficient d’actualisation β. On noteraV et V ′ les valeur associees, W := V ′ − V , ainsi que la pseudonorme

‖M‖∗ := supi

j 6=i

|Mij | (1.30)

(norme de la partie non diagonale de M , induite de la norme uniforme) qui est en quelquesorte la mesure des transitions d’un point a un point different. Dans l’expression ci-dessous,le coefficient de la pseudonorme de M ′ −M peut s’interpreter comme la norme uniformedu gradient de V associe aux transitions permises par M et M ′.

Lemme 1.6 On a

(β−1 − 1) supW ≤ sup(c′ − c) + ‖M ′ −M‖∗ supi,j

|Vj − Vi|; |M ′ij | + |Mij | > 0. (1.31)

Proof. Puisque M est une matrice stochastique, on a

(MV )i = Vi +∑

j 6=i

Mij(Vj − Vi). (1.32)

12 CHAPITRE 1. CHAINES DE MARKOV COMMANDEES 22 07 09

Combinant avec (1.25), il vient

β−1Wi ≤ supu

(

c′i(u) − ci(u) +∑

jM′ijWj +

j(M′ij −Mij)Vj

)

≤ sup(c′ − c) + supW +∑

j 6=i(M′ij −Mij)(Vj − Vi).

(1.33)

Prenant le supremum en i a droite puis a gauche, on obtient le resultat.

Exemple 1.7 Soit LV := supi|Vi+1 − Vi| la constante de Lipschitz de V . Si Mij =M ′ij = 0 quand |j − i| > q, alors (1.31) implique

(β−1 − 1) supW ≤ sup(c′ − c) + qLV ‖M ′ −M‖∗. (1.34)

En particulier, si l’espace d’etat est Z, notons

LM := supi

j 6=i

|Mi+1,j+1 −Mij| (1.35)

la constante de Lipschitz de la partie non diagonale de M pour la norme uniforme). Pourtous i et j, prenons c′i = ci+1 et M ′

ij := Mi+1,j+1. Alors V ′i = Vi+1 pour tout i, donc (1.34)

implique(β−1 − 1) sup

i(Vi+1 − Vi) ≤ sup

i(ci+1 − ci) + qLV LM . (1.36)

Avec l’estimation symetrique obtenue en decalant de −1 au lieu de +1, et utilisant‖W‖∞ = LV , il vient (β−1 − 1 − qLM )LV ≤ Lc. Si β−1 > qLM + 1, ceci fournit uneestimation de la constante de Lipschitz de V :

LV ≤ Lcβ−1 − 1 − qLM

. (1.37)

On appliquera ce resultat a l’analyse des methodes de differences finies dans la proposition2.5.

1.2.3 Algorithmes numeriques

Dans le cas de problemes avec horizon infini, on peut mettre en œuvre un algorithmeiteratif de calcul de v a partir du principe de programmation dynamique. La methode laplus simple est l’iterations sur les valeurs

vq+1i = β inf

ui∈Ui

ci(ui) +∑

j

Mij(ui)vqj

, i = 1, . . . ,m, q ∈ IN. (1.38)

Ici (vq)q∈IN (a ne pas confondre avec la notation vk employee dans le cas de l’horizonfini) represente la suite formee par l’algorithme.

Proposition 1.8 L’algorithme d’iteration sur les valeurs converge vers la solution uniquev∗ de (1.19), et on a

‖vq − v∗‖∞ ≤ βq‖v0 − v∗‖∞. (1.39)

1.2. PROBLEMES A HORIZON INFINI 13

Proof. Soit T l’operateur construit en (1.23). Nous avons montre (demonstration dutheoreme 1.5) que T est contractant de rapport β dans la norme du max. L’algorithmed’iteration sur les valeurs s’ecrit vq = Tvq−1. On conclut avec le lemme 1.2.

Dans le cas assez frequent ou β est proche de 1, l’algorithme d’iteration sur les va-leurs peut etre tres lent. Une alternative interessante est l’algorithme d’iterations sur lesstrategies, ou algorithme de Howard. On supposera (1.22) satisfait. Chaque iteration del’algorithme comporte deux etapes :

– Etant donne une strategie uq ∈ U , calculer la valeur vq associee, solution de l’equationlineaire

vq = β(c(uq) +M(uq)vq). (1.40)

– Calculer uq+1 solution de

uq+1i ∈ arg min

u∈Ui

ci(u) +∑

j

Mij(u)vqj

, i = 1, . . . ,m. (1.41)

Proposition 1.9 On suppose (1.22) satisfait. Alors l’algorithme d’iterations sur les stra-tegies, initialise avec une strategie u0 ∈ U quelconque, a les proprietes suivantes :(i) Il est bien defini,(ii) La suite vq decroıt,(iii) Elle verifie ‖vq+1 − v∗‖ ≤ β‖vq − v∗‖, ou v∗ est la fonction valeur, unique solution duprincipe de programmation dynamique (1.19).

Proof. (i) Verifions que l’algorithme est bien defini. Le systeme lineaire (1.40) a unesolution unique, car c’est l’equation de point fixe d’un operateur contractant (lemme 1.2).Utilisant les arguments de la demonstration du theoreme 1.5, on verifie que le minimumdans la seconde etape est atteint en raison de (1.22).

Par ailleurs, la suite vq est bornee dans ℓ∞ car la relation

‖vq‖∞ ≤ β(‖c(uq)‖∞ + ‖M(uq)vq‖∞) ≤ β(‖c(uq)‖∞ + ‖vq‖∞)

donne l’estimation ‖vq‖∞ ≤ (1 − β)−1β‖c‖∞.(ii) Les relations (1.40) et (1.41) impliquent

β−1(vq+1 − vq) = c(uq+1) +M(uq+1)vq+1 − c(uq) −M(uq)vq,

≤ c(uq+1) +M(uq+1)vq+1 − c(uq+1) −M(uq+1)vq,

= M(uq+1)(vq+1 − vq),

et donc vq+1 − vq ≤ 0 d’apres le lemme 1.3.(iii) Notons vq+1 la valeur calculee a partir de vq, par l’iteration sur les valeurs. On

sait que ‖vq+1 − v∗‖ ≤ β‖vq − v∗‖. Puisque v∗ ≤ vq+1, il suffit d’etablir que vq+1 ≤ vq+1.Or

β−1(vq+1 − vq+1) = c(uq+1) +M(uq+1)vq+1 − (c(uq+1) −M(uq+1)vq),

= M(uq+1)(vq+1 − vq).

D’apres le point (ii), vq+1 ≤ vq ; donc vq+1 ≤ vq+1.

14 CHAPITRE 1. CHAINES DE MARKOV COMMANDEES 22 07 09

Remarque 1.10 La demonstration precedente montre que l’iteration sur les strategiesconverge au moins aussi vite que l’iteration sur les valeurs.

1.3 Extensions

1.3.1 Problemes de temps de sortie

Soit Ω une partie de 1, . . . ,m, et considerons une chaıne de Markov (sans commande)de matrice de transition M . Soit τ le premier instant de sortie (aleatoire) de Ω :

τ := mink ∈ IN ; xk 6∈ Ω. (1.42)

On considere la fonction valeur, ou i ∈ 1, . . . ,m :

Vi := IE

(

τ−1∑

k=0

βk+1cxk + βτϕxτ |x0 = i

)

. (1.43)

Proposition 1.11 On suppose c et ϕ dans ℓ∞. Alors l’esperance ci-dessus est bien definie,la fonction valeur du probleme de temps de sortie appartient aussi a ℓ∞, et est solutionunique de l’equation

vi = β

ci +∑

j

Mijvj

, i ∈ Ω,

vi = ϕi, i 6∈ Ω.

(1.44)

Proof. Elle est similaire a celle des propositions precedentes.

Considerons maintenant le cas de la chaıne de Markov commandee de probabilite detransition Mij(u), avec u ∈ Ui, ensemble metrique compact, et les fonctions ci(u) et Mij(u)continues. On considere le probleme de minimisation du critere avec temps de sortie

Vi := infu∈U

IE

τ−1∑

k=0

βk+1c(u)xk + βτϕxτ |x0 = i

, (1.45)

dans le cas de l’observation complete.

Remarque 1.12 Si c est le vecteur de coordonnees toutes egales a 1, et si ϕ est nul, alorsle critere s’interprete comme l’esperance du temps de sortie (actualise). Le probleme estalors dit a temps minimal.

Proposition 1.13 On suppose c et ϕ dans ℓ∞. Alors la fonction valeur du probleme avectemps de sortie est solution unique de l’equation de la programmation dynamique

vi = β infu∈Ui

ci(u) +∑

j

Mij(u)vj

, i ∈ Ω,

vi = ϕi, i 6∈ Ω.

(1.46)

1.3. EXTENSIONS 15

Proof. Elle est similaire a celle des propositions precedentes.

L’extension des algorithmes d’iterations sur les valeurs et sur les strategies a la situationetudiee ici ne presente pas de difficulte.

1.3.2 Problemes avec decision d’arret

Nous etudions un probleme de commande similaire a celui de la section precedente,ajoutant la possibilite d’arret a tout instant, avec un cout d’arret ψ ∈ IRm.

Soit Ω une partie de 1, . . . ,m, et soient une chaıne de Markov commandee de matricede transition Mij(u), avec u ∈ Ui, ensemble metrique compact, et les fonctions c(u) etMij(u) continues. On note τ le premier instant de sortie de Ω, et θ l’instant de decisiond’arret. Posons

χθ<τ =

1 si θ < τ,0 sinon ,

et adoptons une convention similaire pour χθ≥τ . On considere le probleme de minimisationdu critere avec temps d’arret

Vi := infu∈U

IE

θ∧τ−1∑

k=0

βk+1c(u)xk + βθχθ<τψxθ + βτχθ≥τϕxτ |x0 = i

, (1.47)

dans le cas de l’observation complete.

Remarque 1.14 Le cadre de cette section recouvre plusieurs situations interessantes : (i)ensemble Ω egal a l’espace d’etat, (ii) Ui reduit a un point pour tout i : la seule decisionest d’arreter ou non, (iii) strategie optimale pouvant etre de ne jamais arreter le jeu.

Theoreme 1.15 On suppose supu∈U |ci(u)| fini et ψ et ϕ borne. Alors la fonction valeurv du probleme de temps d’arret est solution unique du systeme

(i) vi = min

β infu∈Ui

ci(u) +∑

j

Mij(u)vj

, ψi

, i ∈ Ω,

(ii) vi = ϕi, i 6∈ Ω.

(1.48)

Proof. La demonstration est similaire a celle des sections precedentes ; contentons-nousde demontrer que l’equation (1.48) a une solution unique v∗. Definissons l’operateur T deIRm dans lui meme par

(Tv)i = min

β infu∈Ui

ci(u) +∑

j

Mij(u)vj

, ψi

, i ∈ Ω,

(Tv)i = ϕi, i 6∈ Ω.

(1.49)

Avec (1.25) on verifie facilement que T est une contraction stricte pour la norme infinie,de rapport β, et a donc un unique point fixe v∗. Ceci etablit l’existence et l’unicite de lasolution de (1.48).

16 CHAPITRE 1. CHAINES DE MARKOV COMMANDEES 22 07 09

Les arguments qui precedent assurent la convergence de l’algorithme d’iterations surles valeurs, qui s’ecrit, en reprenant les notations de (1.49),

vq+1 = T (vq), (1.50)

ou encore

vq+1i = min

β infu∈Ui

ci(u) +∑

j

Mij(u)vqj

, ψi

, i ∈ Ω,

vq+1i = ϕi, i 6∈ Ω.

(1.51)

En ce qui concerne l’algorithme d’iterations sur les strategies, on peut ecrire un algo-rithme de principe sous la forme suivante :

1. Choisir arbitrairement la strategie initiale u0 ∈ U .Poser q := 0.

2. Etant donne une strategie uq ∈ U , calculer vq solution de

vqi = min

β

ci(uqi ) +

j

Mij(uqi )v

qj

, ψi

, i ∈ Ω,

vqi = ϕi, i 6∈ Ω.

(1.52)

3. Calculer uq+1 solution, pour tout i, de

uq+1i ∈ arg min

u∈Ui

ci(u) +∑

j

Mij(u)vqj

. (1.53)

4. q := q + 1, aller en 2.

Nous admettons la proposition suivante, dont la demonstration, extension de celle dela proposition 1.9, utilise (1.25).

Proposition 1.16 L’algorithme ci-dessus, initialise avec une strategie u0 ∈ U quelconque,est bien defini, et forme une suite de valeurs vq decroissante, et qui verifie ‖vq+1 − v∗‖ ≤β‖vq − v∗‖, ou v∗ est solution unique de (1.48).

1.3.3 Un algorithme implementable

L’algorithme d’iterations sur les strategies que nous venons de presenter necessite a cha-que iteration la resolution de l’equation non lineaire (1.52), ce qui peut etre tres couteux.Nous allons formuler un autre algorithme, iterant sur les strategies, dans lequel on neresout qu’une equation lineaire a chaque iteration. L’idee est de calculer vq solution del’equation lineaire

vqi = β

ci(uqi ) +

j

Mij(uqi )v

qj

, i ∈ Iq,

vqi = ψi, i ∈ Ω \ Iq,vqi = ϕi, i 6∈ Ω.

(1.54)

1.3. EXTENSIONS 17

L’ensemble Iq, inclus dans Ω, est une prediction des etats i pour lesquels l’inegalite vi ≤ ψin’est pas active a l’optimum. Ceci conduit a l’algorithme suivant :

1. Initialisation Choisir arbitrairement la strategie initiale u0 ∈ U .Calculer v0 solution de l’equation lineaire

v0i = β

ci(u0i ) +

j

Mij(u0i )v

0j

, i ∈ Ω,

v0i = ϕi, i 6∈ Ω.

(1.55)

Calculer v0 comme suit :

v0i = min(v0

i , ψi), i ∈ Ω,v0i = ϕi, i 6∈ Ω.

(1.56)

Poser q := 0 etI0 := i ∈ Ω; v0

i < ψi. (1.57)

2. Boucle Faire q := q + 1. Calculer uq solution de

uqi ∈ arg minu∈Ui

ci(u) +∑

j

Mij(u)vq−1j

, i ∈ Ω. (1.58)

Poser

Iq := Iq−1 ∪

i ∈ Ω; β

ci(uqi ) +

j

Mij(uqi )v

q−1j

< ψi

. (1.59)

Calculer vq, solution de l’equation lineaire (1.54).Fin de Boucle (retour en 2).

Proposition 1.17 L’algorithme ci-dessus forme une suite de valeurs vq decroissant versla solution unique v∗ de (1.48).

Proof. a) Montrons la decroissance de vq. S’il n’en est pas ainsi, soient q ∈ IN et i ∈ Ωtels que vq+1

i −vqi > 0. Etant donne ε > 0, on peut supposer que (vq+1−vq)i ≥ supj(vq+1−

vq)j − ε. Par ailleurs, i ∈ Iq+1 (sinon vq+1i et vqi seraient egaux a ψi). Donc

vq+1i = β

ci(uq+1i ) +

j

Mij(uq+1i )vq+1

j

. (1.60)

Posons w := vq+1 − vq, et distinguons deux cas. Si i ∈ Iq, alors

vqi = β

ci(uqi ) +

j

Mij(uqi )v

qj

, (1.61)

18 CHAPITRE 1. CHAINES DE MARKOV COMMANDEES 22 07 09

et donc avec (1.58)

wi = β

ci(uq+1i ) +

j

Mij(uq+1i )vq+1

j − ci(uqi ) −

j

Mij(uqi )v

qj

,

≤ β

j

Mij(uq+1i )wj

≤ β(wi + ε),

(1.62)

ce qui donne la contradiction recherchee pour ε > 0 assez petit.Si, au contraire, i 6∈ Iq, alors vqi = ψi et, par definition de Iq+1, on a

β

ci(uq+1i ) +

j

Mij(uq+1i )vqj

< ψi = vqi . (1.63)

Donc

wi = β

ci(uq+1i ) +

j

Mij(uq+1i )vq+1

j

− ψi,

≤ β(

ci(uq+1i ) +

jMij(uq+1i )vq+1

j − ci(uq+1i ) −

jMij(uq+1i )vqj

)

,

(1.64)

ce qui permet de conclure de la meme maniere.b) On peut montrer, par des arguments deja employes, que la suite vq est bornee. Puis-qu’elle est decroissante, elle converge vers une valeur v. De meme, Iq etant croissant,converge vers un certain I∗. Enfin par compacite on a la convergence de uq vers u ∈ Upour une sous suite. Passant a la limite dans (1.54)1, il vient

vi = β(

ci(ui) +∑

jMij(ui)vj

)

, i ∈ I∗,

vi = ψi, i ∈ Ω \ I∗,vi = ϕi, i 6∈ Ω.

(1.65)

De plus la decroissance de vq implique

vi ≤ ψi, i ∈ I∗, (1.66)

et le passage a la limite dans (1.59) donne

β

ci(ui) +∑

j

Mij(ui)vj

≥ ψi, i ∈ Ω \ I∗. (1.67)

Les trois relations ci-dessus impliquent que v est solution de (1.48), donc est egale a lafonction valeur v.

Notons que l’algorithme presente dans cette section peut s’averer lent si la mise a jourde l’ensemble Iq n’est pas assez efficace. On peut y remedier, soit en introduisant quelquesiterations sur les valeurs (peu couteuses, comparees a la resolution du systeme (1.55)), soiten s’inspirant des algorithmes de resolution de problemes de complementarite lineaire, parexemple ceux bases sur les points interieurs.

1Par des arguments similaires a ceux employes dans la demonstration du theoreme 1.5(iii).

1.4. NOTES 19

1.4 Notes

La reference historique est Bellman [6]. Bertsekas [7] est une bonne premiere lecturesur le sujet.

On trouvera de nombreuses extensions (controle ergodique, agregation, decomposition)dans Kushner et Dupuis [28], Quadrat et Viot [33]. Le cas de problemes avec contraintesen esperance est traite dans Tidball et al. [35], Altman [2] et Feinberg et Shwartz [21]. Onconsultera aussi Hernandez-Lerma et Lasserre [24].

Si la seule decision est le temps d’arret, le principe de programmation dynamique est unprobleme de complementarite lineaire, sujet sur lequel nous renvoyons a Cottle et al. [17].Ceci suggere de s’inspirer des algorithmes de resolution de problemes de complementaritelineaire pour resoudre des problemes de commande optimale de chaınes de Markov.

20 CHAPITRE 1. CHAINES DE MARKOV COMMANDEES 22 07 09

Chapitre 2

Problemes en temps et espace

continus 22 07 09

2.1 Approche informelle de l’equation HJB

2.1.1 Position du probleme

Etudions le probleme de commande optimale stochastique

(Px)

Min IE

∫ ∞

0ℓ(y(t), u(t))e−λtdt;

dy(t) = f(y(t), u(t))dt+ σ(y(t), u(t))dw(t), u(t) ∈ U, t ∈ [0,∞[,y0 = x.

Les donees de ce probleme sont le taux d’actualisation λ > 0, les fonctions cout ℓ :IRn×IRm → IR, tendance f : IRn×IRm → IRn, et volatilite σ(·, ·), application de IRn×IRmvers l’espace des matrices de taille n×r, et l’ensemble des commandes admissibles U , partiecompacte de IRm. On a note w(t) un brownien standard de dimension r. On suppose dansla suite ℓ, f et σ lipschitziens et bornes.

Rappelons qu’un mouvement brownien standard (scalaire) sur l’intervalle de temps IR+

est une variable aleatoire IR+ → IR dont les trajectoires sont presque surement continues,et telle que (i) ses accroissements sont independants, (ii) w(0) est nul, et (iii) si 0 ≤ s ≤t < ∞, alors w(t) − w(s) est gaussien de moyenne nulle et variance t − s. Un brownienstandard de dimension r est un vecteur aleatoire dont les composantes sont des mouvementbrownien standard scalaires independants.

L’etude de ce probleme comporte deux phases : l’analyse mathematique, qui conduit aune equation HJB avec un operateur differentiel du second ordre, et l’analyse numeriquede cette equation HJB. Nous allons commencer par presenter une version en temps discretdu probleme, qui permettra une derivation formelle de l’equation HJB.

21

22 CHAPITRE 2. PROBLEMES EN TEMPS ET ESPACE CONTINUS 22 07 09

2.1.2 Probleme discretise en temps

Soit h0 > 0 le pas de temps. Considerons le probleme de commande optimale stochas-tique en temps discret et espace continu :

(P h0x )

Min IE

h0

∞∑

k=0

(1 + λh0)−k−1ℓ(yk, uk)

;

yk+1 = yk + h0f(yk, uk) +√h0 σ(yk, uk) δwk, uk ∈ U, k ∈ IN ;

y0 = x.

Ici δwk ∈ IRr est un vecteur aleatoire dont les coordonnees sont des tirages independantsde ±1 avec probabilites egales, donc de moyenne nulle et variance unite. Le terme

√h0 fait

que, pour h0 assez petit, si la ieme ligne de σ(yk, uk) n’est pas nulle, alors l’essentiel de lavariation de la ieme composante de l’etat est due au bruit. Par ailleurs si 0 ≤ s ≤ t <∞,s = k0h0 et t = k1h0, alors

∑k1−1k=k0

δwk est une variable asymptotiquement gaussienne, demoyenne nulle et variance t− s, ce qui est coherent avec le probleme continu.

A la difference du cas deterministe, il faut preciser quelle information est disponi-ble quand on prend la decision uk a l’instant k. Par exemple, si les tirages sont connusd’avance, on se retrouve dans une situation deterministe. En general le tirage δwk n’estpas determine jusqu’a l’instant k+ 1 ; l’information sur ce tirage et sur l’etat yk peut etretotale, partielle ou nulle. Il y a donc une variete de situations possibles.

Dans la suite nous supposerons que la decision uk se fait en connaissant l’etat yk, maispas les tirages δwi, pour i ≥ k : c’est le cas dit de l’observation complete. Compte tenu del’invariance en temps du probleme, ceci conduit a chercher une commande sous forme deretour d’etat (feedback). Autrement dit l’ensemble U des commandes admissibles est celuides applications u = u(y) de IRn vers U . A u ∈ U est associe un cout Vh0(x, u) verifiantla relation suivante (noter que l’esperance ci-dessous se reduit a la somme de 2r termes)

Vh0(x, u) = (1 + λh0)−1(

h0ℓ(x, u) + IE(

Vh0(x+ h0f(x, u) +√

h0σ(x, u)δw0, u)))

.

(2.1)On pose V h0(x) := infu∈U Vh0(x, u). Le principe de programmation dynamique s’ecrit

V h0(x) = (1 + λh0)−1 inf

u∈U

h0ℓ(x, u) + IE(

V h0(x+ h0f(x, u) +√

h0σ(x, u)δw0))

.

(2.2)Supposons V h0 de classe C2, et de derivee seconde uniformement bornee sur IRn, uni-formement par rapport a h0 assez petit. Alors

∆ := V h0(x+ h0f(x, u) +√h0σ(x, u)δw0),

= V h0(x) + h0DVh0(x)f(x, u) +

√h0DV

h0(x)σ(x, u)δw0

+12h0D

2V h0(x)(σ(x, u)δw0 , σ(x, u)δw0) + o(h0).(2.3)

Si A est une matrice n × n et z ∈ IRn, on a zTAz = traceAzzT . Utilisant cette relation,il vient

D2V h0(x)(σ(x, u)δw0 , σ(x, u)δw0) = trace(

D2V h0(x)σ(x, u)δw0δwT0 σ(x, u)T

)

. (2.4)

2.2. SCHEMAS DE DIFFERENCES FINIES 23

Notonsa(x, u) := 1

2σ(x, u)σ(x, u)T . (2.5)

La matrice n × n a(x, u) est symetrique et semi definie positive ; elle est proportionnellea la covariances des bruits sur la dynamique et nous l’apellerons matrice de covariance.Puisque δw est de moyenne nulle et variance unite, on a, avec les relations precedentes :

IE(∆) = V h0(x) + h0DVh0(x)f(x, u) + h0 trace

(

D2V h0(x)a(x, u))

+ o(h0). (2.6)

Definition 2.1 On definit l’operateur “rond” note , applique a deux matrices A et Bde meme taille, par A B :=

i,j AijBij = trace(AB⊤). Cette operation est le produit

scalaire associe a la norme de Frobenius ‖A‖F := (∑

i,j A2ij)

1/2. Si A est carree de taille n

et x ∈ IRn, on a A (xx⊤) = x⊤Ax.

Passant a la limite quand h0 ↓ 0, on obtient formellement l’equation HJB du problemeen temps continu :

λV (x) = infu∈U

ℓ(x, u) + f(x, u) ·DV (x) + a(x, u) D2V (x)

, pour tout x ∈ IRn. (2.7)

Lorsque σ(x, u) est identiquement nul, on obtient l’equation HJB de la commande optimaledeterministe, qui est du premier ordre.

On obtient un resultat similaire dans le cas d’un probleme avec horizon fini T et coutfinal ϕ :

(Pt,x)

Min IE

(∫ T

0ℓ(t, y(t), u(t))dt + ϕ(y(T ))

)

;

dy(t) = f(t, y(t), u(t))dt+ σ(t, y(t), u(t))dw, u(t) ∈ U, t ∈ [0, T ],

y0 = x.

de valeur notee V (t, x). Une discussion analogue a celle de l’horizon infini permet d’obtenirune equation de Hamilton-Jacobi-Bellman du probleme continu :

−DtV (t, x) = infu∈U

ℓ(t, x, u) + f(t, x, u) ·DV (t, x) + a(t, x, u) D2V (t, x)

,

(t, x) ∈]0, T [×IRn,V (T, x) = ϕ(x), ∀ x ∈ IRn.

(2.8)

Nous allons etudier la resolution numerique de l’equation HJB (2.7) par des schemasaux differences finies, en commencant par le cas d’un etat scalaire.

2.2 Schemas de differences finies

2.2.1 Schemas monotones : dimension 1

On note h0, h1, etc les pas de discretisation en temps et suivants les variables d’espacex1, etc. Nous discutons les schemas de resolution numerique de l’equation HJB (2.7) du

24 CHAPITRE 2. PROBLEMES EN TEMPS ET ESPACE CONTINUS 22 07 09

probleme de commande optimale stochastique a horizon infini, en dimension un, aveccentrage du terme du second ordre, et decentrage pour le terme du premier ordre. Ondecentre a droite si la tendance f est positive, et a gauche sinon, ce qui revient a utiliserdans le schema le point vers lequel pointe la tendance. Le schema decentre s’ecrit alors

λvj = infu∈U

ℓ(xj, u) + f(xj, u)+vj+1 − vj

h1+ |f(xj, u)−|

vj−1 − vjh1

+a(xj, u)vj+1 − 2vj + vj−1

h21

.(2.9)

Introduisons un pas de temps fictif h0 > 0, par lequel on multiplie l’equation ci-dessus.Ajoutant vj a chaque membre, et ordonnant les expressions suivant vj−1, vj+1 et vj+1, onobtient l’expression equivalente

vj := (1 + λh0)−1 inf

u∈U

h0ℓ(xj , u) +

(

1 − h0

h1|f(xj , u)| − 2

h0

h21

a(xj , u)

)

vj

+

(

h0

h1|f(xj , u)−| +

h0

h21

a(xj , u)

)

vj−1 +

(

h0

h1f(xj, u)+ +

h0

h21

a(xj , u)

)

vj+1

.(2.10)

On pose‖f‖∞ := sup

(x,u)∈IR×U|f(x, u)|; ‖a‖∞ := sup

(x,u)∈IR×U|a(x, u)|. (2.11)

Proposition 2.2 (i) Le schema (2.9) possede une solution unique, telle que

‖v‖∞ ≤ λ−1‖ℓ‖∞. (2.12)

(ii) Si h0 verifie la condition de stabilite

h0

h1‖f‖∞ +

2h0

h21

‖a‖2∞ ≤ 1, (2.13)

alors (2.10) est une equation de point fixe contractant pour la norme uniforme, de rapportde contraction (1 + λh0)

−1.

Proof. La condition de stabilite assure que, dans la formule (2.10), les poids de vjet vj±1 sont positif. De plus la somme de ces poids vaut 1. On peut donc interpretercette equation comme le principe de programmation dynamique (1.19) de la commandeoptimale d’une chaıne de Markov, avec ici β = (1 + λh0)

−1, et ‖c‖∞ ≤ h0‖ℓ‖∞, doncβ(1 − β)−1‖c‖∞ ≤ λ−1‖ℓ‖∞. On conclut avec le theoreme 1.5.

Remarque 2.3 Le terme dominant dans la condition de stabilite est lie a f si h1 est grandpar rapport a 2‖a‖∞/‖f‖∞ (discretisation spatiale grossiere), et au terme de diffusion sih1 est petit par rapport a 2‖a‖∞/‖f‖∞ (discretisation spatiale fine). Dans ce dernier cas,le pas de temps maximum respectant la condition de stabilite est de l’ordre de 1

2h21/‖a‖∞,

donc beaucoup plus petit que dans le cas deterministe (ou il vaut h1/‖f‖∞).

Remarque 2.4 On trouvera une analyse d’erreur du schema centre en section 3.2.2.

2.2. SCHEMAS DE DIFFERENCES FINIES 25

En vue de l’analyse de convergence il est utile de disposer, quand c’est possible, d’uneestimation de type Lipschitz. On dira que la solution v du schema est lipschitienne deconstante L, si L := (h1)

−1 supj |vj+1 − vj | est finie.

Proposition 2.5 Si λ > Lf+2La/h1, la solution du schema est lipschitienne de constante

Lh1 ≤ (λ− Lf − 2La/h1)−1Lℓ. (2.14)

En particulier, quand σ ne depend pas de x, si λ > Lf , la solution du schema est uni-formement lipschitienne, de constante (λ− Lf )

−1Lℓ.

Proof. On applique le resultat (1.37) de l’exemple 1.7, avec ici β = (1 + h0λ)−1, doncβ−1 − 1 = h0λ, et Lc = h0Lℓ. De plus, utilisant

|α+ − β+| + |α− − β−| ≤ |α− β|, (2.15)

il vient

j 6=i |M ′ij −Mij | ≤

h0

h1supu

(|f(xi+1, u)+ − f(xi, u)+|+|f(xi+1, u)− − f(xi, u)−| + 2h−1

1 |a(xi+1, u) − a(xi, u)|)

≤ h0(Lf + 2La/h1),

(2.16)

d’ou le resultat.

L’etude de la convergence de ce schema etant complexe, elle est reportee au chapitresuivant.

Dans le cas de dimension d’espace superieure a 1, on sait seulement donner des reponsespartielles au probleme de formulation d’un schema de difference finie consistant et mono-tone pour l’equation HJB. Nous allons poser le probleme et etablir quelques resultats.

2.2.2 Differences finies classiques

Abordons l’etude de discretisation de l’equation HJB, pour le cas de la dimensiond’espace n > 1, par des schemas de differences finies. Notons Di les derivees par rapporta xi, et on adopte le meme type de convention pour les derivees d’ordre superieur. Pourapproximer Dii on utilise encore la formule centree

D2iivj ≈

vj+ei− 2vj + vj−ei

h2i

.

Pour alleger les formules il convient de noter δ±i, δ±,i±k, etc les operateurs de translationde ± une coordonnee dans la direction i, k, etc ; ainsi

δivj = vj+ei, δi,−kvj = vj+ei−ek

.

Avec cette notation l’approximation de Dii est

D2ii ≈

δi − 2δ0 + δ−ih2i

.

26 CHAPITRE 2. PROBLEMES EN TEMPS ET ESPACE CONTINUS 22 07 09

1=2 1=211=2 1=2

1=2 1=2

1

Fig. 2.1 – Poids de l’approximation de D2ij : cas ou aij > 0

Pour le calcul des derivees croisees (i 6= j), plusieurs choix sont possibles. Par exemple,utilisant le developpement, pour Φ regulier,

Φ(x+ hiei + hkek) = Φ(x) +DΦ(x)(hiei + hkek)+12D

2Φ(x)((hiei + hkek), (hiei + hkek)) + o(h2i + h2

k),(2.17)

et procedant de meme pour Φ(x+ hiei) et Φ(x+ hkek), on deduit le choix

D2ik ≈ δi,k + δ0 − δi − δk

hihk,

qui fait intervenir les quatre points du “rectangle en haut a droite”. On peut ecrire uneformule similaire faisant intervenir les points du rectangle oppose :

D2ik ≈ δ−i,−k + δ0 − δ−i − δ−k

hihk.

Il est utile de centrer l’estimation en prenant la moyenne des deux, ce qui donne

D2ik ≈

δi,k + δ−i,−k + 2δ0 − δi − δk − δ−i − δ−k2hihk

. (2.18)

Mais on peut aussi bien faire intervenir les estimations basees sur les deux autres rec-tangles :

D2ik ≈

δi + δk + δ−i + δ−k − δi,−k − δ−i,k − 2δ02hihk

. (2.19)

2.2. SCHEMAS DE DIFFERENCES FINIES 27

Le point important est que ces deux formules font apparaıtre les points δ±i,±k avec des

poids positifs dans le premier cas, et negatifs dans le second. Soit Dx,u la matrice n × nd’operateurs aux differences definie par

Dx,uik =

δi − 2δ0 + δ−ih2i

si i = k,

δi,k + δ−i,−k + 2δ0 − δi − δk − δ−i − δ−k2hihk

si aik(x, u) ≥ 0,

δi + δk + δ−i + δ−k − δi,−k − δ−i,k − 2δ02hihk

sinon.

Pour les termes du premier ordre, on reprend le principe du decentrage suivant le signe dela tendance, mais pour chaque composante ; a (x, u), associons Dη(xj ,u) ∈ IRn defini par

Dη(xj ,u)i =

vj+ei− vj

hisi fi(x, u) ≥ 0,

vj − vj−ei

hisinon.

(2.20)

Considerons le schema discret

λvj = minu∈U

ℓ(xj , u) + f(xj, u) ·Dη(xj ,u)vj +

n∑

i,k=1

aik(xj, u)Dx,uik vj

. (2.21)

Multipliant l’equation par un pas de temps fictif h0, ajoutant vj a chaque membre, etreordonnant les expressions, il vient

λvj = minu∈U

h0ℓ(xj, u)

+(

1 −n∑

i=1

h0

hi|fi(xj , u)| − 2

n∑

i=1

h0

h2i

|aii(xj , u)| +∑

i6=k

h0

hihk|aik(xj , u)|

)

vj

+

n∑

i=1

(h0

hi|fi(xj , u)−| +

h0

h2i

aii(xj , u) −∑

k 6=i

h0

hihk|aik(xj , u)|

)

vj−ei

+n∑

i=1

(h0

hifi(xj , u)+ +

h0

h2i

aii(xj, u) −∑

k 6=i

h0

hihk|aik(xj , u)|

)

vj+ei

+∑

i>k

h0

hihk

[

aik(xj , u)+(vj+ei+ek+ vj−ei−ek

) + |aik(xj , u)−|(vj+ei−ek+ vj−ei+ek

)]

.

(2.22)On peut introduire une mise a l’echelle de f et a :

fhi (x, u) :=fi(x, u)

hi; ahij(x, u) :=

aij(x, u)

hihj; (2.23)

28 CHAPITRE 2. PROBLEMES EN TEMPS ET ESPACE CONTINUS 22 07 09

d’ou l’expression equivalente

vj = (1 + λh0)−1 min

u∈U

h0 ℓ(xj , u)

+(

1 − h0

n∑

i=1

|fhi (xj , u)| − 2h0

n∑

i=1

|ahii(xj , u)| + h0∑

i6=k

|ahik(xj , u)|)

vj

+h0

n∑

i=1

(

|fhi (xj , u)−| + ahii(xj , u) −∑

k 6=i

|ahik(xj , u)|)

vj−ei

+h0

n∑

i=1

(

fhi (xj , u)+ + ahii(xj , u) −∑

k 6=i

|ahik(xj , u)|)

vj+ei

+h0

i>k

[

ahik(xj , u)+(vj+ei+ek+ vj−ei−ek

) + |ahik(xj, u)−|(vj+ei−ek+ vj−ei+ek

)]

.

(2.24)

Proposition 2.6 On suppose que les pas d’espace h1, . . . , hn sont tels que, pour tout(x, u) ∈ IR× U , la matrice de terme general ahik(x, u) est diagonale dominante. Alors(i) Le schema (2.21) possede une solution unique v, telle que

‖v‖∞ ≤ λ−1‖ℓ‖∞. (2.25)

(ii) Si h0 verifie la condition de stabilite

h0

n∑

i=1

|fi(xj , u)|hi

+

n∑

i=1

2|aii(xj , u)|

h2i

−∑

k 6=i

|aik(xj , u)|hihk

≤ 1, (2.26)

alors (2.24) est une equation de point fixe contractant pour la norme uniforme, de rapportde contraction (1 + λh0)

−1.

Proof. La demonstration est une extension simple de celle de cas monodimensionnel(proposition 2.2). Il faut verifier la positivite des poids des vi. Les poids de vj±ei±ek

soont toujours positifs. La condition de diagonale dominante est necessaire pour assurer lapositivite des poids de soit vj−ei

, soit vj+ei. Enfin la condition sur le pas de temps assure

la positivite du poids de vj .

Si la matrice ah(x, u) n’est pas diagonale dominante, le schema presente ci-dessus n’estpas monotone et on peut construire des exemples pour lesquels il ne converge pas. Unesolution possible est de faire intervenir davantage de points dans le schema.

2.2.3 Differences finies generalisees

Dans cette approche, qui generalise la methode usuelle de differences finies presenteedans la section precedente, le point de depart est l’approximation de la derivee seconde dela fonction valeur suivant une direction quelconque.

2.2. SCHEMAS DE DIFFERENCES FINIES 29

Soit Φ : IRn → IR de classe C2. La derivee seconde de Φ en x ∈ IRn dans la directiond ∈ IRn est par definition la quantite

D2Φ(x)(d, d) =

n∑

i,k=1

D2xixk

Φ(x)didk.

Il vient avec la formule de Taylor

D2Φ(x)(d, d) = limt↓0

Φ(x+ td) − 2Φ(x) + Φ(x− td)

t2.

En particulier, etant donne ξ ∈ Zn, notons

∆ξΦ(xj) := Φ(xj+ξ) − 2Φ(xj) + Φ(xj−ξ).

Il vient, pour tout j ∈ Zn,

∆ξΦ(xj) =n∑

i,k=1

hihkξiξkD2xixk

Φ(xj) + o(‖h‖2). (2.27)

Ainsi on peut approcher la courbure de Φ, suivant une direction egale a la difference entredeux points de la grille discrete, par une combinaison des valeurs de Φ en trois points dela grille. On peut alors se poser le probleme d’approcher la partie principale (du secondordre) de l’operateur differentiel de l’equation HJB par une combinaison de tels termes. Ils’agit de trouver des coefficients αuj,ξ tels que :

ξ∈S

αuj,ξ∆ξΦ(xj) =n∑

i,k=1

aik(xj , u)Φxixk(xj) + o(1). (2.28)

Ici S est une partie finie de Zn, appelee le stencil, qui represente (a la translation j pres)

les coordonnees des points entrant dans le schema. Nous verrons qu’il convient de prendreles coefficients αuj,ξ positifs pour obtenir la monotonie du schema.

Utilisant (2.27), on voit que (2.28) sera satisfait pour toute fonction Φ si

αuj,ξ = O((infihi)

−2), (2.29)

et∑

ξ∈S

αuj,ξξiξk = ahik(xj , u) + o(1), pour tout i, k, (2.30)

ou encore∑

ξ∈S

αuj,ξξξT = ah(xj , u) + o(1). (2.31)

Le schema correspondant (de discretisation de l’equation HJB) est

λvj = infu∈U

ℓ(xj , u) + f(xj, u) ·Dη(xj ,u)vj +∑

ξ∈S

αuj,ξ∆ξvj

, j ∈ Zn. (2.32)

30 CHAPITRE 2. PROBLEMES EN TEMPS ET ESPACE CONTINUS 22 07 09

Definition 2.7 On dira que le schema (2.32) est consistant si (2.31) est satisfait, et for-tement consistant si

ξ∈S

αuj,ξξξT = ah(xj , u). (2.33)

La verification de la condition de consistance (qui ne va pas de soi) fait l’objet de lasection suivante.

Remarque 2.8 La relation ci-dessus donne une estimation de la taille des coefficients,qui implique (2.29). En effet, puisque ξ a des coordonnees entieres, la matrice ξξT a deselements diagonaux superieurs ou egaux a un. Un schema fortement consistant satisfaitdonc

ξ∈S

αuj,ξ ≤ trace ah(xj , u) = O((infihi)

−2). (2.34)

La forme de point fixe correspondante est (comme toujours) obtenue en multipliant larelation (2.32) par un pas de temps fictif h0, puis en ajoutant vj a chaque membre, et enfinen divisant par 1+h0λ. Reprenant la notation fh definie en (2.23), on obtient l’expressionsuivante

vj = (1 + λh0)−1 inf

u∈U

h0ℓ(xj , u) +

1 − h0

n∑

i=1

|fhi (xj , u)| − 2h0

ξ∈S

αuj,ξ

vj

+h0

n∑

i=1

fhi (xj , u)+vj+ei+ h0

n∑

i=1

|fhi (xj , u)−|vj−ei+ h0

ξ∈S

αuj,ξ(vj−ξ + vj+ξ)

.

(2.35)Cette relation s’interprete comme le principe de programmation dynamique d’une chaınede Markov si tous les coefficients des vk sont positifs. C’est le cas pour tout k 6= j, et lecoefficient de vj est positif si la condition de stabilite suivante est satisfaite :

h0

n∑

i=1

‖fi‖hi

+ 2 supj∈Zn,u∈U

ξ∈S

αuj,ξ

≤ 1. (2.36)

On peut combiner cette relation avec (2.34) pour en deduire une estimation du pas detemps : h0 = O((infi hi)

−2).

2.2.4 Analyse de la condition de consistance forte

La condition de consistance forte (2.33) revient, puisque les coefficients αuj,ξ doivent etre

positifs, a verifier que ah(xj, u) appartient au cone engendre par l’ensemble ξξT ; ξ ∈ S.Nous allons caracteriser ce cone dans quelques situations simples. Pour cela, quelquesdefinitions s’imposent.

Definition 2.9 Soit q ∈ IN , q > 0. (i) On dit que C ⊂ IRq est un cone si, pour toutt > 0 et c ∈ C, on a tc ∈ C. (ii) Soient c1, . . . , cr dans IRq. On appelle cone convexe C

2.2. SCHEMAS DE DIFFERENCES FINIES 31

engendre par c1, . . . , cr l’ensemble des combinaisons lineaires positives de c1, . . . , cr. Ondit que c1, . . . , cr est un generateur de C. (iii) On appelle generateur minimal de C ungenerateur de C ne contenant pas strictement un generateur de C.

Definition 2.10 Soit C un cone convexe ferme de IRq. On appelle cone polaire (positif)de C l’ensemble

C+ := y ∈ IRq; y · x ≥ 0, pour tout x ∈ C. (2.37)

C’est un cone convexe ferme.

Voici un resultat important d’analyse convexe, que nous admettrons (voir par exemple[32].

Proposition 2.11 Soit C un cone convexe ferme de IRq. Alors (i) il coıncide avec soncone bipolaire (C+)+, (ii) Si C a un generateur fini, il en est de meme pour C+.

Il resulte de cette proposition que, si C est un cone convexe ferme de generateur fini,il existe donc un generateur fini c∗1, . . . , c

∗r′ du cone polaire. Alors C est caracterise par les

inegalites lineaires en nombre fini

C = x ∈ IRq; c∗1 · x ≥ 0, i = 1, . . . , r′. (2.38)

On notera C(S) le cone engendre par les ξξT , ξ ∈ S. Considerons le cas ou S est de laforme Snp , avec

Snp :=

ς ∈ −1, 0, 1n;n∑

i=1

|ςi| ≤ p

. (2.39)

Autrement dit, on considere les transitions vers les points dont les coordonnees differentd’au plus 1 (les voisins immediats), avec au plus p coordonnees differentes.

Proposition 2.12 On a les caracterisations suivantes :(i) Pour tout n > 0, C(Sn1 ) est l’ensemble des matrices diagonales semi definies positives.(ii) Pour tout n > 0, C(Sn2 ) est l’ensemble des matrices a diagonale dominante :

C(Sn2 ) =

A ∈ Mn×n; A = AT ; Aii ≥∑

j 6=i

|Aij |

. (2.40)

(iii) A ∈ C(S33 ) si et seulement si, pour tout i, j dans 1, . . . , n et p, q dans 0, 1 :

Aii ≥ |Aij |,Aii +Ajj ≥ (−1)pAik + (−1)qAjk + 2(−1)p+q+1Aij .

(2.41)

Proof. Le point (i) est immediat. Montrons (ii). Comme les generateurs du cone sont adiagonale dominante, C(Sn2 ) est contenu dans le cone des matrices a diagonale dominante.

32 CHAPITRE 2. PROBLEMES EN TEMPS ET ESPACE CONTINUS 22 07 09

Reciproquement, soit A diagonale dominante. Posons bi := aii−∑

j 6=i |aij |, soit ei le iemevecteur de base, et notons ei±j := ei ± ej . Alors la formule

A =

n∑

i=1

biei(ei)⊤ +

i6=j

[

(aij)+eij(eij)⊤ + |(aij)−|ei−j(ei−j)⊤

]

. (2.42)

montre que A appartient a C(Sn2 ). Nous admettons le point (iii), qui resulte de l’analysede [13].

Remarque 2.13 Les resultats de cette section sont lies aux travaux recents de [13]. Unequestion importante est le calcul rapide des coefficients αuj,ξ. Dans le cas de la dimension 2,on trouvera un algorithme rapide et facile a implementer dans [11]. Le cas de la dimension3 est ouvert.

2.3 Notes

W. H. Fleming et R. Rishel [22] donnent une introduction generale a la theorie de lacommande optimale deterministe et stochastique. L’approche par solutions de viscositeest introduite dans P.L. Lions [31] ; on en trouvera une synthese dans W.H. Fleming etH.M. Soner [23]. J.L. Lions et A. Bensoussan [29] presentent l’approche de la commandestochastique par les techniques variationnelles d’equations aux derives partielles.

Les methodes numeriques pour la commande stochastique sont exposees dans H.J.Kushner et P.G. Dupuis [28]. On y trouvera en particulier une discussion d’une methoded’approximation par chaıne de Markov qui inclut les differences finies generalisees. Pourles problemes de tres grande taille il peut etre utile d’employer des methodes multigrille,voir M. Akian [1]. De nombreuses methodes numeriques, dans un cadre de problemes definance, sont exposees dans L.C.G. Rogers et D. Talay [34].

Chapitre 3

Estimations d’erreur 24 07 09

3.1 Principe de comparaison

3.1.1 Solutions de viscosite

Considerons une equation aux derivees partielles du second ordre sur IRn :

F (x, v(x),Dv(x),D2v(x)) = 0, pour tout x ∈ IRn, (3.1)

ou F : IRn × IR × IRn × Sn → IR avec Sn, espace des matrices symetriques de taille n.Cet espace est muni de la relation d’ordre A B si A − B est semi defini positif. Siv : IRn → IR est deux fois differentiable et satisfait (3.1), on dit que v est une solutionclassique de (3.1). On dira aussi que w : IRn → IR deux fois differentiable est sous solution(resp.sur solution) classique de (3.1) si elle verifie

F (x,w(x),Dw(x),D2w(x)) ≤ 0, (resp. ≥ 0) pour tout x ∈ IRn. (3.2)

Dans la suite du chapitre on supposera F faiblement elliptique, (ou encore elliptiquedegeneree), au sens ou

F (x, v, p,A) ≤ F (x, v, p,B) si A B. (3.3)

Le probleme standard de la commande optimale stochastique rentre dans ce cadre enposant

F (x, v, p,Q) = λv + supu∈U

−ℓ(x, u) − p · f(x, u) − a(x, u) Q (3.4)

ou l’operateur , a ete introduit dans la definition 2.1. En effet, si Q et Q′ sont deuxmatrices symetriques, on a

F (x, v, p,Q′) − F (x, v, p,Q) ≤ supu∈U

−a(x, u) (Q′ −Q). (3.5)

Posons Q′′ := Q′−Q. Utilisant le fait que a(x, u) = (aij(x, u)) est semi definie positive, onverifie facilement que a(x, u)Q′′ est positive si Q′′ est semi definie positive. En effet, si A etB sont deux matrices symetriques, A =

i λixi(xi)⊤, et B =

i µjyj(yj)⊤, ou les xi et yi

33

34 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

sont une base orthogonale de vecteurs propres de A et B, on a AB =∑

i,j λiµj((xi)⊤yj)2.

Si A et B sont semi definies positives, leurs valeurs propres λi et µj sont positives, donc

A 0 et B 0 ⇒ A B ≥ 0. (3.6)

Le hamiltonien du probleme standard de la commande optimale stochastique, d’expression

H(x, u, r, p,Q) := λr − ℓ(x, u) − p · f(x, u) − a(x, u) Q (3.7)

est donc bien faiblement elliptique, et il en est de meme de l’equation HJB qu’on peutecrire sous la forme

supu∈U

H(x, u, v(x),Dv(x),D2v(x)) = 0, x ∈ IRn. (3.8)

.

Le caractere faiblement elliptique de (3.1) permet de definir une notion de solutiongeneralisee dite solution de viscosite.

On dira que (p,X) ∈ IRn × Sn est un surjet (du second ordre) au point x si

v(x) ≤ v(x) + p · (x− x) + 12(x− x)⊤X(x− x) + o(|x− x|2). (3.9)

L’ensemble des surjets de v en x est note J2,+v(x). De la meme maniere on note J2,−v(x)l’ensemble des sousjets de v en x, couples (p,X) tels que :

v(x) ≥ v(x) + p · (x− x) + 12(x− x)⊤X(x− x) + o(|x− x|2). (3.10)

Les ensembles J2,±v(x) sont convexes ; si l’intersection

J2v(x) := J2,−v(x) ∩ J2,+v(x) (3.11)

est non vide, c’est un singleton qui donne un developpement de Taylor au second ordre dev en x.

Soit (p,X) ∈ J2,+v(x). Si v a une derivee seconde en x, alorsDv(x) = p etD2v(x) X.Si v est une sous solution classique de (3.1), en raison de l’ellipticite faible de F , ona F (x, v(x), p,X) ≤ 0. De meme, si w est sur solution classique de (3.1), et (p,X) ∈J2,−w(x), alors F (x, w(x), p,X) ≥ 0. Ceci fournit un moyen de definir une notion de semisolution generalisee de (3.1).

Definition 3.1 Soit Ω un ouvert de IRn. Une fonction v : Ω → IR est dite sous solution(resp. sur solution) au sens de viscosite de (3.1) sur Ω si, pour tout x ∈ Ω, et (p,X) ∈J2,+v(x) (resp. (p,X) ∈ J2,−v(x)) alors

F (x, v(x), p,X) ≤ 0 (resp. ≥ 0). (3.12)

On dit que v est solution au sens de viscosite de (3.1) sur Ω si elle est a la fois sur etsous solution au sens de viscosite sur Ω.

3.1. PRINCIPE DE COMPARAISON 35

Remarque 3.2 Si v : IRn → IR est deux fois continument derivable, en raison de l’ellip-ticite de F , v est sous (sur) solution de viscosite ssi elle est sous (sur) solution classique.

Remarque 3.3 Si F est elliptique et continue, on verifie que v : IRn → IR est sous (sur)solutions de viscosite ssi, pour toute fonction ϕ : IRn → IR de classe C2, si v − ϕ a unmaximum (minimum) local en x, alors F (x, v(x),Dϕ(x),D2ϕ(x)) ≤ 0 (≥ 0). Pour unedemonstration dans le cas d’equations du premier ordre, voir Barles [3].

Remarque 3.4 Si F est elliptique et continue, on verifie facilement avec la remarqueprecedente qu’une limite localement uniforme de sous (sur) solutions de viscosite est sous(sur) solution de viscosite.

Quand dans la suite on parlera de (semi) solution, il faudra comprendre (semi) solutionau sens de viscosite.

Terminons cette section par quelques complements concernant les jets du second ordre.On definit la “fermeture” du surjet comme

J2,+v(x) :=

(p,X) ∈ IRn × Sn; ∃xk → x; v(xk) → v(x);J2,+v(xk) ∋ (pk,Xk) → (p,X)

. (3.13)

La terminologie est quelque peu abusive ; il s’agit, si v est continue, de la fermeture del’application x 7→ (v(x), J2,+v(x)). Les ensembles J2,−v(x) et J2v(x) sont definis d’unemaniere similaire, en remplacant respectivement J2,+v(xn) par J2,−v(xn) et J2v(xn) dansla definition.

Il est clair que, si F est continu, et si v est sous (resp. sur) solution de (3.1), alors(3.12) est satisfait pour tout (p,X) ∈ J2,+v(x) (resp. J2,−v(x)).

Une fonction v : IRq → IR est decomposable si on peut l’ecrire sous la forme

v(x) = v1(x1, . . . , xr) + v2(xr+1, . . . , xq), (3.14)

avec 1 < r < q. Dans ce cas on dit que (p,X) ∈ J2,±v(xn) ou J2,±v(x) est decomposablesi X est bloc diagonal, les blocs etant de taille r et q − r. On note x1 = (x1, . . . , xr),x2 = (xr+1, . . . , xq), et de meme pour x et p.

Lemme 3.5 Soit v : IRq → IR decomposable. Alors tout (p,X) ∈ J2v(x) est decomposable,et ses deux blocs X1 et X2 sont tels que (pi,Xi) ∈ J2vi(x

i), pour i = 1, 2.

Proof. Soient les suites xk et (pk,Xk) donnes par la definition de J2w(x). Par definition,(pk,Xk) donne un developpement de Taylor a l’ordre deux de v en xk, donc de vi en xin,pour i = 1, 2. Comme le developpement de Taylor est unique, celui de v est la somme deceux de v1 et v2. Ceci implique que Xk est formee de deux blocs diagonaux de taille r etq − r. On conclut en passant a la limite.

36 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

3.1.2 Lemme d’Ishii

L’etude de l’unicite forte des semi solutions de l’equation (3.1) necessite une serie delemmes, aboutissant au lemme d’Ishii 3.12. Les trois premiers sont des resultats classiques.On trouvera les demonstrations des lemmes 3.6 et 3.8 dans [18] (et ses references) et dulemme 3.7 dans par exemple [12, Section 2.4].

Lemme 3.6 (Rademacher) Une fonction localement lipschitzienne IRn → IR est Fre-chet derivable presque partout.

Lemme 3.7 Une fonction convexe IRn → IR est localement lipschitzienne (donc presquepartout Frechet derivable en raison du lemme de Rademacher).

Lemme 3.8 (Aleksandrov) Une fonction convexe IRn → IR est deux fois Frechet deri-vable presque partout.

La conclusion des deux lemmes precedents s’etend immediatement aux differences defonctions convexes, et en particulier aux fonctions semiconvexes, c’est a dire les fonctionsv telles que v(x) + 1

2α|x|2 est convexe pour α > 0 assez grand.

Lemme 3.9 (Jensen) Soit x un maximum local strict d’une fonction semiconvexe ψ :IRn → IR. Pour p ∈ IRn, posons ψp(x) := ψ(x) + p · x. Alors pour r > 0 et δ > 0 assezpetits, l’ensemble suivant est de mesure strictement positive :

K := x ∈ B(x, r); ∃ p ∈ Bδ;ψp a un maximum local en x. (3.15)

Proof. a) Puisque ψ est semiconvexe, elle est continue. Pour r > 0 assez petit, x estmaximum local strict de ψ sur B(x, r). Quand p ∈ Bδ et δ ↓ 0, les maxima de ψp surB(x, r) convergent uniformement vers x ; donc, pour δ assez petit (dependant de r), on a

B(x, 12r) ⊃ argmaxψp(x);x ∈ B(x, r), pour tout p ∈ Bδ. (3.16)

Comme la mesure de K croıt avec δ, il suffit d’obtenir la conclusion quand (3.16) estsatisfait.b) On traite d’abord le cas ou ψ est de classe C2. Si x ∈ K realise le maximum de ψp,alors Dψ(x) + p = 0, donc Dψ(K) = Bδ. Soit α ≥ 0 tel que ψ(x) + 1

2α|x|2 soit convexe ;sur K, on a donc −αI D2ψ(x) ; d’autre part, puisque ψp atteint son maximum en x, ona aussi D2ψ(x) 0, d’ou |detD2ψ(x)| ≤ αn, et de la

meas(Bδ) = meas(Dψ(K)) =

Dψ(K)dy =

K|detD2ψ(x)|dx ≤ αn meas(K), (3.17)

qui donne une estimation inferieure de meas(K) ne dependant que de α.c) Si ψ n’est pas de classe C2, on l’approche par ψε, convolution de ψ avec un noyauregularisant :

ψε(x) := ε−n∫

IRn

ψ(x− y)ρ(y/ε)dy, (3.18)

3.1. PRINCIPE DE COMPARAISON 37

ou ρ : IRn → IR verifie les hypotheses suivantes :

ρ est positive, de classe C∞, a support dans B(0, 1), et de masse unite. (3.19)

Dire que ρ est de masse unite signifie que∫

IRn ρ(x)dx = 1. Enfin on pose ρε(x) :=ε−nρ(x/ε), de sorte que ψε(x) := ψ ∗ ρε(x) ou ∗ represente le produit de convolution.

On sait que ψε est de classe C∞, et converge uniformement vers ψ surB(x, r). Montronsque ψε est semiconvexe avec la meme constante α. Notons r(x) := |x|2. On sait queψ(x) + 1

2αr(x) est convexe. Regularisant les deux membres de l’inegalite de convexite ondeduit que ψε(x) + 1

2αrε(x) est convexe. Mais

rε(x) =

IRn

|x− y|2ρε(y)dy = |x|2 − 2x ·∫

IRn

yρε(y)dy +

IRn

|y|2ρε(y)dy. (3.20)

Retranchant le terme affine (les deux dernieres integrales) on deduit le resultat cherche.En raison de (3.16), pour ε > 0 assez petit, la fonction x→ ψε(x)+ p ·x possede, pour

tout p ∈ Bδ, un maximum sur B(x, r). Notons Kε l’ensemble K associe a la fonction ψε.Procedant comme dans (3.17), on obtient meas(Kε) ≥ α−n meas(Bδ). Montrons que

K ⊃ ∩∞q=1 ∪∞

m=q K1/m. (3.21)

En effet, soit x dans le membre de droite ; c’est un elements d’une sous suite constante (apartir d’un certain rang) des ensembles K1/m. Il existe donc une suite pk dans Bδ telle que

ψ1/kpk

(x) admette sur B(x, r) un maximum en x. Soit p ∈ Bδ un point d’adherence de pk.Alors ψp atteint en x son maximum sur B(x, r) ; en raison de (3.16), x ∈ B(x, 1

2r), doncx ∈ K, ce qui etablit (3.21).D’autre part Kn := ∪∞

m=nK1/m est de mesure au moins α−n meas(Bδ). Puisque la suite

Kn est decroissante, on a meas∩n=1Kn = limn meas(Kn) d’ou la conclusion.

Lemme 3.10 Soient w : IRn → IR, α > 0 tels que x → w(x) + 12α|x|2 est convexe, et

B ∈ Sn tels que w(0) = maxxw(x) − 12x

⊤Bx. Alors il existe (0,X) ∈ J2w(0) tel que−αId X B.

Proof. La fonction w(x)− 12x

⊤Bx−|x|4 a un maximum strict en 0. Combinant les lemmesd’Aleksandrov et de Jensen, on obtient l’existence, pour tout δ > 0, de pδ et xδ dans IRn

tels que |pδ| ≤ δ, |xδ| ≤ δ, w est deux fois differentiable en xδ, et w(x)+pδ ·x− 12x

⊤Bx−|x|4a un maximum en xδ.

Ceci implique |Dw(xδ)| = O(δ) et D2w(xδ) B+ o(1). De plus la semiconvexite de wimplique −αId D2w(xδ), donc D2w(xδ) est borne. Passant a la limite, dans une suiteextraite, dans la relation (Dw(xδ),D

2w(xδ)) ∈ J2w(xδ), on obtient le resultat.

On definit la sup convolution1 de v : IRn → [−∞,+∞[ comme la famille de fonctionsparametrees par α > 0 :

vα(x) := supy∈IRn

v(y) − 12α|y − x|2. (3.22)

1Sous entendu avec le noyau y 7→ − 12α|y|2. Ce n’est rien d’autre que l’approximee Yosida, voir par

exemple [8, 14], operant par maximisation plutot que minimisation.

38 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

Ceci s’ecritvα(x) = −1

2α|x|2 + sup

y∈IRn

v(y) − 12α|y|

2 − αy · x. (3.23)

Un supremum de fonctions affines etant convexe, on en deduit que vα(x) + 12α|x|2 est

convexe.

Lemme 3.11 (Proprietes magiques de la sup convolution) Soient v : IRn → IRs.c.s. et majoree, et α > 0. Si (p,X) ∈ J2,+vα(x), alors

(p,X) ∈ J2,+v(x+ p/α) et vα(x) +1

2α|p|2 = v(x+ p/α). (3.24)

En particulier, si (0,X) ∈ J2,+vα(0), alors (0,X) ∈ J2,+v(0).

Proof. Comme v est s.c.s. majoree, il existe y tel que vα(x) = v(y) − 12α|y − x|2. Pour

tout ξ et η dans IRn, utilisant la definition de vα et le fait que (p,X) ∈ J2,+vα(x), il vient

v(ξ) − 12α|η − ξ|2 ≤ vα(η)

≤ vα(x) + p · (η − x)+1

2(η − x)⊤X(η − x) + o(|η − x|2)= v(y) − 1

2α|y − x|2 + p · (η − x)+1

2(η − x)⊤X(η − x) + o(|η − x|2).

Choisissant η = ξ − y + x, il vient

v(ξ) ≤ v(y) + p · (ξ − y) + 12 (ξ − y)⊤X(ξ − y) + o(|ξ − y|2),

c’est a dire (p,X) ∈ J2,+v(y). Par ailleurs, le choix ξ = y et η = x+ q, avec q ∈ IRn, donneapres simplification

q · (α(y − x) − p) ≤ O(|q|2).Prenant q = θ(α(y − x) − p), avec θ ↓ 0, on obtient θ|α(y − x) − p|2 = O(θ2), d’oup = α(y−x), ou encore y = x+ p/α qui implique (3.24). Le dernier enonce du lemme s’endeduit facilement.

Si A ∈ Sn, on note |A|2 la norme de A associee a la norme euclidienne de IRn ; c’est lemaximum des valeurs absolues des valeurs propres de A.

Lemme 3.12 (Ishii) Soient v une fonction s.c.s. de IRn → [−∞,+∞[, et ψ de classeC2 : IRn → IR. Si v − ψ a un maximum local en x, posons A := D2ψ(x). Alors pour toutε0 > 0, il existe X ∈ Sn tel que (Dψ(x),X) ∈ J2,+v(x) ainsi que :

−(

1

ε0+ |A|2

)

Id X A+ ε0A2. (3.25)

Si de plus v est decomposable (relation (3.14)), on peut imposer les relations suivantes : lamatrice X est bloc diagonale et, notant X1 et X2 ses blocs diagonaux, et D1ψ(x), D2ψ(x)la partition correspondante de Dψ(x), on a (Diψ(x),Xi) ∈ J2,+vi(x

i), pour i = 1, 2 oux1 = (x1, . . . , xr) et x2 = (xr+1, . . . , xq).

3.1. PRINCIPE DE COMPARAISON 39

Proof. a) Reduction. Par translation on se ramene au cas ou v(0) = ψ(0) = 0 et x = 0.Retirant Dψ(0)x a v et ψ, on peut supposer Dψ(0) = 0. Enfin on se ramene au cas ou ψest quadratique, soit ψ(x) = 1

2x⊤Ax. En effet, pour β > 0, v(x) − 1

2x⊤(A + βId)x a un

maximum local strict en 0. Si la conclusion du lemme vaut dans ce cas, passant a la limitegrace aux estimations (3.25) (qui donnent une borne sur la norme de X) on en deduit leresultat cherche (pour β = 0). On supposera donc dans la suite que

v(x) − 12x

⊤Ax ≤ 0 = v(0). (3.26)

b) On introduit la sup convolution. Pour tout ε > 0, x et y dans IRn, l’inegalite de CauchySchwarz implique

2y⊤A(x− y) ≤ 2|Ay| |x− y| ≤ εy⊤A2y +1

ε|x− y|2 (3.27)

et donc

x⊤Ax = (y + x− y)⊤A(y + x− y) ≤ y⊤(A+ εA2)y +

(

1

ε+ ‖A‖2

)

|x− y|2. (3.28)

Posant α := 1/ε + ‖A‖2, il vient avec (3.26)

v(x) − 12α|x− y|2 ≤ 1

2y⊤(A+ εA2)y, pour tout y ∈ IRn, (3.29)

qui equivaut avα(y) ≤ 1

2y⊤(A+ εA2)y, (3.30)

pour tout y ∈ IRn. En particulier vα(0) ≤ 0, or on a toujours v(0) ≤ vα(0), donc vα(0) = 0.Ainsi (3.30) equivaut a vα(0) = maxyvα(y) − 1

2y⊤(A+ εA2)y.

c) Combinant la derniere relation avec le lemme 3.10 on obtient l’existence de X ∈ Snverifiant (3.25) et tel que (0,X) ∈ J2vα(0). Le lemme 3.11 implique que (0,X) ∈ J2,+v(0).Enfin, si v est decomposable, on conclut avec le lemme 3.5.

Remarque 3.13 Le choix trivial X = A satisfait (3.25) ainsi que (Dψ(x),X) ∈ J2,+v(x).La force du lemme reside donc dans la possibilite de choisir X decomposable si v l’est.

3.1.3 Separation des variables

Dans cette section on etablit un outil qui servira a la comparaison des sous et sursolutions d’equations faiblement elliptiques. Soient deux fonctions v et w de IRn vers IR,v s.c.s. et majoree, et w s.c.i. et minoree. On etudie les majorations de v−w. La quantitesup(v−w) est finie. On aimerait ecrire des conditions verifiees en un point de IRn ou v−watteint son supremum, mais un tel point n’existe pas necessairement.

Ceci amene a considerer la fonction Ψα,ε : IRn × IRn → IR, ou α > 0 et ε > 0, definiepar

Ψα,ε(x, y) := v(x) − w(y) − 12α|x− y|2 − 1

2ε(|x|2 + |y|2). (3.31)

Nous allons verifier que le maximum de Ψα,ε est atteint, et appliquer le lemme d’Ishii.

40 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

Lemme 3.14 On suppose v ou w holderienne de constantes C0 > 0, µ0 ∈]0, 1]. Alorspour tout α > 0, quand ε > 0 est assez petit, il existe (x, y) ∈ argmax Ψα,ε tels que, posant

px := α(x− y) + εx, py := α(x− y) − εy, (3.32)

on a

|x− y| ≤ (4C0/α)1/(2−µ0), (3.33)

v(x) − w(y) = sup(v − w) + o(1), (3.34)

(px,X) ∈ J2,+v(x); (py, Y ) ∈ J2,−w(y), (3.35)

(

X 00 −Y

)

α

(

I −I−I I

)

+ 2ε

(

I 00 I

)

. (3.36)

Proof. La demonstration comporte quatre etapes. On supposera v holderienne, l’autrecas se traitant d’une maniere similaire.a) La quantite supΨα,ε ≤ sup v − inf w est finie. Soit (xk, yk) une suite maximisante deΨα,ε. De Ψα,ε(xk, yk) ≥ supΨα,ε + o(1) on deduit

12ε(|xk|

2 + |yk|2) ≤ sup v − inf w − supΨα,ε + o(1); (3.37)

la suite est donc bornee. Comme v et (−w) sont s.c.s., on en deduit que Ψα,ε atteint sonmaximum en (au moins) un point (x, y).b) Donnons une estimation de |x− y|. Puisque v est holderienne, on deduit de Ψα,ε(x, y) ≥Ψα,ε(y, y) la relation

12α|x− y|2 ≤ v(x) − v(y) + 1

2ε(|y|2 − |x|2) ≤ C0|x− y|µ0 + 12ε|y|2. (3.38)

On verifie facilement que (pour α > 0 fixe) supΨα,ε ↑ supΨα,0 quand ε ↓ 0, et donc12ε|y|2 ↓ 0 quand ε ↓ 0 (passage a la limite de la valeur penalisee et limite nulle de lacontribution a la valeur du terme penalise). Donc soit lim infε↓0 |x − y| = 0, soit il existeε > 0 assez petit tel que 1

2α|x− y|2 ≤ 2C0|x− y|µ0 . Dans tous les cas on peut choisir ε telque (3.33) est satisfait.c) Montrons (3.34). Prenant x = y dans l’expression de Ψα,ε, il vient

v(x) − w(y) ≥ supΨα,ε ≥ supzv(z) − w(z) − ε|z|2 (3.39)

et on conclut avec l’argument de limite nulle de la contribution a la valeur du termepenalise.d) Appliquons le lemme d’Ishii 3.12. Soit Φ(x, y) := 1

2α|x − y|2 + 12ε(|x|2 + |y|2), et A :=

D2Φ(x, y). Puisque v(x)−w(y)−Φ(x, y) atteint son maximum en (x, y), ce lemme assurel’existence pour tout ε0 > 0 de X et Y dans Sn tels que

(DxΦ(x, y),X) ∈ J2,+v(x);(DyΦ(x, y),−Y ) ∈ J2,+(−w(y));

(

X 00 −Y

)

A+ ε0A2. (3.40)

3.1. PRINCIPE DE COMPARAISON 41

On a DΦ(x, y) = (px,−py). Utilisant J2,+(−w(y)) = −J2,−w(y), on obtient (3.35).Comme

A = α

(

I −I−I I

)

+ ε

(

I 00 I

)

, (3.41)

choisissant ε0 > 0 assez petit on deduit (3.36).

Remarque 3.15 La relation (3.36) equivaut a

a⊤Xa− b⊤Y b ≤ α|b− a|2 + 2ε(|a|2 + |b|2), pour tout a et b dans IRn. (3.42)

Plus generalement, si σ1 et σ2 sont deux matrices n × q, prenant le produit scalaire deFrobenius des deux membres de la derniere relation de (3.36) par la matrice semidefinie

positive

(

σ1

σ2

)(

σ1

σ2

)⊤

=

(

σ1σ⊤1 σ1σ

⊤2

σ2σ⊤1 σ2σ

⊤2

)

de taille 2n × 2n, combinant a la relation (3.6),

il vient2

σ1σ⊤1 X − σ2σ

⊤2 Y ≤ α(σ1 − σ2) (σ1 − σ2) + 2ε(σ1 σ1 + σ2 σ2). (3.43)

3.1.4 Principe de comparaison abstrait

Soit F : IRn × IR × IRn × Sn → IR et C1, C2 deux classes de fonctions IRn → IR. Ondira que F verifie un principe d’unicite forte pour les classes C1, C2 si toute sous solutionv de (3.1) dans C1 et toute sur solution w de (3.1) dans C2 sont telles que sup v ≤ inf w.On verra plus loin des exemples de classes de fonctions Ci.

Dans la suite (en particulier pour les estimations d’erreur des solutions de schemas dediscretisation) on aura plus generalement besoin de comparer les semi solutions associeesa deux equations differentes.

On dira que F est uniformement croissant en v s’il existe cF > 0 tel que, pour tout xet p dans IRn, X ∈ Sn, v et v′ dans IR, on a

F (x, v′, p,A) − F (x, v, p,A) ≥ cF (v′ − v). (3.44)

Nous aurons aussi besoin d’une autre hypothese plus technique, liee a la demonstration dutheoreme 3.17 ci-dessous (on applique ensuite ces resultats au controle stochastique dansle lemme 3.19). On a defini (px, py) en (3.32) :

Il existe K1 > 0, K2 > 0, µ ∈]0, 1], η1 ∈ IR, η2 > 0, tels que, pour tous,α > 1, ε ∈]0, 1[, r ∈ IR, x, y dans IRn, et X, Y dans Sn satisfaisant (3.36),on a

F (y, r, py , Y ) − F (x, r, px,X) ≤ η1 + αη22+

K1

(

|x− y|µ + α|x− y|2)

+ εK2(1 + |x|2 + |y|2).

(3.45)

2Utilisant σσ⊤ I = trace σσ⊤ = σ σ.

42 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

Remarque 3.16 Relions (3.45) a la condition d’ellipticite faible. Il suffit de traiter le casou Y −X est defini positif. Alors pour tout α > 0, (3.36) est toujours satisfait. Fixons rdans IR et x et p dans IRn, et prenons y tel que p = α(x− y), α ↑ ∞ (et donc y → x). Ondeduit de(3.45), quand ε ↓ 0, que, pour tout x, r, p, si η2 = 0 :

F (x, r, p, Y ) − F (x, r, p,X) ≤ η1. (3.46)

En particulier, si F = F et η1 = η2 = 0, la condition (3.45) implique l’ellipticite faible deF .

On note a ∧ b la quantite min(a, b).

Theoreme 3.17 (Principe d’unicite fort) Soient F et F uniformement croissant env, satisfaisant (3.45). Soient v une sous solution de (3.1) pour F = F , s.c.s. et majoree,et w une sur solution de (3.1), s.c.i. et minoree. On suppose une de ces deux fonctionsholderienne de constantes C0 > 0 et µ0 ∈]0, 1]. Alors il existe C = C(K1, µ, µ0, C0) telleque (cF assurant (3.44) pour F ) :

sup(v − w) ≤ c−1F

(

η1 + Cηµ02

)

, ou µ0 :=µ ∧ µ0

1 − 12(µ0 − µ)+

. (3.47)

Proof. Le lemme 3.14 assure l’existence, pour tout α > 0, de ε > 0 et (x, y) ∈ IRn× IRn

satisfaisant (3.32)-(3.36). Comme v et w sont sous et sur solution de viscosite de (3.1)pour F et F respectivement, il vient avec (3.35)

F (x, v(x), px,X) ≤ 0 ≤ F (y,w(y), py , Y ). (3.48)

Combinant cette inegalite avec la croissance uniforme de F , on obtient

cF (v(x) − w(y)) ≤ F (x, v(x), px,X) − F (x,w(y), px,X),≤ F (y,w(y), py , Y ) − F (x,w(y), px,X).

(3.49)

On deduit alors de (3.45) que

cF (v(x) − w(y)) ≤ η1 + αη22 +K1

(

|x− y|µ + α|x− y|2)

+ εK2(1 + |x|2 + |y|2). (3.50)

On verifie facilement que limε↓0 supΨα,ε = supΨα,0, donc ε(1+|x|2+|y|2) → 0 quand ε ↓ 0.Majorant |x−y| grace a (3.33), et utilisant (3.34), on deduit l’existence de C1 = C1(K1, C0)telle que

cF sup(v − w) ≤ η1 + αη22 + C1α

−(µ∧µ0)2−µ0 . (3.51)

Posons b := µ∧µ0/(2−µ0). Le minimum de αη22+C1α

−b, obtenu quand η22−bC1α

−b−1 = 0,

soit α = (bC1/η22)

1b+1 , vaut C2η

2bb+1

2 , avec C2 = C2(K1, µ, µ0, C0). Or

2b

b+ 1=

2(µ ∧ µ0)

2 − µ0 + µ ∧ µ0=

µ ∧ µ0

1 − 12(µ0 − µ)+

, (3.52)

d’ou (3.47).

3.1. PRINCIPE DE COMPARAISON 43

Remarque 3.18 On a suivi [25, Thm 2.1] avec deux differences mineures : on ne supposepas les deux semi solutions holderiennes mais seulement l’une d’entre elles, et on ne supposepas η2 < 1 (ce qui est fait dans la preuve de [25, Thm 2.1]). Si η2 < 1 on deduit de (3.47)que sup(v − w) ≤ C(η1 + ηµ∧µ0

2 ) ce qui est le resultat du theoreme cite.

3.1.5 Unicite forte en commande optimale stochastique

Dans cette section nous appliquons le principe de comparaison au cas du probleme decontrole stochastique. Dans le cas ou F = F , on en deduit que toute sous solution estmajoree par toute sur solution, dans des classes de fonctions convenables.

On suppose ici F de la forme (3.4), et F d’une forme identique en remplacant ℓ, f , apar ℓ, f , a.

Lemme 3.19 On suppose les fonctions (ℓ, f, a) et (ℓ, f , a) lipschitziennes et bornees. Alors(3.44)-(3.45) est satisfait avec µ = 1, K1 = K1(Lℓ, Lf , Lσ) et

η1 := sup(ℓ− ℓ), η2 := ‖f − f‖ + ‖σ − σ‖. (3.53)

En consequence, soit v sous solution de (3.1) pour F = F , s.c.s. et majoree, et w sur so-lution de (3.1), s.c.i. et minoree, une de ces deux fonction etant holderienne de constantesC0 > 0, µ0 ∈]0, 1]. Alors il existe C > 0 dependant de C0 > 0, µ0 et des constantes deLipschitz de (ℓ, f, a, ℓ, f , a) tel que

λ sup(v − w) ≤ sup(ℓ− ℓ) + C(‖f − f‖ + ‖σ − σ‖)µ0 . (3.54)

Proof. La verification de (3.44) est immediate. Posons p0 := α(x− y). Il vient, utilisant(3.43) pour le terme ∆3,

∆ := F (y, r, p0 − εy, Y ) − F (x, r, p0 + εx,X) ≤ ∆1 + ∆2 + ∆3, (3.55)

avec

∆1 := supu

(

ℓ(x, u) − ℓ(y, u))

≤ Lℓ|x− y| + sup(

ℓ− ℓ)

, (3.56)

∆2 := supu

(

(p0 + εx) · f(x, u) − (p0 − εy) · f(y, u))

(3.57)

≤ supu

(

p0 · (f(x, u) − f(y, u))

+ ε(|x| + |y|)(‖f‖ + ‖f‖) (3.58)

≤ αLf |x− y|2 + α|x− y|‖f − f‖ + ε(|x| + |y|)(‖f‖ + ‖f‖), (3.59)

≤ α(Lf + 12)|x− y|2 + α‖f − f‖2 + ε(|x| + |y|)(‖f‖ + ‖f‖), (3.60)

∆3 := supu

(a(x, u) X − a(y, u) Y ) (3.61)

≤ 12α sup

u(σ(x, u) − σ(y, u)) (σ(x, u) − σ(y, u)) (3.62)

+2ε(‖a‖ + ‖a‖) (3.63)

≤ α(L2σ|x− y|2 + ‖σ − σ‖2) + 2ε(‖a‖ + ‖a‖). (3.64)

On verifie (3.45) en combinant les estimations ci-dessus. L’estimation (3.54) est alorsconsequence immediate du principe d’unicite fort (theoreme 3.17).

44 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

3.2 Estimations d’erreur

Les principales difficultes dans l’analyse des estimations d’erreur sont presentes endimension 1. Nous nous restreindrons donc dans la suite a ce cas.

3.2.1 Immersion du schema dans IRn

Rappelons l’equation HJB du controle stochastique en dimension 1 :

λV (x) = infu∈U

ℓ(x, u) + f(x, u)DV (x) + a(x, u)D2V (x)

. (3.65)

On notera dans cette section h > 0 le pas d’espace. Le schema utilisant (quand cela estpossible) les differences finies centrees a pour expression :

λvj = infu∈U

ℓ(xj , u) + f(xj , u)vj+1 − vj−1

2h+ a(xj , u)

vj+1 − 2vj + vj−1

h2

, j ∈ Z.

(3.66)On peut plonger ce schema dans le probleme suivant :

λv(x) = infu∈U

ℓ(x, u) + f(x, u)v(x+ h) − v(x− h)

2h

+a(x, u)v(x + h) − 2v(x) + v(x− h)

h2

, x ∈ IR.(3.67)

On note que (3.67) se decompose en problemes independants sur les grilles ν + hZ, avecν ∈ [0, h[ ; en particulier si j ∈ Z, on a v(jh) = vj . On va ecrire (3.66) sous une forme pluscompacte en notant les operateurs de difference finies par

δ+h v(x) :=v(x+ h) − v(x)

hδ−h v(x) :=

v(x) − v(x− h)

hδhv(x) := 1

2

(

δ+h v(x) + δ−h v(x))

,

∆hv(x) :=δ+h v(x) − δ−h v(x)

h=v(x+ h) − 2v(x) + v(x− h)

h2

(3.68)

On peut alors reecrire (3.67) comme

λv(x) = infu∈U

ℓ(x, u) + f(x, u)δhv(x) + a(x, u)∆hv(x) . (3.69)

Multipliant les deux membres par un pas de temps fictif h0, ajoutant vj a chaque membre,et posant

β := (1 + h0λ)−1; fh(x, u) := 12h0f(x, u)/h; ah(x, u) := h0a(x, u)/h

2,

il vient

v(x) = β infu∈U

h0ℓ(x, u) + (ah(x, u) − fh(x, u)) v(x− h)

+ (1 − 2ah(x, u)) v(x) + (ah(x, u) + fh(x, u)) v(x+ h) .(3.70)

Ceci s’interprete comme le principe de programmation dynamique d’une chaıne de Markovsi les coefficients des vi sont positifs, ce qui est le cas si

(i) h0‖a‖∞ ≤ 12h

2; (ii) a(x, u) ≥ 12h|f(x, u)|, pour tout x, u. (3.71)

3.2. ESTIMATIONS D’ERREUR 45

Remarque 3.20 La condition de monotonie (3.71)(ii) est satisfaite, dans le cas fortementelliptique, autrement dit si

∃ θ > 0; a(x, u) θ, pour tout (x, u) ∈ IRn × U, (3.72)

des que h ≤ 2θ/‖f‖.

De la meme maniere, on peut plonger le schema decentre dans le probleme

λv(x) = infu∈U

ℓ(x, u) + f(x, u)+δ+h v(x) + f(x, u)−δ

−h v(x) + a(x, u)∆hv(x)

, (3.73)

et la forme de point fixe associee est

v(x) = β infu∈U

h0ℓ(x, u) + (ah(x, u) − fh(x, u)−) v(x− h)

+ (1 − 2ah(x, u)) v(x) + (ah(x, u) + fh(x, u)+) v(x+ h) .(3.74)

Ceci s’interprete comme le principe de programmation dynamique d’une chaıne de Markovsi les coefficients des vi sont positifs, ce qui est le cas si (3.71)(i) est satisfait.

3.2.2 Cas de solutions lisses

Dans le cas de solutions lisses de l’equation HJB on obtient facilement des estimationsd’erreur basees sur la consistance et la monotonie du schema. Pour ceci, interpretons lasolution de l’equation HJB (3.65) comme la solution d’une perturbation de l’equation duschema centre (3.67) ou decentre (3.73) pour obtenir une estimation d’erreur. En effet,notons r1(x) et r2(x) les erreurs d’approximation des derivees par le schema (en breferreurs de schema ; elles seront evaluees de maniere plus precise ulterieurement) :

δhV (x) = DV (x) + r1(x); ∆hV (x) = D2V (x) + r2(x). (3.75)

Alors la fonction V est solution du schema centre perturbe

λv(x) = infu∈U

ℓ(x, u) + f(x, u)δhv(x) + a(x, u)∆hv(x)

, (3.76)

avecℓ(x, u) := ℓ(x, u) − r1(x)f(x, u) − r2(x)a(x, u). (3.77)

Combinant avec le lemme 1.6 (dans le cas M ′ = M) on obtient l’estimation d’erreur avecla solution du schema centre

λ|V (x) − vh(x)| ≤ ‖ℓ− ℓ‖∞ ≤ ‖r1‖∞‖f‖∞ + ‖r2‖∞‖a‖∞, pour tout x ∈ IR. (3.78)

De la meme maniere, definissant les erreurs d’approximation decentrees

δ+h V (x) = DV (x) + r1+(x), δ−h V (x) = DV (x) + r1−(x); (3.79)

on obtient l’estimation d’erreur avec la solution du schema decentre

λ‖V − vh‖∞ ≤ ‖r1+‖∞‖f+‖∞ + ‖r1−‖∞‖f−‖∞ + ‖r2‖∞‖a‖∞. (3.80)

46 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

On obtient des estimations plus explicites suivant la regularite de V . On rappelle laformule du developpement de Taylor avec reste integral, valable si V est de classe Ck :

V (x+ e) = V (x) + · · · + 1

(k − 1)!V (k−1)(x)ek−1 +

∫ 1

0

(1 − t)k−1

(k − 1)!V (k)(x+ te)ekdt. (3.81)

Notons (Ci, µi) des constantes de Holder pour V (i), i ≤ k. Utilisant (3.81) pour k = 1 puis2, il vient

r1+(x) =

∫ 1

0(DV (x+ th) −DV (x)) dt

r1(x) = 12h

∫ 1

0(1 − t)

(

D2V (x+ th) −D2V (x− th))

dt

(3.82)

donc (nous ne cherchons pas les constantes optimales)

|r1+(x)| ≤ C1hµ1 ; |r1−(x)| ≤ C1h

µ1 ; |r1(x)| ≤ C2h1+µ2 . (3.83)

Utilisant (3.81) pour k = 3, on obtient

r2(x) = h

∫ 1

0

(1 − t)2

2!

[

V (3)(x+ th) − V (3)(x− th)]

dt (3.84)

et donc

|r2(x)| ≤1

3!C32

µ3h1+µ3 ≤ C3h1+µ3 . (3.85)

On aboutit au resultat suivant :

Lemme 3.21 Soient V et vh les solutions de (3.65) et (3.66) respectivement. On supposeV assez reguliere pour que les estimations ci-dessous aient un sens. Alors (i) si la conditionde monotonie (3.71) est satisfaite, on a

λ‖V − vh‖∞ ≤ C2‖f‖∞h1+µ2 + C3‖a‖∞h1+µ3 . (3.86)

(ii) Pour le schema decentre, on a l’estimation suivante :

λ‖V − vh‖∞ ≤ C1‖f‖∞hµ1 + C3‖a‖∞h1+µ3 . (3.87)

En particulier, si V est assez reguliere, l’erreur est d’ordre h pour le schema decentre, etd’ordre h2 pour le schema centre.

Remarque 3.22 Pour l’estimation de r2(x) on aurait pu aussi se baser sur le developpementde Taylor a l’ordre 4, qui donne |r2(x)| ≤ h2‖V (4)‖∞, d’ou les estimations d’erreur pourles schemas centre et decentre, respectivement :

λ‖V − vh‖∞ ≤ C2‖f‖∞h1+µ2 + ‖a‖∞‖V (4)‖∞h2,

λ‖V − vh‖∞ ≤ C1‖f‖∞hµ1 + ‖a‖∞‖V (4)‖∞h2.(3.88)

3.2. ESTIMATIONS D’ERREUR 47

3.2.3 Un procede general

Les estimations precedentes sont en general inutilisables, car elles necessitent une forteregularite (derivee troisieme holderienne) de la solution V de l’equation HJB, alors quecelle-ci est typiquement seulement lipschitzienne ou meme holderienne.

Elles suggerent neanmoins le procede suivant. Supposons possible la construction, pourtout ε > 0, d’une sous solution reguliere V ε, qui verifie V ε ≤ V sous les hypotheses dulemme 3.19. Notant c(ε) := ‖V − V ε‖∞, il vient

V (x) − c(ε) ≤ V ε(x) ≤ V (x), pour tout x ∈ IR. (3.89)

Utilisant les arguments de la section precedente, on verifie que V ε(x) est sous-solution duschema perturbe, obtenu en changeant ℓ en

ℓε(x, u) := ℓ(x, u) − r1ε(x)f(x, u) − r2ε(x)a(x, u). (3.90)

ou r1ε et r2ε(x) sont les erreurs de schema pour la fonction V ε(x), de constantes de Holder(Ckε, µkε) a l’ordre k, soit (comparer a (3.83)-(3.83)) :

|r1ε+(x)| ≤ C1εhµ1ε ; |r1ε−(x)| ≤ C1εh

µ1ε ; |r1ε(x)| ≤ C2εh1+µ2ε . (3.91)

|r2ε(x)| ≤1

3!C3ε(2h)

1+µ3ε ≤ C3εh1+µ3ε . (3.92)

On en deduit le

Lemme 3.23 On a pour le schema centre, si la condition de monotonie (3.71) est satis-faite :

λ sup(V − vh) ≤ c(ε) + C2ε‖f‖∞h1+µ2ε + C3ε‖a‖∞h1+µ3ε , (3.93)

et pour le schema decentre

λ sup(V − vh) ≤ c(ε) + C1ε‖f‖∞hµ1ε + C3ε‖a‖∞h1+µ3ε . (3.94)

Proof. On donne l’argument dans le cas du schema centre. Notons vhε la solution duschema avec la fonction de cout ℓε(x, u). Comme le schema est monotone, on a

V (x) − c(ε) ≤ V ε(x) ≤ vhε ≤ vh +1

λ‖ℓε − ℓ‖∞, (3.95)

la derniere inegalite resultant du lemme 1.6.

Le meme argument permettrait d’obtenir des majorations de la solution du schema sion savait construire des majorants reguliers de V . De plus, il est symetrique dans le sensou, si on sait construire des minorants ou majorants reguliers de la solution du schema,on en deduit de maniere similaire des majorants ou minorants de la solution de l’equationHJB. Toute la question est maintenant de construire ces minorants ou majorants.

48 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

3.2.4 Minoration

Nos allons donner une minoration de la solution vh du schema discret (decentre ounon). Pour cela nous allons construire une sous solution reguliere de l’equation HJB, puisappliquer les resultats de la section precedente. On pose

Lu[v](x) := ℓ(x, u) + f(x, u) ·Dv(x) + a(x, u) D2v(x). (3.96)

L’equation (HJB) s’ecrit λv(x) = infu∈U Lu[v](x), pour tout x ∈ IRn. Introduisons leprocede de Krylov [27], qui consiste a perturber cette equation de la maniere suivante :

λvε(x) = infu∈U,|e|≤1

Lu[v](x− εe), pour tout x ∈ IRn, (3.97)

avec ε ≥ 0 et e ∈ IRn. On peut voir (3.97) comme l’equation HJB d’un probleme de controlestochastique dans lequel la commande est (u, e) ∈ U × B(0, 1). Il a donc une solutionunique V ε, qui verifie V 0 = V . En raison du theoreme 3.17 combine au lemme 3.19, si Vest holderienne de constante µ0 ∈]0, 1], et si ℓ, f , a sont uniformement lipschitziennes parrapport a x, il existe C > 0 independant de ε tel que

‖V − V ε‖∞ ≤ Cεµ0 . (3.98)

Reprenons le procede de regularisation par convolution avec un noyau regularisant definien (3.18)-(3.19). La fonction ρε(x) = ε−nρ(x/ε), est a support dans B(0, ε) et de masseunite. Si w est holderienne de constantes (Cw, µ0w) ∈ IR+×]0, 1], on verifie facilement quesa regularisee wε(x) := w∗ρε(x) est aussi holderienne avec les memes constantes (Cw, µ0w).De plus wε est de classe C∞ et verifie

‖wε − w‖∞ ≤ Cwεµ0w ; Dkwε(x) =

IRn

w(y)Dkρε(x− y)dy. (3.99)

Comme ‖Dkρε‖∞ ≤ ‖ρ‖∞ε−n−k, ceci implique, pour certaines constantes ck > 0 independantde w :

‖Dkwε‖∞ ≤ ckCwε−k; |Dkwε(x

′) −Dkwε(x)| ≤ ckCw|x′ − x|µ0wε−k. (3.100)

On pose Vε := V ε ∗ ρε(x). D’apres la discussion precedente, notant (C,µ0) les constantesde Holder de V , on a

‖Vε − V ε‖∞ ≤ Cεµ0 ; (3.101)

On va montrer que la fonction Vε est sous solution de (3.97) (lemme 3.25). Pour cela uneresultat qui a son propre interet est le

Lemme 3.24 L’ensemble des sous solutions continues du probleme standard de controlestochastique (2.7) est convexe.

Proof. a) Soient v1 et v2 sous solution continues de (2.7), β ∈]0, 1[, et posons β′ := 1−β,v := βv1 + β′v2. Il s’agit de montrer que v est sous solution.

3.2. ESTIMATIONS D’ERREUR 49

b) Pour motiver ce qui suit, traitons d’abord le cas ou v1 et v2 sont sous solution classiques.Utilisant la convexite de F (x, ·, ·, ·) par rapport a (r, p,Q), on obtient

F (x, v(x),Dv(x),D2v(x)) ≤ βF (x, v1(x),Dv1(x),D2v1(x))

+β′F (x, v2(x),Dv2(x),D2v2(x)) ≤ 0.

(3.102)

On conclut avec la remarque 3.2.c) Dans le cas general, soit χ de classe C2 : IRn → IR, tel que v − χ a un maximum localen un point x. Changeant χ(x) en χK(x) := χ(x) +K|x− x|4, si necessaire, avec K assezgrand, on peut supposer que v − χ a un maximum local strict en x sur la boule B(x, 1).Comme χ et χK ont meme derivees premiere et seconde en x, cette transformation nechange pas la condition de sous solution.

Notons Ψα(x, y) := βv1(x)+β′v2(y)−βχ(x)−β′χ(y)− 1

2α|x−y|2, avec α > 0. On verifiefacilement que, quand α ↑ ∞, la fonction Ψα atteint son maximum sur B(x, 1) × B(x, 1)en (au moins) un point (xα, yα) tel que

xα → x, yα → x, α|xα − yα|2 → 0. (3.103)

Donc pour α assez grand, (xα, yα) ∈ B(x, 1) × B(x, 1). Appliquons le lemme d’Ishii 3.12.Pour tout ε > 0, il existe X et Y dans Sn tels que, posant pα = α(xα − yα),

(pα + βDχ(xα),X) ∈ J2,+[βv1(xα)],(−pα + β′Dχ(yα), Y )) ∈ J2,+[β′v2(yα)],

(3.104)

et(

X 00 Y

)

A+ εA2, ou A := α

(

I −I−I I

)

+

(

βD2χ(xα) 00 β′D2χ(yα)

)

. (3.105)

Effectuant le produit scalaire (de Frobenius) des deux membres par par la matrice se-

midefinie positive

(

σ(xα, u)σ(xα, u)⊤ σ(xα, u)σ(yα, u)

σ(yα, u)σ(xα, u)⊤ σ(yα, u)σ(yα, u)

)

, et prenant ε = 1/α3, il vient

(utilisant (3.103) pour la derniere inegalite)

a(xα, u) X + a(yα, u) Y ≤ α(σ(xα, u) − σ(yα, u)) (σ(xα, u) − σ(yα, u))+βa(xα, u) D2χ(xα) + β′a(yα, u) D2χ(yα)+o(1)

≤ Cα|xα − yα|2 + a(x, u) D2χ(x) + o(1)= a(x, u) D2χ(x) + o(1).

(3.106)

Utilisons maintenant le fait que v1 et v2 sont sous solutions. Comme J2,+[γw(·)] =γJ2,+w(·), (3.104) implique

(β−1pα +Dχ(xα), β−1X) ∈ J2,+v1(xα),(−(β′)−1pα +Dχ(yα), (β

′)−1Y ) ∈ J2,+v2(yα).(3.107)

Pour tout u ∈ U , on a donc (multipliant par β et β′ les relations correspondantes)

βλv1(xα) ≤ βℓ(xα, u) + (pα + βDχ(xα)) · f(xα, u) + a(xα, u) X,β′λv2(yα) ≤ β′ℓ(yα, u) + (−pα + β′Dχ(yα)) · f(yα, u) + a(yα, u) Y.

(3.108)

50 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

Additionnant ces inegalites, et utilisant (3.103) et (3.106), il vient

λv(x) ≤ ℓ(x, u) +Dχ(x) · f(x, u) + a(x, u) D2χ(x) + o(1). (3.109)

Passant a la limite (ce qui supprime le terme o(1)) et minimisant par rapport a u ∈ U onobtient la relation caracterisant v comme sous solution.

Lemme 3.25 La fonction Vε est sous solution de (3.97).

Proof. D’apres le lemme 3.24, l’ensemble des sous solutions continues de l’equation(3.97) est convexe (puisque (3.97) s’interprete comme l’equation HJB d’un probleme stan-dard de controle stochastique).

On peut discretiser l’integrale V ε ∗ ρε(x) de la maniere suivante. Soient δ > 0, Qεδ :=e+[−1

2δ,12δ]

n, ρε(e, δ) :=∫

Qεδρε(y)dy, et Iδ(x) :=

e∈Zn V ε(x−δe)ρε(e, δ). Alors Vε(x) :=

V ε ∗ ρε(x) est limite uniforme sur les compacts de Iδ(x). D’apres le point (b), Vε est donclimite uniforme sur les compacts de sous solutions de 2.7. On conclut avec la remarque3.4.

On note

λ0 := supx 6=y

12

‖σ(x, u) − σ(y, u)‖2

|x− y|2 +(f(x, u) − f(y, u)) · (x− y)

|x− y|2

(3.110)

On a bien evidemment λ0 ≤ 12(Lσ)

2 + Lf . On note C0,µ l’espace des fonctions borneesholderiennes de constante µ.

Theoreme 3.26 L’equation HJB du probleme de commande optimale stochastique a unesolution unique V ∈ C0,µ0(IRn), avec µ0 = λ/λ0 si λ < λ0, µ0 arbitraire dans ]0, 1[ siλ = λ0, et µ0 = 1 si λ > λ0. De plus la constante Cµ0 est uniformement bornee si ℓ, f , σle sont dans C0,1(IRn).

Proof. Nous admettons ce resultat ; voir Barles et Jakobsen [4, Thm 2.2], P.-L. Lions[30, Thm 2.3]. Une extension a des equations plus generales se trouve dans Jakobsen etKarlsen [25, Appendix].

Theoreme 3.27 Soit V holderienne de constante µ0, (avec µ0 fourni par exemple parle theoreme 3.26. Soit vh la solution du schema decentre (3.73), ce dernier verifiant lacondition de stabilite (3.71)(ii). Alors on a la minoration de vh suivante :

sup(

V − vh)

≤ Chβ, avec β = µ20/(1 + µ0). (3.111)

En particulier, si µ0 = 1, alors sup(

V − vh)

≤ O(h1/2).

Proof. On applique le lemme 3.23 avec la sous-solution Vε construite dans la sectionprecedente. La relation (3.98) donne c(ε) = Cεµ0 , et avec (3.100) on obtient µk = µ0

3.2. ESTIMATIONS D’ERREUR 51

et Ckε = Cε−k, pour tout k ∈ IN . Le lemme lemme 3.23 implique donc pour le schemadecentre

λ sup(V − vh) ≤ C

(

εµ0 +hµ0

ε+h1+µ0

ε3

)

= C

(

εµ0 +hµ0

ε

(

1 +h

ε2

))

. (3.112)

Or la fonction ε 7→ εµ0 + hµ0/ε atteint son minimum en εh = hµ0/(1+µ0) ; comme h/ε2h ≤O(1), l’ordre de grandeur du minimum du membre de droite de (3.112) est atteint pourεh. Alors (3.111) decoule de

εµ0

h = hµ20/(1+µ0);

hµ0

εh= hµ

20/(1+µ0); (3.113)

Remarque 3.28 Si λ > λ0 on a µ0 = 1, donc une majoration de V − vh en O(h1/2). Ceresultat est a priori le meilleur possible, dans la mesure ou dans le cas de la commandeoptimale deterministe l’ordre d’erreur (des deux cotes) est O(h1/2) ; voir Capuzzo Dolcettaet Ishii [20].

3.2.5 Majoration de la solution du schema

Dans cette approche on applique le procede de Krylov au schema numerique de manierea produire une sous solution du schema sur un voisinage. Regularisant par convolution etutilisant la condition de consistance on obtient une sous solution approchee de l’equationHJB, ce qui donne une majoration de V − vh. Les arguments sont identiques a ceux de laminoration et il est donc inutile de les repeter. Il suffit d’expliciter le procede de Krylovapplique au schema. On pose U := U×B(0, 1) (boule fermee euclidienne de IRn) d’elementu = (u, e), et, pour ε > 0

ℓ(x, u) := ℓ(x+ e, u); f(x, u) := f(x+ e, u); a(x, u) := a(x+ e, u). (3.114)

Le schema perturbe s’ecrit

λv(x) = infu∈U

ℓ(x, u) + f(x, u)+v(x+ h) − v(x)

h+ f(x, u)−

v(x) − v(x− h)

h

+a(x, u)v(x+ h) − 2v(x) + v(x− h)

h2

.(3.115)

On obtient donc le resultat symetrique de celui du theoreme 3.27 :

Theoreme 3.29 On suppose la solution vh du schema decentre holderienne de constanteµ′0. Alors on a la majoration de vh suivante :

sup(

vh − V)

≤ Chβ, avec β = (µ′0)2/(1 + µ′0). (3.116)

En particulier, si µ′0 = 1, alors sup(

vh − V)

≤ O(h1/2).

52 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

Remarque 3.30 Le point delicat reste l’obtention de resultats de regularite sur la solu-tuion du schema permettant l’application du theoreme 3.29. La reference cle est Krylov[26] dans lequel, pour λ > 0 assez grand, on prouve (moyennant des calculs assez tech-niques) que la solution du schema est lipschitzienne (uniformement en h). Les estimationsde type Holder pour λ petit restent ouvertes.

3.3 Algorithme semi lagrangien

3.3.1 Principe

On note σs(x, u) la colonne d’indice s de la matrice σ(x, u). On considere l’algorithmedit semi lagrangien suivant, qui peut s’interpreter comme une discretisation du principede programmation dynamique, posant β := (1 + λh0)

−1 :

vh0(x) := β infu∈U

(

h0ℓ(x, u) +1

2r

r∑

s=1

[

vh0(x+ h0f(x, u) +√h0σs(x, u))

+ vh0(x+ h0f(x, u) −√h0σs(x, u))

]

)

.

(3.117)

Ce schema s’interprete comme un principe de programmation dynamique et correspond aun operateur de point fixe contractant pour la norme uniforme, dans l’espace des fonctionscontinues et bornees. Il a donc une solution unique, continues et bornee, qui satisfait

‖vh0‖∞ ≤ ‖ℓ‖∞λ

. (3.118)

Notons la forme equivalente, plus proche de l’equation HJB, obtenue en reecrivons leschema sous la forme (on multiplie (3.117) par β, on retranche vh0(x) a chaque membreet on simplifie par h0) :

λvh0(x) := infu∈U

(

ℓ(x, u) +1

2h0r

r∑

s=1

[

vh0(x+ h0f(x, u) +√h0σs(x, u)) − 2vh0(x)

+ vh0(x+ h0f(x, u) −√h0σs(x, u))

]

)

.

(3.119)Nous allons donner une estimation d’erreur basee encore sur l’idee de perturbation descoefficients de Krylov, permettant de construire des sous-solutions regulieres de l’equationHJB et du schema numerique. Pour cela il faut assurer la regularite de la solution duschema. C’est l’objet de la section suivante. Les calculs etant similaires a ceux menes pourl’estimation d’erreur de la methode de differences finies, nous ne donnerons pas tous lesdetails.

3.3.2 Stabilite de la solution du schema

On considere un probleme perturbe de donnees ℓ, f , σ, lipschitiennes et bornees. Onnote vh0 la solution du schema semi lagrangien associe. On note

λ00 := supu,x,y

(f(x, u) − f(y, u), x− y)

|x− y|2 ; λ0 := L2σ + λ00. (3.120)

3.3. ALGORITHME SEMI LAGRANGIEN 53

Proposition 3.31 Si λ > λ0, alors il existe C > 0 dependant des constantes de Lipschitzde ℓ, λ, λ0 tel que, pour h0 assez petit, on a

‖vh0(x) − vh0(y)‖∞ ≤ C(

|x− y| + ‖ℓ− ℓ‖∞ + ‖f − f‖∞ + ‖σ − σ‖∞)

. (3.121)

Proof. On omet la notation ∞ pour les normes. Etant donnes α > 0 et ε > 0, posons

φ(x, y) := α|x− y|2 + ε(|x|2 + |y|2). (3.122)

La fonction ψ(x, y) := vh0(x)− vh0(y)−φ(x, y) est continue, majoree et ses suites maximi-santes sont bornees. Elle atteint donc son maximum en un point (x, y). Pour tout (x′, y′),on a

vh0(x′) − vh0(y′) = φ(x′, y′) + ψ(x′, y′) ≤ φ(x′, y′) + ψ(x, y) (3.123)

avec egalite si (x′, y′) = (x, y), et donc

A := vh0(x+ b+ a) − 2vh0(x) + vh0(x+ b− a)−(

vh0(y + b+ a) − 2vh0(y) + vh0(y + b− a))

≤ φ(x+ b+ a, y + b+ a) − 2φ(x, y) + φ(x+ b− a, y + b− a)= 2α

(

|a− a|2 + |b− b|2 + 2(x− y) · (b− b))

+ o(1).

(3.124)

Soit u ∈ U atteignant le minimum dans la definition de vh0(y). Faisant la difference entre(3.117) ecrit en x et la relation correspondante pour vh0(y), il vient apres division par βet notant ∆v := vh0(x) − vh0(y) :

1

β∆v ≤ h0ℓ(x, u) − h0ℓ(y, u)

+1

2r

r∑

s=1

(

vh0(x+ h0f(x, u) ±√

h0σs(x, u)) − vh0(y + h0f(y, u) ±√

h0σs(y, u)))

.

(3.125)Retranchant vh0(x) − vh0(y) a chaque membre et utilisant 1 − β = βλh0, il vient

λh0∆v ≤ h0ℓ(x, u) − h0ℓ(y, u)

+1

2r

r∑

s=1

(

vh0(x+ h0f(x, u) ±√

h0σs(x, u) − 2vh0(x)

+2vh0(y) − vh0(y + h0f(y, u) ±√

h0σs(y, u)))

.

(3.126)

Appliquons (3.124) au membre de droite, avec

b := h0f(x, u); a :=√

h0σs(x, u); b := h0f(y, u); a :=√

h0σs(y, u). (3.127)

Nous obtenons apres simplification3 par h0 :

λ∆v ≤ ℓ(x, u) − ℓ(y, u) + 2α|σs(x, u) − σs(y, u)|2+2α

(

h0|f(x, u) − f(y, u)|2 + (f(x, u) − f(y, u) · (x− y)))

+ o(1).(3.128)

3Avec |σ(x, u)|2 :=P

s |σs(x, u)|2.

54 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

Utilisant pour η > 0 “petit”

(a+ b)2 = a2 + b2 + 2(ηa)(b/η) ≤ (1 + η2)a2 + (1 + η−2)b2 (3.129)

il vient, posant δ := |x− y| :

|σs(x, u) − σs(y, u)|2 ≤ (Lσδ + ‖σ − σ‖)2 ≤ (1 + η2)L2σδ

2 + (1 + η−2)‖σ − σ‖2. (3.130)

Procedant de meme pour le terme |f(x, u) − f(y, u)|2, et utilisant

(f(x, u) − f(y, u) · (x− y)) ≤ ‖f − f‖δ + λ00δ2. (3.131)

En consequence,

λ∆v ≤ δLℓ + ‖ℓ− ℓ‖ + α(1 + η2)(

L2σ + h0L

2f

)

δ2 + αλ00δ2

+α(1 + η−2)(

‖σ − σ‖2 + h0‖f − f‖2)

+ 2α‖f − f‖δ + o(1)(3.132)

Pour h0 et η assez petits, on a

λ1 <12(λ+ λ0), avec λ1 := (1 + η2)

(

L2σ + h0L

2f

)

+ λ00. (3.133)

Il vient donc, ordonnant suivant les puissances decroissantes de δ :

λψ(x, y) ≤ −α(λ− λ0)δ2 +

(

Lℓ + α‖f − f‖)

δ

+‖ℓ− ℓ‖ + α(1 + η−2)(

‖σ − σ‖2 + h0‖f − f‖2)

+ o(1).(3.134)

Maximisant par rapport a δ ∈ IR, donc prenant δ = 12α

−1(

Lℓ + α‖f − f‖)

/(λ − λ1), ilvient

λψ(x, y) ≤ 1

4α(λ− λ1)

(

Lℓ + α‖f − f‖)2

‖ℓ− ℓ‖ + α(1 + η−2)(

‖σ − σ‖2 + h0‖f − f‖2)

+ o(1).(3.135)

Combinant avec (3.123) ecrit au point (x, y), il vient

λ(

vh0(x) − vh0(y))

≤ λα|x− y|2 +1

4α(λ− λ1)

(

Lℓ + α‖f − f‖)2

‖ℓ− ℓ‖ + α(1 + η−2)(

‖σ − σ‖2 + h0‖f − f‖2)

+ o(1).(3.136)

Cette inegalite est de la forme

λ(

vh0(x) − vh0(y))

≤ γ−1α−1 + γ0 + γ1α. (3.137)

Minimisant par rapport a α, il vient

λ(

vh0(x) − vh0(y))

≤ infα

(

γ−1α−1 + γ0 + γ1α

)

= γ0 + 2√γ−1γ1. (3.138)

On a ici

γ−1 =L2ℓ

4(λ− λ1); γ0 = 1

2

Lℓ‖f − f‖(λ− λ1)

+ ‖ℓ− ℓ‖ + o(1);

γ1 = λ|x− y|2 +‖f − f‖2

λ− λ1+ (1 + η−2)

(

‖σ − σ‖2 + h0‖f − f‖2)

(3.139)

Majorant√γ1 avec l’inegalite (a2 + b2 + c2 + d2)1/2 ≤ a+ b+ c+ d (avec a, b, c, d positifs)

on obtient la conclusion desiree.

3.3. ALGORITHME SEMI LAGRANGIEN 55

Remarque 3.32 Dans P.-L. Lions [30, Thm 2.3], on montre que la valeur du problemede controle stochastique est lipschitzienne si

λ > 12L

2σ + λ00. (3.140)

Ici nous obtenons une valeur critique superieure, mais du meme ordre de grandeur.

Corollaire 3.33 Sous les hypotheses de la proposition 3.31, la solution de l’algorithmesemilagrangien est lipschitzienne.

Proof. On applique la proposition 3.31 a la translation du probleme d’un vecteur z ∈IRn, donc avec les donnees

ℓ(x, u) := ℓ(x+ z, u); f(x, u) := f(x+ z, u) σ(x, u) := σ(x+ z, u), (3.141)

dont la solution est vh0(x) := vh0(x+ z).

3.3.3 Erreur de consistance

On etablit d’abord l’erreur de consistance pour une fonction ψ reguliere. Utilisant ledeveloppement (3.81) a l’ordre 4, il vient notant e± := h0f(x, u) ±

√h0σs(x, u) :

∆ := 12ψ(x+ h0f(x, u) +

√h0σs(x, u)) + 1

2ψ(x+ h0f(x, u) −√h0σs(x, u))

= ψ(x) + h0

(

ψ′(x)f(x, u) + 12ψ

′′(x)(σs(x, u))2)

+ r1s(x, u) + r2s(x, u)

r1s(x, u) = 12h

20ψ

′′(x)(f(x, u))2 + 13!

(

ψ(3)(e+)3 + ψ(3)(e−)3)

r2s(x, u) :=

∫ 1

0

(1 − t)3

3!

(

ψ(4)(x+ te+)(e+)4 + ψ(4)(x+ te−)(e−)4)

dt

(3.142)On note que seuls les puissances paires de σs(x, u) ont des contributions non nulles. Onpeut donc estimer l’erreur de consistance

r(x, u) :=r∑

s=1

|r1s(x, u) + r2s(x, u)| (3.143)

par (majorant differentes constantes par 1)

r(x, u) ≤ h20‖ψ′′(x)‖‖f(x, u)‖2 + ‖ψ(3)‖

(

h30‖f(x, u)‖3 + h2

0‖f(x, u)‖‖σ(x, u)‖)

+‖ψ(4)‖(

h40‖f(x, u)‖4 + h3

0‖f(x, u)‖2‖σ(x, u)‖2 + h20‖σ(x, u)‖4

)

.(3.144)

Utilisant (3.119), on voit que ce schema peut s’ecrire pour une fonction ψ reguliere

λψ(x) := infu∈U

(

ℓ(x, u)+ψ′(x)f(x, u)+ 12ψ

′′(x)a(x, u)+h−10 (r1s(x, u)+r2s(x, u))

)

. (3.145)

L’erreur de consistance avec l’equation HJB est donc de l’ordre de h−10 |r(x, u)|.

56 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

3.3.4 Estimation d’erreur

On a etabli en (3.100) les estimations des tailles des derivees des sous solutions obte-nues par le procede de Krylov (pertubation des coefficients puis regularisation par convo-lution). Si la solution V de l’equation HJB est lipschitienne, la sous solution wε satisfait‖Dkwε‖∞ = O(ε−k). On a donc avec (3.144)

V (x) − vh0(x) ≤ O(ε) + h0O(ε−1 + ε−2 + ε−3), (3.146)

ou le premier terme estime ‖V −wε‖∞ et le second tient compte de l’erreur de consistance.Le choix optimal de ε est de l’ordre de h1/4. Par symetrie on obtient la meme estimationdans l’autre sens. Le resultat final est donc

Theoreme 3.34 Sous les hypotheses de la proposition 3.31, on a

‖V − vh0‖∞ = O(h1/40 ). (3.147)

3.3.5 Discretisation spatiale

L’algorithme semi lagrangien, pour etre implementable, doit s’accompagner d’une des-cription de la dependance spatiale permettant une implementation effective. Une possi-bilite est de partitionner l’espace d’etat par un ensemble S des simplexes reguliers. Lapartition doit etre reguliere au sens ou, si S1 et S2 sont deux simplexes de S, leur inter-section est soit vide, soit une face commune a S1 et S2. Alors l’espace HS des fonctionscontinues, affines sur chaque simplexe, s’obtient par combinaison lineaire des fonctionsde bases, obtenues en fixant la valeur 1 sur un sommet d’un simplexe, et 0 sur touts lessommets autres que celui-ci. On impose alors la relation (3.117), en chaque sommet de tri-angle. L’algorithme s’ecrit donc, notant s(S) l’ensemble des sommets : calculer vh0,S ∈ HS

tel que

vh0,S(x) := β infu∈U

(

h0ℓ(x, u) +1

2r

r∑

s=1

[

vh0,S(x+ h0f(x, u) +√h0σs(x, u))

+ vh0,S(x+ h0f(x, u) −√h0σs(x, u))

]

)

,

pour tout x ∈ s(S).

(3.148)

Avec les arguments habituels de point fixe contractant on verifie que cette equatioon admetdans HS une solution unique vh0,S , telle que ‖vh0,S‖∞ ≤ ‖ℓ‖/λ.

Lemme 3.35 Si λ > λ0, il existe c > 0 tel que, si h est la taille maximale d’un simplexe :

‖vh0,S − vh0‖∞ ≤ ch

h0. (3.149)

Proof. Soit x ∈ IRn, element du simplexe S, donc de la forme, notant s(S) l’ensembledes sommets du simplexe S et αy les coefficients barycentriques (positifs et de somme 1) :

3.3. ALGORITHME SEMI LAGRANGIEN 57

x =∑

y∈s(S) αyy. On a, puisque vh0,S est affine sur S :

|vh0,S(x) − vh0(x)| =∣

y∈s(S)

αy(vh0,S(y) − vh0(x))

∣≤∑

y∈s(S)

αy|vh0,S(y) − vh0(x)|

≤∑

y∈s(S)

αy(

|vh0,S(y) − vh0(y)| + |vh0(y) − vh0(x)|)

(3.150)En raison du corollaire 3.33, vh0(x) est uniformement lipschitzienne de constante noteeL0, et donc

y∈s(S)

αy|vh0(y) − vh0(x)| ≤ L0h. (3.151)

Faisant la difference entre les equations de vh0,S et vh0 , et majorant la differece des infimumpar le supremum des differences, il vient pour tout y ∈ s(S)

|vh0,S(y) − vh0(y)| ≤ β‖vh0,S − vh0‖∞ (3.152)

Combinant avec (3.150)-(3.151), il vient

|vh0,S(x) − vh0(x)| ≤ β‖vh0,S − vh0‖∞ + L0h. (3.153)

Prenant le supremum du membre de gauche il vient

(1 − β)‖vh0,S − vh0‖∞ ≤ L0h (3.154)

d’ou la conclusion decoule.

Remarque 3.36 Apres discretisation spatiale, l’estimation d’erreur est du type

c1h1/40 + c2

h

h0, (3.155)

avec c1 > 0 et c2 > 0 independants de h et h0. Pour h fixe le choix optimal de h0 est enO(h4/5) pour une erreur totale en O(h1/5).

Notons que dans la methode de differences finies generalisees, on a une erreur enO(h1/2) et on prend un pas de temps en O(h2), avec de plus un pas de temps en O(h1/2),donc beaucoup plus grand, ce qui ameliore la performance de l’algorithme, puisque le tauxde convergence des algorithmes de point fixe est dans tous les cas β = (1 + h0λ)−1.

On peut se demander si l’estimation du theoreme 3.34 n’est pas pessimiste. Mais meme

si on arrivait a prouver que ‖V −vh0‖∞ = O(h1/20 ), pour h fixe, le choix optimal de h0 serait

O(h2/3), avec une erreur totale en O(h1/3). Il faudrait prouver que ‖V − vh0‖∞ = O(h0),pour retrouver les memes estimations d’erreur que dans la methode de differences finiesgeneralisees.

58 CHAPITRE 3. ESTIMATIONS D’ERREUR 24 07 09

Indications bibliographiques

Unicite forte La discussion du principe d’unicite forte suit le user’s guide [18] en expli-citant toutes les etapes ; l’introduction de la notion de fonction decomposable simplifie unpeu l’expose. On renvoie a [18] pour les extensions aux equations dans des ouverts avecconditions au bord. Voir aussi [23].

Nous avons mentionne que le principe d’unicite fort (theoreme 3.17) est repris de [25,Thm 2.1]. L’obtention de la minoration de V − vh suit [4] ; l’idee cle est le procede deKrylov. Pour la majoration on se reportera a [5, 27, 26].

Differences finies Pour les methodes de type differences finies, il y a peu de resultatsd’estimations d’erreur en dehors du cas des hamiltoniens convexes. En particulier le casdes jeux est ouvert. Voir cependant les travaux sur la commande impulsionnelle et sur lecas du jeu dans lequel l’adversaire a pour decision l’arret du jeu [9, 10].

Algorithme semi lagrangien L’algorithme, du a [15], etend au cas stochastique l’ap-proche de [19]. Nous analyse reprend les outils de Camilli et Jakobsen [16], dans lequel ontrouvera aussi l’analyse de systemes comportant des sauts.

Bibliographie

[1] M. Akian. Analyse de l’algorithme multigrille FMGH de resolution d’equationsd’Hamilton-Jacobi-Bellman. In A. Bensoussan and J.-L. Lions, editors, Analysis andoptimization of systems (Antibes, 1990), volume 144 of Lecture Notes in Control andInformation Sciences, pages 113–122. Springer Verlag, Berlin, 1990.

[2] E. Altman. Constrained Markov decision processes. Chapman and Hall, Boca Raton,1999.

[3] G. Barles. Solutions de viscosite des equations de Hamilton-Jacobi, volume 17 ofMathematiques et Applications. Springer, Paris, 1994.

[4] G. Barles and E.R. Jakobsen. On the convergence rate of approximation schemes forHamilton-Jacobi-Bellman equations. M2AN. Mathematical Modelling and NumericalAnalysis, 36 :33–54, 2002.

[5] G. Barles and E.R. Jakobsen. Error bounds for monotone approximation schemes forHamilton-Jacobi-Bellman equations. SIAM J. Numerical Analysis, 43(2) :540–558(electronic), 2005.

[6] R. Bellman. Dynamic programming. Princeton University Press, Princeton, 1961.

[7] D. Bertsekas. Dynamic programming and optimal control (2 volumes). Athena Scien-tific, Belmont, Massachusetts, 1995.

[8] J.F. Bonnans. Optimisation Continue. Dunod, Paris, 2006.

[9] J.F. Bonnans, S. Maroso, and H. Zidani. Error estimates for stochastic differentialgames : the adverse stopping case. IMA, J. Numerical Analysis, 26 :188–212, 2006.

[10] J.F. Bonnans, S. Maroso, and H. Zidani. Error estimates for a stochastic impulsecontrol problem. Appl. Math. and Optim., 55(3) :327–357, 2007.

[11] J.F. Bonnans, E. Ottenwaelter, and H. Zidani. Numerical schemes for the two dimen-sional second-order HJB equation. ESAIM : M2AN, 38 :723–735, 2004.

[12] J.F. Bonnans and A. Shapiro. Perturbation analysis of optimization problems.Springer-Verlag, New York, 2000.

[13] J.F. Bonnans and H. Zidani. Consistency of generalized finite difference schemes forthe stochastic HJB equation. SIAM J. Numerical Analysis, 41 :1008–1021, 2003.

[14] H. Brezis. Operateurs maximaux monotones et semigroupes de contraction dans lesespaces de Hilbert. North Holland, Amsterdam, 1973.

59

60 BIBLIOGRAPHIE

[15] F. Camilli and M. Falcone. An approximation scheme for the optimal control of dif-fusion processes. RAIRO Modelisation Mathematique et Analyse Numerique, 29 :97–122, 1995.

[16] F. Camilli and E. Jakobsen. A finite element like scheme for integro-partial differentialHamilton-Jacobi-Bellman equations. SIAM J. Numer. Anal., 47(4) :2407–2431, 2009.

[17] R.W. Cottle, J.-S. Pang, and R.E. Stone. The Linear Complementarity Problem.Academic Press, New York, 1992.

[18] M.G. Crandall, H. Ishii, and P.-L. Lions. User’s guide to viscosity solutions of se-cond order partial differential equations. Bull. American Mathematical Society (NewSeries), 27 :1–67, 1992.

[19] I. Capuzzo Dolcetta. On a discrete approximation of the Hamilton-Jacobi equation ofdynamic programming. Applied Mathematics and Optimization, 10 :367–377, 1983.

[20] I. Capuzzo Dolcetta and H. Ishii. Approximate solutions of the Bellman equation ofdeterministic control theory. Appl. Math. Optim., 11 :161–181, 1984.

[21] E.A. Feinberg and A. Shwartz. Constrained discounted dynamic programming. Ma-thematics of Operations Research, 21 :922–945, 1996.

[22] W.H. Fleming and R. Rishel. Deterministic and stochastic optimal control, volume 1of Applications of mathematics. Springer, New York, 1975.

[23] W.H. Fleming and H.M. Soner. Controlled Markov processes and viscosity solutions.Springer, New York, 1993.

[24] O. Hernandez-Lerma and J.B. Lasserre. Further topics on discrete-time Markovcontrol processes. Springer-Verlag, New York, 1999.

[25] E.R. Jakobsen and K.H. Karlsen. Continuous dependence estimates for viscositysolutions of fully nonlinear degenerate elliptic equations. Electronic J. DifferentialEquations, pages 1–10, 2002.

[26] Nicolai V. Krylov. The rate of convergence of finite-difference approximations forBellman equations with Lipschitz coefficients. Appl. Math. Optim., 52(3) :365–399,2005.

[27] N.V. Krylov. On the rate of convergence of finite-difference approximations for Bell-man’s equations with variable coefficients. Probability Theory and Related Fields,117 :1–16, 2000.

[28] H.J. Kushner and P.G. Dupuis. Numerical methods for stochastic control problemsin continuous time, volume 24 of Applications of mathematics. Springer, New York,2001. Second edition.

[29] J.-L. Lions and A. Bensoussan. Application des inequations variationnelles en controlestochastique, volume 6 of Methodes mathematiques de l’informatique. Dunod, Paris,1978.

[30] P.-L. Lions. Optimal control of diffusion processes and Hamilton-Jacobi-Bellmanequations. I. The dynamic programming principle and applications. Comm. PartialDifferential Equations, 8(10) :1101–1174, 1983.

BIBLIOGRAPHIE 61

[31] P.-L. Lions. Optimal control of diffusion processes and Hamilton-Jacobi-Bellmanequations. Part 2 : viscosity solutions and uniqueness. Communications in partialdifferential equations, 8 :1229–1276, 1983.

[32] G.L. Nemhauser, A.H.G. Rinnoy Kan, and M.J. Todd, editors. Optimization, volume 1of Handbooks in Operations Research and Management Science. North-Holland, Am-sterdam, 1989.

[33] J.P. Quadrat. Decision et commande en presence d’incertitude. Cours polycopie,Ecole Polytechnique, 1994.

[34] L.C.G. Rogers and D. Talay, editors. Numerical methods in finance. CambridgeUniversity Press, 1997.

[35] M.M. Tidball, A. Lombardi, O. Pourtallier, and E. Altman. Continuity of optimalvalues and solutions for control of Markov chains with constraints. SIAM Journal onControl and Optimization, 38 :1204–1222 (electronic), 2000.