rudolfscitovski ninoslavtruhar zorantomljanović · 2013. 3. 2. · uvod 3...

101
Rudolf Scitovski Ninoslav Truhar Zoran Tomljanović Metode optimizacije Odjel za matematiku Sveučilišta Josipa Jurja Strossmayera Osijek, 2012.

Upload: others

Post on 23-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

Rudolf ScitovskiNinoslav Truhar

Zoran Tomljanović

Metode optimizacije

Odjel za matematikuSveučilišta Josipa Jurja Strossmayera

Osijek, 2012.

Page 2: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

Sadržaj

Sadržaj 1

1 Uvod 2

2 Konveksni skupovi i konveksne funkcije 52.1 Konveksni skupovi . . . . . . . . . . . . . . . . . . . . . . . 52.2 Konveksne funkcije . . . . . . . . . . . . . . . . . . . . . . . 62.3 Lokalni minimum . . . . . . . . . . . . . . . . . . . . . . . . 122.4 Primjeri koji vode na probleme ekstrema . . . . . . . . . . . 15

3 Jednodimenzionalna minimizacija 193.1 Strogo kvazikonveksne funkcije . . . . . . . . . . . . . . . . 193.2 Metoda jednodimenzionalne minimizacije . . . . . . . . . . 22

4 Problem višedimenzionalne minimizacije 344.1 Metode izbora duljine koraka . . . . . . . . . . . . . . . . . 364.2 Gradijentna metoda . . . . . . . . . . . . . . . . . . . . . . . 414.3 Newtonova metoda . . . . . . . . . . . . . . . . . . . . . . . 49

5 Problem uvjetne minimizacije 785.1 Nužni i dovoljni uvjeti za optimalnost . . . . . . . . . . . . 795.2 Gradijentna metoda s projekcijom . . . . . . . . . . . . . . . 825.3 Newtonova metoda s projekcijom . . . . . . . . . . . . . . . 88

6 Metode direktnog traženja 926.1 Nelder-Mead algoritam . . . . . . . . . . . . . . . . . . . . . 926.2 MDS algoritam . . . . . . . . . . . . . . . . . . . . . . . . . 956.3 Powellova metoda u više dimenzija . . . . . . . . . . . . . . 96

Literatura 99

1

Page 3: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

POGLAVLJE1Uvod

Ovaj tekst je prvenstveno namijenjen studentima Odjela za matematikuSveučilišta J. J. Strossmayera u Osijeku za potrebe predmeta Metode op-timizacije algebra M028 koji se sluša u 4. semestru diplomskog studija.Namjena mu je upoznati studente s glavnim metodama jednodimenzi-onalne i višedimenzionalne minimizacije sa i bez ograničenja. Posebna jepozornost posvećena metodama minimizacije nediferencijablinih funkci-ja. Pri tome se izbjegavalo “strogo” dokazivanje teorema, osim u slučaje-vima konstruktivnih dokaza koji sami po sebi upućuju na izgradnju idejaili metoda.

Pretpostavimo da je zadana funkcija f : D → R, D ⊆ Rn, koja naskupu D postiže svoj infimum. U okviru ovog teksta promatramo sljedećeprobleme:

1. Odrediti f ? = infx∈D

f (x);

2. Ako funkcija f postiže svoj infimum na D, odrediti argminx∈D

f (x), tj.

odretiti točku x? ∈ D u kojoj funkcija f postiže svoj infimum;

3. Ako se infx∈D

f (x) ne postiže na D, odrediti niz (xn) ⊂ D za koji jelimno∞

f (xn) = f ?.

Primijetite da u općem slučaju argminx∈D

f (x) ne mora biti jedna točka, već

više točaka ili čitav podskup u D.

2

Page 4: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

Uvod 3

Primijetite također da je dovoljno razmatrati problem traženja lokal-nog, odnosno globalnog minimuma neke funkcije f : D → R, jer vrijedi

argminx∈D

f (x) = argmaxx∈D

(− f (x)).

Navedeni optimizacijski problemi imaju veliku primjenu u raznim di-jelovima života. Samo kao ilustraciju navest ćemo nekoliko disciplinau kojima se pojavljuju takvi problemi. Na primjer, problem oblikova-nja određenih mehaničkih objekata (oblikovanje dijelova automobilskihmotora, stupova za dalekovode ili metalnih konstrukcija u visokogradnji,itd.) se može svesti na optimizacijski problem koji nazivamo optimizacijaoblikovanja ili engleski design optimization.

Kao drugi primjer bi mogli navesti ekonomiju koja uključuje tradici-onalne optimizacijske teorije, ali također i neke aspekte teorije igara teproučavanje ekonomskih ravnotežnih stanja. Od 70-ih godina prošlogstoljeća, ekonomisti su za modeliranje tržišta ili drugih ekonomskih poj-mova počeli koristiti teoriju kontrole koja opisuje ponašanje dinamičkihsustava. Na primjer, u mikroekonomiji se u svrhu modeliranja ponašanjatržišta rada koristite modeli dinamičkog pretraživanja. Još jedan primjerupotrebe optimizacijskih metoda se može naći u okviru operaciskih istra-živanja.

Iako smo na početku uvoda naveli da je ovaj tekst namjenjen studen-timaOdjela zamatematiku Sveučilišta J. J. Strossmayera uOsijeku, upravočinjenica da se razni problemi optimizicije pojavljuju u velikom broju uraznimdijelovima ljudske dijelatnosti osigurava ovom tekstu širu primjenu.

Knjiga se satoji od šest poglavlja kojima su poredana na sljedeći način.U poglavlju 1. Konveksni skupovi i konveksne funkcije, obrađuju se os-nvni pojmovi vezani za konveksne skupove i funkcije, lokalni minimumii općenito problemi ekstrema. U 2. poglavlju Jednodimenzionalna mi-nimizacija proučavaju se metode jednodimenzionalne minimizacije kaošto su metoda polovljenja, metoda zlatnog reza, metoda parabole, Bren-tova i Newtonova metoda. U poglavlju 3. Problemi višedimenzionalneminimizacije, proučavaju se neke od metoda višedimenzionalne minimi-zacije, npr. metode izbora duljine koraka, metoda najbržeg spusta, te seposebna pažnja posvećuje izboru sjerova optimizacije. Stoga se posebnopročava princip H. Curry–M. Altman, aproksimativna minimizacija i tra-ženje nultočaka te princip A. Goldsteina. Nadalje u okviru ovog poglavljase proučavaju gradijentna i metoda najbržeg spusta, a posljednja cijelina44 je posvećena višedimenzionalnojminimizaciji pomoćuNewtonoveme-tode. Poglavlje 5. je posvećeno problemu uvjetne minimizacije u okvirukoga se bavi nužnim i dovoljnim uvjetima za optimalnost, gradijentnom i

Page 5: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

Uvod 4

Newtonovommetodom s projekcijom. U poglavlju 6. proučavaju se nekeosnovne metode direktnog traženja kao Nelder-Mead i MDS algoritam tePowellova metoda u više dimenzija.

Page 6: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

POGLAVLJE2Konveksni skupovi ikonveksne funkcije

Konveksnost igra vrlo značajnu ulogu pri numeričkoj optimizaciji. Stogaćemo započeti ovaj tekst proučavanjem pojma konveksnosti skupova.

2.1 Konveksni skupovi

Definicija 1. Kažemo da je skup D ⊆ Rn konveksan ako za bilo koje dvijetočke x1, x2 ∈ D također sadrži i segment određen tim točkama, tj.

x1, x2 ∈ D ⇒ λx1 + (1− λ)x2 ∈ D ∀λ ∈ [0, 1].

Ako je D ⊆ Rn neki skup, onda najmanji konveksni skup koji sadržavaskup D zovemo konveksna ljuska1 skupa D. Primjerice, ako se skup D sas-toji od tri različite točke iz Rn, onda je njegova konveksna ljuska trokut svrhovima u tim točkama. Može se pokazati da vrijedi:

• Konveksan skup D ⊆ R sadrži svaku konveksnu kombinaciju odkonačno svojih točaka, tj.

(x1, . . . , xn ∈ D) ∧(

λ1, . . . , λn ≥ 0,n

∑i=1

λi = 1

)=⇒

n

∑i=1

λixi ∈ D;

1En.: convex hull

5

Page 7: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.2. Konveksne funkcije 6

• Skup svih konveksnih kombinacija nekog skupa D ⊆ Rn je konvek-sna ljuska tog skupa.

Definicija 2. Kažemo da je skup D ⊆ Rn strogo konveksan ako

x1, x2 ∈ D, x1 6= x2 ⇒ λx1 + (1− λ)x2 ∈ Int D ∀λ ∈ (0, 1).

Definicija 3. Kažemo da je skup D ⊆ Rn jako konveksan ako postoji takvakonstanta γ > 0, tako da

(x1, x2 ∈ D) ∧(‖y‖ ≤ γ‖x2 − x1‖2) =⇒ x1+x2

2 + y ∈ D.

Zadatak 1: Dokažite sljedeće tvrdnje:

1. Presjek konveksnih skupova je konveksan skup. Mora li unija dvakonveksna skupa biti konveksan skup ?

2. Ako su A, B konveksni skupovi, onda su i λ A, A+ B, A− B konvek-sni skupovi.

Zadatak 2: Provjerite konveksnost slijedećih skupova:

a) D(x0, r) = x ∈ Rn : |x− x0| ≤ r (zatvorena kugla)

b) Γ(a, l) = x ∈ Rn : (a, x) = l (hiperravnina)

c) D = (x, y, z) ∈ R3 : x + y ≥ 1, 2x + 3y− 2z < 5

d) D = (x, y) ∈ R2 : y− |x2 − x− 6| > 2

Zadatak 3: Neka je f : Rn → Rm afina funkcija f (x) = Ax + b, A ∈Rm×n, b ∈ Rm i D konveksan skup. Pokažite da je tada i f (D) ⊆ Rm

također konveksan skup.

2.2 Konveksne funkcije

Definicija 4. Kažemo da je funkcija f : Rn → R konveksna ako vrijedi

f (λx + (1− λ)y) ≤ λ f (x) + (1− λ) f (y) (2.1)

∀x, y ∈ Rn i ∀λ ∈ [0, 1].

Primjer 1: Navedimo neka elementarna svojstva konveksnih funkcija [2,3]:

Page 8: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.2. Konveksne funkcije 7

• ako su f1, . . . , fn konveksne funkcije i λ1, . . . , λn ≥ 0, onda jen∑

i=1λi fi

konveksna funkcija;

• ako je f konveksna na Rn, Ψ neopadajuća i konveksna na R, onda jeΨ f konveksna na Rn;

• ako su f1, . . . , fn konveksne funkcije, onda je supi

fi(x) konveksna

funkcija;

• Ako je f : D ⊆ R → R konveksna funkcija na konveksnom skupuD, onda je ona neprekidna na Int D

Definicija 5. Kažemoda je funkcija f : Rn → R strogo konveksna ako ∀x, y ∈Rn, x 6= y vrijedi

f (λx + (1− λ)y) < λ f (x) + (1− λ) f (y), ∀λ ∈ (0, 1). (2.2)

Definicija 6. Kažemo da je funkcija f : Rn → R jako konveksna2 ako postojitakav realni broj γ > 0 da vrijedi

f(

x+y2

)≤ 1

2 ( f (x) + f (y))− γ‖x− y‖2, ∀x, y ∈ Rn. (2.3)

Primjedba 1. Može se pokazati da je funkcija f : Rn → R jako konveksnaako postoji realan broj κ > 0 tako da bude

f (λx + (1− λ)y) ≤ λ f (x) + (1− λ) f (y)− κλ(1− λ)‖x− y‖2, (2.4)∀x, y ∈ Rn, ∀λ ∈ [0, 1].

Naime, ako u (2.4) stavimo λ = 12 i γ = 1

4 κ, dobivamo (2.3).

Primjer 2: Neka je A : Rn → Rn simetrični linearni operator. Tada jekvadratna forma f : Rn → R+, f (x) := 1

2 (Ax, x) konveksna funkcija ondai samo onda ako je opratorA semidefinitan (A ≥ 0), tj. ako su sve njegovesvojstvene vrijednosti nenegativne: označimo ih s λ1 ≥ · · · λn ≥ 0. Kakoje (vidi primjerice [14], [15])

λn‖x‖2 ≤ (Ax, x) ≤ λ1‖x‖2 za sve x ∈ Rn, (2.5)

može se pokazati da vrijedi

f (λx + (1− λ)y) ≤ λ f (x) + (1− λ) f (y)− 12 λnλ(1− λ)‖x− y‖2. (2.6)

2En.: strogo konveksna funkcija = strictly convex function; jako konveksna funkcija= strongly convex function

Page 9: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.2. Konveksne funkcije 8

Dakle, ako je A pozitivno definitan linearan operator (λn > 0), funkcija fje jako konveksna funkcija.

Pokažimo da iz (2.5) slijedi (2.6). Iz definicije kvadratne forme f (x) slijedi daje

f (λx + (1− λ)y) = 12 (A(λx + (1− λ)y), λx + (1− λ)y)

= 12

(λ2(Ax, x) + 2λ(1− λ)(Ay, x) + (1− λ)2(Ay, y)

)= 1

2

(λ2(Ax, x) + 2λ(1− λ)(Ay, x) + (1− λ)2(Ay, y)

)= λ f (x) + (1− λ) f (y) + 1

2

((λ2 − λ)(Ax, x)+

2λ(1− λ)(Ay, x) + ((1− λ)2 − (1− λ))(Ay, y))

.

Dakle, vidimo da vrijedi

f (λx + (1− λ)y) = λ f (x) + (1− λ) f (y)− 12 λ(1− λ) ((A(x− y), (x− y))) ,

što zajedno sa (2.5) povlači (2.6).

Navedimo još neke primjere konvesnih odnosno jako konveksnih funk-cija.

Primjer 3: Funkcija f : R2 → R, f (x1, x2) = x21 + x2

2 je jako konvek-sna funkcija, a funkcija g : R2 → R, g(x1, x2) = x2

1 je konveksna, ali nijejako konveksna. Napišitematrice kvadratnih formi f i g i definirajte odgo-varajuće linearne operatore. Što su njihove svojstvene vrijednosti? Kakoizgledaju plohe ovih funkcija?

Zadatak 4: Pokažite da je svaka jako konveksna funkcija ujedno i ko-nveksna, ali da obrat ne vrijedi.

Zadatak 5: Provjerite jesu li sljedeće funkcije konveksne, strogo konvek-sne ili jako konveksne funkcije:

a) f (x) = 3x− 4,

b) f (x) = 6− 5x− 2x2 + x3,

c) f (x) = 3x2 + 2x− 3,

d) f (x) = e−x+1 + 5.

Rješenje: konveksne su funkcije pod a), c), d), strogo konveksne su podc), d), a jako je konveksna funkcije pod c).

Page 10: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.2. Konveksne funkcije 9

Zadatak 6: Neka je f konveksna funkcija, f : D → R,gdje je D ⊆ Rn

konveksan skup. Tada za svaki izbor točaka x1, x2, . . . , xm ∈ D i skalara

α1, . . . , αm ≥ 0,m

∑i=1

αi = 1 vrijedi

f

(m

∑i=1

αixi

)≤

m

∑i=1

αi f (xi) (Jensenova nejednakost).

Nadalje, koristeći Jensenovu nejednakost dokažite da vrijedi(m

∑i=1

αixi

)(m

∑i=1

αixi

)≥ 1 za x1, . . . , xm > 0.

Zadatak 7: Neka su g, h : D → R konveksne funkcije, D konveksan teneka su α, β pozitivni realni brojevi. Dokažite da je tada i f = αg + βhkonveksna funkcija.

Zadatak 8: Provjerite konveksnost sljedećih funkcija

a) f (x1, x2) = 4x21 − 5x2

2,

b) g(x1, x2, x3) = 8x21 − 16x1x2 + 8x2

2 + 10x3.

Rješenje: funkcija g je konveksna dok funkcija f nije konveksna.

Zadatak 9: Neka je f : D ⊆ Rn → R. Skup

P( f ) = (x, α) ∈ Rn+1 : x ∈ D ⊆ Rn, α ∈ R, f (x) ≤ α

nazivo epigraf, a skup

Q(g) = (x, α) ∈ Rn+1 : x ∈ D ⊆ Rn, α ∈ R, g(x) ≥ α

hypograf funkcije f . Odredite epigraf i hipograf funkcije f : [0, 2π] → R,f (x) = sin x + 2. Pokažite da za proizvoljnu funkciju f : D ⊆ Rn → R

vrijedi:

1. ako funkcija f je konveksna, onda je P( f ) konveksan skup;

2. ako je funkcija g je konkavna, onda je Q(g) konveksan skup;

3. ako je funkcija g je konkavna, onda je (−g) konveksna funkcija.

Page 11: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.2. Konveksne funkcije 10

Definicija 7. [20] Kažemo da funkcija f : D → R, D ⊆ Rn u točkix ∈ Int D Gâteaux–diferencijabilna (G–diferencijabilna) ako postoji a ∈ Rn,takav da za svaki h ∈ Rn vrijedi

limt→0

1t | f (x + th)− f (x)− taTh| = 0. (2.7)

Ako za h redom uzmemo j-ti koordinatni vektor ej, dobivamo

limt→0

1t | f (x + tej)− f (x)− taj| = 0.

Dakle, komponente vektora a su parcijalne derivacije aj =∂ f (x)

∂xj= ∂j f (x).

Derivaciju funkcije f ∈ C1(D) u točki x = (x1, . . . , xn)T ∈ D označavatćemo s

f ′(x) =(

∂ f (x)∂x1

, . . . , ∂ f (x)∂xn

)= (∂1 f (x), . . . , ∂n f (x)),

a gradijent funkcije f ∈ C1(D) u točki x s

∇ f (x) = 5 f (x) = f ′(x)T,

a drugu derivaciju (Hessian) funkcije f ∈ C2(D) u točki x s

f ′′(x) = 52 f (x) =

∂2 f (x)

∂x21

. . . ∂2 f (x)∂x1∂xn

. . . . . . . . .∂2 f (x)∂xn∂x1

. . . ∂2 f (x)∂2xn

=(

∂2 f (x)∂xi∂xj

).

Ako je f ∈ Cp(D), x + αh ∈ D za α ∈ [0, 1], onda vrijedi Taylorovaformula

f (x + h)− f (x) = f ′(x)Th + o(|h|), p = 1, (2.8)f (x + h)− f (x) = f ′(x)Th + 1

2 ( f ′′(x)h, h) + o(h2), p = 2, (2.9)

Lema 1. Ako je f ∈ C1(D) konveksna funkcija na konveksnom skupu D, ondavrijedi

(∇ f (y), x− y) ≤ f (x)− f (y) ≤ (∇ f (x), x− y), ∀x, y ∈ D. (2.10)

Dokaz. Oduzimajući f (y) na obje strane nejednakosti (2.1) dobivamo

f (y + λ(x− y))− f (y) ≤ λ( f (x)− f (y)).

Primijenjujući na lijevoj strani Lagrangeov teorem o srednjoj vrijednosti,dobivamo

f (y + λ(x− y))− f (y) = (∇ f (y + ϑλ(x− y)), λ(x− y)), ϑ ∈ (0, 1).

Page 12: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.2. Konveksne funkcije 11

Nakon dijeljenja nejednakosti s λ i stavljanja λ → +0, dobivamo lijevustranu tražene nejednakosti.

Desna strana nejednakosti dokazuje se na sličan način. Zaista, lijevastrana nejednakosti (2.10) glasi

f (x)− f (y) ≥ (∇ f (y), (x− y)) ,

što nakon zamjene x ↔ y, dajef (y)− f (x) ≥ (∇ f (x), (y− x)) ,

a nakon dijeljenja s (−1) dobivamo desnu stranu nejednakosti (2.10).

Lema 2. Neka je D ⊆ Rn konveksan skup. Funkcija f ∈ C1(D) je jako konvek-sna onda i samo onda ako postoji m > 0 takav da je

(∇ f (y)−∇ f (x), y− x) ≥ m‖y− x‖2 za sve x, y ∈ D. (2.11)Dokaz. Prema [1, Lema 1.1. 2] funkcija f ∈ C1(D) je jako konveksnaonda i samo onda postoji m > 0 takvo da je

f (x)− f (y) ≥ (∇ f (y), (x− y)) + m2 ‖y− x‖2 za sve x, y ∈ D. (2.12)

S druge strane ako u prethodnoj jednakosti zamjenimo x ↔ y slijedi da jef konveksna funkcija ako i samo ako

f (y)− f (x) ≥ (∇ f (x), (y− x)) + m2 ‖y− x‖2 za sve x, y ∈ D, (2.13)

odnosnof (x)− f (y) ≤ (∇ f (x), (x− y))− m

2 ‖y− x‖2 za sve x, y ∈ D. (2.14)Sada iz (2.12) i (2.14) slijedi

(∇ f (y), (x− y)) + m2 ‖y− x‖2 ≤ (∇ f (x), (x− y))− m

2 ‖y− x‖2,

za sve x, y ∈ D, što povlači (2.11).

Teorem 1. Neka je D ⊆ Rn konveksan skup takav da je Int D 6= ∅. Funkcijaf ∈ C2(D) je jako konveksna onda i samo onda ako postoji m > 0 takav da je

( f ′′(x)y, y) ≥ m‖y‖2 za sve x ∈ D i za sve y ∈ Rn. (2.15)Dokaz. Budući da je f ∈ C2(D) jako konveksna, zamjenom y↔ x + λy iz(2.13) slijedi da za sve x, y ∈ D vrijedi

f (x + λy) ≥ f (x) + λ(∇ f (x), y) + m2 λ2‖y‖2 . (2.16)

S druge strane Taylorova fromula u okolini točke x dajef (x+λy) = f (x)+λ(∇ f (x), y)+ 1

2 λ2 (( f ′′(x + ϑλy)y, y))

, ϑ ∈ (0, 1) ,

što zajedno sa (2.16) povlači (2.15).Obrat tvrdnje teorema dokažite sami.

Page 13: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.3. Lokalni minimum 12

2.3 Lokalni minimum

Razmatrat ćemo neke nužne i dovoljne uvjete da (jako) konveksna funk-cija postigne svoj lokalni, odnosno globalni minimum.

Definicija 8. Neka je f : D → R, D ⊂ Rn proizvoljna funkcija. Kažemoda je x? ∈ D točka lokalnog minimuma funkcije f na skupu D ako postojiokolina O točke x?, tako da je f (x) ≥ f (x?) za sve x ∈ O ∩ D. Točkux? zovemo točka strogog lokalnog minimuma ako postoji okolinaO točke x?,tako da vrijedi f (x) > f (x?) za sve x ∈ O ∩ D\x?. Točku x? zovemotočkom globalnog minimuma funkcije f ako je f (x) ≥ f (x?) za sve x ∈ D.

Definicija 9. Kažemo da je x? ∈ D ⊆ Rn stacionarna točka funkcije f :D → R ako je ∇ f (x?) = 0.

Teorem 2. Ako je f : D → R, D ⊆ Rn jako konveksna neprekidna funkcijana zatvorenom konveksnom skupu D, onda vrijedi:

(i) funkcija f je ograničena odozdo na D, tj. f ? := min f (x) > −∞;

(ii) postoji jedinstvena točka x? ∈ D, takva da bude f (x?) = f ?;

(iii) skup M(y) = x ∈ D : f (x) ≤ f (y) je ograničen za svaki y ∈ D.

Dokaz. Za dokaz ekvivalencije (i) i (ii) vidi na primjer [1, Teorem 2.1]. Ek-vivalencija (i) i (iii) slijedi iz činjenica da je f zbog jake konveksnosti ne-prekidna na D, pa je stoga i svaki skup M(y) = x ∈ D : f (x) ≤ f (y)neprazan i ograničen (vidi primjerice [1, Korolar 1.1]).

Lema 3. Da bi konveksna funkcija f ∈ C1(D) postigla svoj infimum na konvek-snom skupu D ⊆ Rn u točki x? ∈ D nužno je i dovoljno da bude:

(∇ f (x?), x− x?) ≥ 0 za sve x ∈ D. (2.17)

Ako je x? ∈ Int D, onda je ovaj uvjet ekvivalentan jednakosti ∇ f (x?) = 0.

Dokaz. Pretpostavimo da konveksna funkcija f postiže svoj infimum utočki x? ∈ D. Tada za svaki x ∈ D i svaki t ∈ [0, 1] vrijedi x? + t(x− x?) =tx + (1− t)x? ∈ D, pa je f (x?) ≤ f (x? + t(x− x?)), odnosno

f (x? + t(x− x?))− f (x?) ≥ 0, t ∈ [0, 1] .

Koristeći svojstva derivacije složene funkcije, slijedi

(∇ f (x?), x− x?) = limt→0+

1t [ f (x? + t(x− x?))− f (x?)] ≥ 0.

Drugi smjer i ekvivalentnost uvjeta (2.17) i jednakosti∇ f (x?) = 0 za x? ∈Int D, dokažite sami.

Page 14: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.3. Lokalni minimum 13

Lema 4. Neka je x0 ∈ Rn proizvoljna točka i f ∈ C2(Rn) jako konveksnafunkcija. Tada je skup Y = x ∈ Rn : f (x) ≤ f (x0) zatvoren, ograničen i jakokonveksan.

Dokaz. Prema (2.4) slijedi da postoji κ > 0 takvo da

f( x1+x2

2 + y)≤ λ f

( x1+x22

)+ (1− λ) f (y)− κλ(1− λ)

∥∥ x1+x22 − y

∥∥2 ,

∀x, y ∈ Rn i ∀λ ∈ [0, 1]. Za bilo koje x1, x2 ∈ Y, i y ∈ Y takav da je‖y‖ ≤ γ‖x1 − x2‖2, budući je κλ(1− λ) ≥ 0, imamo

f( x1+x2

2 + y)≤ λ f

( x1+x22

)+ (1− λ) f (y)

≤ λ( 1

2 ( f (x1) + f (x2))− γ‖x1 − x2‖2)+ (1− λ) f (y)

≤ λ( 1

2 ( f (x0) + f (x0)))+ (1− λ) f (x0) = f (x0) ,

što znači da je x1 + x22 + y ∈ Y, odnosno Y je jako konveksan skup.

Primjer 4: Razmotrimo kvadratnu funkciju f : R2 → R,

f (x1, x2) = x21 + x1x2 + x2

2.

Ovu funkciju možemo promatrati kao kvadratnu formu kojoj je pri-

družena simetričnamatrica A =

[1 1/2

1/2 1

]. Ovojmatrici u bazi (e1, e2)

pridružen je jedinstveni simetrični linearni operatorA sa svojstvenim vri-jednostima λ1 = 1

2 , λ2 = 32 . Prema Primjeru 2 ova funkcija je jako konvek-

sna na čitavom području definicije, a prema Lemi 3 i Teoremu 2 postojijedinstvena točka minimuma x?, koja se može pronaći tako da riješimojednadžbu ∇ f (x) = 0. Matrica drugih derivacija (Hessijan) funkcije fu točki x? mora biti pozitivno definitna. Lako s može vidjeti da je točkaminimuma ove funkcije x? = (0, 0).

Nadalje, ako pretpostavimo da je f : D → R, D ⊂ Rn dovoljno putadiferencijabilna funkcija definirana na otvorenom skupu D ⊂ Rn, ondamožemo koristiti jednostavne nužne i dovoljne uvjete egzistencije lokal-nog minimuma, koji su dobro razrađeni u elementarnoj analizi. Točkux? ∈ D za koju vrijedi ∇ f (x?) = 0 zvat ćemo stacionarna točka funkcije f .Sljedeći teorem daje nužne uvjete lokalnog minimuma u tom slučaju.

Teorem 3. Neka je f ∈ C1(D) neprekidno diferencijabilna funkcija definiranana otvorenom skupu D ⊂ Rn i neka je x? točka lokalnog minimuma od f . Tadavrijedi

(i) x? je stacionarna točka funkcije f , tj. ∇ f (x?) = 0,

Page 15: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.3. Lokalni minimum 14

(ii) ako je f ∈ C2(D), njezin hesijan∇2 f (x?) u točki x? je pozitivno semide-finitna matrica.

Dokaz. (i) Pretpostavimo da je f ∈ C1(D) i da x? nije stacionarna točkafunkcije f , tj. ∇ f (x?) 6= 0 i definirajmo funkciju

ϕ(t) := f (x? − t∇ f (x?)) , t ∈ R.

Za maleni |t|, t ∈ R funkcija ϕ je neprekidno diferencijabilna funkcija zakoju vrijedi

ϕ′(0) = −∇ f (x?)T∇ f (x?) = −‖∇ f (x?)‖22

Dako je ∇ f (x?) 6= 0, mora biti ϕ′(0) < 0. Zato postoji ε > 0, takavda bude ϕ(ε) < ϕ(0). To znači da f (x? − ε∇ f (x?)) < f (x?), odnosnox? nije točka lokalnog minimuma od f , što je u suprotnosti s polaznompretpostavkom.

(ii) Pretpostavimo da je f ∈ C2(D) i da ∇2 f (x?) nije pozitivno semi-definitna matrica. To znači da postoji vektor d ∈ Rn, d 6= 0, takav daje dT∇2 f (x?)d < 0. Prema Taylorovom teoremu, a zbog činjenice da je∇ f (x?) = 0, za maleni t > 0 postoji τ ∈ (0, t), takav da bude

f (x? − td) = f (x?) + 12 t2dT∇2 f (x? − τd)d.

Odavde za dovoljno maleni t > 0 zbog neprekidnosti od ∇2 f vrijedif (x? − td) < f (x?). To bi značilo da x? nije točka lokalnog minimumaod f , što je u suprotnosti s polaznom pretpostavkom.

Sljedeći teorem daje dovoljne uvjete lokalnog minimuma.

Teorem 4. Neka je f ∈ C2(D), D ⊂ Rn otvoren skup, a x? ∈ D stacionarnatočka od f u kojoj je hesijan∇2 f (x?) pozitivno definitan. Tada je x? točka strogoglokalnog minimuma funkcije f .

Dokaz. Kako je x? ∈ Int D i ∇ f (x?) = 0, prema Taylorovom teoremu zasvaki dovoljno maleni vektor d ∈ Rn vrijedi

f (x? + d) = f (x?) + 12 dT∇2 f (x? + ϑd)d, ϑ ∈ (0, 1).

Kako je∇2 f (x?) pozitivno definitan, postoji λ > 0, takav da za sve d ∈ Rn

vrijedidT∇2 f (x?)d ≥ λdTd.

Page 16: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.4. Primjeri koji vode na probleme ekstrema 15

Zbog toga je

f (x? + d) = f (x?) + 12 dT∇2 f (x?)d− 1

2 dT (∇2 f (x?)−∇2 f (x? + ϑd))

d,

≥ f (x?) + 12

(λ− ‖∇2 f (x?)−∇2 f (x? + ϑd)‖

)dTd

pri čemu je korištena Cauchyjeva nejednakost i svojstvo kompatibilnostivektorskih i matričnih normi. Zbog λ > 0 i neprekidnosti od∇2 f , postojedovoljnomaleni vektori d takvi da λ−‖∇2 f (x?)−∇2 f (x? + ϑd)‖ > 0, izčega slijedi da je f (x? + d) > f (x?) za sve dovoljno malene vektore d 6= 0.PoDefiniciji 8 to znači da je x? točka strogog lokalnog minimuma funkcijef .

Zadatak 10: Odredite točke lokalnog minimuma funkcije

a) f (x, y) = 2− 2x + x2 + 12y + 2y2,

b) f (x, y) = 16x + x

2y + y.

Rješenje: a) minimum je u točki (1,−3), b) minimum je u točki (8, 2).

2.4 Primjeri koji vode na probleme ekstrema

Navest ćemo nekoliko primjera u kojima se prirodno pojavljuje problemoptimizacije funkcije jedne ili više varijabli. Ovi primjeri kasnije će namposlužiti kao test-primjeri kod raznih metoda minimizacije.

Primjer 5: Treba izračunati l2 udaljenost točke T0 = (3, 4) do kubičneparabole q(x) = 0.5x3 − 6x + 2 (vidi Sliku 2.1).

-4 -2 2 4

10

20

30

T0

q

Slika 2.1: Udaljenost točke T0 do grafa kubne parabole

l2 udaljenost točke T0 = (x0, y0) do neke točke T = (x, f (x)) na grafufunkcije q zadana je s

d2(x) := d2(T0(x0, y0), T(x, q(x)) =√(x− x0)2 + (q(x)− y0)2,

Page 17: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.4. Primjeri koji vode na probleme ekstrema 16

pa je određivanje udaljenosti točke T0(x0, y0) do grafa funkcije q zadanena intervalu [a, b] problem određivanja globalnog minimuma funkcije d2na segmentu [a, b] (vidi Sliku 2.2a).

Budući da je x 7→ √x monotono rastuća funkcija, onda naš problemmožemo svesti na određivanje globalnog minimuma jednostavnije funk-cije

f (x) = (x− x0)2 + (q(x)− y0)

2. (2.18)

-4 -2 0 2 4

5

10

15

20

-4 -2 0 2 4

25

50

75

100

(a) Funkcija d2 (b) Funkcija f

Slika 2.2: l2 i LS udaljenost točke T0 do grafa kubične parabole

Kako je q(x) = 0.5x3 − 6x + 2 iz (2.18) dobivamo (vidi Sliku 2.2b)

f (x) = (x− 3)2 +( 1

2 x3 − 6x + 2− 4)2

.

Dakle, minimizacija funkcije f je problem minimizacije “glatke” (vi-šestruko derivabilne) funkcije jedne varijable (polinoma 6. stupnja), pa go-vorimo o problemu jednodimenzionalne minimizacije. Iz slike se može uočitida ova funkcija ima tri lokalna minimuma od kojih je jedan ujedno i glo-balni minimum.

U sljedećem primjeru promatrat ćemo isti problem kao i u Primjeru 5,ali kao mjeru udaljenosti koristit ćemo drugu razdaljinsku funkciju.

Primjer 6: Treba izračunati l1 udaljenost točke T0 = (3, 4) do kubičneparabole q(x) = .5x3 − 6x + 2 (vidi Sliku 1).

l1 udaljenost točke T0 = (x0, y0) do neke točke T = (x, f (x)) na grafufunkcije q zadana je s

d1(x) = d1(T0(x0, y0), T(x, q(x)) = |x− x0|+ |q(x)− y0|,

pa je određivanje l1 udaljenosti točke T0 do grafa funkcije q zadane naintervalu [a, b] problem određivanja globalnog minimuma funkcije d1 nasegmentu [a, b] (vidi Sliku 2.3). Dakle, i u ovom primjeru radi se također o

Page 18: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.4. Primjeri koji vode na probleme ekstrema 17

problemu jednodimenzionalne minimizacije, ali ovaj puta je minimizira-juća funkcija nediferencijabilna (ima “špiceve”). Također iz slike se možeuočiti da ova funkcija ima tri lokalna minimuma od kojih je jedan ujednoi globalni minimum.

-4 -2 0 2 4

5

10

15

20

Slika 2.3: l1 udaljenost točke T0 do grafa kubične parabole

Primjer 7: Funkcija f (x1, x2) = 2x31 + x1x2

2 + 5x21 + x2

2 ima četiri staci-onarne točke: T1 = (0, 0), T2 = (− 5

3 , 0), T3 = (−1, 2), T4 = (−1,−2).Može se pokazati da je T1 točka minimuma, T2 točka maksimuma, a dasu T3 i T4 sedlaste točke. Na Slici 4 prikazana je ploha i ContourPlot ovefunkcije.

-2-1

01-2

-1

012

0

2

4

6

8

-2-1

01 -2 -1.5 -1 -0.5 0 0.5 1

-2

-1

0

1

2

(a) Graf–ploha funkcije (b) ContourPlot funkcije

Slika 2.4: Funkcija f (x1, x2) = 2x31 + x1x2

2 + 5x21 + x2

2

Primjer 8: Zadani su podaci mjerenja (ti, yi) i = 1, . . . , m, yi > 0. Trebaodrediti optimalne parametre b?, c? eksponencijalnemodel-funkcije f (t; b, c) =b ect, tako da suma kvadrata izmjerenih od teoretskih vrijednosti budemi-nimalna (vidi Sliku 2.5).

Optimalne parametre b?, c? eksponencijalnemodel-funkcije f (t; b, c) =b ect potražit ćemo tako da minimiziramo funkcional

F(b, c) = 12

m

∑i=1

(b ecxi − yi)2 .

Page 19: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

2.4. Primjeri koji vode na probleme ekstrema 18

0.5 1.0 1.5 2.0

0.2

0.4

0.6

0.8

1.0

Slika 2.5: Podaci i najbolja LS eksponencijalna model-funkcija

Može se pokazati da uvijek postoji točka (b?, c?) ∈ R2 u kojoj se pos-tiže globalni minimum ove funkcije. Primijetite da se u ovom slučaju radio problemu minimizacije “glatke” (višestruko derivabilne) funkcije dvijuvarijabli, pa govorimo o problemu višedimenzionalne minimizacije.

Page 20: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

POGLAVLJE3Jednodimenzionalna

minimizacija

Zadana je funkcija f : [a, b]→ R, koja na intervalu [a, b] postiže infx∈[a,b]

f (x).

Promatramo sljedeće probleme:

1. Odrediti x? = argminx∈[a,b]

f (x) i f ? = f (x?);

2. Odrediti U = u ∈ [a, b] : f (u) = f ?, tj skup svih točaka iz seg-menta [a, b] u kojima se postiže minimum funkcije f .

3.1 Strogo kvazikonveksne funkcije

Promatrat ćemo jedu važnu široku klasu funkcija koje postižu svoj infi-mum na segmentu [a, b]. Od tih funkcija neće se zahtijevati derivabilnost,pa čak ni neprekidnost (vidi primjerice [20, 29]).

Definicija 10. Kažemo da je funkcija f : [a, b] → R strogo kvazikonveksnana intervalu [a, b] ako postiže svoj infimum f ? = inf

x∈[a,b]f (x) u nekoj točki

x? ∈ [a, b] i ako postoje α, β ∈ [a, b], a ≤ α ≤ β ≤ b takvi da je

(i) funkcija f strogo monotono padajuća na [a, α) (ako je a ≤ α ≤ β <b);

(ii) funkcija f strogo monotono rastuća na (β, b] (ako je a < α ≤ β ≤ b);

19

Page 21: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.1. Strogo kvazikonveksne funkcije 20

(iii) f (u) = f ? za svaki u ∈ (α, β) (ako je a ≤ α < β ≤ b).

Termin “strogo kvazikonveksna funkcija” u literaturi može se pronaćii pod nazivom “strogo unimodalna funkcija” (vidi primjerice [15]).

Pojamkvazikonveksne, odnosno strogo kvazikonveksne funkcijemožese definirati i na drugi način (vidi primjerice [20, 29]), pri čemu taj po-jam možemo definirati za realnu funkciju definiranu na nekom skupuD ⊆ Rn.

Definicija 11. Funkcija f : D → R, D ⊆ Rn je kvazikonveksna na D akovrijedi

f (αx + (1− α)y) ≤ max f (x), f (y) ∀x, y ∈ D, ∀α ∈ [0, 1]. (3.1)

Ako u (3.1) vrijedi stroga nekednakost za α ∈ (0, 1) i x 6= y, onda kažemoda je f strogo kvazikonveksna na D.

Primjedba 2. Svaka konveksna funkcija je kvazikonveksna, ali obrat ne vri-jedi. Ako su funkcije fi, i = 1, . . . , m kvazikonveksne na D, onda je i funk-cija f (x) = max

i=1,...,mfi(x) takodjer kazikonveksna na D.

Lema 5. ([20, 9]) Funkcija f : D → R je kvazikonveksna na D onda i samoonda ako je za svaki λ ∈ R nivo-skup (level set) Dλ = x ∈ D : f (x) ≤ λkonveksan.

Dokaz. (Nužnost)Pretpostavimoda je funkcija f : D → R kvazikonveksnai dokažimo da je za proizvoljni λ ∈ R skup Dλ konveksan. Neka su x, y ∈Dλ. To znači da je f (x) ≤ λ i f (y) ≤ λ. Kako je f kvazikonveksna, zaproizvoljni α ∈ [0, 1] vrijedi

f (α x + (1− α)y) ≤ max f (x), f (y) = λ,

iz čega zaključujemo da je α x + (1− α)y ∈ Dλ.(Dovoljnost) Pretpostavimo da je za proizvoljni λ ∈ R skup Dλ konvek-

san i dokažimo da je tada funkcija f : D → R kvazikonveksna. Za pro-izvoljne x, y ∈ D definirajmo λ0 = max f (x), f (y). Tada su x, y ∈ Dλ0 ,a kako je Dλ0 konveksan, onda je α x + (1− α)y ∈ Dλ0 , ∀α ∈ [0, 1], izčega slijedi

f (α x + (1− α)y) ≤ λ0 = max f (x), f (y).

Page 22: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.1. Strogo kvazikonveksne funkcije 21

Primjer 9: Navedimo nekoliko primjera strogo kvazikonveksnih funk-cija:

f1 : [a, b]→ R, f1(x) = x2, f2 : [a, b]→ R, f2(x) = |x|+ x + sign x,f3 : [1, 2]→ R, f3(x) = ln x,

f4 : [0, 2]→ R, f4(x) =

x2, x ∈ [0, 1]√

x, x ∈ [1, 2]

Primjer 10: Funkcija g1 : [−1, 1] → R, g1(x) =

|x|, x 6= 0−1, x = 0

je

strogo kvazikonveksna funkcija, dok funkcija g2 : [−1, 1]→ R, g2(x) =|x|, x 6= 01, x = 0

nije strogo kvazikonveksna funkcija.

Primjer 11: Funkcija f : [0, 3]→ R, f (x) =

(x− 1)2 + 1, x ≤ 11, 1 ≤ x ≤ 2√

x− 2 + 1, x ≥ 2je strogo kvazikonveksna funkcija, koja postiže svoj infimum u svim toč-kama podintervala [1, 2].

Zadatak 11: Kako treba proširiti funkciju f (x) = 1e1/u2+1

u točki x0 = 0,da bi bila strogo kvazikonveksna na (a) [0, 1], (b) [−1, 1], (c) [−1, 0]?

Zadatak 12: Kako treba proširiti funkciju f (x) =

x, x > 0−x + A, x < 0

u

točki x0 = 0, da bi bila strogo kvazikonveksna na (a) [0, 1], (b) [−1, 0],(c) [−1, 1], (d) [−a, b] na R ? Razmotrite slučajeve: A = 0,+1,−1.

Zadatak 13: Ako su f1, f2 kvazikonveksne funkcije na [a, b], jesu li takvei funkcije: f1 + f2, f1 − f2, f1 · f2, f1

f2?

Zadatak 14: Pokažite da zbroj dvije strogo kvazikonveksne funkcije nemora biti strogo kvazikonveksna funkcija. Primjerice, za podatke (ti, yi), i =1, . . . , m, funkcija c 7→ |ecti − yi| je kvazikonveksna, ali funkcija

F(c) =m

∑i=1|ecti − yi| ?

ne mora biti strogo kvazikonveksna funkcija. Pokušajte pronaći podatkekoji potvrđuju ovu tvrdnju.

Page 23: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 22

0.2 0.4 0.6 0.8 1.0

0.05

0.10

0.15

0.20

0.25

0.30

0.2 0.4 0.6 0.8 1.0

0.51.01.52.02.53.03.5

Slika 3.1: Eksponencijalna regresija

Zadatak 15: Je li zbroj dvije kvazikonveksne funkcije također kvaziko-nveksna funkcija ? Za podatke (ti, yi), i = 1, . . . , m, funkcija c 7→ |ecti − yi|je kvazikonveksna. Je li i sljedeća funkcija kvazikonveksna

F(c) =m

∑i=1|ecti − yi| ?

3.2 Metoda jednodimenzionalne minimizacije

Navest ćemo nekoliko najpoznatijihmetoda jednodimenzionalneminimi-zacije i to najprije metode kod kojih nije potrebno poznavanje derivacijeminimizirajuće funkcije (Metoda polovljenja, Metoda zlatnog reza, Me-toda parabole i Breentovametoda), a nakon togaNewtonovumetodu kojapretpostavlja dovoljnu glatkost minimizirajuće funkcije.

Metoda polovljenja

Zadana je strogo kvazikonveksna funkcija f : [a, b] → R. Treba odredititočku x? = argmin

x∈[a,b]∈ [a, b] s točnošću δ > 0. U nekoliko koraka opi-

sat ćemo ovu vrlo popularnu metodu za koju nije potrebno poznavanjederivacije funkcije.

Korak 1: Definirati:

x1 := 12 (a + b)− δ

2 ,

x2 := 12 (a + b) + δ

2 , δ > 0;

[a1, b1] :=

[a, x2], f (x1) ≤ f (x2)

[x1, b] , f (x1) > f (x2).

Svojstva:

Page 24: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 23

(a) f (x1) < f (x2)

x2x1a b

(b) f (x1) > f (x2)

x2x1a b

Slika 3.2: Metoda polovljenja

x? ∈ [a1, b1],b1 − a1 = 1

2 (b− a) + δ2

x?1 := 12 (a1 + b1),

|x? − x?1 | ≤ 12 (b1 − a1) =

122 (b− a) + 1

22 δ < 122 (b− a) + δ.

Korak 2: Definirati:

x3 := 12 (a1 + b1)− δ

2 ,

x4 := 12 (a1 + b1) +

δ2 , δ > 0;

[a2, b2] :=

[a1, x4], f (x3) ≤ f (x4)

[x3, b1] , f (x3) > f (x4).

Svojstva:

x? ∈ [a2, b2],b2 − a2 = 1

2 (b1 − a1) +δ2 = 1

22 (b− a) + 34 δ < 1

22 (b− a) + δ,x?2 := 1

2 (a2 + b2),|x? − x?2 | ≤ 1

2 (b2 − a2) <123 (b− a) + 1

2 δ < 123 (b− a) + δ

Korak k: Neka je poznat interval [ak−1, bk−1] koji sadržava x? i neka je

bk−1 − ak−1 < 12k−1 (b− a) + δ, k ≥ 2.

Definirati:

x2k−1 := 12 (ak−1 + bk−1)− δ

2 ,

x2k := 12 (ak−1 + bk−1) +

δ2 , δ > 0;

[ak, bk] :=

[ak−1, x2k], f (x2k−1) ≤ f (x2k)[x2k−1, bk−1] , f (x2k−1) > f (x2k)

.

Page 25: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 24

Svojstva:

bk − ak =12 (bk−1 − ak−1) +

δ2 < 1

2k (b− a) + δ2

x?k := 12 (ak + bk),

|x? − x?k | ≤ 12 (bk − ak) <

12k+1 (b− a) + δ

2 < 12k+1 (b− a) + δ.

Metodu nazivamo Metoda polovljenja jer u svakom koraku interval di-jelimo gotovo na dvije polovine – čim je δ manji time je dijeljenje intervalabliže raspolavljanju. Najbolja točnost koja se može postići je δ > 0. Više ometodi vidi u [15, 20, 29].

Primjer 12: Metodupolovljenja ilustrirat ćemonaprimjeruminimizacijefunkcije f : [0, 1.5]→ R, f (x) = 1+ 3

√(x− 1)2. U ovom slučaju je x? = 1.

Tijek iterativnog procesa prikazan je u Tablici 3.1 i na Slici 3.3.

k xk xk+1 x?k |x?k − x?|1 0.625 0.875 1.0625 0.06252 0.9375 1.1875 0.9063 0.09383 0.7813 1.0313 0.9844 0.01564 0.8594 1.1094 1.0234 0.0234

Tablica 3.1: Metoda polovljenja za funkciju f (x) = 1 + 3√(x− 1)2

0.25 0.5 1 1.25 1.5

1

2

0.25 0.5 1 1.25 1.5

1

2

0.25 0.5 1 1.25 1.5

1

2

0.25 0.5 1 1.25 1.5

1

2

Slika 3.3: Metoda polovljenja za funkciju f (x) = 1 + 3√(x− 1)2

Niže je naveden kratkiMathematica–program za Metodu polovljenja.

In[1]:=f[x_] := 1 + ((x - 1)^2)^(1/3)

In[2]:=a = 0; b = 1.5; xz = 1; d = .25; n = 5; xa = Table[0, i, n];

In[3]:=Do[

x1 = (a + b - d)/2;

x2 = (a + b + d)/2;

If[f[x1] <= f[x2], b = x2, a = x1];

xa[[i]] = (a + b)/2;

Print[i, " ", x1, x2, " ", u = xa[[i]], " ", Abs[u - xz]];

Page 26: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 25

Print[sl[i] = Show[sl1,

Graphics[PointSize[.03], Point[xa[[i]], f[xa[[i]]]]]]];

, i, n]

Metoda zlatnog reza

Jedna korekcija prethodno pokazane metode polovljenja sastoji se u tomeda točke oko polovišta intervala biramo u smislu omjera “zlatnog reza”:

x1 = a + 3−√

52 (b− a), (3.2)

x2 = a + b− x1 = a +√

5−12 (b− a), (3.3)

Vrijedi

x1 < x2,b−ab−x1

= b−x1x1−a = b−a

x2−a = x2−ab−x2

= 1+√

52 ≈ 1.618.

Primijetite također da x1 čini zlatni rez na [a, x2]:

x2 − x1 < x1 − a = b− x2; x2−ax1−a = x1−a

x2−x1.

Metodu zlatnog reza opist ćemo u nekoliko koraka

1. [a1, b1] = [a, b];Definirati x1, x2 kao u (3.2-3.3);

f (x1) ≤ f (x2) =⇒ [a2, b2] = [a1, x2]; x?2 = x1,f (x1) > f (x2) =⇒ [a2, b2] = [x1, b1]; x?2 = x2;

b2 − a2 = x2 − a1 = b1 − x1 =√

5−12 (b− a)

2. Simetrično s x?2 izabrati točku x3 = a2 + b2 − x?2 , koja također činizlatni rez intervala [a2, b2].Uspoređujući f (x3) i f (x?2) dobivamo novi interval [a3, b3];

b3 − a3 = x3 − a2 = b2 − x?2 =(√

5−12

)2(b− a)

Više o metodi vidi u [15, 20, 29].

Primjer 13: Metodu zlatnog reza ilustrirat ćemo također na primjeruminimizacije funkcije iz Primjera 12: f : [−1, 2] → R, f (x) = 1 +

3√(x− 1)2

Tijek iterativnog procesa prikazan je u Tablici 3.2 i na Slici 3.4.Niže je naveden kratkiMathematica–program zaMetodu zlatnog reza.

Page 27: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 26

k xk xk+1 x?k |x?k − x?|1 0.5729 0.9271 0.9271 0.07292 0.9270 1.1459 0.9271 0.07293 0.7918 0.9271 0.9271 0.07294 0.9270 1.0106 1.0106 0.0106

Tablica 3.2: Metoda zlatnog reza za funkciju f (x) = 1 + 3√(x− 1)2

0.25 0.5 1 1.25 1.5

1

2

0.25 0.5 1 1.25 1.5

1

2

0.25 0.5 1 1.25 1.5

1

2

0.25 0.5 1 1.25 1.5

1

2

Slika 3.4: Metoda zlatnog reza za funkciju f (x) = 1 + 3√(x− 1)2

In[1]:=f[x_] := 1 + ((x - 1)^2)^(1/3)

In[2]:=a = 0; b = 1.5; xz = 1; n = 5; xa = Table[0, i, n];

In[3]:=Do[

x1 = a + (3 - Sqrt[5.]) (b - a)/2;

x2 = a + (Sqrt[5.] - 1) (b - a)/2;

If[f[x1] <= f[x2], b = x2; xa[[i]] = x1, a = x1; xa[[i]] = x2];

Print[i, " ", x1, x2, " ", u = xa[[i]], " ", Abs[u - xz]];

Print[sl[i] = Show[sl1,

Graphics[PointSize[.03], Point[xa[[i]], f[xa[[i]]]]]]];

, i, n]

Primjer 14: Zadana je funkcija f : [−2, 2]→ R, f (x) = 5|x + 1| − |3x +2| + |5x − 2| (vidi Sliku 3.5a). Metodom polovljenja i metodom zlatnogreza odredite njene točke lokalnih minimuma i maksimuma.

Metoda parabole

Razmotrit ćemo još jednu jednostavnu metodu za određivanje lokalnogminimuma funkcije f : [a, b] → R, kod koje također neće biti potrebnopoznavati derivaciju funkcije. U intervalu [a, b] izabrat ćemo takvu točkuc ∈ [a, b], u kojoj funkcija f prima manju vrijednost nego na rubovimaintervala, tj.

f (c) < min f (a), f (b).

Page 28: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 27

Pomoću tri točke (a, f (a)), (c, f (c)), (b, f (b)) odredit ćemo interpolacijskipolinom primjenom Lagrangeove formule.

P2(x) = f (a)pa(x) + f (c)pc(x) + f (b)pb(x), gdje je (3.4)

pa(x) = (x−c)(a−c)

(x−b)(a−b) , pc(x) = (x−a)

(c−a)(x−b)(c−b) , pb(x) = (x−a)

(b−a)(x−c)(b−c)

Polinom P2 aproksimira funkciju f na intervalu [a, b] (vidi Sliku 3.5a).Zato ćemo umjesto traženja minimuma funkcije f potražiti minimum in-terpolacijskogpolinomadrugog stupnja. Lakodobivamo stacionarnu točkukvadratne funkcije (3.4) (provjerite!)

u0 = 12

a2( f (b)− f (c))+c2( f (a)− f (b))+b2( f (c)− f (a))a( f (b)− f (c))+c( f (a)− f (b))+b( f (c)− f (a)) (3.5)

Još je važno znati postiže li P2 u toj točki minimu. To možemo ustanovitiprovjerom druge derivacije polinoma P2 u točki u0 (provjerite!)

P′2(u0) = 2 a( f (c)− f (b))+c( f (b)− f (a))+b( f (a)− f (c))(a−b)(a−c)(b−c) (3.6)

Točku u0 uzimamo kao početnu aproksimaciju točke minimuma u?. Za-damo li točnost ε > 0 iterativni postupak nastavljamo na sljedeći način:

• Ako je | f (u0)− P2(u0)| < ε, uzimamo u? = u0 i postupak je završen.

• U suprotnom sortiramo brojeve a, c, b, u0 i potražimo onaj u kojemfunkcija f prima najmanju vrijednost (primijetite da to mogu bitisamo u0 ili c). Taj broj označimo s c, a s a i b označimo neposrednesusjede.

Postupak dalje ponavljamo. Niže je naveden program koji podržava opi-sanu proceduru. Izradite odgovarajući modul.

ln[1]:=While[k = k + 1;

x = a, c, b; y = f[x];

u0 = (c^2 (f[a]-f[b]) + a^2 (f[b]-f[c]) + b^2 (f[c]-f[a]))/

(2 (c(f[a]-f[b]) + a (f[b]-f[c]) + b (f[c]-f[a])));

Print[k, a, c, b,u0, f[u0], Abs[f[u0]-P[u0, x, y]]];

Abs[f[u0] - P[u0, x, y]] > eps,

nodes = Sort[a, c, u0, b];

fnodes = f[nodes];

min = Min[fnodes];

imin = Position[fnodes, min][[1, 1]];

c = nodes[[imin]];

a = nodes[[imin - 1]];

b = nodes[[imin + 1]]]

Page 29: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 28

Primjer 15: Za funkciju f : R→ R, f (x) = 5|x + 1| − |3x + 2|+ |5x− 2|izPrimjera 14 primjenommetode parabola odredit ćemo točkuminimumafunkcije f na intervalu [−2, 2] uz točnost ε = .005.

-2 -1 0 1 2

2

4

6

8

10

12

14

-2 -1 0 1 2

2

4

6

8

10

12

14

-2 -1 0 1 2

2

4

6

8

10

12

14

-2 -1 0 1 2

2

4

6

8

10

12

14

Slika 3.5: Metoda parabole za funkciju f (x) = 5|x + 1| − |3x + 2|+ |5x− 2|

Tijek iterativnogpostupkaprikazan je uTablici 3.3 i na Slici 3.5. Ulaznepodatke zadat ćemo na sljedeći način

ln[2]:=a=-2.; b=2.; eps=.00005; k=0;

c =(a+b)/2; If[f[c] = Min[f[a], f[b]], Print["Biraj novi c"]];

f[x_] := 5 Abs[x + 1] - Abs[3 x + 2] + Abs[5 x - 2];

slf = Plot[f[x], x, a, b, AxesOrigin -> -2, 0,

ImageSize -> 200]

x = a, c, b; y = f[x];

slP = Plot[P[u, x, y], u, -2, 2, PlotRange -> 0, 20];

Show[slP, slf]

k a c b u0 f (u0) | f (u0)− P2(u0)|1 -2. 0. 2. -1. 6. 0.752 -1. 0. 2. 1.25 9.75 0.3753 -1. 0. 1.25 0.3203 4.0391 1.54284 0. 0.3203 1.25 0.6726 5.7084 0.99305 0. 0.3203 0.6726 0.4478 4.13432 0.17896 0. 0.3203 0.4478 0.3782 3.8654 0.18337 0.3203 0.3782 0.4478 0.3771 3.8687 0.0034

Tablica 3.3: Iterativni proces Metode parabola

Zadatak 16: Primjenom metode parabole odredite aproksimaciju mini-muma funkcije uz točnost ε = 0.005, ako je:

Page 30: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 29

a) f : [−2, 1]→ R, f (x) = −x− 3 x−1x−2 .

b) f : [−2, 2]→ R, f (x) = (x + 2)3 − 4(x)− ln(x + 5).

Rješenje: a) u? ≈ 41216 = 0.189815 b) u? ≈ −0.827565.

Brentova metoda

Uprimjenama se često koristi tzv. Brentova metoda za jednodimenzionalnuminimizaciju koja se zasniva na kombinaciji metode zlatnog reza imetodeparabole. Metoda zlatnog reza pogodna je i za minimizaciju funkcije unajgorim mogućim slučajevima pri čemu se u minimizacijskom procesumetoda ponaša kao da “bježi” od minimuma. Međutim, zašto očekivatinajgore? Ako je funkcija paraboličnog oblika u okolini minimuma, štoje i slučaj za dovoljno glatke funkcije, tada će metoda parabole konvergi-rati minimumu u svega nekoliko koraka. S druge strane, ako je funkcija“nezgodna” tada je metoda zlatnog reza pouzdana metoda. Kompromisizmeđu dvije navedene metode sastoji se u tome da se koriste obadvije uovisnosti o tome koja metoda se u danom koraku učini pogodnija. Među-tim, prilikom kombiniranja te dvije metode mora se paziti na više stvari,a među njih spadaju sljedeći problemi:

(i) prilikom prelaska s jedne metode na drugu treba pripaziti na nepo-trebno dodatno izračunavanje vrijednosti funkcije;

(ii) posebna pažnja mora se posvetiti zaustavnom kriteriju,

(iii) pravilo prema kojem ćemo odlučivati koju metodu treba primijenitimora biti robusno.

Metoda koja sve navedno uzima u obzir zove se Brentova metoda [6,23]. Brentova metoda prilikom optimizacijskog procesa prati 6 točaka(ne nužno različitih) a, b, x, u, v i w. Minimum se nalazi unutar intervala( a, b ); x je posljednja točka gdje je vrijednost funkcije bila najmanja; wje sljedeća točka iza x koja odgovara drugoj po veličini funkcijskoj vri-jednosti; v je prethodna vrijednost od w, u je točka u kojoj je vrijednostfunkcije računata zadnji puta; obično se u algoritmu prati i točka koja je usredini intervala (a, b), ali se u njoj vrijednost funkcije ne mora računati.

Page 31: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 30

Navest ćemo pojedine principe koji su korisni. Interpolacija parabolomradi se kroz točke x, v i w, a da bi korak dobiven metodom parabole bioprihvatljiv mora biti zadovoljeno sljedeće:

(i) Sljedeća aproksimacija mora biti unutar intervala (a, b);

(ii) Udaljenost potencijalne sljedeće aproksimacije do x mora biti manjaod polovine udaljenosti zadnje dvije aproksimacije;

Pravilo (ii) osiguravadametodaparabole konvergira ka nekoj točki, umjestoda je ušla u neki ne konvergentni ciklički krug aproksimacija. U najgoremmogućem slučaju, gdje su aproksimacije dobivenemetodomparabole pri-hvatljive, ali beskorisne, metoda će približno alternirati smetode parabolena metodu zlatnog reza, a konvergirat će zbog metode zlatnog reza. Us-poređivanje udaljenosti između zadnjih aproksimacija čini se nužno jeriskustvo pokazuje da je bolje ne “kažnjavati algoritam” za jedan loš ko-rak, ako se u sljedećem koraku situacija može popraviti. Nadalje, ako jeu danoj točki vrijednost funkcije poznata tada se u točkama, koje su unu-tar okoline radijusa ε > 0, vrijednost funkcije ne računa ponovno jer ćeu vrijednosti funkcije tada dominirati pogreška pri njenom računanju. Utom slučaju uvode se dodatnemodifikacije za dobivanje potencijalne novetočke. Tipični zaustavni kriterij za Brentovu metodu je da su a i b udaljeni2× x× ε.

Detaljniji opis Brentove metode može se pronaći u [6, 13], također u[23] može se naći cijeli algoritam Brentove metode.

Newtonova metoda

Za razliku od ranije razmatranih metoda u ovom poglavlju kratko ćemoopisati jednu odnajčešće korištenihmedota za određivanje lokalnogmini-mum derivabilne funkcije. Kasnije ćemo detaljnije govoriti o ovoj metodiprilikom traženja lokalnog minimuma derivabilne funkcije više varijabli.

Pretpostavimo da je f ∈ C2[a, b] i da u točki ξ ∈ (a, b) postiže lokalniminimum. To znači da je f ′(ξ) = 0 i f ′′(ξ) > 0. Vrijedi i obratno zaklju-čivanje: ako je za neki ξ ∈ (a, b), f ′(ξ) = 0 i f ′′(ξ) > 0, onda funkcija f utočki ξ ∈ (a, b) postiže lokalni minimum. Točka ξ ∈ (a, b) za koju vrijedif (ξ) = 0 naziva se stacionarna točka funkcije f .

Page 32: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 31

Iz navedenog slijedi da se traženje lokalnogminimumderivabilne funk-cije f može svesti na traženje stacionarne točke rješavanje jednadžbe f ′(x) =0. U tu svrhu možemo primjeniti poznatu Newtonovu metodu tangenti(vidi [26]).

Ipak, lokalni minimum derivabilne funkcije f ∈ C[a, b]2 potražit ćemodirektnom minimizacijom. Ako postoji ξ ∈ [a, b], prethodnom primje-nom metode bisekcije možemo postići da na nekom suženom intervalufunkcija f postiže jedinstveni lokalni minimum. Zato, bez smanjenja op-ćenitosti, možemo pretpostaviti da je ξ ∈ [a, b] jedinstvena točka lokalnogminimuma funkcije f .

Izaberimo x0 ∈ (a, b) i na osnovi Taylorove formule funkciju f u oko-lini točke x0 aproksimiramo kvadratnom funkcijom

k1(x) = f (x0) + f ′(x0)(x− x0) +12 f ′′(x0)(x− x0)

2

-

6y

x0

f

a bx0 x1 ξ

Slika 6.5. Newtonova metoda

Sljedeću aproksimaciju x1 tražene točke ξ birat ćemo takoda odredimominimum kvadratne funkcije k1

x1 = x0 − f ′(x0)f ′′(x0)

.

Ponavljajući postupak dobivamo niz x0, x1, ..., xn, ... zadan rekurzivnomformulom

xn+1 = xn − f ′(xn)f ′′(xn)

, n = 0, 1, . . .

koji uz neke uvjete (vidi primjerice [10]) konvergira prema ξ. Ovo je tzv.obična Newtonova metoda minimizacije. Primijetite da se ona formalno po-dudara sNewtonovommetodom tangenti za rješavanje jednadžbe f ′(x) =0.

Page 33: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 32

Niže navodimo jednostavniMathematica-modul zaNewtonovametodaminimizacije. Iterativni proces zaustavit ćemo kada | f ′(x)| < ε.

In[1]:= NewtonMin1[f_, x0_, eps_, it_] := Module[x = N[x0], k = 0,

While[Print[k, ": ", x, f[x], f'[x]];

Abs[f'[x]] > eps && k < it,

x = x - f'[x]/f''[x];

k = k + 1

];

If[f''[x] < 0, Print["Pronadjena je stacionarna tocka"]];

x,f[x] ];

Primjer 16: Razmotrimoproblemodređivanja euklidske udaljenosti točkeT0 = (3, 4) do kubne parabole q(x) = .5x3 − 6x + 2 (vidi Primjer 5). Pro-blem se svodi na minimizaciju derivabilne funkcije f (x) = (x − 3)2 +

(q(x)− 4)2 na intervalu [3, 4].

k xk f (xk) f ′(xk)

0 4. 37. 218.1 3.7254 2.7759 45.90252 3.6287 0.4094 4.52383 3.6169 0.3824 0.06254 3.6168 0.3825 0.00001

Tablica 3.4: Newtonova metoda

Uz početnu aproksimaciju x0 = 4 (za x0 = 3 proces ne konvergira!) itočnost ε = .005 tijek iterativnog procesa prikazan je u Tablici 3.4. To značida je udaljenost točke T0 do grafa kubne parabole q(x) = .5x3 − 6x + 2jednaka d(T0, q) =

√f (x?) = 0.618416, pri čemu se taj minimum postiže

u točki T?(x?, q(x?)) = (3.61676, 3.95472).Pokušajte odgovarajućim izborompočetne aproksimacije pronaći druge

lokalne minimume.Lokalni minimum iste funkcije uspješno možemo potražiti direktnom

primjenom Mathematica-modula: FindMinimum ili NMinimize. PrimjenaMathematica-modula: NMinimize ne daje globalni minimum funkcije f .

Zadatak 17: Odredite l2 udaljenost točke T0 = (2, 1) do funcije q(x) =

x3 + x2− 2x pomoćuNewtonovemetode tangenti uz toleranciju ε = 0.05.

Page 34: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

3.2. Metoda jednodimenzionalne minimizacije 33

Rješenje: x? ≈ 1.27278, aproksimacija l2 udaljenosti je 0.739872.

Zadatak 18: Prethodni zadatak rješite tako da metodom zlatnog rezaodredite l1 udaljenost uz ε = 0.05.

Rjesenje: x? ≈ 1.23607, aproksimacija l1 udaljenosti je 0.81966.

Page 35: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

POGLAVLJE4Problem višedimenzionalne

minimizacije

Iterativni proces za traženje točke lokalnog minimuma dovoljno puta ne-prekidno diferencijabilne funkcije f : Rn → R općenito je oblika

xk+1 = xk + αk pk, k = 0, 1, . . . ,

gdje je x0 početna aproksimacija, pk vektor smjera kretanja od točke xk u točkuxk+1, a αk > 0 duljina koraka u smjeru vektora pk.

Kretanje od točke xk u točku xk+1 treba ostvariti tako da se postignesmanjenje vrijednosti funkcije, tj. tako da bude f (xk+1) < f (xk). To semože postići tako da vektor pk izaberemo tako da bude (vidi primjerice[15])

(∇ f (xk), pk) < 0, (4.1)

gdje je ∇ f (xk) gradijent funkcije f u točki xk.

Lema 6. [20] Neka je funkcional f : D ⊆ Rn → R, G–diferencijabilan u nekojtočki x ∈ Int (D) i neka je f ′(x) p < 0 za neki p ∈ Rn. Tada postoji δ > 0,takav da je

f (x + αp) < f (x), ∀ α ∈ (0, δ).

34

Page 36: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

Problem višedimenzionalne minimizacije 35

Dokaz. Definiram pomoćnu funkciju ϕ : [0,+∞〉 → R, ϕ(α) = f (x + αp),za koju je

ϕ′(0) = limα→0

ϕ(α)−ϕ(0)α = lim

α→0

f (x+αp)− f (x)α = f ′(x)p.

Kako je f ′(x)p < 0 postoji δ > 0, takav da je x + αp ∈ D i 1α ( f (x + αp)−

f (x)) < 0 za sve α ∈ (0, δ).

Navedimo nekoliko primjera.

(a) Gradijentna metoda: pk := −∇ f (xk). Vrijedi

f ′(xk)pk = − f ′(xk)∇ f (xk) = −‖∇ f (xk)‖2 < 0.

(b) Pokoordinatna relaksacija: izaberemoonaj bazni vektor ei ∈ e1, . . . , enza koji je

| f ′(xk)ei| = maxj=1,n| f ′(xk)ej|.

Primijetite da je f ′(xk)ei = ( f ′(xk))i. Vektor smjera kretanja pk iza-brat ćemo između ei,−ei za koji je

f ′(xk) pk < 0.

Umjesto ortonormiranih baznih vektora e1, . . . , en možemo iza-brati neke druge bazne vektore iz Rn.

(c) Newtonova metoda: pk := −[ f ′′(xk)]−1∇ f (xk). Vrijedi

f ′(xk)pk = − f ′(xk)[ f ′′(xk)]−1 f ′(xk)

T,

što je negativno ako je f ′′(xk) pozitivno definitna matrica (tada je i[ f ′′(xk)]

(−1) pozitivno definitna).

(c) Kvazi-Newtonova metoda: pk := −B−1∇ f (xk), gdje je B > 0 pozi-tivno definitna matrica koja “nalikuje” na f ′′(xk)

f ′(xk)pk = − f ′(xk)B−1 f ′(xk)T < 0.

Page 37: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.1. Metode izbora duljine koraka 36

4.1 Metode izbora duljine koraka

Prema Lemi 6, ako je vektor smjera kretanja iz točke xk u točku xk dobrodefiniran ( f ′(xk)pk < 0), onda se u iterativnom procesu

xk+1 = xk + αk pk,

uvijekmože odabrati duljina koraka αk > 0, tako da bude f (xk+1) < f (xk)

[4, 20]. Navest ćemo nekoliko najpoznatijih metoda izbora duljine koraka.

Metoda najbržeg spusta

Optimalni izbor duljine koraka dobiven postupkom jednodimenzionalneminimizacije

f (xk + αk pk) = minα>0 f (xk + αpk) : xk + αpk ∈ D, (4.2)

potjeće još od Cauchyja, a nazivamo ga Metoda najbržeg spusta.

Princip H.Curry–M.Altman

Definiramo funkciju ϕ : [0,+∞〉 → R,

ϕ(α) = f (xk + αpk), (4.3)

i potražimo njene stacionarne toćke rješavanjem jednadžbe po α

f ′(xk + αpk) pk = 0. (4.4)

Ako je f strogo konveksan na D, onda jednadžba (4.4) ima jedinstveno rje-šenje koje se podudara s korakom dobivenim u (4.2). Primijetite da zboguvjeta f ′(xk) pk < 0, rješenje α = 0 nije prihvatljivo. Općenito jednadžba(4.4) može imati više rješenja.

Page 38: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.1. Metode izbora duljine koraka 37

[h]α α∗

f(xk)

Slika 4.1: Princip Curry–Altman

Prema Principu Curry ako je f ′(xk)pk < 0 za duljinu koraka αk trebaizabrati najmanji pozitivni korijen α jednadžbe (4.4). Naime, za α ∈ (0, α)

vrijediϕ′(α) = f ′(xk + αpk)pk < 0 ∀ α ∈ (0, α).

Nadalje, prema teoremu o srednjoj vrijednosti1

f (xk + αpk)− f (xk) = α

1∫0

f ′(xk + αtpk)pkdt < 0,

zbog f ′(xk + αpk) pk < 0 za sve α ∈ [0, α).Prema Principu M.Altman za neki fiksni µ ∈ [0, 1] za αk treba izabrati

najmanji pozitivni korijen jednadžbe

[ f ′(xk + αpk)− µ f ′(xk)] pk = 0. (4.5)

Ako je µ = 0, princip se svodi na princip Curry. Ako je µ > 0, duljinakoraka αk je prvi pozitivni broj α > 0 za kojeg je f ′(xk + αpk) pk jednakµ-tom dijelu svoje početne veličine f ′(xk) pk. Princip Altmana ima prak-tično značenje, ali i važno teorijsko značenje jer se može iskoristiti kodispitivanja drugih metoda izbora duljine koraka.

Aproksimativna minimizacija i traženje nultočaka

I kod metode najbržeg spusta i prilikom inplementacije principa Curry–Altmana nemamo točno, već aproksimativno rješenje dobiveno nekimjednodimenzionalnim itertivnim postupkom.

1Ako je F′(x+ t(y− x)) neprekidna po t, vrijedi F(y)− F(x) =1∫

0F′(x+ t(y− x))(y−

x)dt.

Page 39: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.1. Metode izbora duljine koraka 38

Prema (2.9) za svaki x ∈ D vrijedi

f (x) = f (xk) + f ′(xk)(x− xk) +12 (x− xk)

T f ′′(xk)(x− xk) + o(‖x− xk‖2)

Zato sljedeći kvadratni funkcional dobro aproksimira funkcional f u oko-lini točke x?

fk(x) = f (xk) + f ′(xk)(x− xk) +12 (x− xk)

T f ′′(xk)(x− xk). (4.6)

Primjenjujući ovu formulu na funkciju (4.3) dobivamo

ϕ(α) = f (xk + αpk) ≈ f (xk) + α f ′(xk)pk +12 α2(pk)

T f ′′(xk)pk. (4.7)

Ako je (pk)T f ′′(xk)pk > 0, onda je αk korektno odredjen iz formule

αk =− f ′(xk)pk

(pk)T f ′′(xk)pk> 0. (4.8)

f(xk)

f(xk + αkpk)

αk

Slika 4.2: Aproksimacija minimuma

Budući da je veličine f ′(xk), f ′′(xk) često teško izračunati, umjesto mi-nimzacije funkcije (4.7), možemo definirati interpolacijski polinom dru-gog reda, koji se s funkcijom (4.3) podudara u tri točke: u1, u2, u3 (običnose uzima u1 = 0) i αk određuje kao točkaminimuma ovog interpolacijskogpolinoma.

Kao sto se vidi na Slici 4.2, vrijednost duljine koraka (4.8) ne mora osi-guravati smjer spusta. Ali zato prema Lemi 6 možemo izabrati parametarωk > 0, tako da bude

f (xk + ωkαk pk) < f (xk).

Page 40: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.1. Metode izbora duljine koraka 39

Zadatak 19: ([20], str. 254) Pokažite da interpolacijski polinom drugogreda koji se s funkcijom ϕ(α) = f (x + αp) podudara u tri različite točkeu1, u2, u3 ima oblik

ψ(α) = (α−u2)(α−u3)(u1−u2)(u1−u3)

f1 +(α−u1)(α−u3)(u2−u1)(u2−u3)

f2 +(α−u1)(α−u2)(u3−u1)(u3−u2)

f3,

gdje je fi = f (x + ui p), i = 1, 2, 3. Pokažite također da ψ postiže lokalniminimum u točki

α = 12 −

(u22−u2

3) f1+(u23−u2

1) f2+(u21−u2

2) f3(u2−u3) f1+(u3−u1) f2+(u1−u2) f3

ako je2 f1

(u1−u2)(u1−u3)+ 2 f2

(u2−u1)(u2−u3)+ 2 f3

(u3−u1)(u3−u2)> 0.

Napišite izraze za ψ i α za specijalne slučajeve: (a) u1 = 0, u3 = 2u2, (b)u2 = 0, u1 = −u3. Testirajte ovaj princip na nekoliko primjera uz primjenugradijentne metode.

Princip A.Goldsteina

Neka je f diferencijabilan u točki xk ∈ Int D i neka je f ′(xk)pk < 0. Tan-genta na graf funkcije ϕ(α) = f (xk + αpk) u točki α = 0 zadana je s

τ(α) = f (xk) + α f ′(xk)pk,

i ima negativni koeficijent smjera f ′(xk)pk < 0 (vidi Sliku 4.3).

f(xk)

α 7→ f(xk + αpk)

τ

σ1

σ2

Jk Jk Jk

Slika 4.3: Princip Goldsteina

Definirajmodvije sekante tako da prolaze točkom (0, f (xk)), a za α > 0nalaze se iznad tangente. Ako izaberimo 0 < µ1 ≤ µ2 < 1, onda su

Page 41: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.1. Metode izbora duljine koraka 40

moguće sekante zadane sa

σi(α) = f (xk) + µiα f ′(xk)pk, i = 1, 2

i za njih vrijedi

τ(α) < σ2(α) ≤ σ1(α), ∀ α > 0.

Naime zbog f ′(xk)pk < 0 i 0 < µ1 ≤ µ2 < 1 za koeficijente smjerovavrijedi

µ1 f ′(xk)pk ≥ µ2 f ′(xk)pk > f ′(xk)pk.

Definirajmo sada skup

Jk = α > 0 : [xk, xk + αpk] ⊂ D, σ2(α) ≤ f (xk + αpk) ≤ σ1(α)

Primijetite da za α ∈ Jk zbog −σ1(α) ≤ − f (xk + αpk) ≤ −σ2(α) vrijedi

0 < −µ1α f ′(xk)pk ≤ f (xk)− f (xk + αpk) ≤ −µ2α f ′(xk)pk.

Specijalno lijevi dio nejednakosti pokazuje da se za proizvoljni izbor α ∈Jk postiže sniženje vrijednosti minimizirajućeg funkcionala f .

Primijetite da se skup Jk smanjuje kako se razlika µ2 − µ1 smanjuje, aspecijalno za µ1 = µ2 =: µ sekante se podudare, a αk zadovoljava jedna-kost

f (xk + αk pk)− µαk f ′(xk)pk = f (xk).

Prvobitno je Goldsteinov princip predložen u sljedećoj formi: Neka su0 < µ1 ≤ µ2 < 1 fiksne konstante. Ako je za neki αk > 0,

f (xk)− f (xk + αk pk) ≥ −µ1αk f ′(xk)pk. (4.9)

onda kao sljedeću aproksimaciju biramo točku xk+1 = xk + αk pk. Ako(4.9) nije ispunjeno, izaberemo parametar ωk tako da bude

0 < −µ1ωkαk f ′(xk)pk ≤ f (xk)− f (xk + ωkαk pk) ≤ −ωkαk f ′(xk)pk.(4.10)

i kao sljedeću aproksimaciju biramo točku xk+1 = xk + ωkαk pk.Ovakav parametar ωk uvijek se može izabrati. Naime, ako (4.9) nije

ispunjeno, tj. ako za neki µ1 ∈ (0, 1) vrijedi

f (xk)− f (xk + αk pk) < −µ1αk f ′(xk)pk, (4.11)

Page 42: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.2. Gradijentna metoda 41

definiramo funkciju ψ : [0, 1]→ R, ψ(0) = 1,

ψ(ω) = f (xk)− f (xk+ωαk pk)−ωαk f ′(xk)pk

, ω ∈ (0, 1].

Funkcija ψ je neprekidna na [0, 1] jer primjenom L’Hôpitalovog praviladobivamo lim

ω→0ψ(ω) = 1. Zbog (4.11), ψ(1) < µ1, a tada zbog neprekid-

nosti funkcije ψ ona na [0, 1] prima sve vrijednosti izmedju µ1 i 1. Kako je0 < µ1 ≤ µ2 < 1, postoji ωk ∈ (0, 1), takav da bude µ1 ≤ ψ(ωk) ≤ µ2, ato je nejednakost (4.10).

Primjedba 3. Brojeve ωk moguće je birati kao članove niza(

1qj

), q > 1

i o tome postoji posebno razrađena analiza. Ovu metodu izbora duljinekoraka primijenit ćemo kod Newtonove metode u t. 4.3.

Zadatak 20: Neka je funkcional f : D ⊆ Rn → R, G–diferencijabilan unekoj točki xk ∈ Int (D) i neka je f ′(xk) pk < 0 za neki pk ∈ Rn.

Neka je nadalje ϕ(α) = f (xk + αpk) i t1 > 0. Poznavajući

q0 = ϕ(0), q′0 = ϕ′(0), q1 = ϕ(t1),

(uočite da je q′0 < 0) odredite kvadratnu funkciju q(t) = at2 + bt + c, takoda je

q(0) = q0, q′(0) = q′0, q(t1) = q1.

Uz koji uvjet se postiže minimum dobivene kvadratne funkcije q ? Odre-dite minimizator kvadratne funkcije q. Poznavajući ovu kvadratnu funk-ciju konstruirajte algoritam odabira duljine koraka αk.

4.2 Gradijentna metoda

Još je A.Cauchy 1845. godine uočio da je smjer najbržeg pada nepre-kidno derivabilne funkcije f : Rn → R u točki x u smjeru antigradijenta(−∇ f (x)). Naime, ako za neki vektor d ∈ Rn definiramo diferencijabilnufunkciju ϕ : R→ R formulom

ϕ(t) := f (x + td),

onda zbog ϕ′(0) = (∇ f (x), d) vrijedi:

Page 43: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.2. Gradijentna metoda 42

• za d := ∇ f (x)‖∇ f (x)‖ , vrijedi ϕ′(0) = ‖∇ f (x)‖ > 0, pa smjer gradijenta

pokazuje smjer porasta funkcije f ;

• za d := − ∇ f (x)‖∇ f (x)‖ , vrijedi ϕ′(0) = −‖∇ f (x)‖ < 0, pa smjer antigra-

dijenta pokazuje smjer pada funkcije f .

Na toj ideji zasniva se obična gradijentna metoda za minimizaciju funk-cije f : Rn → R

xk+1 = xk + αk pk, k = 0, 1, . . . , (4.12)

gdje je αk > 0 duljina koraka u smjeru vektora smjera kretanja pk = −∇ f (xk),koji očigledno zadovoljava uvjet (4.1). Duljinu koraka αk računamo slje-dećim algoritmom (koji će biti opravdan u dokazu Leme 7 i Teorema 5):

Algorithm 1 Algoritam za izračunavanje duljine korakaKorak 0. Izabrati 0 < ε < 1 i stavi α = 1;Korak 1. Izračunati x = xk + αk pk i provjeriti uvjet

f (x)− f (xk) ≤ εα(∇ f (xk), pk)) (4.13)

Korak 2. Ako je uvjet (4.13) ispunjen, staviti αk = α; inače staviti α :=hα, h ∈ (0, 1) i prijeći na Korak 1.

Najprije ćemo sagraditiMathematica-modul Korak[n,f,d,pk,xk], kojiće izračunavati duljinu koraka αk iz točke xk) u smjeru vektora pk). Pritome je n broj varijabli, f imeminimizirajuće funkcije, a d njezin gradijent.

In[1]:= Korak[n_, f_, pk_, xk_] :=

Module[epsilon = .5, h = .5, f0, f1, fd,

al = 1; w = Table[x[i] -> xk[[i]], i, n];

d[x_] := Table[D[f[x], x[i]], i, n];

f0 = f[x] /. w;

fd = d[x] /. w;

While[f1 = f[x] /. Table[x[i] -> xk[[i]] + al pk[[i]], i, n];

f1 - f0 > epsilon al Apply[Plus, fd pk], al = h al];

al]

Page 44: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.2. Gradijentna metoda 43

Gradijentnu metodu implementirat ćemo u Mathematica-modulu kaoproceduru MinGrad[n,f,d,x0,eps,it], gdje je x0 početnu aproksima-ciju, eps traženu točnost, a it maksimalno dozvoljen broj iteracija. ModulMinGrad poziva modul Korak, a iterativni postupak završava onda ako je‖∇ f (xk)‖∞ < eps za neki k ili ako je k > it.

In[2]:=

MinGrad[n_, f_, x0_, eps_, it_]:= Module[k = 0, xs = x0, xn, gr, w,

w = Table[x[i] -> x0[[i]], i, n];

d[x_] := Table[D[f[x], x[i]], i, n];

While[ w = Table[x[i] -> xs[[i]], i, n]; grad = Max[Abs[d[x] /. w]];

grad > eps && k < it,

pk = -d[x] /. w;

alpha = Korak[n, f, pk, xs];

Print["x", k, "=", xs, " f=", f[x] /. Table[x[i] -> xs[[i]], i, n],

" |grad|=", grad, " alpha=", alpha];

xn = xs + alpha pk;

xs = xn; k = k + 1;

];

xn, f[x] /. Table[x[i] -> xn[[i]], i, n]]

Modul MinGrad testirati ćemonapoznatojRosenbrockovoj test funkciji koja pos-tiže minimum u točki x? = (0, 0) i za koju ćemo odmah definiradi gradijent inacrtati nivo krivulje u okolini minimuma, a djelomične rezultate izvođenja pro-grama za x0 = (.5, .5) dati u Tablici 4.1.

In[3]:= n = 2;

f[x_] := 100(x[2] - x[1]^2)^2 + (1 - x[1])^2

f[x] /. x[1] -> x1, x[2] -> x2

d[x_] := Table[D[f[x], x[i]], i, n]

d[x] /. x[1] -> x1, x[2] -> x2

ContourPlot[f[x] /. x[1] -> x1, x[2] -> x2, x1, -2, 2, x2, -2, 4,

Contours -> 20, ContourShading -> None];

Out[3]:= (1 - x1)^2 + 100(-x1^2 + x2)^2

-2(1 - x1) - 400 x1(-x1^2 + x2), 200(-x1^2 + x2)

Page 45: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.2. Gradijentna metoda 44

-2 -1 0 1 2-2

-1

0

1

2

3

4

Slika 4.4: Rosenbrockova funkcija f (x1, x2) = (1− x1)2 + 100(−x2

1 + x2)2

k (xk) f (xk) ‖∇ f (xk)‖∞ αk

0 (0.5,0.5) 6.5 51 0.001953131 (0.599609, 0.402344) 0.343602 11.0691 0.001953132 (0.621229, 0.38562) 0.143477 0.681796 0.0019531310 (0.703733, 0.492322) 0.0886257 0.58356 0.00195313100 (0.785646, 0.615674) 0.0461927 0.313171 0.00195313500 (0.895571, 0.801784) 0.0109123 0.114267 0.001953131000 (0.984068, 0.968167) 0.000258777 0.0556747 0.03125

Tablica 4.1: Tijek gradijentne metode za Rosenbrockovu funkciju

Sljedeća lema pokazuje da gradijentna metoda (4.12) osigurava konvergen-ciju iterativnog procesa ili prema inf f ili prema nekoj stacionarnoj točki funkcijef .

Lema 7. Pretpostavimo da je

(i) funkcija f : Rn → R ograničena odozdo,

(ii) gradijent f ′ zadovoljava Lipschitzov uvjet, tj. postoji L > 0, tako da bude

‖∇ f (x)−∇ f (y)‖ ≤ L‖x− y‖, za sve x, y ∈ Rn, (4.14)

(iii) parametri αk biraju se iz uvjeta (4.13).

Tada za gradijentnu metodu (4.12) vrijedi

‖∇ f (xk)‖ → 0, za k→ ∞

neovisno o izboru početne aproksimacije x0, a parametri αk uvijek se mogu izabrati pret-hodno opisanim Algoritmom za izračunavanje duljine koraka.

Page 46: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.2. Gradijentna metoda 45

Dokaz. Prema Lagrangeovom teoremu srednje vrijednosti postoji ϑ ∈ (0, 1), takoda bude

f (xk + (x− xk))− f (xk) = (∇ f (xk + ϑ(x− xk)), x− xk).

Dodavanjem i oduzimanjem ∇ f (xk)(x − xk) na desnoj strani, uz oznake: ξ :=xk + ϑ(x− xk), fk := f (xk), f ′k := ∇ f (xk), f ′ξ := ∇ f (ξ) ovu jednakost možemozapisati:

f (x)− fk = ( f ′k, x− xk) + ( f ′ξ − f ′k, x− xk)

Za x = xk − α f ′k korištenjem Cauchy-Schwartzove nejednakosti i uvjeta (4.14)dobivamo

f (x)− fk = −α( f ′k, f ′k)− α( f ′ξ − f ′k, f ′k)

≤ −α‖ f ′k‖2 + α‖ f ′ξ − f ′k‖‖ f ′k‖ ≤ −α‖ f ′k‖2 + αL‖ξ − xk‖‖ f ′k‖≤ −α‖ f ′k‖2 + αL‖x− xk‖‖ f ′k‖ = −α‖ f ′k‖2 + αLα‖ f ′k‖‖ f ′k‖= α‖ f ′k‖2(αL− 1)

Kako je 0 < L < ∞, za ε ∈ (0, 1) iz Algoritma za izračunavanje duljine koraka pa-rametar α možemo izabrati tako da bude α > 0 i αL− 1 ≤ −ε. Zato iz prethodnenejednakosti dobivamo

f (x)− fk ≤ α( f ′k, f ′k)(−ε) =⇒ f (x)− fk ≤ εα( f ′k,− f ′k), (4.15)

što je upravo uvjet (4.13). Drugim riječima uvjet (4.13) bit će ispunjen za α ≤ 1−εL .

Ako stavimo x := xk+1, onda prethodna nejednakost pokazuje da je fk+1 <fk za svaki k = 0, 1, . . . uz uvjet da je ‖ f ′k‖ 6= 0, tj niz ( fn) je monotono padajuć.Kako je po pretpostavci funkcija f ograničena odozdo, onda to znači da je i niz( fn) ograničen odozdo. Dakle, niz ( fn) je konvergentan, a onda i Cauchyjev, pamožemo zaključiti da vrijedi

fk+1 − fk → 0 za k→ ∞.

Iz nejednakosti (4.15) slijedi fk+1 − fk ≤ −εα‖ f ′k‖2, odnosno

‖ f ′k‖2 ≤ fk− fk+1εαk

.

Primijetimo da ni za jedan k parametar αk nije jednak nuli. Naime, izbor parame-tra αk garantira da će biti αk ≥ α > 0, gdje za α može poslužiti bilo koja konstantamanja ili jednaka 1−ε

L .

Teorem 5. Neka je f ∈ C2(Rn) i

m‖y‖2 ≤ ( f ′′(x)y, y) ≤ M‖y‖2, M > m > 0 za sve x, y ∈ Rn (4.16)

Ako se niz (xn) definira pomoću iterativnog procesa (4.12), a parametri αk biraju iz uvjeta(4.13), tada neovisno o izboru početne aproksimacije x0 ∈ Rn vrijedi

xk → x? i f (xk)→ f (x?),

Page 47: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.2. Gradijentna metoda 46

gdje je x? ∈ Rn jedinstvena točka minimuma funkcije f . Pri tome vrijede ocjene:

‖x− x?‖ ≤ ‖∇ f (x)‖m , fk − f ? ≤ qk( f0 − f ?), ‖xk − x?‖ ≤ C q

k2 , (4.17)

gdje je C < ∞, q ∈ (0, 1).

Dokaz. Prema Teoremu 1 lijevi dio nejednakosti (4.16) ekvivalentan je činjenici daje f jako konveksna funkcija. Nadalje, prema Teoremu 2 to znači da je funkcija fograničena odozdo i postoji jedinstvena točkaminimuma x? ∈ Rn. Zato još trebadokazati da niz (xn) konvergira prema x? neovisno o izboru početne aproksima-cije x0 ∈ Rn i dokazati ocjene (4.17).

Pokažimo najprije da niz (xn) konvergira prema x?. Primjenom Tayloroveformule za funkciju f u okolini točke x, za x? dobivamo

f (x?) = f (x) + (∇ f (x), x? − x) + 12(

f ′′(ξ)(x? − x), x? − x)

a odavde korištenjem (4.16) dobivamo

f (x)− f (x?) =(∇ f (x), x− x?)− 12(

f ′′(ξ)(x? − x), x? − x)

≤ (∇ f (x), x− x?)− m2 ‖x− x?‖2,

što uz primjenu Cauchyjeve nejednakosti daje

f (x)− f (x?) ≤ ‖∇ f (x)‖‖x− x?‖ − m2 ‖x− x?‖2. (4.18)

Primjenom Taylorove formule za funkciju f u okolini točke x? i korištenjemčinjenice da je ∇ f (x?) = 0, dobivamo

f (x)− f (x?) = 12(

f ′′(ζ)(x− x?), x− x?)

.

Koristeći ovdje (4.16) dobivamo

m2 ‖x− x?‖2 ≤ f (x)− f (x?) ≤ M

2 ‖x− x?‖2. (4.19)

Iz (4.18) i (4.19) slijedi

‖∇ f (x)‖‖x− x?‖ − m2 ‖x− x?‖2 ≥ f (x)− f (x?) ≥ m

2 ‖x− x?‖2,

=⇒ m‖x− x?‖2 ≤ ‖∇ f (x)‖‖x− x?‖,

a odavde‖x− x?‖ ≤ ‖∇ f (x)‖

m . (4.20)

Desna strana ove nejednakosti za x = xk prema Lemi 7 konvergira prema nuli,što znači da ‖xk − x?‖ → 0 za k→ ∞, tj. xk → x?.

Uvrštavanjem nejednakosti (4.19) i (4.20) u (4.18) dobivamo

f (x)− f (x?) ≤ ‖∇ f (x)‖ ‖∇ f (x)‖m − m

22M ( f (x)− f (x?)),

Page 48: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.2. Gradijentna metoda 47

iz čega, slijedi

1m‖∇ f (x)‖2 ≥ ( f (x)− f (x?)) + m

M ( f (x)− f (x?)) ,

odnsono‖∇ f (x)‖2 ≥ m

(1 + m

M)( f (x)− f (x?)). (4.21)

Uvrštavanjem (4.21) u nejednakost (4.15) za x = xk − α∇ fk dobivamo(prisjetimo se da (4.15) glasi f (x)− f (xk) ≤ −εα‖∇ fk‖2)

fk+1 − fk ≤ −εαkm(1 + m

M)( f (xk)− f (x?)). (4.22)

S druge strane primjenom Taylorove formule za funkciju f u okolini točke xk,za x = xk − α∇ fk dobivamo

f (x)− f (xk) = (∇ fk, x− xk) +12 ( f ′′(ξ)(x− xk), x− xk)

= −α‖∇ fk‖2 + α2

2 ( f ′′(ξ)∇ fk,∇ fk)

Primjenom (4.16) na gornju jednakost dobivamo:

f (x)− f (xk) ≤ −α‖∇ fk‖2 + α2

2 M‖∇ fk‖2 = −α(

1− αM2

)‖∇ fk‖2.

Ako ε > 0 izaberemo tako da bude 1− αM2 > ε, onda iz prethodne nejednakosti

dobivamo uvjet (4.13) pomoću kojeg biramo duljinu koraka αk

f (x)− f (xk) ≤ −αε‖∇ fk‖2.

Dakle uvjet (4.13) bit će ispunjen za αk ≤ α = 2(1−ε)M .

Iz (4.22) slijedi[

fk+1 − fk ≤ −εαkm(1 + m

M)( f (xk)− f (x?))

]fk+1 − f ? = ( fk+1 − fk) + ( fk − f ?) ≤

(1− εαkm

(1 + m

M))

( f (xk)− f (x?))≤ q( fk − f ?),

uz oznaku q := 1− εαkm(1 + m

M), što više puta primijenjeno daje

fk − f ? ≤ qk( f0 − f ?). (4.23)

Kako je αk ≤ α = 2(1−ε)M , bit će q ≥ 1 − 2ε(1−ε)m

M(1 + m

M). Ako sada q

shvatimo kao realnu funkciju varijable ε i pronađemo njezin minimu, dobivamoqmin = 1− m

2M(1 + m

M)za ε = 1

2 . Sada se vidi da je u uvjet (4.13) najbolje stavitiε = 1

2 . To će osigurati najvećumoguću brzinu konvergencije gradijentne metode.Na kraju, iz (4.19) i (4.23) dobivamo ocjenu pogreške

‖xk − x?‖ ≤√

2m

√fk − f ? ≤ q

k2√

2m

√f0 − f ? ≤ Cq

k2 .

Page 49: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.2. Gradijentna metoda 48

Zadatak 21: Uzprimjenugradijentnemetode odredite aproksimacijuminimumafunkcije f (x1, x2, x3) = (x1 − 4)4 + (x2 − 3)2 + 4(x3 + 5)4 uz početnu aproksi-maciju x0 = [3, 2, −5]T i točnost ε = 0.5.

Rješenje: x? ≈ [3.7072, 2.78125, −5]T .

Zadatak 22: Koristeći Matlab uz primjenu gradijentne metode odredite aprok-simaciju minimuma funkcije f (x, y) = 2x3 + xy2 + 5x2 + y2 uz početnu aproksi-maciju [−1, −1]T i točnost ε = 0.005.

Rješenje: x? ≈ [0.0003,−0.0018]T .

Zadatak 23: Pokažite da niz aproksimacija dobiven gradijentnommetodom zafunkciju f (x1, x2) = −19x1 + 4x2

1 + 16x2 − 3x1x2 + 5x22 konvergira neovisno o

izboru početne aproksimacije x0.

Metoda najbržeg spustaIterativnu metodu

xk+1 = xk + αk pk, k = 0, 1, . . . , (4.24)

gdje duljina koraka αk > 0 u smjeru vektora smjera kretanja pk = −∇ f (xk)definiramo kao

αk = argminα≥0

f (xk + α∇ f (xk)) , (4.25)

nazivamo Metoda najbržeg spusta2. Jednodimenzionalnu minimizaciju u (4.25)možemo provesti nekom od metoda za jednodimenzionalnu minimizaciju (me-toda zlatnog reza, metoda parabole, Brentova metoda).

Metodu ćemo testirati niže navedenim programom uz korištenje Rosenbroc-kove test funkcije. Djelomični rezultati vide se u Tablici 4.2.

In[1]:=

f[x_] := 100(x[2] - x[1]^2)^2 + (1 - x[1])^2; n=2 (* Rosenbrock *)

p[x_] := -Table[D[f[x], x[i]], i, n]

In[2]:= x0 = -.05, .05;

Print["x0= ", x0, ", f[x]= ", f[x] /. Table[x[i] -> x0[[i]], i, n]];

Do[

Korak[al_] := Module[pp, pp=p[x]/.Table[x[i] -> x0[[i]], i,n];

f[x] /. Table[x[i] -> x0[[i]] + al pp[[i]], i, n] ];

Brent[Korak, .0001, 1, .5, .01, 50]; alpha = XMIN;

pp = p[x] /. Table[x[i] -> x0[[i]], i, n];

npp = Sqrt[Sum[pp[[i]]^2, i, n]];

x1 = x0 + alpha pp/npp; x0 = x1;

2En.: Steepest Descent Method

Page 50: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 49

w = Table[x[i] -> x0[[i]], i, n];

fx = f[x] /. w; grad = Max[Abs[p[x] /. w]];

Print["x", k, "= ", x1, ", f[x]= ", fx, " grad=", grad,

" alpha=", alpha], k, 10]

k (xk) f (xk) ‖∇ f (xk)‖∞ αk

0 (0.5,0.5) 6.5 51 0.001953131 (0.501683, 0.49835) 6.33264 50.4955 0.002356932 (0.503364, 0.496708) 6.1677 49.9871 0.0023502410 (0.516722, 0.483858) 4.9362 45.7882 0.00229504

Tablica 4.2: Metoda najbržeg spusta za Rosenbrockovu funkciju

Metoda najbržeg spusta, kao i gradijentna metoda imaju isključivo teorijskoznačenje i rijetko se koriste u praktičnim primjenama zbog niske brzine konver-gencije, što potvrđuje i navedeni jednostavni primjer s Rosenbrockovom funkcijom.

4.3 Newtonova metodaIterativniii proces za traženje točke lokalnog minimuma dovoljno puta nepre-kidno diferencijabilne funkcije f : Rn → R općenito je oblika

xk+1 = xk + αk pk, k = 0, 1, . . . , (4.26)

gdje je x0 početna aproksimacija, pk vektor smjera kretanja od točke xk u točku xk+1,a αk > 0 duljina koraka u smjeru vektora pk.

Kretanje od točke xk u točku xk+1 treba ostvariti takoda se postigne smanjenjevrijednosti funkcije, tj. tako da bude f (xk+1) < f (xk). To se može postići tako davektor pk izaberemo tako da bude (vidi primjerice [15], [22])

(∇ f (xk), pk) < 0, (4.27)

gdje je∇ f (xk) gradijent funkcije f u točki xk. Naime, ako za funkciju f napišemoTaylorovu formulu u okolini točke xk

f (x) = f (xk)+ (∇ fk, x− xk)+12(

f ′′ (xk + ϑ(x− xk)) (x− xk), x− xk)

, ϑ ∈ (0, 1)

i stavimo x = xk + αk pk, uz oznaku ξk = xk + ϑ(x− xk) dobivamo

f (xk + αk pk) = f (xk) + αk(∇ fk, pk) +α2

k2(

f ′′(ξk)pk, pk)

, ϑ ∈ (0, 1)

Ako je (∇ fk, pk) < 0, onda za male vrijednosti parametara αk vrijedi f (xk+1) :=f (xk + αk pk) < f (xk).

Page 51: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 50

Pretostavimo da je promatrana funkcija f strogo konveksna i dovoljno glatkai da je na neki način izabrana početna aproksimacija x0. Analogno Newtonovojmetodi za jednodimenzionalnuminimizaciju u okolini točke x0 funkciju f aprok-simirat ćemo kvadratnom funkcijom dobivenom iz Taylorove formule

ψ(x) = f (x0) + (∇ f (x0), x− x0) +12 ( f ′′(x0)(x− x0), x− x0)

Funkcija ψ je strogo konveksna i njezin minimum postiže se u točki x1 = x0 −[ f ′′(x0)]

−1∇ f (x0), koju ćemo smatrati sljedećom aproksimacijom. Primijetite dasmo iz točke x0 u točku x1 “došli” preko vektora smjera kretanja definiranog sp = −[ f ′′(x0)]

−1∇ f (x0). Ovaj vektor definira smjer spusta iz točke x0 jer zbogkonveksnosti funkcije f ispunjava uvjet spusta (4.27)

(∇ f (x0), p) = (∇ f (x0),−[ f ′′(x0)]−1∇ f (x0)) = −( f ′′(x0)p, p) < 0.[

(∇ f0, p) = f ′0 p = − f ′0([ f ′′0 ]

−1 f ′′0)[ f ′′0 ]

−1∇ f0 = −pT f ′′0 p = −( f ′′0 p, p)]

Ponavljajući navedeni postupak dolazimo do iterativne metode

xk+1 = xk − [ f ′′(xk)]−1∇ f (xk), k = 0, 1, . . . ,

koja se u literaturi obično naziva obična Newtonova ili Newton-Raphsonova metoda(vidi primjerice [10], [13], [15], [18], [20], [22], [28]). Pri tome u implementacijimetode računanje inverzne matrice [ f ′′(xk)]

−1 izbjegava se tako da umjesto togau svakom koraku rješavamo jedan sustav linearnih jednadžbi. Iterativni postu-pak definiramo kao

xk+1 = xk + pk, (gdje je pk rješenje sustava)

f ′′(xk)p = −∇ f (xk).

Uzevši u obzir da kretanje od točke xk u smjeru vektora pk donosi smanjenjevrijednosti funkcije, kao i u slučaju gradijentne metode, uvodimo duljinu korakaαk i tako definiramo Newtonovu metodu s regulacijom koraka

xk+1 = xk − αk[ f ′′(xk)]−1∇ f (xk), k = 0, 1, . . . , (4.28)

koju u implementaciji definiramo kao

xk+1 = xk + αk pk, (gdje je pk rješenje sustava)f ′′(xk)p = −∇ f (xk).

(4.29)

Kao i u slučaju gradijentne metode parametar duljine koraka αk možemo de-finirati na više načina (vidi t.4.1). Ovdje ćemo primijeniti specijalni slučaj Gold-steinovog principa opisanog u t.4.1, str.39, a specijalno u Primjedbi 3.

Page 52: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 51

Algorithm 2 Algoritam za izračunavanje duljine korakaKorak 0. Staviti α = 1 i izabrati 0 < ε < 1

2 ;Korak 1. Izračunati x = xk + αk pk i provjeriti uvjet

f (x)− f (xk) ≤ εα(∇ f (xk), pk); (4.30)

Korak 2. Ako je uvjet (4.30) ispunjen, staviti αk = α; inače staviti α :=hα, h ∈ (0, 1) i prijeći na Korak 1.

Konvergencija Newtonove metodePretpostavit ćemo da je promatrana funkcija f : Rn → R dvostruko neprekidnodiferencijabilna i jako konveksna, tj.

m‖y‖2 ≤ ( f ′′(x)y, y) ≤ M‖y‖2, M > m > 0, ∀x, y ∈ Rn. (4.31)

Prema Teoremu 2, str.12, takva funkcija je ograničena odozdo i posjeduje jedins-tvenu točku minimuma.

Može se pokazati da također vrijedi (vidi primjerice [15], [22])

mM2 ‖y‖2 ≤ (( f ′′(x)]−1y, y) ≤ 1

m‖y‖2, M > m > 0 za sve x, y ∈ Rn.(4.32)

iz čega slijedi ocjena

(∇ fk, pk) = −(∇ fk, [ f ′′(xk)]−1∇ fk) ≤ − m

M2 ‖∇ fk‖2. (4.33)

Teorem 6. Neka funkcija f ∈ C2(Rn) zadovoljava uvjet (4.31) i neka se parametriduljine koraka αk biraju iz uvjeta (4.30).

Tada, neovisno o izboru početne aproksimacije x0, iterativni proces (4.28) konvergiraprema jedinstvenoj točki minimuma x? superlinearnom brzinom

‖xk+1 − x?‖ ≤ λk‖xk − x?‖, (4.34)

gdje λk → 0 za k→ ∞.

Dokaz. Za x = xk + αpk, gdje je pk = −[ f ′′k ]−1∇ fk, korištenjem (4.31) u Tayloro-

voj formuli dobivamo

f (x)− f (xk) = α (∇ fk, pk) +α2

2(

f ′′(ξ)pk, pk)≤ α (∇ fk, pk)

(1 + αM‖pk‖2

2(∇ fk ,pk)

)Kako je s druge strane[

(∇ fk, pk) = (∇ fk)T pk = (∇ fk)

T [ f ′′k ]−1 f ′′k pk = −pT

k f ′′k pk

](∇ fk, pk) = −( f ′′(xk)pk, pk) ≤ −m‖pk‖2,

Page 53: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 52

dobivamo[−(∇ fk, pk) ≥ m‖pk‖2 ⇒

(1 + αM‖pk‖2

2(∇ fk ,pk)

)=(

1− αM‖pk‖2

−2(∇ fk ,pk)

)≤(

1− αM2m

)]f (x)− f (xk) ≤ α (∇ fk, pk)

(1− αM

2m

).

Izaberimo ε > 0 tako da bude

1− αM2m ≥ ε. (4.35)

Množenjem ove nejednakosti s negativnim brojem α(∇ fk, pk) < 0 dobivamo

εα(∇ fk, pk) ≥ α(∇ fk, pk)(

1− αM2m

)≥ f (x)− f (xk).

Dakle, uvjet (4.30) bit će ispunjen ako je ispunjen uvjet (4.35), odnosno ako jeα ≤ α = 2(1−ε)m

M . Time je opravdan način izbora duljine koraka αk.Kako je (∇ fk, pk) < 0 za ‖∇ fk‖ 6= 0 iz uvjeta

fk+1 − fk ≤ εαk(∇ fk, pk) (4.36)

slijedi fk+1 < fk, tj. niz ( fk) je monotono padajuć. Zbog uvjeta jake konveksnostifunkcije f on je i ograničen odozdo, što znači da je konvergentan i da vrijedifk+1 − fk → ∞. Korištenjem uvjeta (4.32) u (4.36) i činjenice da je f ′′(xk) sime-trična matrica dobivamo

fk+1 − fk ≤ εαk(∇ fk, pk) = −εαk([ f ′′k ]−1∇ fk,∇ fk) ≤ −εαk

mM2 ‖∇ fk‖2, (4.37)

a odavde‖∇ fk‖2 ≤ M2

mεαk( fk − fk+1) ,

iz čega slijedi ‖∇ fk‖ → 0. Time je pokazano da su rezultati analogni rezultatimaLeme 7 ostali sačuvani.

Nadalje, slično kao u dokazu Teorema 5 pokazat ćemo da niz definiran s (4.28)konvergira prema točki minimuma x?. Budući da je f jako konveksna funkcija,postoji jedinstvena točka minimuma x? ∈ Rn. Pokažimo još da niz (xn) konver-gira prema x? neovisno o izboru početne aproksimacije x0 ∈ Rn.

PrimjenomTaylorove formule za funkciju f u okolini točke x, za x? dobivamo

f (x?) = f (x) + (∇ f (x), x? − x) + 12(

f ′′(ξ)(x? − x), x? − x)

.

Nadalje, korištenjem uvjeta jake konveksnosti (4.31)[( f ′′(ξ)(x? − x), (x? − x)) ≥ m‖x? − x‖2

]dobivamo

f (x)− f (x?) =(∇ f (x), x− x?)− 12(

f ′′(ξ)(x? − x), x? − x)

≤ (∇ f (x), x− x?)− m2 ‖x− x?‖2,

Page 54: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 53

što uz primjenu Cauchyjeve nejednakosti daje

f (x)− f (x?) ≤ ‖∇ f (x)‖‖x− x?‖ − m2 ‖x− x?‖2. (4.38)

Primjenom Taylorove formule za funkciju f u okolini točke x? i korištenjemčinjenice da je ∇ f (x?) = 0, dobivamo

f (x)− f (x?) = 12(

f ′′(ζ)(x− x?), x− x?)

.

Koristeći ovdje uvjet jake konveksnosti (4.31) dobivamo

m2 ‖x− x?‖2 ≤ f (x)− f (x?) ≤ M

2 ‖x− x?‖2. (4.39)

Iz (4.38) i (4.39) slijedi

‖∇ f (x)‖‖x− x?‖ − m2 ‖x− x?‖2 ≥ f (x)− f (x?) ≥ m

2 ‖x− x?‖2,

a odavde [m‖x− x?‖2 ≤ ‖∇ f (x)‖‖x− x?‖]

‖x− x?‖ ≤ ‖∇ f (x)‖m . (4.40)

Kao što smo ranije utvrdili desna strana ove nejednakosti za x = xk konvergiraprema nuli, što znači da ‖xk − x?‖ → 0 za k→ ∞, tj. xk → x?.

Prijeđimo sada na dokaz ocjene brzine konvergencije (4.34). U tu svrhu naj-prije se primijetimo da vrijedi

(∇ fk, pk) = −( f ′′(xk)pk, pk) ≤ −m‖pk‖2

Iz (4.36) slijedi (∇ fk, pk)→ 0, stoga koristeći gornju nejednakost imamo

‖pk‖2 ≤ (∇ fk, pk)

−m→ 0, k→ ∞ ⇒ ‖pk‖ → 0, k→ ∞. (4.41)

Pokažimo nadalje da su u općoj Newtonovoj metodi (4.31), počevši od nekeiteracije, svi parametri αk jednaki 1. Koristeći Taylorovu formulu, te dodavanjemi oduzimanjem broja α2

k2 ( f ′′k pk, pk) dobivamo

fk+1 − fk = αk(∇ fk, pk) +α2

k2 ( f ′′k pk, pk) +

α2k

2(( f ′′(ξ)− f ′′k )pk, pk)

)(4.41) ≤ αk(∇ fk, pk)

(1− αk

2 + αk(−1)2

‖( f ′′(ξ)− f ′′k )pk‖·‖pk‖(−1)(∇ fk ,pk)

)(4.41) ≤ αk(∇ fk, pk)

(1− αk

2 −αk2‖ f ′′(ξ)− f ′′k ‖·‖pk‖2

m‖pk‖2

),

gdje je ξ = xk + ϑ(xk+1 − xk), ϑ ∈ [0, 1].Budući da

‖ f ′′(ξ)− f ′′(xk)‖ ≤ ‖ f ′′(ξ)− f ′′(x?)‖+ ‖ f ′′(x?)− f ′′(xk)‖,

Page 55: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 54

i ‖xk − x?‖ → 0, odnosno ‖ξ − x∗‖ → 0 za k → ∞, također zbog neprekidnostifunkcije f ′′ vrijedi ‖ f ′′(ξ) − f ′′(xk)‖ → 0 za k → ∞. Zbog toga za proizvoljni0 < ε < 1

2 postoji prirodan broj N0(ε) ∈ N takav da za svaki k ≥ N0(ε) vrijedi[αk ≥ 1⇒ − αk

2 ≤ − 12 ⇒ 1− αk

2 ≤ 12

]1− 1

2 ≥ 1− αk2 −

αk2‖ f ′′(ξ)− f ′′k ‖

m ≥ ε,

uz uvjet da je αk ≥ 1. Budući da je αk u uvjetu (4.30) biran tako da bude αk ≤ 1, toznači da će u svim iteracijama, čiji je redni broj veći ili jednak N0(ε), biti αk = 1.

Dakle, za k ≥ N0(ε) vrijedi[xk+1 = xk − [ f ′′k ]

−1∇ fk]

(xk+1 − x?, xk+1 − x?) =(

xk − x? − [ f ′′k ]−1∇ fk, xk+1 − x?

).

Ako na desnoj strani ove jednakosti iskoristimo Lagrangeovu formulu uz[∇ f (x?) = 0] dobit ćemo(

[ f ′′k ]−1∇ fk, xk+1 − x?

)=

([ f ′′k ]

−1(∇ fk −∇ f (x?)), xk+1 − x?)

=([ f ′′k ]

−1 f ′′(ξ)(xk − x?), xk+1 − x?)

gdje je ξ = x? + ϑ(xk − x?), ϑ ∈ (0, 1), dobivamo

‖xk+1 − x?‖2 =((

I − [ f ′′k ]−1 f ′′(ξ)

)(xk − x?), xk+1 − x?

)=

([ f ′′k ]

−1 ( f ′′k − f ′′(ξ))(xk − x?), xk+1 − x?

)(4.32) ≤ 1

m‖ f ′′k − f ′′(ξ)‖ · ‖xk − x?‖ · ‖xk+1 − x?‖,

a odavde

‖xk+1 − x?‖ ≤ λk‖xk − x?‖, λk =1m‖ f ′′k − f ′′(ξ)‖. (4.42)

Budući da ‖ f ′′k − f ′′(ξ)‖ → 0 za k→ ∞, teorem je dokazan.

Korolar 1. Neka funkcija f ∈ C2(Rn) zadovoljava uvjet (4.31) i Lipschitzov uvjet

‖ f ′′(x)− f ′′(y)‖ ≤ L‖x− y‖, L > 0, ∀x, y ∈ Rn.

Tada niz (4.28)

xk+1 = xk − αk[ f ′′(xk)]−1∇ f (xk), k = 0, 1, . . . ,

gdje se parametri αk biraju iz uvjeta (4.30), konvergira prema točki minimuma x? neo-visno o izboru početne aproksimacije x0 kvadratičnom brzinom konvergencije

‖xk+1 − x?‖ ≤ Lm‖xk − x?‖2.

Page 56: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 55

Dokaz. Koristeći Lipschitzov uvjet broj λk iz nejednakost (4.42) možemo pisati[ξ = x? + ϑ(xk − x?), 0 < ϑ < 1]

λk =1m‖ f ′′(xk)− f ′′(ξ)‖ ≤ L

m‖xk − x? − ϑ(xk − x?)‖

= Lm‖xk(1− ϑ)− x?(1− ϑ)‖

< Lm‖xk − x?‖,

što daje traženu ocjenu.

Ako duljinu koraka αk biramo iz uvjeta (4.2)

αk := arg minα>0

f (xk + αpk) ,

tada za Newtonovu metodu (4.28)

xk+1 = xk − αk[ f ′′(xk)]−1∇ f (xk), k = 0, 1, . . . ,

vrijedi

Korolar 2. Neka funkcija f ∈ C2(Rn) zadovoljava uvjet (4.31) i neka se duljina korakaαk bira iz uvjeta (4.2).

Tada Newtonov iterativni proces (4.28) konvergira prema rješenju x? bez obzira naizbor početne aproksimacije x0 superlinearnom brzinom. Ako pored toga funkcija f za-dovoljava i Lipschitzov uvjet, onda je brzina kvadratična.

Dokaz. Neka jexk+1 = xk − [ f ′′(xk)]

−1∇ f (xk)

xk+1 = xk − αk[ f ′′(xk)]−1∇ f (xk),

gdje je αk izabran iz uvjeta (4.2). Budući da je f (xk+1) ≤ f (xk+1), koristeći ne-jednakost (4.39), dobivamo

[m2 ‖x− x?‖2 ≤ f (x)− f (x?) ≤ M

2 ‖x− x?‖2]

m2 ‖xk+1− x?‖2 ≤ f (xk+1)− f (x?) ≤ f (xk+1)− f (x?) ≤ M

2 ‖xk+1− x?‖2. (4.43)

Za xk+1 = xk − [ f ′′(xk)]−1∇ f (xk) možemo primijeniti nejednakost (4.42)

‖xk+1 − x?‖ ≤ λk‖xk − x?‖,

λk =1m‖ f ′′k − f ′′(ξ)‖ = 1

m‖ f ′′k − f ′′(x? + ϑ(xk − x?))‖,gdje λk → 0 za k→ ∞. Ako ovu nejednakost iskoristimo u (4.43), dobivamo

‖xk+1 − x?‖ ≤√

Mm ‖xk+1 − x?‖ ≤ λk

√Mm ‖xk − x?‖

≤ γk‖xk − x?‖,

gdje γk = λk

√Mm → 0 za k→ ∞.

Page 57: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 56

Ako još vrijedi i Lipschitzov uvjet, onda je λk ≤ Lm‖xk − x?‖, pa vrijedi

‖xk+1 − x?‖ ≤ C‖xk − x?‖2, C = Lm

√Mm .

Zadatak 24: Newtonovom metodom odredite prve dvije aproksimacije mini-muma funkcije f (x, y) = 2x3 + xy2 + 5x2 + y2 iz Primjera 7 uz početnu aprok-simaciju x0 = [−1, −1]T . Jeste li na taj način dobili aproksimaciju točke mini-muma?

Rješenje: x2 = [−1, −2.05]T . To nije aproksimacija točke minimuma, većaproksimacija točke u kojoj ova funkcija ima sedlastu točku.

Zadatak 25: Prethodni zadatak riješite uz x0 = [1, 1]T . Dobivate li na taj načinaproksimaciju točke minimuma?

Rješenje: x2 = [0.04237, 0.06759]T . To je aproksimacija točke minimuma.

Zadatak 26: Newtonovim metodom s regulacijom koraka (prema danom al-goritmu za izračunavanje duljine koraka) odredite prve dvije aproksimacije mi-nimuma funkcije f (x, y) = x4 + 3(x2 + 2y2) + 4xy + 5x + 6y + 7, uz početnuaproksimaciju x0 = [0.5, −1]T i točnost ε = 0.5.

Rješenje: x2 = [−0.4169, −0.361]T .

Quasi–Newtonove metodeBudući da problemminimizacije diferencijabilne funkcije f : Rn → Rn možemogledati kao problem rješavanja jednadžbe

F(x) = 0, F : Rn → Rn

gdje je F(x) = f ′(x), gdje je F Jacobijeva matrica funkcije f . Ako je f (x) =( f1(x), . . . , fn(x))T , x = (x1, . . . , xn)T tada se Jacobijeva matrica sastoji od par-cijalnih derivacija funkcija fi, preciznije:

f ′ =

∂ f1∂x1

∂ f1∂x2

· · · ∂ f1∂xn

∂ f2∂x1

∂ f2∂x2

· · · ∂ f2∂xn

......

. . ....

∂ fn∂x1

∂ fn∂x2

· · · ∂ fn∂xn

.

Najprije ćemo razmotriti problem rješavanja sustava nelinearnih jednadžbi.Općenito se sustav nelinearnih jednadžbi, kao i problem minimizacije funkcijeviše varijabli rješava iterativnim metodama. Smatra se da je klasu novih "quasi-Newtonovih" metoda za rješavanje problemaminimizacije funkcije više varijablibez ograničenja uveo Davidon (1959), a za rješavanje sustava nelinearnih jed-nadžbi Broyden (1965). U literaturi su za klasu ovih metoda korišteni razni na-zivi: quasi-Newton, variable metric, variance, secant, update, modification methods.

Page 58: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 57

Sustavi nelinearnih jednadžbi

Za funkciju F : Rn → Rn promatramo problem rješavanja jednadžbe F(x) = 0,odnosno sustava nelinearnih jednadžbi

fi(x1, . . . , xn) = 0, i = 1, . . . , n,

gdje su funkcije fi komponente vektorske funkcije F(x) = ( f1(x), . . . , fn(x))T , x =(x1, . . . , xn)T . Pretpostavimo da funkcija F ima sljedeća svojstava

(i) F je neprekidno diferencijabilna na otvorenom konveksnom skupu D,tj. F ∈ C1(D) ,

(ii) postoji x? ∈ D tako da bude F(x?) = 0, i da je pri tomeF′(x?) nesingularna matrica;

(4.44)Dodatno, uz uvjete (4.44) možemo zahtijevati i ispunjenje jačeg Lipschitzovog

uvjeta(iii) ‖F′(x)− F′(x?)‖ ≤ L‖x− x?‖, x ∈ D. (4.45)

Primijetite da ako je D dovoljno malen, onda je ovaj uvjet ispunjen za dvostrukoneprekidno diferencijabilnu funkciju u x?.

Uz pretpostavku da imamo k-tu aproksimaciju xk rješenja x?, sljedeću (k +1)-u aproksimaciju kod obične Newtonove metode dobit ćemo tako da funkcijuF u okolini točke xk pomoću Taylorove formule aproksimiramo linearnim aprok-simandom

L(x) = F(xk) + F′(xk)(x− xk)

i riješimo linearni sustav L(x) = 0. Tako dobivamo Newtonov iterativni postu-pak za rješavanje jednadžbe F(x) = 0

xk+1 = xk − F′(xk)−1F(xk).

Za praktičnu implementaciju obično koristimo sljedeći algoritam

Korak 1 za poznati xk izračunati F(xk); ako je xk prihvatljiv, stop. U protivnomizračunati F′(xk) i prijeći na Korak 2

Korak 2 riješiti sustav F′(xk)p = −F(xk) za p, staviti pk := p i izračunati xk+1 =xk + pk.

Newtonova metoda poboljšava se uvođenjem parametra duljine koraka 0 <αk ≤ 1

xk+1 = xk − αkF′(xk)−1F(xk).

Karakteristike Newtonove metode dane su sljedećim teoremom.

Teorem 7. Neka funkcija F : Rn → Rn zadovoljava pretpostavke (4.44). Nadalje pret-postavimo da je F′ Lipschitz neprekidna, tj. neka vrijedi (4.45) pri čemu je D kugla okox?, polumjera r. Također pretpostavimo da je ‖F′(x?)−1‖ ≤ β. Ako početnu iteraciju x0

Page 59: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 58

izaberemo tako da ‖x0− x?‖ ≤ minr, 1/(2βL), tada niz (xn) definiran Newtonovimiterativnim postupakom dobro definiran i konvergira prema x? kvadratičnom brzinom,tj.

‖xk+1 − x?‖ ≤ βL‖xk − x?‖2, k = 0, 1, . . . . (4.46)

Ako funkcija F′ nezadovoljava Lipschitzov uvjet, onda je brzina konvergencije superline-ara

‖xk+1 − x?‖ ≤ 12‖xk − x?‖, k = 0, 1, . . . . (4.47)

Dokaz. Prvo ćemo pokazati da pretpostavke da je F′ Lipschitz neprekidna, te daje F′(x?) regularna i da je ‖F′(x?)−1‖ ≤ β povlače da je F′(x0) regularno za svex0 za koji vrijedi da je ‖x0 − x?‖ ≤ minr, 1/(2βL).

Zaista,

‖F′(x?)−1 (F′(x0)− F′(x?))‖ ≤ βL‖x0 − x?‖ ≤ 1

2, (4.48)

odakle slijedi

‖F′(x0)−1‖ = ‖F′(x0)

−1F′(x?)F′(x?)−1‖ ≤ ‖F′(x0)−1F′(x?)‖ ‖F′(x?)−1‖

≤ 11− 1

2‖F′(x?)−1‖ ≤ 2β . (4.49)

Pretposljednja nejednakost u gornjem izrazu je jednostavna posljedica sljedećegračuna. Iz (4.48) slijedi

‖F′(x?)−1 F′(x0)− I‖ ≤ 12

,

što znači da je I −(

F′(x?)−1 F′(x0)− I)= F′(x?)−1 F′(x0) regularno i vrijedi

‖F′(x0)−1 F′(x?)‖ ≤ 1

1− 12

.

Ovim smo pokazali da je F′(x0) regularno za sve x0 za koji vrijedi da je ‖x0−x?‖ ≤ minr, 1/(2βL), odnosno da je za svako takvo x0 dobro definirano x1 =x0 − F′(x0)

−1F(x0). Za tako definiran x1 vrijedi

x1 − x? = x0 − x? − F′(x0)−1F(x0) (4.50)

= F′(x0)−1 (F(x?)− F(x0)− F′(x0)(x? − x0)

)Da bi omeđili normu gornjeg izraza iskoritit cemo jedankost

F(x?)− F(x0)− F′(x0)(x? − x0) =

=

1∫0

(F′(x0 + t(x? − x0))− F′(x0)

)d (x0 + t(x? − x0)) ,

Page 60: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 59

i činjenicu da F′ ispunjava Lipschitzov uvjet, što nam zajedno daje

‖F(x?)− F(x0)− F′(x0)(x? − x0)‖ ≤ L1∫

0

t‖x? − x0‖2dt =L2‖x? − x0‖2.

Koristeći gornju ocjenu iz (4.50) i (4.49) slijedi

‖x1 − x?‖ ≤ 2βL2‖x? − x0‖2 = βL‖x0 − x?‖2 . (4.51)

Pokažimo sada da niz xk+1 = xk − αkF′(xk)−1F(xk), k = 0, 1, 2 . . . konvergira ka

x?. Koristeci da je ‖x0 − x?‖ ≤ 1/(2βL), iz (4.51) slijedi da je

‖x1 − x?‖ ≤ 12‖x? − x0‖ ,

što povlači da je ‖x1 − x?‖ ≤ 1/(2βL). Nastavimo li s istom argumentacijomvidimo da

‖x2 − x?‖ ≤ 12‖x? − x1‖ ≤

(12

)2‖x? − x0‖ ,

odnosno

‖xk+1 − x?‖ ≤ 12‖xk − x?‖ ≤ . . . ≤

(12

)k‖x? − x0‖ ,

što pokazuje da niz xk konvergira ka x? i to superlinearnombrzinom. Prva nejed-nakost u gornjem izrazu je upravo (4.47). S druge strane iz (4.51) lako se pokažeda vrijedi ‖xk+1 − x?‖ ≤ βL‖xk − x?‖2, odnosno da vrijedi (4.46).

Primjedba 4. Treba napomenuti da se može dokazati i znatno općenitiji teoremkoji opisuje karakteristike Newtonove metode od Teorema 7. Međutim, dokaztakvog teorema je znatno složeniji i dulji stoga ćemo ga samo navesti (dokaz vidiu [20], str. 312)

Teorem 8. Neka funkcija F : Rn → Rn zadovoljava pretpostavke (4.44). Tada postojiotvoren skup S koji sadržava x?, takav da je za proizvoljni x0 ∈ S niz (xn) definiranNewtonovim iterativnim postupakom dobro definiran, ostaje u S i konvergira prema x?

superlinearnom brzinom, tj. postoji nul-niz (λn), takav da je

‖xk+1 − x?‖ ≤ λk‖xk − x?‖, k = 0, 1, . . . .

Ako funkcija F dodatno zadovoljava Lipschitzov uvjet, onda je brzina konvergencije kva-dratična, tj. postoji konstanta β takva da je

‖xk+1 − x?‖ ≤ β‖xk − x?‖2, k = 0, 1, . . . .

Page 61: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 60

Primjedba 5. Može se pokazati (vidi [11]) da za niz (xn), koji superlinearnombrzinom konvergira prema x?, vrijedi

limk→∞

‖xk+1 − xk‖‖xk − x?‖ = 1

uz uvjet da je xk 6= x? za sve k = 0, 1, . . ..Zaista da bi to pokazali iskoristit cemo nejednakost ||α| − |β|| ≤ |α− β|. Iz

|‖xk+1 − xk‖ − ‖xk − x?‖| ≤ ‖xk+1 − x?‖,

nakon dijeljenja s ‖xk − x?‖ i koristeći ‖xk+1 − x?‖ ≤ λk‖xk − x?‖, λk → 0,dobivamo ∣∣∣∣‖xk+1 − xk‖

‖xk − x?‖ − 1∣∣∣∣ ≤ ‖xk+1 − x?‖

‖xk − x?‖ ≤ λk → 0 .

Primjetite da je u Teorem 7 za λk stavljeno λk =(

12

)k.

Na osnovi Primjedbe 5 pored kriterija ‖F(xk)‖ < ε1 za zaustavljanje procesaima smisla koristiti dodatni kriterij ‖xk+1 − xk‖ < ε2‖xk‖

Prethodnim teoremom iskazane su dvije osnovne prednosti Newtonove me-tode:

• postoji područje prihvaćanja S Newtonove iterativne metode,

• visoka brzina konvergencije u području prihvaćanja S .Nedostaci Newtonove metode su

• potreba izbora dobre početne aproksimacije x0,

• u svakom koraku treba računati matricu parcijalnih derivacija reda n.

U cilju prevladavanja naročito posljednjeg navedenog nedostatka, matricuF′(xk) (odnosno matricu [F′(xk)]

−1) zamijenit ćemo nekom matricom Bk (od-nosno matricom Hk), koja se lako računa, a nalikuje na matricu F′(xk) (odnosnomatricu [F′(xk)]

−1). Tako promatramo iterativne procese

xk+1 := xk − αkB−1k F(xk),

odnosno xk+1 := xk − αk HkF(xk).(4.52)

Vrijedi sljedeći teorem (vidi [11])

Teorem 9. Neka funkcija F : Rn → Rn zadovoljava uvjete (4.44), a niz (Bk) neka jeniz regularnih matrica. Pretpostavimo nadalje da za neki x0 ∈ D niz (xn) definiran s(4.52) ostaje u D, xk 6= x? za sve k = 0, 1, . . . i konvergira prema x?. Tada niz (xn)konvergira superlinearno prema x? onda i samo onda ako

limk→∞

(Bk−F′(x?))(‖pk‖)‖pk‖ = 0, pk = xk+1 − xk. (4.53)

Page 62: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 61

Uvjet (4.53) zahtijeva da niz matrica (Bn) konvergira prema F′(x?) u smjeruvektora kretanjapk = xk+1 − xk.Primjedba 6. Uvjet (4.53) ekvivalentan je uvjetu (vidi primjerice [15])

limk→∞

‖Bk pk−yk‖‖pk‖ = 0, yk := F(xk+1)− F(xk), (4.54)

što znači da uvjet Bk pk ≈ yk također garantira superlinearnu konvergenciju.Ne može se očekivati da bude Bk pk = yk, ali zato ćemo matricu Bk+1 brati

tako da bude ispunjen tzv. quasi-Newtonov uvjet

Bk+1 pk = yk. (4.55)

i da je za poznate pk, yk, Bk lako izračunati Bk+1. Iterativna metoda (4.52) pričemunizmatrica (Bn) ispunjavaju quasi-Newtonovuvjet naziva se quasi-Newtonovametoda. Radi pojednostavljivanja uvedimo sljedeće oznake:

B := Bk, B := Bk+1, x := xk, x := xk+1

p := pk = x− x, y := yk = F(x)− F(x).

Uz ove oznake quasi-Newtonov uvjet glasi

B p = y.

Prvi puta je 1965. godine [7] uveo takav niz matrica, u literaturi poznat pod na-zivom Broydenova korekcija ranga 1

B = B + (y−Bp)pT

pT p . (4.56)

U dokazima teorema koji slijede, zbog jednostavnosti ćemo pretpostavit daje αk = 1, za sve k. Vrijedi sljedeći teorem

Teorem 10. Neka funkcija F : Rn → Rn zadovoljava uvjete (4.44) i (4.45).

1. Tada postoji δ > 0 takvo da ako ‖Bk − F′(xk)‖ ≤ δ i ‖x0 − x?‖ ≤ δ, nizdefiniran sa xk+1 = xk − B−1

k F(xk) je dobro definiran i konvergira ka x?.

2. Ako pri tome vrijedi da ‖Bk − F′(xk)‖ → 0, tada je konvergencija superlinearna.

3. Ako postoji konstanta C takva da ‖Bk − F′(xk)‖ ≤ C‖F(xk)‖, tada je konver-gencija kvardatična.

Dokaz. Uvedimo oznaku β = ‖F′(x?)−1‖ < ∞. Izaberemo li δ dovoljno malomožemo postići:

‖x− x?‖ ≤ δ, ‖B− F′(x)‖ ≤ δ⇒ ‖B−1‖ ≤ 2β .

Page 63: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 62

Gornja nejednakost slijedi koristeci sličan račun kao u dokazu Teorema 7. Zaista,ako izaberemo δ takvo da je δ < 1/(2β), onda iz

‖F′(x?)−1 (B− F′(x?))‖ ≤ βδ <

12

,

vidimo da je F′(x?)−1B = I − F′(x?)−1 (B− F′(x?)) regularna, te vrijedi ocjena

‖B−1F′(x?)‖ < 11− 1

2.

Sada sve zajedno daje

‖B−1‖ = ‖B−1F′(x?)F′(x?)−1‖ ≤ 2β .

Neka je L Lipshitzova konstanta za F′. Dodatnim smanjivanjem δ možemo pos-tići da je ispunjena nejednakost

(L2+ 1)

δ ≤ 12

.

Pretpostavimo nadalje da smo B0 i x0 izabrali u skladu sa gore izabranim δ. Tada

x1 − x? = x0 − x? − B−10 F(x0) = B−1

0 (F(x?)− F(x0)− B0(x? − x0))

= B−10

1∫0

(F′((1− t)x0 + tx?)− B0

)(x? − x0)dt .

Koristeci, Lipshitzovo svojstvo funkcije F′, nejednakost trokuta i uvijet na B0 vri-jedi

‖F′((1− t)x0 + tx?)− F′(x0) + F′(x0)− B0‖ ≤ Lt‖x? − x0‖+ δ .

To znači da možemo pisati

‖x1 − x?‖ ≤ 2β

(L2‖x? − x0‖+ δ

)‖x? − x0‖ ≤ 2β

(L2+ 1)

δ‖x? − x0‖

≤ 12‖x? − x0‖ .

Vidimo da gornja nejednakost povlači ‖x1 − x?‖ ≤ δ, pa ponavljajući ovaj pos-tupak lako se dokazuje 1. Iz gornjeg razmatranja vidimo da vrijedi

‖xk+1 − x?‖ ≤ 2β

(L2‖x? − xk‖+ ‖Bk − F′(xk)‖

)‖x? − xk‖ ,

što daje superlinearnu konvergenciju, odnosno pretpostavku 2. Uzdodatnupret-postavku iz 3. da je ‖Bk − F′(xk)‖ ≤ C‖F(xk)‖, slijedi

‖Bk − F′(xk)‖ ≤ C‖F(xk)− F(x?)‖ ≤ C‖xk − x?‖ ,

što povlači kvadratnu konvergenciju.

Page 64: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 63

Neki primjeri Quasi-Newtonovih metoda:

• Zamjenimo ∂Fi(x)/∂xj sa podjeljenom razlikom [Fi(x+ hej)− Fi(x)]/h zaneko malo h ili u zamjeni koristimo neki drugi diferencijalni kvocijent. Izprethodnog teorema slijedi da će konvergencija biti osigurana za dovoljnomale h.

• Koristimo jednom izračunatu derivaciju (Jacobian) F′ u više iteracijskih ko-raka. Ili kao u nekimmetodama, poput Broydenove koju cemo prikazati usljedecem poglavlju, koristimo određenu proceduru pomocu koje “adek-vatno mijenjamo” prethodni Jacobian.

• Izaberemo Bi = θiF′(xi) + (1− θi)I, tada konvergencija metode ovisi o θi ito metoda konvergira ako je θi dovoljno blizu 1, te je brzina konvergencijasuperlinearna ako θi → 1.

Broydenova metoda

Broydenova jemetoda (objavioCGBroydenu 1965) važanprimjer quasi-Newtonovemetode. To je jedana odmogućih generalizacijametode sekante na n-dimenzionalneprostore. U slučaju jedne nelinearne jednadžbe,metoda sekante zamjenjuje f ′(xi)uNewtonovoj metodi s aproksimacijom [ f (xi)− f (xi−1)]/(xi − xi−1). Na taj na-čin dolazi se do sljedećeg iterativnog postupka: za dobivanje iteracija

xi+1 = xi −xi − xi−1

f (xi)− f (xi−1)f (xi) .

Naravno, ova se ideja ne može izravno generalizirati na Rn, buduci da u Rn nemožemo dijeliti sa vektorom xi − xi−1. Umjesto toga, možemo uzeti u obzir jed-nadžbu

Bi(xi − xi−1) = F(xi)− F(xi−1) .

Međutim, ta jednadžba ne određuje matricu Bi, nego samo njeno djelovanje naxi − xi−1. Stoga, da bi u poptunosti odredili Bi, Broydenova metoda određujedjelovanje i na vektore ortogonalne na xi − xi−1 i to tako da je ona jednaka Bi−1.Broydenova metoda je tzv. metoda ažuriranja to jest nova matrica Bi se određuje(ažurira) korištenjem prethodne Bi−1.

U svrhu definiranja Broydenove metode trebat će nam rezultat sljedećeg te-orema:

Teorem 11. Neka su zadani vektori s 6= 0 i v ∈ Rn, i matrica C ∈ Rn×n, tada postojijedinstvena matrica B ∈ Rn×n, takva da je

Bs = v , Bz = Cz , za sve z takve da sTz = 0.

Broyden je 1965. godine prvi put uveo takve matrice, koje se po njemu uliteraturi nazivaju Broydenove korekcije ranga 1 i definiraju se

B = C +(v− Cs)sT

sTs. (4.57)

Page 65: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 64

Važno je primjetiti da matricu B dobivamo pomoću C dodavanjem matriceranga 1. Nadalje, kao što ćemo pokazati u sljedećem teoremu matrica B je naodređeni način najbliža matrici C od svih matrica koje x prebacuju u v.

Teorem 12. Za danu matricu C ∈ Rn×n, i vektore s 6= 0 i v ∈ Rn matrica B definiranasa (4.57) je jedinstveno rješenje problema minimizacije

minB

‖B− C‖F : Bs = v

,

gdje je ‖ · ‖F Frobenijusova norma.

Dokaz. Naprije primijetimo da za proizvoljnu matricu B, za koju vrijedi quasi-Newtonov uvjet Bs = v vrijedi

‖B− C‖F =

∥∥∥∥ (v− Cs)sT

sTs

∥∥∥∥F=

∥∥∥∥ (B− C)ssT

sTs

∥∥∥∥F

≤ ‖B− C‖F

∥∥∥∥ ssT

sTs

∥∥∥∥F

= ‖B− C‖F

U posljednjoj jednakosti smo iskoristili

∥∥∥ssT∥∥∥

F= ∑

ij(sisj)

2 =

(∑

is2

i

)(∑

js2

j

)= (sTs)23 .

Kako je skup svih B ∈ Rn×n, takvih da je Bs = v konveksan, a funkcija Φ :Rn×n 7→ R, Φ(A) = ‖B− A‖F strogo konveksna, matrica B na kojoj se postižeminimum je jedinstvena.

Sada smo spremni navesti Broydenovu metodu.

Algorithm 3 Broydenova metodaIzabrati x0 ∈ Rn, B0 ∈ Rn×n

for i:= 0, 1, . . . doxi+1 = xi − B−1

i F(xi);si = xi+1 − xi;vi = F(xi+1)− F(xi);Bi+1 = Bi +

1sT

i si(vi − Bisi)sT

i ;end for

Primjedba 7. Uobičajeno je za B0 uzeti F′(x0). U jednodimenzionalnom slučaju,Broydenova metoda se svodi na metodu sekante.

3Ovdje dodati zadatak: “dokažite da je ‖ssT‖ = sTs, koristeci simetriju matrice ssT”

Page 66: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 65

Ključ učinkovitosti Broydenove metode je u tome što se matrica Bi+1 od ma-trice Bi razlikuje samo za matricu ranga 1. Ali, kao što će biti prikazano u sljede-ćem teoremu, jednom kada se efikasno izračuna djelovanje inverzne matrice navektor a (npr., supstitucije unaprijed i unazad, za matricu koja je rastavljena naprodukt donje i gornje trokutaste), tada se efikasno može izračunati i inverz tematrice promjenjene matricom ranga 1.

Teorem 13 (Sherman-Morrison-Woodbury). Neka je u, v ∈ Rn, a B ∈ Rn×n

regularna matrica. Tada je B = B + uvT regularna onda i samo onda ako je σ =1 + vT B−1u 6= 0. Ako je σ 6= 0, vrijedi

B−1 ≡(

B + uvT)−1

= B−1 − 1σ

B−1uvT B−1 (4.58)

Dokaz. Neka je za bilo koji vektor y ∈ Rn, dan x = B−1y, odnosno Bx = y, toznači da

Bx + (vTx)u = y . (4.59)

Množenjem gornje jednakosti s lijeva sa vT B−1 dobivamo (vTx)(1 + vT B−1u) =vT B−1y. Kako je 1 + vT B−1u 6= 0 dobivamo

vTx =vT B−1y

1 + vT B−1u.

Kombinacijom gornjeg izraza sa (4.59) slijedi

Bx = y− vT B−1y1 + vT B−1u

u .

Sada množenjem gornje jednakosti sa lijeva s B−1, i korištenjem x = B−1y, dobi-vamo

B−1y ≡ x = B−1y− vT B−1y1 + vT B−1u

B−1u =

(B−1 − B−1uvT B−1

1 + vT B−1u

)y ,

iz čega slijedi Sherman-Morrison-Woodbury-eva fromula (4.58).

Vrijedi i sljedeća zanimljiva lema.

Lema 8. Za zadane v, w ∈ Rn vrijedi

det(I + vwT) = 1 + (v, w).

Dokaz. Označimo P = I + vwT . Ako je v = 0, dokaz je trivijalan. Zato pretpos-tavimo da je v 6= 0.

Neka je λ svojstvena vrijednost, a x odgovarajući svojstveni vektor od P. Tadamora biti

Px = λx ⇒ (I + vwT)x = λx ⇒ x + v(wTx) = λx.

Ova jednakost može biti ispunjena ili tako da je w ⊥ x ili da je v ‖ x.Dakle, svaki svojstveni vektor od P je ili okomit na w ili paralelan s v.

Page 67: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 66

1. Ako je w ⊥ x, onda je λ = 1;

2. Ako je v ‖ x, tj. x = αv, tada je

αv + vwTαv = λαv⇒ v(1 + wTv) = λv⇒ λ = 1 + (v, w).

Budući damože postojati samo jedan svojstveni vektor kolinearan s v, to znači damatrica P ima jednu svojstvenu vrijednost 1 + (v, w), dok su preostalih (n− 1)jenake 1. Time je lema dokazana.

Stoga da bi odredili umnožak B−1 s nekim vektorom treba nam samo umno-žak B−1 s tim vektorom, te skalarni produkt vektora v s tim vektorom.

Dobar način implementacije Sherman-Morrison-Woodbury-eve fromule uBroyde-novoj metodi se može dobiti spremanjem Hi

.= B−1

i , što je efikasnije nego spre-manje Bi. Algoritam tada postaje:

Algorithm 4Modificirana Broydenova metodaIzabrati x0 ∈ Rn, H0 ∈ Rn×n

for i:= 0, 1, . . . doxi+1 = xi − HiF(xi);si = xi+1 − xi;vi = F(xi+1)− F(xi);Hi+1 = Hi +

1sT

i Hivi(si − Hivi)sT

i Hi ;end for

Primjetite da u slučaju ako su H0 i B−10 jednaki, tada gornji algoritam pred-

stavlja osnovni Broydenov algoritam.

Konvergencija Broydenove metode

Označimo sa x? rješenje nelinearnog sustava opisanog sa F(x) = 0, i neka xi i Bioznačavaju vektor imatricu koje su određene i-timkorakomBroydenovemetode.Označimo sa

ei = xi − x? , Mi = Bi − F′(x?) . (4.60)

Grubo govoreći, za konvergenciju Broydenove metode ključne su sljedece dviječinjenice

(1) ei+1 će biti malo u odnosu na ei, u slučaju da Mi nije preveliko,

(2) Mi+1 neće biti puno veći nego Mi, ako su ei mali.

Preciznije objašnjenje se temelji na sljedecim jednakostima, koje slijede izravnoiz defnicija oznaka uvedenih sa (4.60) i definicije Bi,

ei+1 = −B−1i[F(xi)− F(x?)− F′(x?)(xi − x?)

]+ B−1

i Miei , , (4.61)

Page 68: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 67

i

Mi+1 = Mi

(I − 1

sTi si

sisTi

)+

1sT

i si

(vi − F′(x?)si)sT

i

). (4.62)

Sljedeci teoremgovori o lokalnoj konveregenciji Broydenovemetode, te o nje-noj brzini konvergencije koja je u najgorem slučaju linearna.

Teorem 14. Neka je funkcija F diferencijabilna na kugli D oko rješenja x? ∈ Rn,(F(x?) = 0), te naka F′ Lipschitz neprekidne, tj. ‖F′(x) − F′(x?)‖ ≤ L‖x − x?‖,za sve x ∈ D. Pretpostavimo da je F′(x?) regularna, pri čemu vrijedi ‖F′(x?)‖ ≤ β.Neka su xo ∈ D, i B0 ∈ Rn×n izabrani tako da vrijedi

‖M0‖+ 2L‖e0‖ ≤1

8β.

Tada su nizovi xi i Bi određeni Broydenovim algoritmom 3 dobro definirani, a za nizgrešaka vrijedi

‖ei+1‖ ≤12‖ei‖ , i = 0, 1, 2, . . . .

Dokaz. Da bi mogli dokazati teorem trebat će nam sljedeće tvrdnje:Tvrdnja 1. Pokažimo da ako su nizovi xi i Bi određeni Broydenovim algorit-

mom 3 dobro definirani i da je ‖Mi‖ ≤ 1/(2β), da s tada Bi regularne matrice(odnosno xi+1 je dobro definiran), te da je

‖B−1i ‖ ≤ 2β , ‖ei+1‖ ≤ (Lβ‖ei‖+ 2β‖Mi‖) ‖ei‖ .

Zaista, F′(x?)−1Bi = I + F′(x?)−1Mi, a kako je ‖Mi‖ ≤ 1/(2β), ‖F′(x?)−1Mi‖ ≤1/(2β), vidimoda je Bi invertibilmapri čemuvrijedi ‖B−1

i ‖ ≤ 2β. Stoga slijedi daje xi+1 dobro definiran. Ocjena za ‖ei+1‖ se dobiva pomoću ocjene ‖B−1

i ‖ ≤ 2βi (4.61).

Primjetite, da iz pretpostavki teorema i gore navedenog slijedi da je x1 dobrodefiniran i da vrijedi ‖e1‖ ≤ 1/2‖e0‖.

Tvrdnja 2. Ako su B0, . . . , Bi dobro definirane i invertibilne, onda vrijedi

‖Mi+1‖ ≤ ‖Mi‖+ max‖ei‖, ‖ei+1‖ .

Gornju ocjenu ćemo dokazati koristeći (4.62). Prvi dio na desnoj strani u (4.62) jeumnožak Mi sa ortogonlanim projektorom (na ortogonalni komplement od si),tako da je u bilo kojoj unitarno invarijantoj normi taj produkt omeđen sa ‖Mi‖.Uočimo da se dio drugog člana može izraziti kao

vi − F′(x?)si =

1∫0

[F′((1− t)xi + txi+1)− F′(x?)

]dtsi .

Kako je ‖F′((1− t)xi + txi+1)− F′(x?)‖ ≤ L max‖ei‖, ‖e(i+1)‖, slijedi da je

‖vi − F′(x?)si‖ ≤ L max‖ei‖, ‖ei+1‖‖si‖2 1‖si‖2 ,

Page 69: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 68

što znači da je drugi dio u izrazu (4.62) omeđen sa

L max‖ei‖, ‖ei+1‖ ,

čime je dokazana i tvrdnja 2.Ostaje nam dokazati teorem. Koristeći indukciju po i pokazat ćemo da je niz

x0, . . . , xi+1 dobro definiran i da vrijedi:

‖ei‖ ≤1

8Lβ, ‖Mi‖ ≤

1δβ

, ‖ei+1‖ ≤12‖ei‖ .

Gornje ocjene očito vrijede za i = 0. Pretpostavimo da su istinite i za sve indeksemanje ili jednake i. Zamjenom i sa i + 1 direktno iz pretpostavke indukcije slijedi‖ei+1‖ ≤ 1

8Lβ .Uzastopnom primjenom tvrdnje 2., uzimajući u obzir ‖ei+1‖ ≤ ‖ei‖ ≤ . . .

imamo

‖Mi+1‖ ≤ ‖M0‖+ L (‖e0‖+ ‖e1‖+ . . . + ‖ei+1‖)

≤ ‖M0‖+ L‖e0‖(1 +12+ . . .) = ‖M0‖+ 2L‖e0‖ ≤

18β

,

što odgovara drugoj nejednakosti. Konačno primjenom tvrdnje 1. slijedi trećanejednakost čime je teorem dokazan.

Minimizacija glatke funkcijePromatrajmo sadaproblemminimizacije bez ograničenja za dovoljno glatku funk-ciju f : Rn → R. Pretpostavimo da je x? njen lokalni minimum. Prema Teoremu 3tada je f ′(x?) = 0, a f ′′(x?) je pozitivno definitna Hesseova matrica. Uz oznakuF(x) := f ′(x), analogno uvjetima (4.44) i (4.45) definirat ćemo uvjete na funkcijuf : Rn → R:

(i) f je dvostrukoneprekidnodiferencijabilna na otvorenomkonveksnomskupuD, tj. f ∈ C2(D);

(ii) postoji x? ∈ D tako da bude f ′(x?) = 0, a f ′′(x?) je pozitivno definitnamatrica;

(iii) f ′′ u x? zadovoljava Lipschitzovuvjet ‖ f ′′(x)− f ′′(x?)‖ ≤ L‖x− x?‖, L >0, ∀x ∈ D.

Uz oznake g(x) := f ′(x) i gk = g(xk) iterativna procedura (4.52) postaje

xk+1 := xk − αkB−1k gk,

odnosno xk+1 := xk − αk Hkgk,

gdje je sada Bk aproksimacija hessijana f ′′(xk), a Hk = B−1k , pri čemu duljinu ko-

raka αk možemo odrediti nekommetodom izbora duljine koraka iz t. 4.1. Budući

Page 70: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 69

damatrice Bk trebaju aproksimirati hessijan f ′′(xk), za njih se mora pretpostavitisimetričnost. Slično kao i ranije uvedimo oznake

B := Bk, B := Bk+1

p := pk = xk+1 − xk y := yk = gk+1 − gk ( zbog g(x) = F(x))

Jedna mogućnost za definiranje korekcije ranga 1 je simetrična formula ranga1 koju je uveo Davidon (1959) (vidi [8]):

B = B +(y− Bp)(y− Bp)T

(y− Bp, p), (y− Bp, p) 6= 0 (4.63)

Zadatak 27: Pokažite da ako postoje matrice: H := B−1 i H := B−1 i ako je Bsimetrična, tada vrijedi

H = H + (p−Hy)(p−Hy)T

(p−Hy,y) (4.64)

Primjer 17: Potražimo lokalni minimum funkcije

f (x1, x2) = ex1(

4x21 + 2x2

2 + 4x1x2 + 2x2 + 1)

Gradijent, hessijan i ContourPlot dobit ćemo na sljedeći način

In[1]:=

f[x_] := Exp[x[1]](4x[1]^2 + 2x[2]^2 + 4x[1]x[2] + 2x[2] + 1); n = 2;

g[x_] := Table[D[f[x], x[i]], i, n]

H[x_] := Table[D[g[x][[i]], x[j]], i, n, j, n]

Print["f'=", Simplify[g[x] /. x[1] -> x1, x[2] -> x2] // MatrixForm,

" H=", Simplify[H[x] /. x[1] -> x1, x[2] -> x2] // MatrixForm]

ContourPlot[f[x] /. x[1] -> x1, x[2] -> x2, x1, -2.5, 1, x2, -2, 1.5,

Contours -> 40, PlotPoints -> 30, ContourShading -> None];

f ′ =[

ex1(1 + 4x21 + 6x2 + 2x2

2 + 4x1(2 + x2))ex1(2 + 4x1 + 4x2)

],

H =

[ex1(9 + 4x2

1 + 10x2 + 2x22 + 4x1(4 + x2)) ex1(3 + 2x1 + 2x2)

ex1(3 + 2x1 + 2x2) ex1

]

Page 71: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 70

-2.5 -2 -1.5 -1 -0.5 0 0.5 1-2

-1.5

-1

-0.5

0

0.5

1

1.5

Slika 4.5: ContourPlot funkcije f (x1, x2) = ex1(4x2

1 + 2x22 + 4x1x2 + 2x2 + 1

)

Zadavanjem ulaznih podataka

In[2]:= n = 2; x0 = 1., 1; k = 0; eps = 0.005;

w = Table[x[i] -> x0[[i]], i, n]; B0 = IdentityMatrix[n];

B0 = H[x] /. w

g0 = g[x] /. w

i korištenjem modula Korak (str.48) za određivanje duljine koraka

In[3]:= While[

p0 = -LinearSolve[B0, g0];

alpha = Korak[n, f, p0, x0];

x1 = x0 + alpha p0;

w1 = Table[x[i] -> x1[[i]], i, n]; g1 = g[x] /. w1;

y0 = g1 - g0;

B1 = B0+Outer[Times, (y0 - B0.p0),(y0 - B0.p0)]/((y0 - B0.p0).p0);

f1 = f[x] /. w1;

Abs[f1] > eps,

B0 = B1; g0 = g1;

x0 = x1; k = k + 1;

Print["x", k, "=", x1, " fx=", f[x] /. w1,

" grad=", g1, " alpha=", alpha] ];

Print["x", k + 1, "=", x1, " fx=",f[x] /. w1,

" grad=", g1, " alpha=", alpha]

nakon 18 itracija dobivamo

x18 = [−11.43, 19.80]T , f (x18) = 0.00479, f ′(x18) = [0.0047, 0.00038]T , α18 = 1.

Slično Teoremu 12, vrijedi

Teorem 15. Neka je M ∈ Rn×n simetrična regularna matrica, y, p ∈ Rn (p 6= 0) ic := M−2 p. Ako je B simetrična matrica, tada je rješenje problema minimizacije

minB

‖M(B− B)M‖F : B = BT , Bp = y

, (4.65)

Page 72: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 71

zadano sB = B +

(y− Bp)cT + c(y− Bp)T

cT p− (y− Bp)T p

(cT p)2 ccT . (4.66)

Matricom M definirana je težinska Frobeniusova norma, B je također sime-trična matrica, koja ispunjava quasi-Newtonov uvjet Bp = y i po težinskoj Fro-beniusovoj normi najmanje se razlikuje od matrice B. Formulu (4.66) zovemokorekcija ranga 2 jer se B dobiva tako da matrici B dodamo jednu matricu ranga2.

Zadatak 28: Dva različita dokaza ovog teorema mogu se vidjeti u [15] i [11].Izvedite i usporedite oba dokaza.

Pokazat ćemo (vidi [11]) kako se izvodi quasi-Newtonova korekcija ranga 2zadana s (4.66) jer je to način kako semogu izvesti i druge poznate korekcije ranga2. Polazimo od simetrične matrice B ∈ Rn×n, te slično Broydenovoj korekcijiranga 1 (4.57) kao mogućeg kandidata za B promatramo

C1 = B + (y−Bp)cT

(c,p) .

koji ispunjava quasi-Newtonov uvjet C1 p = y. Budući da C1 općenito nije sime-trična matrica, definiramo simetričnu matricu

C2 = 12

(C1 + CT

1

).

Budući da C2 ne ispunjava quasi-Newtonov uvjet, ponovimo proceduru i takorekurzivno definiramo niz (Cn)

C2k+1 = C2k +(y−C2k p)cT

(c,p) ,

C2k+2 = 12

(C2k+1 + CT

2k+1

),

(4.67)

gdje je C0 = B. Vrijedi

Lema 9. Neka je B ∈ Rn×n simetrična matrica i c, p, y ∈ Rn sa svojstvom (c, p) 6= 0..Tada niz (Cn) zadan rekurzivnom formulom (4.67) uz C0 = B konvergira prema Bzadanom s (4.66).

Dokaz. Dokažimo da niz (C2k) konvergira. Uz oznaku Gk = C2k iz (4.67) dobi-vamo

Gk+1 = C2(k+1) = 12

(C2k+1 + CT

2k+1

)= 1

2

(Gk +

(y−Gk p)cT

(c,p) + GTk + c(y−Gk p)T

(c,p)

)= Gk +

wkcT+cwTk

2(c,p) ,

gdje je wk = y− Gk p. Koristeći dobivenu jednakost dobivamo

wk+1 = y− Gk+1 p = y− Gk p− 12

wkcT+cwTk

(c,p) p = wk − 12

wkcT p(c,p) − 1

2cwT

k p(c,p)

= 12 wk − 1

2c(pTwk)(c,p) ,

Page 73: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 72

što možemo pisati kao

wk+1 = Pwk, P = 12

[I − cpT

(c,p)wk

]Prema Lemi 8matrica P ima jednu svojstvenuvrijednost 0

[12

(1− ( c

(c,p) , p))= 0

]i svojstvenu vrijednost 1

2 kratnosti (n− 1). Dakle, spektralni radijus matrice P jeρ(P) = 1

2 < 1. Prema Neumannovoj lemi (vidi primjerice [20], str. 45) tada postojimatrica (I − P)−1 i vrijedi

(I − P)−1 = limk→∞

k

∑i=0

Pk.

Kako je s druge strane

wk = Pwk−1 = · · · = Pkw0 = Pk(y− Bp),

onda imamo∞

∑k=0

wk =∞

∑k=0

Pk(y− Bp) = (I − P)−1(y− Bp).

Također vrijedin∑

k=0(Gk+1 − Gk) = Gn+1 − G0 =⇒

∞∑

k=0(Gk+1 − Gk) = lim

n→∞(Gn+1 − G0)

=⇒∞∑

k=0(Gk+1 − Gk) = lim

k→∞Gk − B

Zato vrijedi

limk→∞

Gk =

= B +∞∑

k=0(Gk+1 − Gk) = B +

∞∑

k=0

12

wkcT+cwTk

(c,p) = B + 12(c,p)

∞∑

k=0wkcT + 1

2(c,p)

∞∑

k=0cwT

k

= B + 12(c,p)

[(I − P)−1(y− Bp)cT + c(y− Bp)T(I − PT)−1] =

prema Lemi 13 : I − P = I − 12

[I − cpT

(c,p)

]= 1

2

[I + cpT

(c,p)

],

σ = 1 + pT c(c,p) = 2, (I − P)−1 = 2

[I − 1

2cpT

(c,p)

], (I − PT)−1 = 2

[I − 1

2pcT

(c,p)

]= B + 1

2(c,p)

2[

I − 12

cpT

(c,p)

](y− Bp)cT + c(y− Bp)T2

[I − 1

2pcT

(c,p)

]= B + 1

(c,p)

(y− Bp)cT + c(y− Bp)T − 1

2cpT

(c,p) (y− Bp)cT − 12 c(y− Bp)T pcT

(c,p)

= B + 1

(c,p)

(y− Bp)cT + c(y− Bp)T − c(y−Bp)T pcT

(c,p)

,

iz čega neposredno slijedi (4.66).

Page 74: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 73

Specijalno za c = p dobiva se Powell–Broydenova simetrična korekcija (PowellSymetric Broyden - PSB)

BPSB = B +(y− Bp)pT + p(y− Bp)T

(p, p)− ((y− Bp), p)ppT

(p, p)2 . (4.68)

Korekcije koje čuvaju pozitivnu definitnostDo sada smo promatrali korekcije ranga 1 ili 2 koje su čuvale simeričnost matriceB i zadovoljavale quasi-Newtonov uvjet. Dodatni zahtjev koji se postavlja bit ćečuvanje pozitivne definitnosti. Quasi-Newtonov uvjet zajedno s uvjetom čuvanjapozitivne definitnosti matrice B pobliže određuje kut između vektora p i y:

(y, p) > 0.[(y, p)

Bp=y= (Bp, p)

]U cilju ispitivanja nasljednosti pozitivne definitnosti koristit ćemo sljedeću

lemu (vidi primjerice [11])

Lema 10. Neka je A ∈ Rn×n simetrična matrica sa svojstvenim vrijednostima

λ1 ≤ λ2 ≤ · · · ≤ λn,

i neka je AT = A + σuuT za neki u ∈ Rn. Ako je σ ≥ 0, onda AT ima svojstvenevrijednosti λT

i , takve da je

λ1 ≤ λT1 ≤ λ2 ≤ · · · ≤ λn ≤ λT

n ,

a ako je σ ≤ 0, onda AT ima svojstvene vrijednosti λTi , takve da je

λT1 ≤ λ1 ≤ λT

2 ≤ · · · ≤ λTn ≤ λn.

Teorem16. Neka je B ∈ Rn×n simetrična pozitivno definitnamatrica i neka su c, p, y ∈Rn takvi da je (c, p) 6= 0. Tada je B definiran s (4.66) pozitivno definitna matrica ondai samo onda ako je det B > 0.

Dokaz. Ako je B > 0, onda je iz opće teorije poznato da je det B > 0. Za dokazobrata, matricu B napišimo najprije u obliku

B = B + (y−Bp)cT+c(y−Bp)T

cT p − (y−Bp)T p(cT p)2 ccT

B = B + vwT + wvT ,

gdje je

v =y− Bp(c, p)

− 12(y− Bp, p)

(c, p)2 c, w = c.

Zbog toga je[(v + w)(v + w)T − (v− w)(v− w)T = ‖v‖2 + ‖w‖2

+2vwT −(‖v‖2 + ‖w‖2 − 2wvT

)]

Page 75: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 74

B = B + 12

((v + w)(v + w)T − (v− w)(v− w)T

)Na taj način smo B napisali kao zbroj od jedne pozitivno definitne matrice (B) idvije simetrične matrice ranga 1. Prema Lemi 10 matrica

C = B + 12 (v + w)(v + w)T

je pozitivno definitna jer je σ = 12 > 0.

Nadalje, također prema Lemi 10, obzirom da je C > 0 i σ = − 12 < 0 matrica

B = C− 12 (v− w)(v− w)T

može imati najviše jednu svojstvenu vrijednost nepozitivnu. Kako je s drugestrane

0 < det B = λ1 · · · λn,

i ta jedna svojstvena vrijednost mora biti pozitivna. Dakle, B > 0.

U cilju ispitivanje za koji c ∈ Rn će rekurzivna formula (4.66) čuvati pozi-tivnu definitnost sljedeća lema ispituje determinantu matrice B.

Lema 11. Neka je ui ∈ Rn, i = 1, 2, 3, 4. Tada vrijedi

det(

I + u1uT2 + u3uT

4

)= (1 + (u1, u2)) (1 + (u3, u4))− (u1, u4)(u2, u3).

Dokaz. Ako trenutno pretpostavimo da je (u1, u2) 6= −1, tj. da je, sukladnoSherman-Morrisonovoj lemi, I + u1uT

2 regularna matrica, onda možemo pisati

I + u1uT2 + u3uT

4 =(

I + u1uT2

) (I + (I + u1uT

2 )−1u3uT

4

)Zato je det

(I + u1uT

2 + u3uT4)= D1 · D2, gdje je

D1 = det(

I + u1uT2)= 1 + (u1, u2),

D2 = det(

I + (I + u1uT2 )−1u3uT

4)

.

Kako je(

I + (I + u1uT2)−1 (13)

= I − 11+(u1,u2)

u1uT2 , onda

D2 = det[

I +(

I − u1uT2

1+(u1,u2)

)u3uT

4

]= det

[I + u3uT

4 −u1uT

2 u3uT4

1+(u1,u2)

]= det

[I +

(u3 − (u2,u3)

1+(u1,u2)u1

)uT

4

]= 1 +

(u3 − (u2,u3)

1+(u1,u2)u1, u4

)= 1 + (u3, u4)− (u2,u3)

1+(u1,u2)(u1, u4),

iz čega slijedi tražena jednakost.

Page 76: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 75

Primjenom Leme 11 na (4.66) uz pretpostavku da je postoji B−1 i oznaku H :=B−1, dobivamo

det B = det B[(

(c, Hy)2 − (c, Hc)(y, Hy) + (c, Hc)(y, p))

1(c,p)2

]. (4.69)

U svrhu dokaza ove formule najprije ćemo (4.66)

B = B + (y−Bp)cT+c(y−Bp)T

cT p − (y−Bp)T p(cT p)2 ccT

napisati u obliku [ (y− Bp)T p je broj pa ga možemo “staviti unutar” ccT ]

B = B + 1(c,p)

[(y− Bp)cT + c(y− Bp)T

(I − pcT

(c,p)

)]Uvođenjem oznake H := B−1, dobivamo

B = B[

I + H(y−Bp)(c,p) cT + Hc (y−Bp)T

(c,p)

(I − pcT

(c,p)

)].

Sada vrijedidet B = det B det

(I + u1uT

2 + u3uT4

)gdje je

u1 = Hy−p(c,p) , u2 = c,

u3 = Hc, u4 =(

I − cpT

(c,p)

)(y−Bp)(c,p) .

Prema Lemi 11 jedet(

I + u1uT2 + u3uT

4)= (1 + (u1, u2)) (1 + (u3, u4))− (u1, u4)(u2, u3),

gdje je

1 + (u1, u2) = 1 + cT Hy−p(c,p) = 1 + cT Hy

(c,p) −cTy(c,p) =

cT Hy(c,p)

1 + (u3, u4) = 1 + cT(

H − HcpT

(c,p)

)(y−Bp)(c,p)

= 1 + cT

(c,p)

(Hy− HcpTy

(c,p) − s + HcpT Bp(c,p)

)=

= 1 + cT Hy(c,p) −

cTHcpTy(c,p)2 − 1 + cTHcpT Bp

(c,p)2 ,

(1 + (u1, u2)) (1 + (u3, u4)) = (c,Hy)2

(c,p)2 − (c,Hy)(c,Hc)(p,y)(c,p)3 + (c,Hy)(c,Hc)(p,Bp)

(c,p)3

(u1, u4) = yT H−pT

(c,p)2

(I − cpT

(c,p)

)(y− Bp)

= yT Hy(c,p)2 − pTy

(c,p)2 − yT HcpTy(c,p)3 + yT HcpT Bp

(c,p)3

,

iz čega slijedi

det(

I + u1uT2 + u3uT

4

)= (c,Hy)2

(c,p)2 − (c,Hc)(y,Hy)(c,p)2 + (c,Hc)(y,p)

(c,p)2

Page 77: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 76

i tražena formula (4.69).Ako pretpostavimo da je B > 0, onda je i H := B−1 > 0, pa možemo defini-

rati v = H1/2y i w = H1/2c. Time (4.69) postaje

det B = det B[(

(v, w)2 − ‖v‖2‖w‖2 + ‖w‖2(y, p))

1(c,p)2

]. (4.70)

Na osnovi Teorema 16 zaključujemo da je B > 0 onda i samo onda ako vrijedi

‖w‖2(y, p) > ‖v‖2‖w‖2 − (v, w)2. (4.71)

Jednostavan način kako se može zadovoljiti ova nejednakost koju uveo Davidon(1959) (kasnije objašnjeno i implementirano u radu Fletchera i Powella 1963). Na-ime ako su w, v (odnosno c, y), linearno zavisni, onda je (4.71) zadovoljeno akoje (y, p) > 0. Zato se poznata Davidon-Fletcher-Powell korekcija (DFP) ranga 2dobiva iz (4.66) uz c = y

BDGP = B + (y−Bp)yT+y(y−Bp)T

(y,p) − (y−Bp,p)(y,p)2 yyT .

=(

I − ypT

(y,p)

)B(

I − pyT

(y,p)

)+ yyT

(y,p) .(4.72)

Zadatak 29: Provjerite valjanost formula (4.72)!

Vrijedi sljedeći teorem

Teorem 17. Neka je B ∈ Rn×n regularna simetrična matrica i neka je BDFP ∈ Rn×n

definiran sa (4.72) za neke vektore y, p ∈ Rn, koji zadovoljavaju (y, p) 6= 0.Tada je BDFP regularna onda i samo onda ako je (y, Hy) 6= 0, gdje je H := B−1.Ako je BDFP regularna, tada se HDFP := B−1

DFP može zapisati kao

HDFP = H + ppT

(y,p) −HyyT H(y,Hy) . (4.73)

Nadalje, ako je B > 0, onda je i BDFP > 0 onda i samo onda ako vrijedi (y, p) > 0.

Zadatak 30: Provjerite valjanost formula (4.72) i dokažite Teorem 17!

Inverzne korekcijeUprethodnim razmatranjimanastojali smodobiti rekurzivne formule zamatrice–korekcije, koje sve više nalikuju na hesijan minimizirajuće funkcije. Sada ćemopokušati definirati rekurzivne formule za matrice–korekcije, koje će sve više na-likovati na inverzni hesijan minimizirajuće funkcije. Te matrice nazivat ćemoinverzne korekcije.

U tu svrhu pretpostavimoda posjedujemo neku aproksimaciju inverznog he-sijana H [∇2 f (x)]−1 i pomoću nje pokušajmo pronaći što bolju aproksimaciju Hinverznog hesijana [∇2 f (x)]−1, gdje je x = x + p. Analogno quasi-Newtonovomuvjetu (4.55) (Bp = y) postavimo inverzni quasi-Newtonov uvjet

Hy = p. (4.74)

Page 78: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

4.3. Newtonova metoda 77

Odmah je jasno da opća inverzna korekcija ranga 1, koja zadovoljava inverzniquasi-Newtonov uvjet (4.74) mora biti oblika

H = H +(p− Hy)dT

(d, y), za neki d ∈ Rn, (d, y) 6= 0. (4.75)

Zadatak 31: Pokažite da korekcija ranga 1 zadana s (4.57) i inverzna korekcijaranga 1 zadana s (4.75) reprezentiraju istu korekciju ako je c = BTd.

Kao i u slučaju prethodno razmatranih korekcija koje aproksimiraju hesijan(∇2 f (x)) i ovdje se najprije postavlja pitanje čuvanja nasljeđa simetričnosti, tj.vrijedi li

H je simetrična matrica =⇒ H je simetrična matrica ?

Zadatak 32: Pokažite da je inverzna korekcija ranga 1 koja zadovoljava inverzniquasi-Newtonov uvjet (4.74) i čuva simetričnost također zadana formulom (4.64).

Zadatak 33: Slično kao u dokazu Leme 9 izvedite formulu za inverznu quasi-Newtonovu korekcija ranga 2

H = H +(p− Hy)dT + d(p− Hy)T

(d, y)− (p− Hy)Ty

(d, y)2 ddT . (4.76)

Najvažniju varijantu inverzne quasi-Newtonove korekcije ranga 2 (4.76), kojapri tome čuva i pozitivnu definitnost, nezavisno su napravili Broyden, Fletcher,Goldfarb i Shano 1970. godine, pa se ona u literaturi naziva Broyden–Fletcher–Goldfarb–Shano korekcija ili skraćeno BFGS-korekcija. Dobiva se tako da u (4.76)stavimo d = p. Može se pokazati da u tom služaju vrijedi

HBFGS =

(I − pyT

(y, p)

)H(

I − ypT

(y, p)

)+

ppT

(y, p). (4.77)

kao i sljedeći teorem

Teorem 18. Neka je H ∈ Rn×n regularna simetrična matrica i neka je HBFGS ∈ Rn×n

definirana sa (4.77) za neke vektore y, p ∈ Rn, (y, p) 6= 0.Tada je HBFGS regularna onda i samo onda ako je (p, Bp) 6= 0, gdje je B = H−1.Ako je HBFGS regularna, onda se BBFGS := H−1

BFGS može zapisati kao

BBFGS = B +yyT

(y, p)− BppT B

(p, Bp).

Nadalje, ako je H > 0, onda je HBFGS > 0 onda i samo onda ako je (y, p) > 0.

Zadatak 34: Provjerite valjanost formule (4.77) i dokažite Teorem 18!

Page 79: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

POGLAVLJE5Problem uvjetne minimizacije

U ovom poglavlju pokazat ćemo kako se tehnike iz prethodnih poglavlja moguprimijeniti na optimizacijske probleme uvjetne minimizacije.

Do sada nam je xk uglavnom predstavljalo xk-tu aproksimaciju, a tu oznakućemo koristiti i u ovom poglavlju, a budući da ćemo u ovom poglavlju često raču-nati i s komponentama k-te aproksimacije, oznaka (xk)i predstavljat će nam i-tukoordinatu k-te aproksimacije.

Kod uvjetne minimizacije pretpostavit ćemo da su ograničenja jednostavna.U tu svrhu neka su L1, L2, . . . , Ln i U1, U2, . . . , Un realni brojevi takvi da vrijedi

−∞ < Li < Ui < +∞, i = 1, . . . , n.

Problem uvjetne minimizacije je problem određivanja lokalnog minimumax? funkcije f sa n varijabli pri čemu je zadano ograničenje:

x? ∈ Ω = x ∈ Rn : Li ≤ (x)i ≤ Ui.Odnosno, zahtjevamo da je x? takav da vrijedi

f (x?) ≤ f (x) za sve x ∈ Ω blizu x?.

Problem se obično zapisuje kao

minx∈Ω

f (x). (5.1)

Budući da je skup Ω kompaktan, uvijek postoji rješenje gore navedenog mi-nimizacijskog problema [24].

Nejednakosti Li ≤ (x)i ≤ Ui, i = 1, . . . , n zovemo ograničenjima, a rećićemo da je i-to ograničenje aktivno za x ∈ Ω ako je ili (x)i = Li ili (x)i = Ui. Usuprotnom reći ćemo da je i-to ograničenje ne-aktivno. Skup svih indeksa i takoda je i-to ograničenje aktivno (neaktivno) zvat ćemo skupom aktivnih (neaktiv-nih) indeksa za x i označavat ćemo ga s A(x) (N (x)).

78

Page 80: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.1. Nužni i dovoljni uvjeti za optimalnost 79

5.1 Nužni i dovoljni uvjeti za optimalnostU 2 poglavlju već smo proučavali nužne i dovoljne uvjete da bi točka x? bila mi-nimum funkcije. Posebnu pažnju posvetili smo konveksnim funkcijama. Ovdjećemo neke od tih rezultata generalizirati za slučaj uvjetne minimizacije.

Ako promatramo problem s ograničenjem za realnu funkciju jedne varija-ble tada se domena funkcije restringira na segment [a, b]. Tada moramo nužneuvjete promijeniti tako da dopuštaju mogućnost da se minimum x? nalazi u jed-nom od krajeva. Ako je x? = a lokalni minimum tada ne mora biti f ′(a) = 0,međutim, budući da je a lokalni minimum, f (x) ≥ f (a) za sve a ≤ x dovoljnoblizu a, stoga je i f ′(a) ≥ 0. Međutim ništa ne možemo reći o f ′′. Ako je f dife-rencijabilna na (a, b) tada su nužni uvjeti za sve tri mogućnosti x? = a, x? = b ia < x? < b iskazani sljedećim teoremom

Teorem 19. Neka je f neprekidno diferencijabilna funkcija jedne varijable na segmentu[a, b]. Neka je x? lokalni minimum funkcije f na [a, b]. Tada je

f ′(x?)(x− x?) ≥ 0 za sve x ∈ [a, b]. (5.2)

Nadalje, ako je f dva puta neprekidno diferencijabilna na [a, b], tada vrijedi

f ′′(x)(x? − a)(b− x?) ≥ 0.

Izraz (5.2) poslužit će nam kao motivacija za sljedeću definiciju stacionarnosti.

Definicija 12. Točka x? ∈ Ω je stacionarna za problem (5.1) ako je

∇ f (x?)T(x− x?) ≥ 0 za sve x ∈ Ω.

Uočimo da stacionarna točka funkcije definirana u poglavlju 2 (x je staci-onarna točka ako je ∇ f (x) = 0) zadovoljava uvjet (5.2). Štoviše, u Lemi 3 po-kazano da je za konveksnu funkciju f ∈ C1(K) (K je konveksan skup) gornjiuvjet je ekvivalentan činjenici da je ∇ f (x?) = 0 za x? ∈ Int K.

Slično kao u slučaju kada nema ograničenja, može se pokazati činjenica daoptimalnost povlači stacionarnost.

Teorem 20. Neka je funkcija f neprekidno diferencijabilna na konveksnom skupu Ω ineka je x? rješenje problema (5.1). Tada je x? stacionarna točka za problem (5.1).

Dokaz. Neka je x? rješenje problema (5.1) i y ∈ Ω. Budući da je Ω konveksan,dužina određena točkama x? i y je u Ω. Stoga, funkcija

Φ(t) = f (x? + t(y− x?))

definirana je za svaki t ∈ [0, 1] i ima lokalni minimum t = 0, stoga po teoremu19

0 ≤ Φ′(0)(t− 0) za sve t ∈ [0, 1],

odnosno0 ≤ Φ′(0) = ∇ f (x?)T(y− x?)

što smo i trebali pokazati.

Page 81: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.1. Nužni i dovoljni uvjeti za optimalnost 80

Da bismo ilustrirali ulogu druge derivacije promotrit ćemo funkciju dvije va-rijable. Neka je n = 2 i neka funkcija f zadovoljava Lipschitzov uvjet ‖ f ′′(x)−f ′′(y)‖ ≤ λ‖x − y‖ ∀x, y ∈ Ω = [0, 1] × [0, 1]. Ako je x? rješenje od (5.1) inijedno ograničenje nije aktivno, tada je f ′′(x?) pozitivno semidefinitna matricauz isto argumentiranje kao kada nemamo ograničenja. Međutim, ako je jednoili više ograničenja aktivno tada ne možemo ništa zaključiti o pozitivnoj definit-nosti martice f ′′(x?). Pretpostavimo da je minimum funkcije u x? = (ξ, 0), gdjeje 0 < ξ < 1. Ništa ne možemo reći o ∂2 f (x?)/∂x2

2, ali funkcija φ(t) = f (t, 0)definirana na [0, 1] mora zadovoljavati

φ′′(ξ) = ∂2 f (x?)/∂x21 ≥ 0.

Doprinosi od drugih parcijalnih derivacija koji odgovaraju ne aktivnim ograni-čenjima moraju biti nenegativni, dok ništa ne možemo reći o doprinosima kojiodgovaraju aktivnim ograničenjima.

Kako bismo upravo izloženu ideju preciznije iskazali, definirat ćemo reduci-rani Hessijan.

Definicija 13. Neka je f dva puta diferencijabilna u x ∈ Ω. Reducirani Hessijanf ′′R(x) je matrica čiji su elementi definirani s

( f ′′R(x))ij =

δij, ako je i ∈ A(x) ili j ∈ A(x)( f ′′(x))ij, inače .

Sljedeći teorem daje nužni uvjet koristeći pojam reduciranog Hessijana.

Teorem 21. Neka f zadovoljava Lipschitzov uvjet ‖ f ′′(x) − f ′′(y)‖ ≤ λ‖x − y‖∀x, y ∈ Rn i neka je x? rješenje problema (5.1). Tada je reducirani Hessijan f ′′R(x∗)pozitivno semidefinitna matrica.

Dokaz. Pretpostavimo da ima m neaktivnih indeksa i n−m aktivnih. Particioni-ramo x ∈ Ω (po potrebi ispermutiramo varijable) tako da je x = (u, v) gdje uodgovara neaktivnim indeksima, dok v odgovara aktivnim.

Tada preslikavanje φ(u) = f (u, v?) ima lokalni minimum u? ∈ Rm (akoje minimum funkcije bez ograničenja) i stoga je φ′′(u∗) pozitivno semidefinitnamatrica. Budući da je tada reducirani Hessijan jednak

f ′′R(x∗) =(

φ′′(u∗) 00 I

)slijedi da je i f ′′R(x∗) pozitivno semidefinitna matrica.

Neka P označava projekciju na Ω. To je preslikavanje koje varijabli x pridru-žuje najbližu točku (u l2 normi) iz skupa Ω. Tada vrijedi

(P(x))i =

Li, ako je (x)i ≤ Li(x)i, ako je Li < (x)i < UiUi, ako je (x)i ≥ Ui

.

Jedna karakterizacija stacionarne točke dana je sljedećim teoremom.

Page 82: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.1. Nužni i dovoljni uvjeti za optimalnost 81

Teorem 22. Neka je f dva puta diferencijabilna. Točka x? ∈ Ω je stacionarna za problem(5.1) ako i samo ako je

x? = P(x? − α∇ f (x?)),

za sve α ≥ 0.

Ovaj teorem ćemo dokazati u poglavlju analize konvergencije jer ćemo tadaimati sve tvrdnje koje su potrebne za dokaz.

U nastavku ćemo navesti nekoliko rezultata vezanih uz dovoljne uvjete ko-risteći pojam reduciranog Hessijana. Ako je x? stacionarna točka te i ∈ N (x?),tada je x? ± tei ∈ Ω za sve t dovoljno male (ei je i-ti kanonski vektor).

Budući da jed f (x?±tei)

dt = ±∇ f (x?)ei ≥ 0

stoga(∇ f (x?))i = 0 za sve i ∈ N (x?).

Pojam nedegenerirane stacionarne točke problema koristit ćemo u formula-ciji dovoljnih uvjeta. Navedeni pojam važan je i za definiranje zaustavnog krite-rija.

Definicija 14. Točka x? ∈ Ω je nedegenerirana stacionarna točka problema (5.1)ako je x? stacionarna točka i vrijedi

(∇ f (x?))i 6= 0 za sve i ∈ A(x?).

Ako je x? i rješenje problema (5.1), tada kažemo da je x? nedegenerirani lokalniminimum.

Ako je S proizvoljan skup indeksa definiramo

(PSx)i =

(x)i, ako je (x)i ∈ S0, inače .

Prvo ćemo dokazati lemu u kojoj se koristi pojam nedegeneriranosti, a koris-tit ćemo je u nastavku poglavlja.

Lema 12. Neka je x? nedegenerirana stacionarna točka i pretpostavimo da A(x?) nijeprazan. Tada postoji σ takav da vrijedi

∇ f (x?)T(x− x?) = ∇ f (x?)TPA(x?)(x− x?) ≥ σ‖PA(x?)(x− x?)‖

za sve x ∈ Ω.

Dokaz. Ako je i ∈ A(x?) tada nedegeneriranost i stacionarnost povlači da postojiσ > 0 tako da je ili

(x?)i = Li i (∇ f (x?))i ≥ σ ili (x?)i = Ui i (∇ f (x?))i ≤ −σ.

Ako je x ∈ Ω tada za sve i ∈ A(x?)

(∇ f (x?))i(x− x?)i ≥ σ|(x− x?)i|.

Page 83: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.2. Gradijentna metoda s projekcijom 82

Budući da je ‖x‖1 ≥ ‖x‖ vrijedi nejednakost

∇ f (x?)TPA(x?)(x− x?) ≥ σ‖PA(x?)(x− x?)‖,

što je i trebalo pokazati.

Iskazat ćemo teorem koji daje dovoljan uvjet, a sličan je pripadnom teoremuiz slučaja kada nemamo ograničenja.

Teorem 23. Neka je x? ∈ Ω nedegenerirana stacionarna točka problema (5.1). Neka je fdva puta diferencijabilna u okolini točke x? i pretpostavimo da je reducirani Hessijan u x?

pozitivno definitna matrica. Tada je x? rješenje problema (5.1) (stoga je i nedegeneriranilokalni minimum).

Dokaz. Neka je x ∈ Ω. Definirajmo funkciju φ s φ(t) = f (x? + t(x− x?)). Poka-zat ćemo tvrdnju tako da pokažemo da je

ili (i) φ′(0) > 0 ili (ii) φ′(0) = 0, φ′′(0) > 0.

Neka je e = x− x? i uočimo da je

φ′(0) = ∇ f (x?)Te = ∇ f (x?)T(PA(x?)e + PN (x?)e).

Stacionarnost točke povlači da ∇ f (x?)TPN (x?)e = 0.Ako je PA(x?)e 6= 0 tada nedegeneriranost povlači da je

∇ f (x?)PA(x?)e > 0

i stoga vrijedi (i).U suprotnom, ako je PAe = 0 tada je

φ′′(0) = (x− x?)TPN (x?) f ′′(x?)PN (x?)(x− x?) = (x− x?)T f ′′R(x?)(x− x?) > 0

stoga vrijedi (ii).

5.2 Gradijentna metoda s projekcijomU ovom poglavlju definirat ćemo algoritam gradijentne metode s projekcijomkoji je prirodna primjena gradijentne metode na problem uvjetne minimizacije.Ako imamo aproksimaciju xc tada je nova aproksimacija dana s

x+ = P(xc − α∇ f (xc)),

gdje je α duljina koraka određena algoritmom, slično kao u slučaju kada nemaograničenja. U ovom poglavlju, radi jednostavnosti zapisivanja, za α > 0 uvo-dimo x(α) koji označava sljedeću aproksimaciju ako je duljina koraka α. U slučajugradijentne metode imamo

x(α) = P(x− α∇ f (x)).

Page 84: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.2. Gradijentna metoda s projekcijom 83

Duljinu koraka α određivat ćemo iz uvjeta

f (x(α))− f (x) ≤ −cα ‖x− x(α)‖2. (5.3)

Pri određivanju duljine koraka potrebno je odrebiti najmanji prirodni broj m takoda vrijedi gornja nejednakost. Parametar c obično se stavlja na 10−4 [10].

Algoritam za gradijentnu metodu dan je sljedećim algoritmom.

Algorithm 5 Algoritam gradijentne metoda sa projekcijomIzabrati x0 ∈ Rn, B0 ∈ Rn×n

for i:= 1, . . . , nmax doizračunaj f i ∇ f ; provjeri zaustavni kriterijodredi najmanji prirodni broj m tako da vrijedi nejednakost (5.3) zaα = βm

x = x(α)end forif n = nmax i zaustavni kriterij nije zadovoljen thenIspiši: "Algoritam nije odredio zadovoljavajuću aproksimaciju";

end if

U nastavku ćemo uvesti zaustavni kriterij.

Zaustavni kriterijBudući da promatramo minimizaciju funkcije uz ograničenja, moramo prilago-diti zaustavni kriterij koji će uključiti ograničenja na odgovarajući način. Primi-jetimo da ∇ f ne mora biti nula prilikom rješavanja problema (5.1). Zaustavnikriterij koji se nameće u slučaju minimizacije funkcije s ograničenjima uključujerazliku x i x(1). Ako je razlika mala, onda možemo zaustaviti iterativni proces.Kako bismo potvrdili da je razlika x i x(1) dobra mjera za zaustavljanje, izvestćemo dovoljne uvjete koji potvrđuju opravdanost ovog zaustavnog kriterija.

Prisjetimo se oznake e = x − x?. Prvo ćemo iskazati pomoćni rezultat kojinam je potreban za dokaz teorema.

Lema 13. Neka je f dva puta neprekidno diferencijabilna na Ω i neka je x? nedegeneri-rana stacionarna točka problema (5.1). Neka je α ∈ (0, 1]. Tada za x dovoljno blizu x?

vrijedi

1. A(x) ⊂ A(x?) i (x)i = (x?)i za sve i ∈ A(x),2. A(x(α)) = A(x?) i (x(α))i = (x?)i za sve i ∈ A(x?).

Dokaz. Neka je δ1 = mini∈N (x?)

(Ui − (x?)i), (x?)i − Li, (Ui − Li)/2. Ako je i ∈N (x?) i ‖e‖ < δ1 tada Li < (x)i < Ui. Stoga,

N (x?) ⊂ N (x)

Page 85: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.2. Gradijentna metoda s projekcijom 84

čime smo dokazali tvrdnju da je A(x) ⊂ A(x?). Štoviše,kako je i ∈ A(x) ⊂A(x∗) (x)i = Li ili xi = Ui zbog činjenice da je

‖e‖ < δ1 ≤ min(Ui − Li)/2,

imamo (x)i = (x?)i za sve i ∈ A(x) čime smo dokazali tvrdnju 1.Neka je i ∈ A(x?). Prema Lemi 12 i zbog neprekidnosti od∇ f postoji δ2 tako

da ako je ‖e‖ < δ2. Tada

(∇ f (x? + e))i(x− x?)i > σ|x− x?|i/2.

Stoga, ako je‖e‖ < δ3 < minσ/2, δ2

tada je i ∈ A(x(α)) i (x(α))i = (x?)i, čime smo dokazali da jeA(x?) ⊂ A(x(α)).Stoga, treba još pokazati da A(x?) ⊃ A(x(α)).

Iz definicije od projekcije P imamo

‖P(x)−P(y)‖ ≤ ‖x− y‖

za sve x, y ∈ Rn. Budući da je ∇2 f neprekidna, postoji Lipschitzova konstantaL za ∇ f u Ω. Ako iskoristimo činjenicu da je x? stacionarna točka uz Teorem 22imamo

x? = x?(α) = P(x? − α∇ f (x?)).

Nadalje,

‖x? − x(α)‖ = ‖P(x? − α∇ f (x?))−P(x− α∇ f (x))‖≤ ‖e‖+ α‖∇ f (x?)−∇ f (x)‖≤ (1 + Lα)‖e‖. (5.4)

Ako bi postojao i ∈ A(x(α)) ∩N (x?), tada bi vrijedilo

‖x? − x(α)‖ ≥ δ1 = mini∈N (x?)

(Ui − (x?)i), ((x?)i − Li). (5.5)

Međutim, ako je

‖e‖ < δ4 = min(δ3, δ1/(1 + L)),

tada nejednakost (5.4) povlači da (5.5) ne može vrijediti, stoga je pretpostavka daje i ∈ A(x(α)) ∩N (x?) kriva. Znači, ako je i ∈ A(x(α)), onda je i ∈ A(x?) čimesmo dokazali obrnutu inkluziju.

Teorem 24. Neka je f dva puta neprekidno diferencijabilna na Ω, neka je x? nedegene-rirana stacionarna točka problema (5.1) i neka A(x?) nije prazan skup. Tada postoje δ iM tako da ako je ‖e‖ < δ i A(x) = A(x?) te vrijedi

‖e‖M ≤ ‖x− x(1)‖ ≤ M‖e‖.

Page 86: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.2. Gradijentna metoda s projekcijom 85

Dokaz. Neka je L Lipschitzova konstanta od ∇ f u Ω. Koristeći stacionarnostimamo

‖x− x(1)‖ = ‖e− (x(1)− x?(1))‖≤ ‖e‖+ ‖P(x−∇ f (x))−P(x? −∇ f (x?))‖≤ 2‖e‖+ ‖∇ f (x)−∇ f (x?)‖ ≤ (2 + L)‖e‖.

Stoga, uz konstantu M ≥ 2 + L desna nejednakost vrijedi.Kako bismo dokazali lijevu nejednakost primijenit ćemo Lemu 13. Neka je δ1

takav da je ‖e‖ < δ1, tada lema 13 vrijedi za α = 1. Pomoću leme dobivamo

(x− x(1))i =

(∇ f (x))i, ako je i ∈ N (x?)(ei) = 0, ako je i ∈ A(x?) .

Ostaje nam provjeriti slučaj kada je i ∈ N (x) = N (x?). Dovoljni uvjeti povlaćeda postoji µ > 0 tako da vrijedi

uTPN (x?)∇2 f (x?)PN (x?)u ≥ µ‖PN (x?)u‖2

za sve u ∈ Rn. Stoga postoji δ2 tako da je ‖e‖ < δ2. Tada vrijedi

uTPN (x?)∇2 f (x)PN (x?)u ≥ µ‖PN (x?)u‖2/2

za sve u ∈ Rn. Nadalje, budući da je e = PN (x?)e, imamo

‖PN (x?)(x− x(1))‖2 =∫ 1

0eTPN (x?)∇2 f (x? + te)e dt

=∫ 1

0eTPN (x?)∇2 f (x? + te)PN (x?)e dt

≥ µ‖PN (x?)e‖2/2.

Stoga vrijedi da je ‖x− x(1)‖ ≥ min1,√

µ/2‖e‖. Ako odaberemo M = max2+L, 1,

√2/µ, tada su zadovoljene obje nejednakosti.

Zaustavni kriterij definirat ćemo tako da u sebi sadrži relativnu i apsolutnumjeru stacionarnosti ‖x − x(1)‖. Neka je r0 = ‖x0 − x0(1)‖, a relativna i ap-solutna tolerancija neka su dane sa τr i τa, respektivno. Tada se u algoritmugradijentne metode s projekcijom za zaustavni kriterij uzima nejednakost

‖x− x(1)‖ ≤ τa + τrr0. (5.6)

Analiza konvergencijeZa razliku od analize konvergencije za standardnu gradijentnumetodu sadamo-ramo posebnu pažnju posvetiti ograničenjima. Analizu ćemo započeti lemom.

Page 87: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.2. Gradijentna metoda s projekcijom 86

Lema 14. Za sve x, y ∈ Ω

(y− x(α))T(x(α)− x + α∇ f (x)) ≥ 0.

Dokaz. Koristeći definiciju od P vidimo da je

‖x(α)− x + α∇ f (x)‖ ≤ ‖y− x + α∇ f (x)‖

za sve y ∈ Ω. To znači da je t = 0 lokalni minimum funkcije

φ(t) = ‖(1− t)x(α) + ty− x + α∇ f (x)‖2/2

vrijedi0 ≤ φ′(0) = (y− x(α))T(x(α)− x + α∇ f (x))

što je i trebalo pokazati.

Nejednakost iz prethodne leme obično ćemo koristiti u ekvivalentnoj formi

(x− x(α))T(y− x(α)) ≤ α∇ f (x)T(y− x(α)). (5.7)

Ako u prethodni izraz uvrstimo y = x dobit ćemo sljedeći korolar.

Korolar 3. Za sve x ∈ Ω i α ≥ 0 vrijedi

‖x− x(α)‖2 ≤ α∇ f (x)T(x− x(α)).

Može se pokazati da, ako za duljinu koraka koristimo nejednakost (5.3) uzpretpostavku o Lipschitz neprekidnosti, tada će duljina koraka biti pozitivan brojšto je preciznije pokazano sljedećim teoremom.

Teorem 25. Pretpostavimo da je∇ f Lipschitz neprekidna s Lipschitzovom konstantomL i neka je x ∈ Ω. Tada je nejednakost za određivanje koraka (5.3) zadovoljena za svakiα koji zadovoljava

0 < α ≤ 2(1−c)L .

Dokaz. Počet ćemo teoremom iz matematičke analize. Uzmimo da je y = x −x(α), tada imamo

f (x− y)− f (x) = f (x(α))− f (x) = −∫ 1

0∇ f (x− ty)Ty dt.

Nadalje vrijedi

f (x(α)) = f (x) +∇ f (x)T(x(α)− x)−∫ 1

0(∇ f (x− ty)−∇ f (x))Ty dt.

Nakon sređivanja prethodni izraz može se zapisati kao

α( f (x)− f (x(α))) = α∇ f (x)T(x− x(α)) + αE,

Page 88: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.2. Gradijentna metoda s projekcijom 87

gdje je E =∫ 1

0 (∇ f (x− ty)−∇ f (x))Ty dt. Ako iskoristimo Lipschitz neprekid-nost dobit ćemo

‖E‖ ≤ L‖x− x(α)‖2/2.

Nadalje imamo

α( f (x)− f (x(α))) ≥ α∇ f (x)T(x− x(α))− αL‖x− x(α)‖2/2.

Ako sada iskoristimo tvrdnju iz Korolara 3 dobit ćemo

α( f (x)− f (x(α))) ≥ (1− αL/2)‖x− x(α)‖2

iz čega slijedi tvrdnja teorema.

Prema oznakama iz algoritma za gradijentnumetodu s projekcijommožemozaključiti da će određivanje koraka biti zadovoljeno, ako ne prije, onda kada je

βm ≤ 2(1−c)L ≤ βm−1 ⇒ βm ≥ 2β(1−L)

L .

Stoga je donja granica za duljinu koraka

α = 2β(1−c)L . (5.8)

Teorem 26. Pretpostavimo da je∇ f Lipchitz neprekidna s konstantom L. Neka je xnniz generiran gradijentnom metodom s projekcijom. Tada je svaka točka limesa niza sta-cionarna točka.

Dokaz. Budući da je f (xn) padajući niz, a funkcija f ograničena je odozdo naΩ, f (xn) ima limes limk→∞ f (xk) = f ?. Zbog donje ograde za duljinu koraka(5.8) imamo

‖xn − xn+1‖2 ≤ α( f (xn)− f (xn+1))/c ≤ ( f (xn)− f (xn+1))/c → 0

kada n→ ∞.Neka je y ∈ Ω i n ≥ 0. Koristeći nejednakost (5.7) slijedi

∇ f (xn)T(xn − y) = ∇ f (xn)

T(xn+1 − y) +∇ f (xn)T(xn − xn+1)

≤ α−1n (xn − xn+1)

T(xn+1−y) +∇ f (xn)T(xn − xn+1).

Ponovno zbog donje ograde za duljinu koraka (5.8) imamo

∇ f (xn)T(xn − y) ≤ ‖xn − xn+1‖(α−1

n ‖xn+1 − y‖+ ‖∇ f (xn)‖), (5.9)∇ f (xn)

T(xn − y) ≤ ‖xn − xn+1‖(α−1‖xn+1 − y‖+ ‖∇ f (xn)‖). (5.10)

Ako xnl → x? kao podniz xn tada možemo pogledati limese u gornjim njed-nakostima (5.9-5.10) kada l → ∞ i time dokazati teorem.

Algoritam gradijentne metode s projekcijom ima važno svojstvo da, ako ko-nvergira nedegeneriranom lokalnom minimumu, tada je aktivni skup An od xnisti kao i A(x?) nakon konačno mnogo iteracija.

Page 89: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.3. Newtonova metoda s projekcijom 88

Teorem 27. Pretpostavimo da je f Lipschitz neprekidno diferencijabilna i da aproksima-cije xn dobivene gradijentnom metodom s projekcijom konvergiraju nedegeneriranomlokalnom minimumu x?. Tada postoji n0 tako da je A(xn) = A(x?) za sve n ≥ n0.

Dokaz. Neka je α donja ograda za duljinu koraka. Neka je δ takav da vrijedetvrdnje iz Leme 13 za sve α = α (stoga i za sve α ≥ α). Neka je n0 takav da je‖en‖ < δ za sve n ≥ n0 − 1, tada vrijede tvrdnje teorema.

Na kraju ovog poglavlja, budući da smo pripremili sve potrebne rezultate,dokazat ćemo Teorem 22:

Dokaz. Korolar 3 daje nejednakost

0 ≥ ‖x? − x?(α)‖2 ≤ α∇ f (x?)T(x? − x?(α)).

Ako u definiciju stacionarnosti uvrstimo x = x?(α) imamo

∇ f (x?)T(x? − x?(α)) ≤ 0

i stoga x? = x?(α).Kako bismo dokazali obrat, pretpostavimo da je x? = x?(α) za sve α ≥ 0.

To povlači da x? ostaje isti kada primijenimo gradijentnu metodu s projekcijom.Stoga je x? i stacionarna točka.

Definirajmo funkciju

F(x) = x−P(x−∇ f (x)).

Iz definicije aproksimacije x(α) imamo

F(x) = x− x(1).

Ako u Teorem 22 uvrstimo α = 1 dobit ćemo sljedeći korolar.

Korolar 4. Neka je f Lipschitz neprekidno diferencijabilna funkcija na Ω. Tada, ako jex? stacionarna, onda je F(x?) = 0.

5.3 Newtonova metoda s projekcijomPrvo ćemo definirati Aε(x), ε-aktivan skup u x sa

Aε(x) = i : Ui − (x)i ≤ ε ili (x)i − Li ≤ ε.

Slično kao u prethodnom poglavlju, neka se komplement skupa označava saN ε(x) i zvat ćemo ga ε-neaktivanim skupom.

Page 90: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.3. Newtonova metoda s projekcijom 89

Neka je dan ε takav da je 0 ≤ ε < min(Ui − Li)/2 : i = 1, 2, . . . , n, xc ihessijan u točki c (označen sa Hc) tadamožemo uvesti reducirani hessijanRc kaomatricu definiranu s

Rc = PAε(x)(xc) + PN ε(x)(xc)HcPN ε(x)(xc)

=

δij, ako je i ∈ Aε(xc) ili j ∈ Aε(xc)(Hc)ij, inače. .

Kada je važna eksplicitna ovisnost o xc, ε = εc, Hc reducirani hessijan označavatćemo saR(xc, εc, Hc).

Primijetimo da je ∇2R f (xc) = R(xc, 0,∇2 f (xc)).

Ako je početna iteracija x0 dovoljno blizu nedegeneriranom lokalnom mini-mumu x?, tada će Newtonova metoda s projekcijom raditi s korakom duljine 1,odnosno α = 1. Nadalje, ako se εn odabere pažljivo, tada će niz aproksimacijakonvergirati q-kvadratično ka x?.

Jedna preporuka za ε u n-tom koraku (εn) je [18]

εn = min‖xn − xn(1)‖, (Ui − Li)/2.Ako imamo aproksimaciju xc, ako je R(x, ε,∇2

R f (x)) simetrična pozitivnodefinitna matrica, tada je nova aproksimacija dobivena s Newtonovim algorit-mom s projekcijom dana s

x(α) = P(x + αp),

gdje je p dobiven kao rješenje sustava

R(x, ε,∇2R f (x))p = −∇ f (xc),

a α određuje duljinu koraka. Duljina koraka se određuje kao u slučaju kod gra-dijentne metode s projekcijom.

Može se pokazati da ako je 0 < ε < min(Ui − Li)/2 : i = 1, 2, . . . , n i akojeR(x, ε,∇2

R f (x)) simetrična pozitivno definitna matrica tada je

f (x(α)) < f (x),

za dovoljno mali α. Štoviše, u [18] je pokazano da je zadovoljen dovoljni uvjet

f (x(α))− f (x) ≤ −C∇ f (x)T(x− x(α)),

za dovoljno mali α.U sljedećem algoritmu dan je formalan opis Newtonovog algoritma s pro-

jekcijom. Napomenimo da ako je početna aproksimacija x0 daleko od x? i re-ducirani hessijan nije simetrična pozitivno definitna matrica tada odabir duljinekoraka (stoga i cjelokupni iterativni proces)može biti problem. Algoritam korističinjenicu da je

R(x, ε,∇2R f (x)) = R(x, ε,∇2 f (x))

koja slijedi iz činjenice da je A(x) ⊂ Aε(x).Sljedećim teoremom pokazat ćemo da, ako smo blizu minimuma, onda je

brzina konvergencije kao kod standardne Newtonove metode.

Page 91: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.3. Newtonova metoda s projekcijom 90

Algorithm 6 Newtonova metoda s projekcijomUlazni parametri: x, f , nmax, τ.for i:= 0, 1, . . . ,nmax do(a) izračunaj f i ∇ f ; provjeri zaustavni kriterij (5.6);(b) ε = ‖x− x(1)‖;(c) Izračunaj R = R(x, ε,∇2

R f (x)). Ako R nije simetrična pozitivnodefinitna matrica tada prekini optimizacijski proces;(d) Riješi sustavRp = −∇ f (xc);(e) odredi najmanji prirodni broj m tako da vrijedi nejednakost (5.3)za α = βm;(f) x = x(α).

end forif n = nmax i zaustavni kriterij nije zadovoljen thenIspiši: "Algoritam nije odredio zadovoljavajuću aproksimaciju";

end if

Teorem 28. Neka je x? nedegenerirani lokalni minimum. Ako je x0 dovoljno blizu x?

i A(x0) = A(x?) tada će Newtonova metoda sa projekcijom (uz εn = ‖xn − xn(1)‖)konvergirati kvadratičnom brzinom.

Dokaz. Naša je pretpostavka da je aktivni skup identificiran, odnosno

A(xc) = A(x+) = A(x?)

što povlači daPA(xc)ec = PA(xc)e+ = 0.

Stoga da bismo dokazali rezultat moramo procjeniti PN (xc)e+.Neka je

δ? = mini∈N (x?)

|(x)i −Ui|, |(x)i − Li| > 0.

Pogrešku e uzimamo tako da je

‖e‖ ≤ δ?/M,

gdje je M konstanta iz Teorema 24. Tada Teorem 24 možemo primjeniti da bismozaključili da je εc < δ? i ‖ec‖ < δ?. Tada svaki indeks i ∈ Aεc(xc) također morabiti i u A(xc) = A(x?).Stoga

Aεc(xc) = A(xc) = A(x?).

Iz čega slijedi da jeR(xc, εc,∇2

R f (xc)) = ∇2R f (xc).

Stoga za ‖ec‖ dovoljno mali, Newtonova metoda sa projekcijom daje

x+ = P(xc − (∇2R f (xc))

−1∇ f (xc)).

Page 92: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

5.3. Newtonova metoda s projekcijom 91

Koristeći fundamentalni teorem matematičke analize imamo

∇ f (xc) = ∇ f (x?) +∇2 f (xc)ec + E1, (5.11)

gdje je

E1 =∫ 1

0(∇2 f (x? + tec)−∇2 f (xc))ec dt

i tada je ‖E1‖ ≤ K1‖ec‖2 za neku konstantu K1 > 0.Iz nužnih uvjeta imamo

PN (x)∇ f (x?) = PN (x?)∇ f (x?) = 0. (5.12)

Iz činjenice da je N (xc) = N (x?) dobivamo ekvivalentne tvrdnje

ec = PN (xc)ec i PA(xc)ec = 0. (5.13)

Nadalje, uzimajući u obzir (5.11), (5.12) i (5.13) imamo

PN (xc)∇ f (xc) =PN (xc)∇2 f (xc)PN (xc)ec + PN (xc)E1

=PA(xc)ec + PN (xc)∇2 f (xc)PN (xc)ec + PN (xc)E1

=∇2R f (xc)ec + PN (xc)E1.

Sada koristeći definiciju od ∇2R dobivamo

PN (xc)(∇2R f (xc))

−1∇ f (xc) = (∇2R f (xc))

−1PN (xc)∇ f (xc) = ec + E2,

gdje je ‖E2‖ ≤ K2‖ec‖2 za neku konstantu K2 > 0.Budući da je PN (xc)Pw = PPN (xc)w za sve w ∈ Rn

PN (xc)x+ =PN (xc)P(xc − (∇2R f (xc))

−1∇ f (xc))

=PPN (xc)(xc − (∇2R f (xc))

−1∇ f (xc))

=P(x? − E2).

Stoga e+ ≤ K2‖ec‖2 što je i trebalo pokazati.

Page 93: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

POGLAVLJE6Metode direktnog traženja

U ovom poglavlju proučavat ćemometode direktnog traženja. To sumetode kojekreću od vrijednosti funkcije f u točkama koje su na početku zadane nakon čegase iz tih podataka određuje sljedeća točka u cilju minimizacije funkcije. Obraditćemo metode koje eksplicitno ne koriste aproksimaciju gradijenta.

6.1 Nelder-Mead algoritamNelder-Mead simpleks algoritam u pojedinom koraku algoritma formira sim-pleks S koji kao svoje vrhove sadrži aproksimacije oko optimalne točke. Sim-pleks, u N dimenzija, je geometrijska figura od N + 1 točke i svih spojnica točaka,poligonijalnih strana, itd... Na primjer u dvije dimenzije simpleks je trokut, a utri dimenzije tetraedar.

Kod Nelder-Mead simpleks algoritma vrhovi x1, x2, . . . , xN+1 su sortirani uodnosu na vrijednosti funkcije f , odnosno

f (x1) ≤ f (x2) ≤ · · · ≤ f (xN+1). (6.1)

x1 zovemo najboljim vrhom, a vrh xN+1 zovemo najlošijim vrhom. Ukoliko je vri-jednost funkcije u nekim vrhovima jednaka vrijednosti funkcije u x1 tada najboljivrh nije jedinstveno određen.

U danom koraku algoritma cilj je zamijeniti najlošiji vrh xN+1 sa novim vr-hom oblika

x(µ) = (1 + µ)x− µ xN+1, (6.2)

pri čemu je x centroid konveksne ljuske podataka (x)1, . . . , (x)N , odnosno

x = 1N

N

∑i=1

(x)i. (6.3)

92

Page 94: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

6.1. Nelder-Mead algoritam 93

Vrijednost µ se nalazi u sljedećim intervalima

−1 < µuk < 0 < µvk < µr < µe.

Vrijednost µ određuje kakav će se korak algoritma izvršavati danom koraku al-goritma. U sljedećem je algoritmu je opisano o kojim se koracima radi. Ovaformulacija algoritma dopušta kraj algortima ako je f (xN+1) − f (x1) dovoljnomalo (manje od unaprijed zadane tolerancije ε > 0) ili je broj pozivanja funkcijef prešao određeni, unaprijed zadani broj. Označimo ga sa kmax.

Jedan mogući odabir vrijednosti µ je

µr, µe, µvk, µuk = 1, 2, 1/2,−1/2 .

Slika 6.1 pokazuje moguće transformacije opisane u navedenom algoritmu u slu-čaju dvije dimenzije (N = 2). Vrhovi početnog simpleksa numerirani su sa 1, 2 i3.

Slika 6.1: Novi vrhovi kod Nelder-Mead simpleks algoritma

Za Nelder-Mead algoritam ne može se garantirati konvergencija, čak ni zaglatke funkcije. Međutim performanse Nelder-Mead algoritma u praksi su vrlodobre.

Slučaj kada Nelder-Mead algoritam ne konvergira je slučaj kada dolazi dostagnacije u neoptimalnoj točki. Tada je potrebno pokrenuti algoritam na novomskupu točaka pri čemu se od prijašnjih točaka zadrži jedino najbolja točka. Višeo kriteriju prepoznavanja stagnacije i algoritmima koji opisuju novi skup točakamože se naći u [18].

Page 95: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

6.1. Nelder-Mead algoritam 94

Algorithm 7 Algoritam NelderUlaz: S-početni simpleks, f , ε > 0, kmax

Izračunaj vrijednost funkcije f u vrhovima simpleksa S i sortiraj vrhovetako da vrijedi (6.1), fbr = N + 1while f (xN+1)− f (x1) > ε doIzračunaj x prema (6.3), x(µr) prema (6.2), fr = f (x(µr)), fbr = fbr + 1(a) Refleksija:if fbr = kmax then; exit; end ifif f (x1) ≤ fr < f (xN) thenzamijeni xN+1 sa x(µr) i idi na korak (f)

end if(b) Ekspanzija:if fbr = kmax then; exit; end ifif fr < f (x1) thenizračunaj fe = f (x(µe)), fbr = fbr + 1

end ifif fe < fr thenzamjeni xN+1 sa x(µe) ; else zamjeni xN+1 sa x(µr) i idi na korak (f)

end if(c) Vanjska kontrakcija:if fbr = kmax then; exit; end ifif f (xN) ≤ fr < f (xN+1) thenizračunaj fk = f (x(µvk)), fbr = fbr + 1

end ifif fk ≤ fr thenzamjeni xN+1 sa x(µvk) i idi na korak (f); else idi na korak (e)

end if(d) Unutarnja kontrakcija:if fbr = kmax then; exit; end ifif fr ≥ f (xN+1) thenizračunaj fk = f (x(µuk)), fbr = fbr + 1

end ifif fk < f (xN+1) thenzamjeni xN+1 sa x(µuk) i idi na korak (f); else idi na korak (e)

end if(e) Stezanje:if fbr ≥ kmax − N then, exit, end iffor i = 2, . . . , N + 1 do

xi = x1 − (xi − x1)/2, izračunaj f (xi), fbr = fbr + 1end for(f) Sortiraj vrhove od S tako da vrijedi (6.1)

end while

Page 96: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

6.2. MDS algoritam 95

6.2 MDS algoritamU cilju spriječavanja loše kondicije Nelder-Mead algoritma u MDS algoritmu(eng. multidirectional search) zahtjeva se da je novi simpleks konguentan po-laznom simpleksu.

Slika 6.2 pokazuje, u slučaju dimenzije 2, dva tipa simpleksa koji se pojavljujuu ovom algoritmu. Počevši sa uređenim simpleksom Sc s vrhovima x1, x2, x3 akoprimjenimo korak refleksije dobit ćemo simpleks Sr s vrhovima x1, r2 i r3. Ako jenajbolja vrijednost funkcije u vrhovima simpleksa Sr bolja od najbolje vrijednostif (x1) u S0 tada se Sr privremeno prihvaća i nastavlja se s korakom ekspanzije.Slika 6.2 pokazuje i korake ekspanzije te kontrakcije koji se koriste u algoritmu.

Korak ekspanzije u ovom slučaju razlikuje se od ekspanzije u Nelder-Meadalgoritmu jer se u MDS algoritmu dobiva N novih točaka, dobiva se veći sim-pleks koji je sličan polaznom. Simpleks dobiven ekspanzijom Se, na slici 6.2,ima vrhove x1, e2, e3 i prihvaća se umjesto simpleksa Sr ako je najbolja vrijednostfunkcije u vrhovima Se bolja od najbolje vrijednosti funkcije u vrhovima Sr.

U slučaju da najbolja vrijednost funkcije u vrhovima Sr nije bolja od najboljevrijednosti funkcije u vrhovima Sc tada se na simpleks primjenjuje korak kon-trakcije, a vrhove novog simpleksa označit ćemo sa x1, c2, c3. Nakon što je novisimpleks generiran vrhovi se numeriraju tako da je simpleks uređen. Kod novogsimpleksa vrhovi se ponovo urede, što nam daje novi simpleks S+.

x1

x1

x1 x2x

x2x

x3xx3x

c3c3

c2c2

e2

c2

e2

e2

e3

e3

Slika 6.2: Novi vrhovi kod MDS algoritma

Ako su vrhovi simpleksa Sc poznati, onda potreban broj dodatnih evaluacijada se izračuna S+ iznosi 2N.

Page 97: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

6.3. Powellova metoda u više dimenzija 96

Slično kao kod Nelder-Mead algoritma imamo parametre ekspanzije i kon-trakcije (µe i µk). Tipične vrijednosti tih parametara su 2 i 1/2.

6.3 Powellova metoda u više dimenzijaZa slučaj jednodimenzionalne minimizacije razvijene su razne metode, stoga uslučaju višedimenzionalne minimizacije mogu se generirati metode koje rješa-vaju problem višedimenzionalne minimizacije koristeći niz jednodimenzional-nih minimizacija. Različite metode razlikuju se u činjenici kako u svakom sli-jedećem koraku biraju smjer n u kojem traže minimum. Sve metode toga tipapodrazumijevaju postojanje "rutine" koja rješava problem jednodimenzionalneminimizacije.

U ovom poglavlju proučavat ćemo metode koje biraju uzastopne smjerovetako da eksplicitno ne računaju gradijent funkcije. Gore navereni algoritam jed-nodimenzionalne minimizacije može, ali ne mora koristiti gradijent, međutimako se gradijent koristi već u algoritmu jednodimenzionalne minimizacije bilo bipoželjno da se koristi i u odabiru smjerova.

Jednostavan primjer takvog odabira smjerova su jedinični kanonski vektori:e1, e2, . . . , eN . U tom će slučaju metoda, koristeći algoritam jednodimenzionalneminimizacije, prvo odrediti minimum u smjeru prvog smjera, tada iz dobivenetočke traži seminimumudrugom smjeru itd., kružeći po cijelom skupu smjerovasve dok se funkcija ne prestane smanjivati. Za velik broj funkcija ova metoda jedosta dobra, ali za određene funkcije ova metoda nije efikasna. U cilju dobivanjašto bolje metode cilj je odrediti smjerove koji će biti bolji od smjerova ei.

Metode koje se temelje na skupu smjerova sadrže pravilo kako kreiraju slje-deći smjer i njihov skup smjerova ili (i) sadrži pojedine smjerove koji vode mi-nimumu funkcije ili (ii) sadrži određeni broj smjerova koji se ne "podudaraju" sdodatim svojstvom da se može izbjeći beskonačno kruženje kroz smjerove.

U Powellovoj kvadratično konvergentnoj metodi kreira se N međusobno ko-njugiranih smjerova. Metoda je opisana sljedećom "osnovnom procedurom":

U navedenom algoritmu dolazi do izbacivanja vektora u1 u cilju dodavanjavektora PN − P0 time se dolazi do smjerova koji postaju linearno zavisni što jeproblem u navedenom algoritmu. Kada se to dogodi algoritam će odrediti mi-nimum funkcije f na nekom potprostoru N dimenzionalnog prostora što možerezultirati netočnim minimumom. Stoga se gore navedeni algoritam mora po-praviti.

U cilju izbjegavanja linearne zavisnosti kod Powellovog algoritma mogu sekoristiti sljedeće metode:

i) Može se napraviti ponovna inicijalizacija smjerova ui tako da im se pri-druže vektori ei nakon svakih N ili N + 1 iteracija osnovne procedure.

ii) Skup smjerova može se izjednačiti sa stupcima određene ortogonalne ma-trice. Umjesto da se postojeće informacije, vezane uz konjugirane smje-rove, odbace u ovom slučaju kreira se matrica čiji stupci nakon ortogona-lizacije čine nove smjerove.

Page 98: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

6.3. Powellova metoda u više dimenzija 97

Algorithm 8 Algoritam MDSUlaz: S-početni simpleks, f , ε > 0, kmax

Izračunaj vrijednost funkcije f u vrhovima simpleksa S i sortiraj vrhovetako da vrijedi (6.1), fbr = N + 1while f (xN+1)− f (x1) > ε do(a) Refleksija:if fbr = kmax thenexit

end iffor j = 2, . . . , N + 1 do

rj = x1 − (xj − x1), izračunaj f (rj), fbr = fbr + 1if f (x1) > minj f (rj) thenidi na korak (b)

elseidi na korak (c).

end ifend for(b) Ekspanzija:for j = 2, . . . , N + 1 do

ej = x1 − µe(xj − x1), izračunaj f (ej), fbr = fbr + 1end forif minj f (rj) > minj f (ej) thenfor j = 2, . . . , N + 1 do

xj = ejend for

elsefor j = 2, . . . , N + 1 do

xj = rjend for

end ifidi na korak (d)(c) Kontrakcija:for j = 2, . . . , N + 1 do

xj = x1 + µk(xj − x1), izračunaj f (xj), fbr = fbr + 1end forSortiraj vrhove tako da vrijedi (6.1)

end while

Page 99: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

6.3. Powellova metoda u više dimenzija 98

Algorithm 9 Algoritam jednodimenzionalna minimizacijaUlaz: vektori P i n, funkcija f

Odredi skalar λ koji minimizira f (P + λn)Zamjeni P sa P + λnZamjeni n sa λn

Algorithm 10 Powellov algoritam minimizacijeUlaz: početni smjerovi ui = ei, i = 1, . . . , N

Početnu poziciju označi sa P0for i = 1, . . . , N dopomakni Pi−1 u minimum po smjeru ui i dobivenu točku označi saPi;

end forfor i = 1, . . . , N − 1 do

ui = ui+1;uN = PN − P0pomakni PN uminimum po smjeru uN i dobivenu točku označi sa P0

end for

ii) Ovaj pristup nema svojstvo kvadratične konvergencije, ali cilj je pokušatipronaći nekoliko dobrih smjerova koji vode u minimum umjesto N nužnokonjugiranih smjerova. Osnovna ideja je modificirati Powellovu metodus tim da i dalje uzimamo novi smjer PN − P0. Promjena je u tome da od-bacujemo stari smjer u smjeru kojeg je funkcija imala najveći pad. Ta či-njenica čini se paradoksalnom, budući da je taj smjer bio najbolji u pret-hodnoj iteraciji. Međutim, to je vjerojatno glavna komponenta u novomsmjeru. Stoga, ako zaboravimo navedeni smjer izbjeći ćemo linearnu za-visnost. Postoje neke iznimke u toj osnovnoj metodi, a više o tome možese pronaći u [23].

Page 100: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

Literatura

[1] M.Alić, G.Nogo, Optimizacija: Uvod u teoriju nužnih i dovoljnih uvjeta eks-trema, Odjel za matematiku, Sveučilište u Osijeku, Osijek, 2004.

[2] M.Avriel,Nonlinear Programming: Analysis and Methods 2ed., Dover Publica-tions, Inc. Mineola, New York, 2003.

[3] M. S. Bazaraa, H.D. Sherali, C.M. Shetty,Nonlinear Programming. Theory andAlgorithms. 3rd Edition, Wiley, New Jersey, 2006.

[4] J. F. Bonnans, J.C. Gilbert, C. Lemaréchal, C.A. Sagastizábal, Numerical Op-timization. Theoretical and Practical Aspects, Springer-Verlag, Berlin, 2006.

[5] S. Boyd, L. Vandenberghe, Convex Optimization, Cambridge UniversityPress, New York, 2004.

[6] R. P. Brent, Algorithms for Minimization without Derivatives, Dover Publicati-ons, New York, 1973.

[7] Broyden, A class of methods for solving nonlinear simultaneous equation, Math.Comput., 19(1965), 577-593

[8] W.C.Davidon, Variable metric method for minimization, Rep. ANL-5990 Rev,Argonne National Laboratories, Argonne, Ill., 1959.

[9] V. F.Demjanov, F. P. Vasilev, Nedifferenciruemaja optimizacija, Nauka, Mo-skva, 1981.

[10] J. E.Dennis, Jr, R. B. Schnabel,Numerical Methods for Unconstrained Optimiza-tion and Nonlinear Equations, SIAM, Philadelphia, 1996

[11] J. E.Dennis Jr., J. J.More, Quasi-Newton methods, motivation and theory, SIAMReview, 19(1977), 46-89

[12] Douglas N. Arnold, A Concise Introduction to Numerical Analysis, Sc-hool of Mathematics, University of Minnesota, Minneapolis, MN 55455,http://umn.edu/ arnold/

99

Page 101: RudolfScitovski NinoslavTruhar ZoranTomljanović · 2013. 3. 2. · Uvod 3 Primijetitetakođerdajedovoljnorazmatratiproblemtraženjalokal-nog,odnosnoglobalnogminimumanekefunkcije

Literatura 100

[13] P. E.Gill, W.Murray and M.H.Wright, Practical Optimization, AcademicPress, 1981

[14] J. B.Hiriart-Urruty, C. Lemaréchal, Fundamentals of Convex Analysis,Springer-Verlag, Berlin - Heidelberg, 2001.

[15] F. Jarre, J. Stoer Optimierung, Springer Verlag, Berlin Heidelberg, 2004.

[16] D. Jukić, R. Scitovski, Metode optimizacije – predavanja, Tuzla, 2005.

[17] D.Kincaid,W.Cheney, Numerical Analysis, Brooks/cole Publishing com-pany, New York, 1996.

[18] C. T. Kelley, Iterative Methods for Optimization, SIAM, Philadelphia, 1999

[19] P. Lancaster, K. Šalkauskas, Curve and Surface Fitting: An Introduction, Aca-demic Press, London, 1986.

[20] J.M.Ortega,W.C. Rheinboldt, Iterative Solution of Nonlinear Equations in Se-veral Variables, Academic Press, New York, 1970. (postoji i ruski prijevod)

[21] R. Plato, Concise Numerical Mathematics, Providence: American Mathemati-cal Society, 2003.

[22] B.N.Psheniyniı, Yu.M.Danilin, Chislennye metody v ekstremaljnyh zadac-hah, Nauka, Moskva, 1975

[23] W.H. Press, B. P. Flannery, S.A. Teukolsky, W. T.Vetterling, NumericalRecipes¸in C, Cambridge University Press, Cambridge, 1989

[24] W. Rudin, Principles of Mathematical Analysis, McGraw-Hill, New York, 1953

[25] A. Ruszczynski, Nonlinear Optimization, Princeton University Press, Prince-ton and Oxford, 2006

[26] R. Scitovski, Numerička matematika, Odjel za matematiku, Sveučilište u Osi-jeku, Osijek, 2004

[27] R. Scitovski, Š.Ungar, D. Jukić, Approximating surfaces by moving total leastsquares method, Applied Mathematics and Computation 93(1998) 219-232

[28] J. Stoer, R. Bulirsch, Introduction to Numerical Analysis, Springer-Verlag, NewYork, 1993

[29] F. P. Vasiljev, Lekcii po metodam resheniya ekstremalnyh zadach, Moskov-ski univerzitet, Moskva, 1974.

[30] S.Wolfram, The Mathematica Book, Wolfram Media, Champaign, 2011.

[31] S. Zlobec, J. Petrić, Nelinearno programiranje, Naučna knjiga, Beograd, 1989.