skriptum-or2011
TRANSCRIPT
-
5/28/2018 Skriptum-OR2011
1/116
Einfuhrung in dieMathematik des Operations Research
Ulrich Faigle
Skriptum zur Vorlesung
Sommersemester 2011Universitat zu Koln
Universitat zu Koln
Mathematisches Institut
Weyertal [email protected]
www.zaik.uni-koeln.de/AFS
-
5/28/2018 Skriptum-OR2011
2/116
Inhaltsverzeichnis
Kapitel 0. Notationen und Terminologie 3
1. Lineare Algebra 3
2. Ordnungsrelationen 5
3. Topologie 6
4. Mathematische Optimierungsprobleme 8
Kapitel 1. Lineare Theorie 11
1. Lineare Funktionale, Polyeder, Konvexitat 11
2. Die Stutzfunktion 13
3. Stutzpunkte und Seitenflachen 16
4. Dualitat und Kegel 19
Kapitel 2. Lineare Ungleichungen und die Struktur von Polyedern 25
1. Zeilen- und Spaltenoperationen 25
2. Elimination nach Fourier-Motzkin 25
3. Die Struktur von Polyedern 31
Kapitel 3. Optimalitatsbedingugen 41
1. Notwendige Bedingung 41
2. Strafmethoden und Lagrangefunktion 46
3. Lagrange-Dualitat 54
4. Barrieremethoden 57
Kapitel 4. M ethoden der Linearen Programmierung 59
1. Rationale lineare Programme 59
2. Die Methode innerer Punkte (IPM) 62
3. Die Ellipsoidmethode 68
4. Die Simplexmethode 76
Kapitel 5. Unimodulare lineare Programme 89
1. Unimodulare und total unimodulare Matrizen 89
2. Total unimodulare lineare Programme 93
3. Zirkulationen und das MAX-Flow-MIN-Cut-Theorem 97
4. Kombinatorische Optimierung 101
Kapitel 6. Schnittebenenverfahren und Heuristiken 105
1
-
5/28/2018 Skriptum-OR2011
3/116
2 INHALTSVERZEICHNIS
1. Schnittebenen 105
2. Heuristische Verfahren 111
3. Enumeration 1134. Relaxierung 114
-
5/28/2018 Skriptum-OR2011
4/116
KAPITEL 0
Notationen und Terminologie
1. Lineare Algebra
Fur beliebige MengenR und Nnotiert man die Menge aller AbbildungenvonN nachR so:
RN =
{f :N
R
}.
Fur f RN und i N setzt man auch fi = f(i) und nennt fi die iteKoordinatevonf.
Besonders anwendungsrelevant sind die Skalarbereiche R = N, R = Z,R = Q oderR = R, wo man die Elemente (Funktionen) inRN koordina-tenweise miteinander addieren und mit Skalaren mutliplizieren kann.
Im FallN= {1, . . . , n} schreibt man oft kurz:Rn =RN.1.1. Vektoren und Matrizen. Die Elemente von Rn heissenn-dimen-
sionale Parametervektoren. Im Skriptum wird ein solches x Rn typi-scherweise fettnotiert und alsSpaltenvektorverstanden:
x=
x1...
xn
(xi R).
AlsZeilenvektorwird der Parametervektor meistens transponiert notiert:
xT = [x1, . . . , xn].
0= [0, . . . , 0]T ist derNullvektor. Wenn der formale Unterschied zwischenSpalten- und Zeilenvektor nicht so wichtig ist, wird ein Parametervektor
auch mit runden Klammern notiert:
x= (x1, . . . , xn).
Rmn ist die Menge aller(m n)-Matrizen. EinA = [aij] Rmn kannman entweder alsn-Tupel vonm-dimensionalen SpaltenvektorenAj oderalsm-Tupel vonn-dimensionalen ZeilenvektorenAi auffassen:
[A1, . . . , An] =
a11 . . . a1n... ...
am1 . . . amn
=A1...
Am
3
-
5/28/2018 Skriptum-OR2011
5/116
4 0. NOTATIONEN UND TERMINOLOGIE
FurA = [a1, . . . , an] Rmn undx = [x1, . . . , xn]T Rn notiert man dieentsprechende Linearkombination der Spaltenvektoren als
Ax= x1a1+ . . . + xnan=n
j=1
xjaj.
Fury Rm istyTA= (ATy)T die analoge Linearkombination der Zeilen-vektoren vonA.
Ist B = [b1, . . . , bk] Rnk eine weitere Matrix, so kann man das folgendeMatrixprodukt bilden:
AB= [Ab1, . . . , Abk] Rmk.
1.2. Analytische Geometrie. Rn kann man auch als Menge der Koor-dinatenvektoren einesn-dimensionalen
Universums von
Punkten anse-
hen. Geometrische PunkteP, Qkann man
eigentlich nicht addieren oder
subtrahieren. Die Differenz QPder entsprechenden Koordinatenvektorenist aber mathematisch sinnvoll. Man fasst
P Q= Q P
dann als einen Vektor auf, der eine
Wirkung beschreibt, die den Ortszu-
standPin den OrtszustandQverandert.
1.3. Affine und lineare Teilraume. Ein Hyperebene in Rn ist eine
Teilmenge der Form
H= {x Rn | aTx= b} (a Rn \ {0}, b R).EinaffinerTeilraum A ist ein Durchschnitt von Hyperebenen. Insbesondere
ist Rn ein affiner Teilraum. Aus der linearen Algebra weiss man:
LEMMA 0.1. F ur eine beliebige nichtleere Teilmenge S Rn sind dieAussagenaquivalent:
(0) Sist ein affiner Teilraum.(1) Es gibt einm N und eine MatrixA Rmn und einen Vektor
b Rm
so dassS= {x Rn
| Ax= b}.(2) Es gibt Vektorenv0, v1, . . . , vk Rn so, dass
S= {v0+k
i=1 ivi| i R}.(3) F ur beliebigeu, v Sund Skalare R gilt:
z= u + (1 )v S.
Ein affiner Teilraum A heisstlinearim Fall0 A.
-
5/28/2018 Skriptum-OR2011
6/116
2. ORDNUNGSRELATIONEN 5
2. Ordnungsrelationen
2.1. Koordinatenordnung. Fur Vektorenx = [x1, . . . , xn]T
undy =[y1, . . . , yn]T schreibt man
x y xi yi furallei = 1, . . . , nund
x< y xi < yi furallei = 1, . . . , n.
NOTA BEN E: Bei dieser Ordnungsrelation gibt es (im Fall n 2) immerVektorena, b Rn, die nicht miteinander vergleichbar sind, d.h.
a b und b a.2.2. Lexikographische Ordnung. x ist lexikographisch kleiner(Nota-
tion:x y) alsy, wenn es einen Index1 ngibt mit der Eigenschaftx < y und xj =yj fur allej < .
LEMMA0.2. F ur beliebigea, b Rn gilt genau eine der drei Aussagen:(0) a= b(1) a
b
(2) b a.
2.3. Mengenoperationen.
2.3.1. Minkowski-Summe. Man kann Mengen im Rn z.B. folgender-
massen addieren. Die Minkowski-Summeder TeilmengenS, T Rn ist dieTeilmenge
S+ T = {s + t | s S, t T} Rn.
Im Spezialfall einer einelementigen MengeT ={
t}
erhalt man dieTrans-
lationvonSum den Vektort:
S+ t= S+ {t} = {s + t | s S}.
LEMMA0.3. Die Minkowski-Summe zweier affiner Teilr aume in Rn ist sel-
ber ein affiner Teilraum.
-
5/28/2018 Skriptum-OR2011
7/116
6 0. NOTATIONEN UND TERMINOLOGIE
2.3.2. Koordinatenprojektionen. SeiN ={1, . . . , n} und =I N.Furx
RN bezeichnet xIdie Restriktion vonx auf die Koordinaten inI.
In einer etwas lockeren (aber bequemen) Schreibweise haben wir dann:
x= xN=
xIxJ
mitJ=N\ I.
Diese Schreibweise ist auch vorteilhaft bei allgemeiner Matrixnotation:
Ax= ANxN=AIxI+ AN\IxN\I.
(Hier istAI naturlich die Restriktion vonA auf dieIentsprechenden Spal-ten.)
Fur beliebiges S Rn erhalten wir die Projektion I(S) vonS auf dieKoordinatenmenge Ials die Menge
I(S) = {xI| x S} RI.
BEISPIEL0.1. SeiI= {2, 3, . . . , n}. Dann gilt f urS Rn:I(S) = {(x2, x3, . . . , xn) | x1 R : (x1, x2, x3, . . . , xn) S}.
3. Topologie
Sei(xk)eine Folge von Vektoren xk R. Wir schreibenxk x bzw. x= lim
kxk,
wenn(xk)(komponentenweise) gegenx Rn konvergiert. Bzgl. dereukli-dischen Norm
x =
xTx=
x21+ . . . + x2n
kann man das auch so ausdrucken:
xk
x
xk
x
2
0.
Eine MengeS Rn heisst abgeschlossen, wenn fur jede Folge (xk) mitxk Sgilt:
xk x = x S.S istbeschrankt, wenn es eine Schrankec >0 mit der Eigenschaft
x c x Sgibt. Eine beschrankte und abgeschlossene MengeS Rn istkompakt.
-
5/28/2018 Skriptum-OR2011
8/116
3. TOPOLOGIE 7
3.1. Stetigkeit. Eine Funktionf : S R heisst stetig, wenn fur allex
Sund Folgen(xk)mit xk
Sgilt:
xk x = f(xk) f(x).Aus der Analysis weiss man:
LEMMA 0.4. Sei = S Rn kompakt undf : S R stetig. Dannexistieren Punkte (Vektoren)xmin, xmax Smit der Eigenschaft
f(xmin) f(x) f(xmax) f ur allex S.
Quadratische und lineare Funktionen. Offenbar sind Summen und Pro-dukte stetiger Funktionen wieder stetig. Also ist insbesondere jedequadra-
tischeFunktionf : Rn R, d.h. Funktion mit der Darstellung
f(x1, . . . , xn) =n
i=1
nj=1
aijxixjn
k=1
ckxk
fur geeignete skalare Koeffizienten aij undck, stetig. Im Fall aij = 0 furallei, j heisst eine quadratische Funktionlinear.
In Matrixschreibweise kann man mit A= [aij] Rnn die Funktion fauchso notieren:
f(x) = xTAx cTx.3.2. Gradienten und Differenzierbarkeit. Sei S Rn eine offene
Menge,f :S R eine Funktion undx0Sein Punkt, wo alle partiellenAbleitungen von f existieren. Dann bezeichnet man den (Zeilen-)Vektorder partiellen Ableitungen
f(x0) =
f(x0)
x1, . . . ,
f(x0)
x1
als denGradientenvonfan der Stellex0.
Sind die partiellen Ableitungen x
f(x)/xj
stetige Funktionen (und
somitx f(x) eine stetige vektorwertige Funktion aufS), dann kannman in jedem Punkt x0 zu jedem d Rn (mit den Komponenten dj) dieRichtungsableitungvonfmit Hilfe der Kettenregel berechnen:
df(x0) = limt0
f(x0+ td) f(x0)t
=n
j=1
f(x0)
xjdj = f(x0)d.
-
5/28/2018 Skriptum-OR2011
9/116
8 0. NOTATIONEN UND TERMINOLOGIE
BEISPIEL0.2. SeiA = [aij] Rnn eine symmetrische Matrix. Dann istdie quadratische Funktion
x f(x) = xTAx=n
i=1
nj=1
aijxixj
aufRn stetig differenzierbar und hat den Gradienten
f(x) = 2xTA=
ni=1
2ai1xi, . . . ,n
i=1
2ainxi
.
4. Mathematische Optimierungsprobleme
Ein
Optimierungsproblem ist im allgemeinen umgangssprachlich nicht
so prazise formuliert, dass man es ohne weiteres mathematisch analysieren
(und losen) kann. Es muss zuallerst in ein
mathematisches Optimierungs-
problem umformuliert werden.
Zu einem mathematischen Optimierungsproblemgehoren:
(1) eine Menge (der sog.Zul assigkeitsbereich);(2) eine MengeW(der sog.Wertebereich) und ausserdem eine Funk-
tionf : W (die sog.Zielfunktion), welche die Elemente desZulassigkeitsbereichs bewertet.
In dieser Vorlesung nehmen wir meist an:
W = R und Rn (fur ein geeignetesn).Die Optimierungsaufgabe ist dann so ausgedruckt:
max
f() oder min
f().
Um mit uberhaupt rechnerisch umgehen zu konnen, muss der Zulassig-
keitsbereich numerisch spezifiziert werden. Oft sucht man dazu Funktionen
gi : Rn R (i I), wobeiIeine geeignete (endliche oder unendliche)
Indexmenge ist, mit der Eigenschaft
=
{x
Rn
|gi(x)
0
i
I
}.
Die Funktionen gi(x) heissen in diesem Fall Restrikitionsfunktionen unddas mathematische Optimierungsproblem wird dann z.B.
maxxRn
f(x) s.d. gi(x) 0 i= 1, . . . , m .Die Forderungengi(x) 0sind die sog.Nebenbedingungendes Problems.BEMERKUNG.Die Formulierung eines Optimierungsproblems aus dem Anwen-
dungsbereich als mathematisches Optimierungsproblem ist im allgemeinen auf
-
5/28/2018 Skriptum-OR2011
10/116
4. MATHEMATISCHE OPTIMIERUNGSPROBLEME 9
sehr viel verschiedene Arten moglich. Es ist nicht immer klar, welches
die be-
ste ist.
BEISPIEL0.3. Es gibtn Objekte mit Gewichtena1, . . . , an. Es sollen mog-lichst viele Objekte gewahlt werden, deren Gesamtgewicht die gegebene
Schrankeb aber nicht uberschreiten darf.
1. Formulierung: Repr asentiere die Objekte mit(0, 1)-Variablen xi undder Zielfunktion
f(x1, . . . , xn) =x1+ . . . + xn =n
i=1
xi
und erhalte
maxn
i=1
xi s.d.n
i=1
aixi bx1, . . . , xn {0, 1}.
2. Formulierung:
maxxRn
ni=1
xi s.d.n
i=1
aixi bxi(1 xi) = 0 (i= 1, . . . , n).
In dieser Formulierung hat man2n + 1viele auf dem gesamten Rn differen-
zierbare Restriktionsfunktionen (und damit entsprechend viele Nebenbedin-gungen):
g0(x1, . . . , xn) =( n
i=1
aixi b
gi(x1, . . . , xn) = +xi(1 xi) (i= 1, . . . , n)hi(x1, . . . , xn) = xi(1 xi) (i= 1, . . . , n).
-
5/28/2018 Skriptum-OR2011
11/116
-
5/28/2018 Skriptum-OR2011
12/116
KAPITEL 1
Lineare Theorie
1. Lineare Funktionale, Polyeder, Konvexitat
Eine skalarwertige Funktionf : Rn R ist ein Funktional. Eine vektor-wertige Funktion f : Rn Rm besteht aus m Komponentenfunktionenfi: R
n
R, die selber Funktionale sind:
f(x) =
f1(x)...
fm(x)
.
Ein lineares Funktional aufRn ist (bekanntlich) von der Form
f(x1, . . . , xn) =c1x1+ . . . + cnxn=cTx
fur einen geeigneten Koeffizientenvektorc = (c1, . . . , cn) und ist eine ste-tige Funktion. Also gilt fur jedesz Rn:
H(c, z) :={xRn | cTx= z}= f1(z)ist eine abgeschlosse-ne Menge.
P(c, z) :={x Rn | cTx z} = f1(, z] ist eine abge-schlossene Menge.
f1(z, ) = {x Rn | cTx> z} ist eine offene Menge.
1.1. Halbraume und Polyeder. Im Fall c= 0 ist H(c, z) eine Hy-perebene, P(c, z) ist ein (abgeschlossener) Halbraum. f1(z, ) ist einoffener Halbraum.
BEMERKUNG. Vereinbarungsgemass werden der gesamte Raum Rn
= P(0, 0)und die leere Menge =P(0, 1)als triviale Halbraumemitgezahlt.
Geometrische Terminologie. Ein affiner Raum ist ein Durchschnitt von
endlich vielen Hyperebenen. Auch Rn = H(0, 0) wird als affiner Raumbetrachtet.
Ein Polyeder ist ein Durchschnitt von endlich vielen Halbraumen. So sind
z.B. Rn und insbesondere Polyeder.11
-
5/28/2018 Skriptum-OR2011
13/116
12 1. LINEARE THEORIE
Algebraische Terminologie.Ein affiner Raum ist die Losungsmenge eines
linearen Gleichungssystems
a11x1 + a12x2 + . . . + a1nxn = b1a21x1 + a22x2 + . . . + a2nxn = b2
... ...
am1x1 + am2x2 + . . . + amnxn = bm
In Matrixnotation mit A = [aij] Rmn und b Rm notieren wir denaffinen Losungsraum auch als
H(A, b) := {x Rn | Ax= b} =m
i=1H(aTi, bi),
wobei dieaTi die Zeilenvektoren der MatrixA sind.
Analog erhalten wir ein Polyeder als Losungsmenge eines endlichen linea-
ren Ungleichungssystems
a11x1 + a12x2 + . . . + a1nxn b1a21x1 + a22x2 + . . . + a2nxn b2
... ...
am1x1 + am2x2 + . . . + amnxn bmWir notieren das Polyeder entsprechend auch als
P(A, b) := {x Rn | Ax b} = mi=1
P(aTi, bi).
BEMERKUNG.Aus der linearen Algebra weiss man, dass ein unendliches linearesGleichungssystem in n Variablen xjimmer zu einem endlichen linearen Teilsystemaquivalent ist (d.h. denselben Losungsraum hat).
Vorsicht:Bei unendlichen linearen Ungleichungssystemen ist diesnichtnotwen-
digerweise der Fall !!!
1.2. Konvexitat. Eine MengeS
Rn istkonvex, wenn gilt
x, y S x + (1 )y S fur alle reellen Paramter0 1.
Man macht sich leicht klar (Beweis?):
Jeder Halbraum des Rn ist konvex. Beliebige Durchschnitte konvexer Mengen ergeben eine konvexe
Menge.
Da ebensolches auch fur
abgeschlossen gilt, finden wir:
-
5/28/2018 Skriptum-OR2011
14/116
2. DIE STUTZFUNKTION 13
Beliebige Durchschnitte von Halbr aumen ergeben konevexe abge-schlossene Mengen. Insbesondere ist jedes Polyeder konvex und
abgeschlossen.
Zur Illustration betrachen wir ein (moglicherweise unendliches) lineares
Ungleichungssystem:
a11x1 + a12x2 + . . . + a1nxn b1a21x1 + a22x2 + . . . + a2nxn b2
... ...
... ...
... ...
... ...
am1x1 + am2x2 + . . . + amnxn bm...
... ...
... ...
... ...
...
Die Losungsmenge des Systems besteht aus all den Parametervektorenx Rn, die jede einzelne dieser Ungleichungen erfullen, also aus denjenigen
x, die im Durchschnitt samtlicher entsprechender Halbraume liegen. Wir
sehen:
Die Losungsmenge eine beliebigen linearen Ungleichungssystemsmit n Variablen bildet eine konvexe abgeschlossene Teilmenge deseuklidischen Raums Rn.
BEMERKUNG. Die Losungsmengen beliebiger linearer Ungleichungssysteme sind
nicht notwendigerweisePolyeder. Hier liegt der entscheidende Unterschied zur li-nearen Algebra:
Zu jedem n-dimensionalen linearenGleichungssystem gibt es ein endliches Teilsy-
stem mit demselben Losungsraum. Bei linearenUngleichungssystemen ist das aber
nicht immer der Fall.
2. Die Stutzfunktion
SeiS Rn eine gegebene Menge. Wir untersuchen nun Optimierungspro-bleme mit linearer Zielfunktion. Das sind Probleme vom Typ
(1) maxxS cT
x (mitc Rn
).
Wir interessieren uns fur die Optimalwerte und betrachten dazu die sog.
Stutzfunktion(S, ) : Rn R := R {, +} vonS, wobei
(S, c) :=
wennS= supxS
cTx sonst,
-
5/28/2018 Skriptum-OR2011
15/116
14 1. LINEARE THEORIE
BEISPIEL1.1 (Minkowskisummen). Minkowskisummation von Mengen re-
flektiert sich einfach in der Summation der St utzfunktionen:
(S+ T, c) = sup{cT(s + t) | s S, t T}= sup
sScTs + sup
tTcTt
= (S, c) + (T, c).
Allgemein setzen wir weiter
S0 := {c Rn | (S, c)< }= {c Rn | sTc (S, c)< s S}
und
S := {x Rn | cTx (S, c) c Rn}= {x Rn | cTx (S, c) c S0}.
Aus der Definition ersieht man sofort:
S0 undSsind Losungsmengen linearer Ungleichungssysteme undfolglich konvex und abgeschlossen.
Ausserdem gilt fur alle TeilmengenS, T Rn:S
T =
S
S
T und T0
S0.
Mengen dieses Typs spielen eine zentrale Rolle in der Optimierungstheorie.
Insbesondere fur die (spater noch zu diskutierende) diskrete Optimierung ist
die folgende einfache Beobachtung von enormer Wichtigkeit.
LEMMA1.1. (S, c) =(S, c)f ur allec Rn.
Beweis. WegenS Sgilt sicher(S, c) (S, c). Andererseits gilt (nach derDefinition!)
cTx (S, c) fur allex Sund deshalb(S, c) (S, c).
2.1. Der Fundamentalsatz.
SATZ 1.1 (
Fundamentalsatz). SeiS Rn nichtleer undc Rn. Dannist das Optimierungsproblem
maxxS
cTx
-
5/28/2018 Skriptum-OR2011
16/116
2. DIE STUTZFUNKTION 15
entweder nach oben unbeschrankt oder es existiert ein x S mit derEigenschaft
cTx = supxS
cTx= (S, c).
Beweis. Sei 0 ={(x0,x) Rn+1 | x S, x0 = cTx} der Graph der Funk-tionf(x) = cTx.0 ist eine abgeschlossene Menge (Beweis?). Wir nehmen dasOptimierungsproblem als beschrankt an und setzen
:= supx0
x0= (S, c)< .
Betrachten wir nun die Projektion von0 aufR:
0:= {x0| (x0, x1, . . . , xn) 0} R.
0ist als Projektion des Graphen der linearen Funktion
f(x
)abgeschlossen (Be-
weis?). Ausserdem ist0nicht leer, da es (nach Annahme) einen Parametervektorx 0 gibt. Also ist
0= 0 [x0, ]eine kompakte Menge und enthalt somit das Element
x = supx00
x0= (d.h. 0 = [x0,
]).
Folglich existiert einx SmitcTx =.
2.2. Der Trennungssatz. SeiS
Rn beliebig undy /
S. Dann gibt
es einc Rn mit der Eigenschaft(i) cTy> (S, c).
(ii) cTx (S, c)fur allex S(d.h.S P(c, (S, c))).In diesem Sinntrenntdie Hyperebene
H(c, (S, c)) = {x Rn | cTx= (S, c)}den Punkty von der MengeS. Nach dem Fundamentalsatz existiert ausser-dem einx SmitcTx = (S, c). Wegen seiner grundlegenden Bedeu-tung formulieren wir diesen Zusammenhang als Satz.
SATZ 1.2 (
Trennungssatz). Sei S
=
undy
Rn
\S ein beliebiger
Punkt. Dann existiert ein Vektorc Rn und der Punktx Sderart, dass(i) cTy> cTx, d.h. y / P(c, cTx).
(ii) cTx cTx f ur allex S, d.h. S P(c, cTx).
SATZ 1.3. S ist die kleinste konvexe und abgeschlossene Menge, die Senthalt.
-
5/28/2018 Skriptum-OR2011
17/116
16 1. LINEARE THEORIE
Beweis. Sei Sdie kleinste konvexe abgeschlossene Menge, die S enthalt. Danngilt S
S (denn Durchschnitte von konvexen und abgeschlossenen Mengen sind
immer konvex und abgeschlossen). Ausserdem ist sicherlich ist die Aussage desSatzes im FallS= richtig (denn es gilt ja: = = ).Nehmen wir also S= an und unterstellen, dass ein y S\ S existiert. Wirwollen diese Unterstellung zu einem Widerspruch fuhren. Dazu wahlen wir ein
R >0 so gross, dass
SR = {x S| y x R} = .Die Funktionf(x) = x y ist stetig und SRkompakt (warum?). Also existierteinx S, dasf(x)minimiert und wir haben
0 z >cTx fur allex S.Insbesondere gilt z >0 (wegen 0 S). OBdA durfen wir z= 1annehmen. (Sonstdividieren wir c und z durch z und erhalten ein c und z = 1, die genausogutfunktionieren.)
Daraus folgt aber c Spol und deshalb cTy 1 (wegen y (Spol)pol). Das istein Widerspruch zucTy> z= 1.
UBUNG 1.4. Zeigen Sie an einem Beispiel, dass die Aussage von Satz 1.4
im Fall0 / Sfalsch ist.
-
5/28/2018 Skriptum-OR2011
21/116
20 1. LINEARE THEORIE
4.1. Kegel. Wir nennen eine MengeK Rn einenKegel, wenn gilt(K0) 0
K.
(K1) x Kfur allex Kand Skalare >0.
LEMMA1.3. SeiK Rn ein Kegel. Dann giltKpol =K
Insbesondere istKpol =K ein konvexer abgeschlossener Kegel.
Beweis. Wir beoachten zunachst, dass bei einem KegelKimmer gilt:
(K, c) 0, dann kamen wir zu einem Widerspruch:
lim+
cT(x) = (cTx) lim+
= +.
Also finden wir
Kpol = {c Rn | cTx (K, c)} = {c Rn | cTx 0 x K} =K.
FOLGERUNG:
(S) ist der kleinste konvexe und abgeschlossene Kegel, der Senthalt.
Der KegelKist genau dann konvex und abgeschlossen, wennK= (K).
4.1.1. Rezessionskegel. DerRezessionskegeleiner Menge =S Rnist die Menge
RK(S) := {y Rn | S+ y S 0}.
PROPOSITION 1.2. Sei = S Rn die Losungsmenge eines (endlichenoder unendlichen) linearen Ungleichungssystems
Ax b ai1x1+ ai2x2+ . . . + ainxn bi (i I).Dann ist der Rezessionskegel vonSgleich der Menge aller Losungen deszugeordneten homogenen Systems:
RK(S) = {y Rn | Ay 0} =A.
-
5/28/2018 Skriptum-OR2011
22/116
4. DUALITAT UND KEGEL 21
Beweis. Offenbar gilty + S Sfur jedesy A. Umgekehrt bedeutetz / AT,dassz (mindestens) eine Ungleichung
ai1z1+ ai2z2+ . . . + ainzn> 0
provoziert. Sei nunx Sirgendeine zulassige Losung vonAx b. Dann giltai1(x1+ z1) + ai2(x2+ z2) + . . . + ain(xn+ zn)> bi,
wenn . Also hat manz / RK(S).
SATZ 1.5. SeiS Rn konvex und abgeschlossen. Genau dann istSunbe-schr ankt, wenn der Rezessionskegel vonSnichttrivial ist.
Beweis. OBdaA nehmen wirS=
an. Existiert einy
RK(S)mity
=0, dann
istSunbeschrankt, dennSenthalt (per Definition) die Halbgeraden
{x + y| 0} fur allex Sundy RK(S).Sei umgekehrtS unbeschrankt und (xk) eine Folge von Elementen xk S mitxi . Wir schreiben diexk in der Form
xk = idk mit k 0 und dk = 1.und somitk . Sei
Ax b ai1x1+ ai2x2+ . . . + ainxn bi (i I)ein Ungleichungssystem mitSals Losungsmenge. GiltAdk 0 fur mindestenseink , dann ist ein nichttriviales Element im Rezessionskegel gefunden. Andern-falls betrachten wir die Parameter
k := supiI
ai1dk1+ ai2dk2+ . . . + aindkn.
und den Limes d := limk dk, dessen Existenz wir oBdA annehmen durfen(warum?). Wegenk + undAxk bmuss gelten:
limk
k = 0 und folglich Ad 0.Also giltd RK(S). Wegen d = 1ist RK(S)also nichttrivial.
BEISPIEL1.4 (Lineare Gleichungssysteme). Losungsbereiche linearer Glei-chungssysteme sind Spezialf alle von Losungsbereichen linearerUngleichungssysteme:
ai1x1+ . . . + ainxn=bi
ai1x1+ . . . + ainxn biai1x1 . . . ainxn bi
Auf diesen Spezialfall angewendet, besagt Satz 1.5, dass ein lineares Glei-
chungssystemAx= b einen beschr ankten Losungsbereich hat, wenn gilt
ker A= {y Rn | Ay= 0} =A = {0}.
-
5/28/2018 Skriptum-OR2011
23/116
22 1. LINEARE THEORIE
4.2. Endlich erzeugte konvexe Mengen und Kegel. Seien a1, . . . , amRn beliebige Vektoren. Wir bezeichnen mit conv(a1, . . . , am)die Menge al-
ler Vektorenz der Form
z=mi=1
yiai mity1, . . . , ym 0undmi=1
yi= 1.
Die Linearkombination z selber ist eine sog. Konvexkombination der Vek-
torena1, . . . , am.
BEMERKUNG. In der Wahrscheinlichkeitsrechnung bezeichnet man einen
Parametervektor y = (y1, . . . , ym)mit nichtnegativen Komponentenyi 0und Komponentensumme1 als eineWahrscheinlichkeitsverteilung. In die-ser Interpretation kann man die Konvexkombination
z=mi=1
yiai
als den Erwartungswertder Vektorenai bzgl. der Wahrscheinlichkeitsver-
teilungy ansehen.
Mit cone(a1, . . . , am)bezeichnen wir die Menge aller nichtnegativer Line-arkombinationen (das sind die sog. konischen Linearkominationen) , d.h.
aller Vektorenz der Form
z=m
i=1 yiai mity1, . . . , ym 0.Allgemeiner definiert fur beliebiges S Rn man die konvexe H ulle conv(S)als die die kleinste konvexe Menge, dieSenthalt:
conv(S) :=
{K Rn | Kkonvex undS K}.Da jede konvexe Menge auch alle ihre Konvexkombinationen enthalten
muss ist conv{a1, . . . , am}, wie oben definiert, sicherlich die kleinste kon-vexe Menge, die a1, . . . , amenthalt. Die allgemeine Begriffsbildung ist alsokonsistent.
ABE R: WennS Rn unendlich ist, ist die konvexe Menge conv(S) nichtnotwendigerweise abgeschlossen (Beispiel?).Unsere bisherige Analyse zeigt:
LEMMA1.4. Sei A Rmn die Matrix mit den mZeilenvektoren aTi . Danngilt
(i) cone(AT) = {x Rn | Ax 0} =P(A, 0) =A.(ii) P(A, 0)ist einpolyedrischerKegel (d.h. ein Polyeder, das gleich-
zeitig ein Kegel ist).
-
5/28/2018 Skriptum-OR2011
24/116
4. DUALITAT UND KEGEL 23
Wir werden spater (genauer: im nachsten Kapitel) beweisen, dass konvexeMengen vom Typ conv(S) und cone(S) sogar Polyeder sind, wenn |S| < garantiert werden kann.
Polytope. Wir nennen eine konvexe Menge
P= conv(S) mitS Rn endlicheinPolytop. Polytope werden sich als in der Optimierungstheorie besonders
wichtige Polyeder erweisen.
BEISPIEL 1.5 (Symmetrische und positiv semidefinite Matrizen). Wir be-
trachten eine quadratische MatrixX = [xij]
Rnn als einen Vektor mit
n2 Komponenten xijund k onnen soRnn mitRn2 identifizieren. Xist genau
dann symmetrisch, wenn das endliche lineare Gleichungssystem
(2) xij xji = 0 (1 i < j n)erf ullt wird. Die Menge der symmetrischen Matrizen bildet also einen kon-
vexen und abgeschlossenen polyedrischen Kegel (tatsachlich sogar einen
linearern Teilraum), n amlich genau die L osungsmenge des (endlichen) li-
nearen Systems (2).
Eine symmetrische MatrixX = [xij] Rnn heisstpositiv semidefinit,wenn f ur alle Parametervektorena Rn gilt:
(3) aTXa=n
i=1
nj=1
aiajxij 0.
Auch die Menge aller positiv semidefiniten Matrizen ist ein konvexer und
abgeschlossener Kegel als die Losungsmenge des aus (2) und (3) zusam-
mengesetzten unendlichen linearen Systems aber im allgemeinen nicht
polyedrisch.
-
5/28/2018 Skriptum-OR2011
25/116
-
5/28/2018 Skriptum-OR2011
26/116
KAPITEL 2
Lineare Ungleichungen und die Struktur von Polyedern
Wir betrachten in diesem Kapitel endliche lineare Ungleichungssysteme
und deren Losungsmengen (d.h. Polyeder). Wir erinnern daran, dass linea-
re Gleichungssysteme als Spezialfalle linearer Ungleichungssysteme aufge-
fasst werden konnen.
MAN BEACHTE:Ein lineares Ungleichungssystem Ax b lasst allerdingssich typischerweisenichtmit dem Gaussschen Algorithmus losen!
1. Zeilen- und Spaltenoperationen
SeiA Rmn eine Matrix. Wendet man die fundamentalen Operationender linearen Algebra auf die Zeilenvektoren von A an, so spricht man vonelementaren Zeilenoperation. Sie sind:
Multiplikation eines ZeilenvektorsaTi mit einem Skalaryi= 0; Addition eines ZeilenvektorsaTi zu einem ZeilenvektoraTi .
Bekanntlich lasst sich eine elementare Zeilenoperation algebraisch als Pro-dukt P A mit einer (von links multiplizierten) invertierbaren MatrixP be-schreiben. Das Produkt APT (mit der von rechts multiplizierten transpo-nierten MatrixPT) beschreibt die analoge elementare Spaltenoperation.
Unter einem(r, k)-Pivotverstehen wir die Folge von elementaren Zeilen-operationen:
(1) Dividiere eine Zeiler durchark;(2) Subtrahiere das aik-fache der neuen Zeile rvon denubrigen Zeilen
i =r.
NOTAB EN E:Genau im Fallark= 0ist ein(r, k)-Pivot durchf uhrbar.
2. Elimination nach Fourier-Motzkin
Die Methode von Fourier-Motzkin zur Losung linearer Ungleichungssyste-
me beruht auf folgender Beobachtung. Zwei Ungleichungen vom Typ
(4) (+1)x1 + a12x2 + . . . +a1nxn b1
(1)x1 + a22x2 + . . . +a2nxn b225
-
5/28/2018 Skriptum-OR2011
27/116
26 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN
sindaquivalent zu
(5) b2+n
j=2
a2jxj x1 b1 n
j=2
a1jxj.
Ausserdem ist die Ungleichung
(6) b2+n
j=2
a2jxj b1 n
j=2
a1jxj.
aquivalent zur Summe der Ungleichungen in (4):
(7)
nj=2
(a1j+ a2j)xj b1+ b2.
LEMMA2.1. Die Losungen von (4) erhalt man folgendermassen:
Man bestimme eine L osung(x2, . . . , xn)f ur (7)und erganze diese mit einemx1, das (5) erf ullt.
Insbesondere ist (4) genau dann losbar, wenn (7) losbar ist.
Die Idee ist nun, nach der Variablen x1der Reihe nach dieubrigen Variablenx2, . . . , xnzu eliminieren. Am Ende erweist sich dann das System entwedertrivialerweise als unlosbar, weil man einen Widerspruch
0 b
-
5/28/2018 Skriptum-OR2011
28/116
2. ELIMINATION NACH FOURIER-MOTZKIN 27
Wir dividieren die Ungleichungen inI+Ijeweils durch |ai1| >0. Damiterhalten wir dasaquivalente System
(9)
(+1)x1 +n
j=2
asjxj bs (s I+)
(1)x1 +n
j=2
atjxj bt (t I)n
j=2
aijxj bi (i I0)
und bemerken
(10) maxtI( bt+
nj=2
atjxj x1 minsI+ (bs
nj=2
asjxj
Nun ersetzen wir die Ungleichungen in I+I durch alle Summen vonPaaren und erhalten das System
(11)
nj=2
(asj+ atj)xj bs+ bt (s I+, t I)n
j=2
aijxj bi (i I0)
SATZ2.1. (x1, . . . , xn)ist genau dann eine Losung von (8), wenn gilt
(i) (x2, . . . , xn)l ost das lineare System (11);(ii) x1genugt der Bedingung (10).
BEMERKUNG.Die Bestimmung vonx1 aus einer Losung(x2, . . . , xn) von (11)
gemass (10) heisstR ucksubstitution.
Zur Losung des Ungleichungssystems (8) kann man nun so vorgehen:
(1) Man eliminiert der Reihe nach die Variablenx1, . . . , xn;(2) Das Endsystem erkennt man entweder trivialerweise als unzulassig
oder zulassig. Im zulassigen Fall gelangt man vom Endystem der
Reihe nach durch Rucksubstitutionen zu einer Losung von (8).
Mit der Methode von Fourier-Motzkin kann man im Prinzip jedes endliche
lineare Ungleichungssystem in endlich vielen Schritten losen. Allerdings ist
das Verfahren in der Praxis oft sehr ineffizient. Denn:
In einem Eliminationsschritt kann (beimUbergang von (9) zu (11))die Anzahl der Ungleichungen sehr stark wachsen!
-
5/28/2018 Skriptum-OR2011
29/116
28 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN
BEMERKUNG. Wie der Gausssche Algorithmus beruht auch das FM-Verfahren
auf elementaren Zeilenoperationen: Addition von 2 Ungleichungen und Multipli-
kation einer Ungleichung mit einem Skalar. Allerdings werden bei der skalarenMultiplikation (im Gegensatz zum Gauss-Verfahren) nur positiveSkalare zugelas-
sen.
2.1.1. Das Erf ullbarkeitsproblem. Wir rechnen uber dem Zahlbereich
{0, 1} mit den Operationen 0 10 0 11 1 1
0 10 0 01 0 1
0 1
1 0
EineBoolesche Funktionist eine Funktion :{0, 1}n {0, 1}. Es ist be-kannt, dass eine Boolesche Funktion (x1, . . . , xn) in einer sog. konjuktivenNormalform(KNF) dargestellt werden kann:
(x1, . . . , xn) =mi=1
Ci,
wobei dieKlauselnCi die Form haben
Ci= ai1y1 . . . ainyn mitaij {0, 1} undyi {xi, xi}.
BEISPIEL2.1. (x1, x2, x3) = (x1 x2) (x1 x2 x3) x3.
ERF ULLBARKEITSPROBLEM: Man entscheide, ob die per KNF gegebene
Boolesche Funktion den Wert 1 annehmen kann. Das heisst: Kann eineBelegung der Variablen gefunden werden derart, dass jede KlauselCi denWert1 annimmt?
Das Problem kann man mit Ungleichungssystemen modellieren. In der Klau-
selCi=ai1y1+ . . . ainynersetzen wirxj durch1 xj und haben dann dasProblem: Gibt es eine Losung mit ganzahligenxj {0, 1} derart, dass
ai1y1+ . . . ainyn 1 ?
BEISPIEL2.2. SeiC = x2 x5 x7. Dann istC erf ullbar, wenn es eineganzzahlige(0, 1)-Losung der Ungleichung
x2+ (1 x5) + x7 1 x2+ x5 x7 0gibt.
-
5/28/2018 Skriptum-OR2011
30/116
2. ELIMINATION NACH FOURIER-MOTZKIN 29
Das Erfullbarkeitsproblem fragt also nach einer ganzahligen(0, 1)-Losungdes aus allen Klauseln gebildeten Ungleichungssystems.
2-SAT: Das Erfullbarkeitsproblem fur Boolesche Funktionen in KNF, bei
denen jede Klausel hochstens2 Variablen enthalt.
2-SAT kann mit dem FM-Verfahren effizient(!) gelost werden. Um das ein-
zusehen, betrachten wir das folgende typische Beispiel:
BEISPIEL2.3 (Resolvente).
C1 = xk xsC2 = xk xlC = xs xl
xk xs 1xk xl 0
xs xl 1C ist die sog. Resolvente der KlauselnC1 undC2. Offensichtlich sindC1undC2 genau dann gleichzeitig erf ullt, wenn ihre ResolventeC erf ullt ist.Im Ungleichungssystem entsprichtCder Summe der aus C1undC2gewon-nenen Ungleichungen.
MAN ERKENNT: Die Resolventenbildung resultiert in einer Klausel mit
hochstens 2 Variablen. Insgesamt sind aber sicher nicht mehr als 2n2 sol-cher Klauseln uberhaupt moglich.
PROPOSITION 2.1. Wendet man das FM-Verfahren auf ein 2-SAT-Problemmitn Variablen an, so werden insgesamt h ochstens 2n2 verschiedene Un-
gleichungen erzeugt.
BEMERKUNG.Fur das allgemeine Erfullbarkeitsproblem ist beim gegenwartigen
Stand der Wissenschaft kein effizienter Losungsalgorithmus bekannt.
2.1.2. Das Lemma von Farkas. Nehmen wir an, wir hatten das FM-
Verfahren auf das Ungleichungssystem
Ax bangewandt und alle Variablen eliminiert. Dann haben wir insgesamt auf der
linken Seite den Nullvektor als nichtnegative Linearkombination der ZeilenvonA erzeugt. Ist y 0 der zugehorige Koeffizientenvektor, dann habenwir die Situation
yTAx= 0Tx yTb.Genau im Fall yTb < 0 liegt eine Widerspruchlichkeit vor. Das heisst:Ax berweist sich als unlosbar.Daraus folgt die Aussage des Farkas-Lemmas:
-
5/28/2018 Skriptum-OR2011
31/116
30 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN
LEMMA 2.2 (Farkaslemma). Auf das lineare UngleichungssystemAxbtrifft genau eine der Aussagen zu:
(I) Ax bbesitzt eine zulassige Losungx;(II) Es gibt einen Koeffizientenvektory mit den Eigenschaften
y 0, yTA= 0T undyTb< 0.
2.2. Gultige und implizierte Ungleichungen. Man sagt, eine (lineare)
UngleichungcTx zgiltfur die MengeS (bzw. wird von der MengeSimpliziert), wenn gilt
cTs z fur alles S,d.h. wennSganz im HalbraumP(c, z)enthalten ist.
BEISPIEL2.4. Sei Ax b ein lineares Ungleichungssystem mitA Rmnundy Rm+ ein beliebiger nichtnegativer Koeffizientenvektor. Wir setzencT := yTA und wahlen ein beliebigesz cTb. Dann istcTx zgultigf urP(A, b). (Beweis?)
Ein fur die allgemeine (auch nichtlineare!) Optimierungstheorie (enorm!)
wichtige Charakterisierung implizierter Ungleichungen folgt aus dem Far-
kaslemma:
SATZ 2.2. Sei = S = P(A, b). Genau dann istcT
x zvonAx bimpliziert, wenn einy 0existiert mit der EigenschaftcT = yTA und yTb z.
Beweis. Eine Richtung der Behauptung folgt aus Beispiel 2.4. Zum Beweis der
anderen Richtung nehmen wir an,cTxz sei impliziert, aber es gebe keiny derbehaupteten Art. Dann ware das folgende System unlosbar:
ATy cATy c
Iy 0bTy z.
Es gibt also (nach Farkas) nichtnegative Vektoren u,v,w 0 und einen Skalar 0derart, dass
uTAT vTAT wT + bT = 0TuTc vTc wT0 + z < 0.
Mitx := v ufolgt daraus:Ax b und cTx> z
-
5/28/2018 Skriptum-OR2011
32/116
3. DIE STRUKTUR VON POLYEDERN 31
und somit = 0. (Sonst wurde Division durch > 0 ja zeigen, dass die Unglei-chung cTx
z gar nicht vonAx
b impliziert ist!) Das bedeutet aber anderer-
seits auchx =0.
Sei nun x P(A,b). Dann gilt auch x +tx P(A,b) fur jedest 0. Dassteht aber im Widerspruch der Gultigkeit voncTx z:
limt
cT(x + tx) = cTx + (cTx) limt
t= > z.
BEMERKUNG. In der Literatur wird auch die Aussage von Satz 2.2 als
Farkas-
lemma bezeichnet.
3. Die Struktur von Polyedern
3.1. Endlich erzeugte Kegel und Polytope. Aus dem FM-Verfahrensleiten wir zunachst ab, dass Projektionen von Polyedern wieder Polyeder
sind.
SeiN ={1, . . . , n} die Menge der Indizes des betrachteten Koordinaten-raums und S N eine feste Teilmenge. Zu einem gegebenen x RNbezeichnen wir mitxSdie Einschrankung vonx auf die Koordinaten inS.
IstX RN eine beliebige Teilmenge, so nennen wir die MengeXS= {xS| x X} RS
dieProjektionvonXauf den Koordinatenraum RS.
LEMMA2.3 (
Projektionslemma).Die ProjektionPSeines beliebigen Po-lyedersP RN ist ein Polyeder.
Beweis. Sei P die Losungsmenge des UngleichungssystemsAx b. Wir ver-suchen, dieses mit dem FM-Verfahren zu losen und eliminieren zuerst die Va-
riablen xi mit Index i N\ S. Dann ist PS ={xS | x P(A,b)} genaudie Losungsmenge des vom FM-Verfahren bis dahin berechneten Ungleichungssy-
stems Ax b, d.h.PS=P(A,b).
Wir beweisen nun die fundamentale Aussage, dass endlicherzeugte konve-
xe Kegel und konvexe Mengen immer Polyeder sind.
SATZ2.3. SeiV = {v1, . . . , vk} Rn eine endliche Menge. Dann gilt(a) Die Menge cone(V) aller konischen Linearkombinationen ist ein
Polyeder.
(b) Die Mengeconv(V)aller Konvexkombinationen ist ein Polyeder.
-
5/28/2018 Skriptum-OR2011
33/116
32 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN
Beweis. Wir zeigen (a). (Die Behauptung (b) beweist man ganz analog.) Sei
P =cone(V) = {k
i=1
ivi| 1, . . . , k 0}.
Wir bezeichnen mitIdie Einheitsmatrix und bilden die Matrix V = [v1, . . . ,vk]mit den Spaltenvektorenvi. Nun betrachten wir die MengePaller (n + k)-dimen-sionalen Vektoren(z,x) Rn+k derart, dass
(12) Iz Vx = 0
x 0P ist Losungsmenge eines linearen Systems und somit ein Polyder. Pist die Pro-
jektion vonPauf diez-Koordinaten und folglich auch ein Polyeder.
NOTA BEN E. Mit dem FM-Verfahren kann man eine Matrix B berechnenmit der Eigenschaft
cone(V) =P(B, 0),
indem man einfach die x-Variablen aus dem System (12) eliminiert. Ganz
analog ergibt sich aus dem FM-Verfahren eine Matrix Cund ein Vektorbmit der Eigenschaft
conv(V) =P(C, b).
BEMERKUNG.Offen ist die Suche nach einer algorithmisch effizienteren Metho-
de als das FM-Verfahren zur Berechnung einer Darstellung
cone(V) =P(B, 0) bzw. conv(V) =P(C,b).
Mit Hilfe des Projektionslemmas lasst sich ebenso zeigen:
PROPOSITION 2.2. Die Minkowskisumme S = P +Q zweier beliebigerPolyederP, Q Rn ist selber ein Polyeder in Rn.
Beweis. Ubung.
3.2. Der Darstellungssatz von Weyl-Minkowski. Wir betrachten ein
beliebiges Polyeder P, das sich als Losungsmenge eines endlichen Systemsvon linearen UngleichungenaTi x bi (mit IndexmengeI) schreiben lasst:
P = {x Rn | aTi x bi, i I}.Wir betrachten zuerst den Spezialfall
0 Pund folglichbi 0fur allebi I.
-
5/28/2018 Skriptum-OR2011
34/116
3. DIE STRUKTUR VON POLYEDERN 33
Dividieren wir nun im Fallbi>0 die entsprechende Ungleichung durchbi,so erhalten wir einPdefinierendes System von Ungleichungen aTi x
bi
mitbi {0, +1} es gibt also MatrizenA, B derart, dass
P = {x Rn |
AB
x
1
0
},
wobei1 = (1, 1, . . . , 1)T. Wir erinnern an die Polare:
Spol = {x Rn | sTx 1fur alles S}.IstSendlich, so stellen wir unsST als die Matrix mit den ZeilenvektorensT vor und erkennen dann die Polare als Polyeder
Spol =P(ST, 1).
LEMMA2.4. Sei Pein Polyeder undA undBMatrizen mit der Eigenschaft
P = {x | Ax 1, Bx 0}.Dann ist die Polare von Pdie Minkowskisumme des von den ZeilenvektorenvonA und dem Ursprung 0 bestimmten Polytops und des von den Zeilen-vektoren vonB erzeugten konvexen Kegels:
Ppol =conv(AT, 0) +cone(BT)
Insbesondere istPpol ein Polyeder (da die Minkowskisumme von Polyedernnach Proposition 2.2 immer ein Polyeder ergibt).
Beweis. Ein Vektor c liegt in Ppol genau dann, wenn die Ungleichung cTx 1von dem linearen System
AB
x 1
0
impliziert wird. Das ist genau dann der Fall, wenn es Vektoren y, z 0 gibt mitder Eigenschaft
cT =yTA + zTB und yT1 1.WegenATy conv(AT,0)und BTz cone(BT)folgt dann
c Ppol c conv(AT,0) +cone(BT).
-
5/28/2018 Skriptum-OR2011
35/116
34 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN
3.3. Der Dekompositionssatz.
SATZ 2.4 (Weyl-Minkowski). Genau dann ist eine nichtleere Menge PRn ein Polyeder, wenn es endliche MengenV, W Rn gibt mit der Eigen-schaft
(13) P =conv(V) + cone(W).
Beweis. Da conv(V)und cone(W)Polyeder sind, ist deren Minkowskisumme einPolyeder. Die Bedingung ist also hinreichend. Wir beweisen die Notwendigkeit
und nehmen oBdAP= an.Wir betrachten zuerst den Fall0 P. Dann kannP in der Form
P =
{x
|Ax
1, Bx
0
}ausgedruckt werden. Nach Lemma 2.4 istQ= Ppol ein Polyeder und wir findenP = (Ppol)pol =Qpol.
Wiederum aus Lemma 2.4 schliessen wir nun, dassPals Minkowskisumme einerendlich erzeugten konvexen Menge und eines endlich erzeugten konvexen Kegels
ausgedruckt werden kann.
Im Fall 0 / P wahlen wir irgendein t P und betrachten die Translation (Min-kowskisumme)
P =P+ {t}.Wegen0
Pgibt es endliche MengenV undWderart, dass
P =conv(V) +cone(W).
Nun verifiziert man leicht furV =V + {t} undW =W:P =conv(V) +cone(W).
Aus dem Dekompositionssatz folgt sofort eine wichtige Charakterisierung
von Polytopen:
KOROLLAR2.1. Ein PolyederP Rn ist genau dann ein Polytop, wennP beschr ankt ist.
Beweis. Wir nehmenP =conv(V) + cone(W)an. Ist nunP beschrankt, so kannWkeinen Vektor w=0 enthalten. Daraus folgt die Darstellung
P =conv(V) + {0} =conv(V),diePals Polytop erweist. Umgekehrt macht man sich leicht klar, dass ein Polytopnicht nur ein Polyeder ist sondern auch beschrankt sein muss (Beweis?).
-
5/28/2018 Skriptum-OR2011
36/116
3. DIE STRUKTUR VON POLYEDERN 35
3.4. Dualitat von Darstellungen. Der Satz von Weyl-Minkowski zeigt,
dass ein PolyederPzwei zueinander duale Sichtweisen erlaubt:
IMPLIZIT: P ist Losungsmenge eines endlichen linearen Ungleichungs-
systemsAx b;EXPLIZIT: Pist die Menge aller Vektoren (bzw. Punkte), die von den
endlichen MengenV undW gemass (13) erzeugt werden.
Die Situation verallgemeinert damit die bei linearen oder affinen Teilraum-
enA Rn bekannte. Einerseits istALosungsmenge eines linearen Glei-chungssystems Ax = b. Andererseits gibt es eine endliche Menge S ={s1, . . . , sk} derart, dass A die Menge aller affinen Linearkombinationen
x= 1s1+ . . . + ksk mitk
i=1
i= 1
ist. Die Umrechnung von einer Darstellung zur anderen ist im linearen/af-
finen Fall effizient moglich (z.B. mit dem Gauss-Verfahren).
NOTAB EN E. Im linearen (und affinen) Fall sind alle minimalen Erzeugendensy-
steme (Basen) gleichmachtig.Bei Ungleichungssystemen ist dies nicht notwendi-
gerweise so!
Im allgemeinen Fall ist die Umrechnung nicht so einfach moglich. Wie der
Beweis des Dekompositionssatzes zeigt, ist im Prinzip eine Umrechnung
mit Hilfe des Fourier-Motzin-Verfahrens erreichbar. Diese Methode ist aber
nicht effizient. Ein effizienter Algorithmus fur das Umrechnungsproblem ist
nicht bekannt.
Zur Illustration betrachten wir ein lineares Optimierungsproblem
max cTx s.d Ax bmit dem Optimalwert < (P(A, b, c)< +. Haben wir die Darstel-lung
P(A, b) =P =conv(V) +cone(W),
so erhalten wir fur die Stutzfunktion(P(A, b), c) = (conv(V), c) + (cone(W), c) =(conv(V), c)
= (V , c) =(V, c)
= maxvV
cTv.
FOLGERUNG:
Im FallV= ist jede Eckex vonP inV enthalten.
-
5/28/2018 Skriptum-OR2011
37/116
36 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN
(Denn: Die lineare Funktion f(x) = cTx, welche die Seitenflache F =
{x
}bestimmt, wird ja in einem Element vonV optimiert.)
3.5. Ecken von Polyedern. Wir betrachten ein PolyederP =P(A, b)in der Darstellung von Weyl-Minkowski:
P =conv(V) + cone(W).
und nehmen an, dassV nichtleer ist. (Den FallV = untersuchen wir imnachsten Abschnitt 3.5.1.) Wir wissen dann schon, dass die Ecken von P inder MengeVenthalten sind. Also genugt es, sich auf Polytope zuruckzu-ziehen und dort die Frage nach den Ecken zu untersuchen.
SATZ 2.5 (Ecken von Polyedern). SeiV
=
eine minimale Menge mit der
EigenschaftP =P(A, b) = conv(V) +cone(W)
Dann istVgenau die Menge der Ecken vonP.
Beweis. Wir durfen oBdA P = conv(V) annehmen. Wir haben schon gesehen,dass im Fall V = alle Ecken von P in V enthalten sind. Sei nun umgekehrtv V undV =V\ {v}. Wir setzen
P = conv(V).
Aus der Minimalitat von V folgt nun P = Pund insbesondere v / P (Be-weis?). Der Hauptsatz uber abgeschlossene konvexe Mengen garantiert somit eine
Hyperebene, die v vonP trennt. D.h. es gibt einen Parametervektor c mit denEigenschaften
cTx >cTv fur allev V.v ist somit der einzige Punkt in P, derf(x) = cTx uberP maximiert. Folglichistv eine Ecke vonP.
KOROLLAR2.2. Jedes Polytop ist die konvexe Hulle seiner Ecken.
3.5.1. Spitze Kegel. Wir betrachten nun den Fall eines polyedrischen
KegelsK=cone(W) =P(A, 0),
wobei A Rmn eine geeignete Matrix ist. Wegen (K, c) {0, +}ist klar, dass0Kder einzige Kandidat fur eine Ecke ist. Wir nennenKspitz, wenn0 tatsachlich eine Ecke ist.
SATZ 2.6. Der polyedrische KegelK Rn ist genau dann spitz, wenn Kkeinen nichttirivialen linearen Teilraum von Rn enthalt.
-
5/28/2018 Skriptum-OR2011
38/116
3. DIE STRUKTUR VON POLYEDERN 37
Beweis. IstKspitz, so gibt es ein c Rn derart, dass gilt:cTx< 0 fur allex
K
\ {0}
.
Dann kann K keinen nichttrivialen linearen Teilraum enthalten (da mit jedemPunktx eines linearen Teilraums auch der Punkt(x)zu dem Teilraum gehort).IstKnicht spitz, so kannAnicht vollen Rang rgA= n besitzen. Sei namlich
cT =mi=1
aTi
die Summe der Zeilenvektoren aTi vonA. Dann ist cTx 0 eine fur K gultige
Ungleichung, die nur vonx = 0mit Gleichheit erfullt wird, wennA vollen Ranghat. Damit ware aber0 eine Ecke und folglichKspitz.
Also gilt rg(A)n 1
und folglichker A={
0}
. Wegenker AK
enthaltKsomit einen nichttrivialen linearen Teilraum von Rn.
3.6. Basislosungen. Wir betrachten ein System Ax b mit A
Rmn undb Rm mit den einzelnen UngleichungenaTi x ai1x1+ . . . + ainxn bi.
EinemxP(A, b)ordnen wir nun das Teilsystem der Ungleichungen zu,das vonx mit Gleichheit erfullt wird:
J(x) := {i {1, . . . , m} | aTi x= bi}.AJ(x) bezeichne die entsprechende (Zeilen-)Teilmatrix vonA. Wir nennenx P(A, b)eine(zulassige) Basislosung, wenn gilt
rg(AJ(x)) =n.
LEMMA 2.5. Die Basislosungen x P(A, b) sind genau die Ecken vonP(A, b).
Beweis. SeicT =
iJ(x) aTi undz =
iJ(x) bi. Dann istc
Txz sicherlicheine gultige Ungleichung furP(A,b)(warum?). Folglich ist
F ={x
P(A,b)
|cTx= z
}=
{x
P(A,b)
|AJ(x)x= bJ(x)
}eine Seitenflache mitxF. Da die MatrixAJ(x) vollen Rangn hat, kannF nureinen Punkt enthalten.
Sei umgekehrtv P(A,b)eine Ecke und cTx zeine gultige Ungleichung mitder Eigenschaft
{x P(A,b) | cTx= z} = {v}.Damit ist die Gleichung cTx= z von dem System
Ax b, AJ(v)x= bJ(v)
-
5/28/2018 Skriptum-OR2011
39/116
38 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN
impliziert. Jeder Vektorw, der dieses System erfullt, erreicht also den Wert
cTw= z.
Wir behaupten, dassker AJ(v) = {0} gelten muss. Denn zu jedem anderen Vektord ker AJ(v) \ {0} konnten wir sicherlich ein >0 finden mit der Eigenschaft
aTi (v+ d) = bi wennaTi v= bi
aTi (v+ d) bi wennaTi v< bi.Damit hatten wir Aw b und AJ(v)w = bJ(v) und folglich cTw = z. Daswurde aber der Eckeneigenschaft von v widersprechen!
ker AJ(v)= {0} bedeutet nun, dass die Matrix AJ(v)vollen Spaltenrang n besitzt.Also istv eine Basislosung.
3.7. Nichtnegative Losungen linearer Gleichungen. Wir interessie-
ren uns furnichtnegativeLosungen linearer Gleichungssysteme d.h. fur Po-
lyederPder Form
(14) P = {x Rn | Ax= b, x 0},wobeiA Rmn undb Rm.Pist also genau die Losungsmenge von
Ax bAx b
Ix
0.
SeixP. Dann bestehtJ(x)aus allen Indizes, die den Zeilen vonA ent-sprechen (da diese ja immer mit Gleichheit zu erfullen sind). Dazu kommen
noch die entsprechenden Zeilen der(n n)-Matrix(I):N(x) := {j {1, . . . , n} | xj = 0}.
Wir setzen weiterhin
B(x) = {j {1, . . . , n} | xj >0}.Also erhalten wir in diesem Kontext:
LEMMA2.6. x Pist genau dann eine Basisl osung des SystemsAx= b, x 0,
wenn die Teilmatrix AB(x) der Spaltenvektoren Aj mit Index j B(x)linear unabhangig sind, d.h. wenn
rg(AB(x)) = |B(x)| =n |N(x)|.
-
5/28/2018 Skriptum-OR2011
40/116
3. DIE STRUKTUR VON POLYEDERN 39
Fur die lineare Programmierung (extrem!) wichtig ist der Umstand, dass
man ohne grosse Muhe eine gute Basislosung konstruieren kann, sofern
man schon eine gute Losung hat.
SATZ 2.7. Sei x(0) P ={x Rn | Ax = b, x 0} gegeben. Dannkann man in hochstensnIterationen eine Basislosungx P konstruieren.
Beweis. Wir bezeichen mitA0x= b0das lineare Gleichungssystem
Ax= b und xj = 0 fur allej N(x(0)).Istx(0) keine Basislosung, dann existiert ein d = 0 derart, dass
A0d= 0.
Dann gilt sicherlich A(x(0) +d) = b fur jedes R. Wegen d= 0 gibt eseinen Indexj1 B(x(0))und ein1= 0mit der Eigenschaft
x(1) + 1d P und x(1)j1 = 0.Daraus folgt |N(x(1)| |N(x(0)| + 1.Nun gehen wir von x(1) in gleicher Weise aus und konstruieren der Reihe nach
Vektorenx(2),x(3), . . .bis eine Basislosung gefunden ist. Wegen
|N(x(0)| + k N(x(k)| nwerden wir nach weniger alsnSchritten eine Basislosung gefunden haben.
Den Algorithmus im Beweis von Satz 2.7 kann man so modifizieren, dass
man eine Basislosung erhalt, die bzgl. einer gegebenen Zielfunktion f(x) =cTxmindestens so gut ist wiex(0) sofern(P, c)endlich ist. Dazu versu-chen wir, das modifizierte System
cTd = 1
A0d = 0
zu losen. Wenn eine Losungd existiert, dann gilt fur jedes R:cT(x(0) + d) =cTx(0) + .
Wegen(P, c)< gibt es somit ein1 > 0 derart, dassx(1) =x(0) + 1d P und |J(x(1)| |J(x(0)| + 1.
Ausserdem giltcTx(1) =cTx(0) + 1 > cTx(0). Wie zuvor konnen wir nun
einx(2) versuchen zu konstruieren usw.
Existiert das gewunschte d mitcTd= 1nicht, so haben wir
cTd= 0 fur alled ker A0.
-
5/28/2018 Skriptum-OR2011
41/116
40 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN
Wir konnen dann den Algorithmus genau wie im Beweis von Satz 2.7 ausfuhren
und erhalten
cTx(0) =cTx(1) =cTx(2) =. . .Der Zielfunktionswert verschlechtert sich also auf keinen Fall.
3.8. Der Satz von Caratheodory. Als Anwendung der garantierten
Existenz von Basislosungen leiten wir einen beruhmten geometrischen Satz
ab.
SATZ2.8 (Caratheodory). Sei X Rd eine beliebige nichtleere Menge vonVektoren undz conv(X). Dann lasst sich z als Konvexkombination vonhochstensd + 1 Vektoren ausXdarstellen.
Beweis. Seienx1, . . . ,xn Xundy1, . . . , yn so, dassx1y1+ . . . + xnyn= z, y1+ . . . + yn= 1 und y1 . . . , yn 0.
Dann isty = (y1, . . . , yn) nichtnegative Losung des obigen linearen Gleichungs-systems mit d + 1 Zeilen. Also existiert auch eine entsprechende Basislosung y .y hat als Basislosung hochstensd+ 1 Komponentenyj= 0und liefert somit diegewunschte Konvexkombination furz.
UBUNG2.1. Zeigen Sie anhand eines Beispiels, dass eine
Verbesserung der
Behauptung des Satzes 2.8 von
d + 1 auf
d im allgemeinen nichtmoglich ist.
KOROLLAR2.3. Sei X Rd eine beliebige nichtleere Menge von Vektorenundz cone(X). Dann lasst sichz als Kegelkombination von hochstensdVektoren ausXdarstellen.
Beweis. Ubung.
-
5/28/2018 Skriptum-OR2011
42/116
KAPITEL 3
Optimalitatsbedingugen
Wir betrachten ein mathematisches Optimierungsproblem der Form
(15) minxS
f(x)
und nehmen an:
Es gibt eine offene TeilmengeF Rn
, die den Zulassigkeitsbe-reichS enthalt, und f :F R ist eine stetig differenzierbareFunktion.
Ein Vektor d Rn der Lange d = 1heisstzulassige Richtungzum Punktx S, wenn es ein >0 gibt derart, dass
x + td S fur alle0 t .1. Notwendige Bedingung
SATZ 3.1. Seid eine zulassige Richtung zuxSderart, dass f(x)d0 mit der Eigenschaft
y= x + td S und f(y)< f(x).Insbesondere istx keine Optimallosung des Optimierungsproblems (15).
Beweis. Sei > 0 so, dass[x,x+d] Sgilt, undfd : [0, ] R definiertdurch
fd(t) :=f(x + td) mit Ableitung fd(0) = f(x)d.
Nach Voraussetzung haben wir fd(0) < 0. Somit istt0 = 0keine Optimallosungfur das Problem
min0t
fd(t).
Anders ausgedruckt: Es gibt einy = x + td
[x,x + d]mit der Eigenschaft
f(y) =fd(t)< fd(0) =f(x).
KOROLLAR3.1. Seix Seine Optimallosung des Problems (15). Danngilt notwendigerweise
f(x)d 0 f ur alle zul assigen Richtungend zu x.
41
-
5/28/2018 Skriptum-OR2011
43/116
42 3. OPTIMALITATSBEDINGUGEN
1.1. Gradientenverfahren. Satz 3.1 liefert die Motivation fur sog. Gra-
dientenverfahrenin der mathematischen Optimierung. Dabei versucht man,
das Problem (15) nach folgendem Muster zu losen:
(1) Man bestimme (so man kann) ein Startelementx0 S.(2) Man bestimme (so man kann) eine zulassige Richtungd Rn mit
f(x0)d< 0.(3) Man suche einx1 Sder Formx1=x0+ tdmit der Eigenschaft
f(x1)< f(x0).(4) Nun verfahrt man mitx1wie eben mit x0.
(5) Man wiederholt (so man kann) diese Prozedur so lange, bis man
einxk Smit einem guten Wertf(xk)gefunden hat.
In dieser Allgemeinheit kann man vorab keinerlei mathematische Garan-tie abgeben, dass ein Gradientenverfahren funktioniert. Dennoch zeigt die
Erfahrung, dass Gradientenverfahren (oder Verfahren, die nach einem ahn-
lichen Muster gestrickt sind) in der Praxis oft ganz passable Ergebnisse
produzieren konnen.
Wenn einem im konkreten Fall sonst nichts besseres einfallt, sollte man des-
halb durchaus auch Gradientenverfahren fur eine praktische Problemlosung
in Erwagung ziehen.
BEMERKUNG. Die Vorlesung wird auf eine weitere Detaildiskussion moglicher
Implementationen von Gradientenverfahren und deren Varianten nicht eingehen
konnen.
1.2. Hinreichende Bedingungen und Konvexitat. Wir geben nun ei-
ne Klasse von Zielfunktionen an, bei denen die fur Optimalitat notwendige
Bedingung aus Korollar 3.1 auch hinreichend ist.
Die (nach wie vor als stetig differenziebar vorausgesetzte) Zielfunktion f :F R heisstS-konvex(oder einfach konvex, wenn der Kontext klar ist),wenn gilt:
(i) Sist eine konvexe Menge.(ii) f(y) f(x) f(x)(y x) x, y S.
SATZ3.2. Es sei die Zielfunktionfdes Optimierungsproblems (15) konvexundx Sein beliebiger Punkt. Dann sind die beiden Aussagen aquiva-lent:
(i) x ist eine Optimallosung.
(ii) Es giltf(x)d 0f ur alle zulassigen Richtungend.
-
5/28/2018 Skriptum-OR2011
44/116
1. NOTWENDIGE BEDINGUNG 43
BEISPIEL3.1. Sei S= Rn undx Sbeliebig. Dann ist jeder Einheitsvek-tor (und seine Negation) eine zulassige Richtung. In diesem Fall reduziert
sich (ii) in Satz 3.2 auf die Eigenschaft
f(x) =0T d.h. f(x)
xj= 0 (j = 1, . . . , n).
Als Beispiel fur Konvexitat sei eine symmetrische MatrixARnn gege-ben. Wir betrachten die quadratische Funktion
f(x) = xTAx
uber dem Definitionsbereich F= Rn. Schreiben wir y= x +d, dann lautetdie Konvexitatsbedingung
dT
Ad + 2xT
Ad = f(x + d) f(x) f(x)d= 2xT
Ad.Also istf(x) = xTAxgenau dann konvex, wenn gilt
dTAd 0 fur alled Rn.M.a.W.:fist genau dann Rn-konvex, wennA positiv semidefinit ist.
UBUNG3.1. Man zeige:
(1) Jede konstante oder lineare Funktionf : Rn R ist konvex.(2) Seip Rn fest undf(x) = x p2. Dann istf konvex.(3) Seienf , g :F R konvex und, 0beliebige nichtnegative
Skalare. Dann isth := f+ gkonvex.
UBUNG3.2. Seiena < breelle Zahlen undf : (a, b)R stetig differen-zierbar. Man zeige die Aquivalenz der Aussagen
(1) fist konvex.(2) Die Ableitungsfunktionf ist monoton wachsend auf(a, b).
1.2.1. Das Regressionsproblem. Als Beispiel betrachten wir den fol-
genden Aufgabentyp:
Man sucht die
beste Losung des linearen Gleichungssystems
Ax= b
nach dem Kriterium minimaler Fehlerquadrate.
Das soll heissen: Man sucht eine Losung des Problems
minxRn
b Ax2 =bTb 2bTAx + xTATAx.Setzen wircT = bTAundQ = ATA, dann ist das Problemaquivalent mit
minxRn
f(x) =1
2xTQx cTx.
-
5/28/2018 Skriptum-OR2011
45/116
44 3. OPTIMALITATSBEDINGUGEN
Q= ATAist positiv semidefinit und folglichfkonvex. Also finden wir:
x
Rn
lost das Regressionsproblem genau dann, wenn gilt:
Qx= c bzw. ATAx= ATb.
Das Regressionsproblem reduziert sich also auf das Losen des linearen
Gleichungssystems Qx= c.
BEISPIEL3.2 (Interpolation). Seien von der Funktion f : R Rnur dieWerteyi = f(tj) bei den Stutzstellent1, . . . , tn bekannt. Man sucht eineLinearkombination
f(t) =mi=1
aifi(t)
von gegebenen Funktionen f1(t), . . . , f m(t), die f an den St utzstellen tjbestmoglich interpoliert. D.h. man will die beste Losung a1, . . . , am desfolgenden linearen Gleichungssystems (in den Unbekanntena1, . . . , am):
a1f1(t1) + a2f2(t1) + . . . + amfm(t1) = y1a1f1(t2) + a2f2(t2) + . . . + amfm(t2) = y2
... ...
... ...
a1f1(tn) + a2f2(tn) + . . . + amfm(tn) = yn
Im Fall{f1(t), f2(t)} ={1, t} spricht man von linearer Regression undnennt
f(t) = a1+ a2t
dieRegressionsgerade. Im Fall {f1(t), f2(t), f3(t)} ={1, t , t2} erhalt mandasquadratische Regressionspolynom
f(t) = a1+ a2t + a3t2.
BEISPIEL3.3 (Fourier-Interpolation). Seif : [0, L] R eine periodischeFunktion mitf(0) = f(L). Dann bietet sich eine Interpolation vonf mitz.B. folgenden Baukasten von Funktionen an:
F = {cos(kt), sin(kt) | k = 0, . . . , m} (mit := 2/L).
-
5/28/2018 Skriptum-OR2011
46/116
1. NOTWENDIGE BEDINGUNG 45
1.2.2. Allgemeine konvexe Funktionen. Eine moglicherweise nicht dif-
ferenzierbare Funktion
F R heisstkonvex, wenn gilt:
(1)F Rn ist eine konvexe Menge.(2) Fur beliebige Punktex, y Fund Skalare0 1gilt:
f(x + (y x)) f(x) + (f(y) f(x)).
UBUNG3.3 (Epigraph). Sei F Rn undf :F R. DerEpigraphvonfist definiert als die Menge
epi(f) := {(z, x) | x F, z f(x)}.MAN ZEIGE: Eine Funktionf ist konvex genau dann, wenn ihr Epigraphepi(f)eine konvexe Menge ist.
Man demonstriere ausserdem anhand eines Beispiels, dass die analoge Aus-
sage bzgl. des Graphen vonffalsch sein kann.
Man macht sich leicht klar, dass eine stetig differenzierbare konvexe Funk-
tionfauch konvex im Sinne der allgemeinen Definition ist. Denn es giltdann fur den Punktz = x + (y x) =y + (1 )(x y):
f(x) f(z) f(z)(x z) = f(z)(x y)f(y) f(z) f(z)(y z) = (1 )f(z)(x y)
Multipizieren wir die erste Ungleichung mit(1
)und die zweite mit,
dann ergibt deren Addition:
(1 )f(x) + f(y) f(z) 0d.h. die Eigenschaft (2) der Konvexitat in der allgemeinen Definition.
1.3. Lineare Nebenbedingungen. Wir nehmen nun an, dass der Zulassig-
keitsbereichSdurch lineare Ungleichungen beschrieben ist:
S=P(A, b) = {x Rn | Ax b},wobei A= [aij] Rmn und b= (b1, . . . , bm)T Rm. Sei x Sein festerPunkt. Wir betrachten die Menge aller Ungleichungen, die unter x scharf
sind: J(x) := {i {1, . . . , m} | ai1x1+ . . . + ainxn=bi}.Ax bsei das Teilsystem vonAx b, das genau aus den Ungleichungenmit Index i J(x) besteht. Nun ergibt d= 0 offenbar genau dann einezulassige Richtung, wenn
Ad 0.Nach dem Farkaslemmauber implizierte Ungleichungen sind folgende Aus-
sagen gleichwertig:
-
5/28/2018 Skriptum-OR2011
47/116
46 3. OPTIMALITATSBEDINGUGEN
(a)f(x)d 0ist vonAd 0impliziert.(b) Es gibty
0T
derart, dassyTA=
f(x).
SATZ3.3. Ist der Punktx P(A, b)ist eine Optimallosung des Problemsmin f(x) s.d. Ax b,
dann gibt es notwendigerweise ein y 0mit der Eigenschaftf(x) + yTA= 0T.
KOROLLAR3.2. Seifkonvex undx P(A, b). Dann sindaquivalent:(i) Der Punktx ist eine Optimallosung des Problems
min f(x) s.d. Ax b,(ii) Es gibt einy RJ(x) mit der Eigenschaft
y 0 und f(x) + yTA= 0T.
2. Strafmethoden und Lagrangefunktion
Wir betrachten ein Optimierungsproblem mit m expliziten Nebenbedingun-gen:
(16) min f(x) s.d. g1(x) 0, . . . , gm(x) 0,wobeif, g1, . . . , gm: R
n R.Die Idee ist nun, daraus ein Optimierungsproblemohneexplizite Nebenbe-
dingungen zu machen. Um dennoch (hoffentlich) den Nebenbedingungen
zu genugen, werden der Zielfunktion Terme zugefugt, welche die Zielfunk-tion verschlechtern (
bestrafen), wenn die Nebenbedingungen nicht einge-
halten werden. Dazu gibt es verschiedene Moglichkeiten.
BEISPIEL3.4. Wir betrachten einen Strafparameter >0und das Problem
minxRn
f(x) =f(x) + mi=1
max{0, gi(x)}.
-
5/28/2018 Skriptum-OR2011
48/116
2. STRAFMETHODEN UND LAGRANGEFUNKTION 47
NOTA BEN E: Es ist keinesfalls immer garantiert, dass eine Optimallosung des
modifizierten Problems auch eine Optimallosung des Ausgangsproblems darstellt!
Klassisch ist die sog. Lagrangefunktion, die dem Optimierungsproblem
(16) folgendermassen zugeordnet wird:
(17)
L(x, y) :=f(x) + yTg(x) =f(x) +mi=1
yigi(x) (x Rn, y Rm+ ).
2.1. Sattelpunkte und KKT-Bedingungen. Sei L :X Y R einebeliebige reellwertige Funktion. Ein Punktepaar (x, y) X Y ist einSattelpunktvon L, wenn fur allex Xundy Y gilt:(18)
L(x, y)
L(x, y)
L(x, y).
Uns interessieren hier vor allem Sattelpunkte von Lagrangefunktionen, die
sich aus Optimierungsproblemen ergeben.
LEMMA 3.1. Ist(x, y) ein Sattelpunkt der Lagrangefunktion L des Pro-blems (16), dann istx eine zulassige Losung und es gilt
L(x, y) =f(x) = ming(x)0
f(x).
Beweis. gi(x)> 0 ist unmoglich, da sonst die Sattelpunkteigenschaft
supy0
f(x) + yTg(x) f(x) + yTg(x) < verletzt ware. Also istx eine zulassige Losung. Gleichermassen finden wir
yTg(x) =mi=1
yjgi(x) = 0
und folgern
f(x) =L(x,y) L(x,y) =f(x) x Rn.
Ein Sattelpunkt(x, y)(sofern er existiert) muss also die Lagrangefunktion
L(x, y)in denx-Komponenten minimieren, d.h., es muss gelten
0T = xL(x, y) = f(x) +mi=1
yigi(x).
Ausserdem muss die im Beweis festgestellte Eigenschaft des komplement aren
Schlupfs erfullt sein:
(19) yTg(x) = 0 bzw. yi > 0 = gi(x) = 0 (i= 1, . . . , m) .
-
5/28/2018 Skriptum-OR2011
49/116
48 3. OPTIMALITATSBEDINGUGEN
Daraus ergeben sich die sog.KKT-Bedingungen1:
(20)
g(x)
0
f(x) + yTg(x) = 0TyTg(x) = 0
y 0.Eine Losung(x, y)der KKT-Bedingungen heisstKKT-Punkt.
VORSICHT: Eine Losung der KKT-Bedingungen ergibt nicht notwendigerweise
einen Sattelpunkt. Ausserdem sind die KKT-Bedingungen im allgemeinen weder
notwendig noch hinreichend fur Optimalitat. In der Praxis erhalt man aber aus
KKT-Punkten oft recht gute Losungen.
2.2. Lineare Nebenbedingungen. Setzen wir g(
x) := A
x
b, dann
ist die Optimierungsaufgabe
(21) minxRn
f(x) s.d. Ax b(mitA Rmn, c Rn, b Rm) das Problem
minxRn
f(x) s.d. g(x) 0.ist das lineare Programm gleichwertig mit der Aufgabe
minxRn
f(x) s.d. g(x) 0.Die KKT-Bedingungen sind:
Ax bf(x) + yTA = 0T
yT(Ax b) = 0y 0.
SATZ 3.4. Ein PunktxP(A, b)erf ullt die notwendigen Optimalit atsbe-dingungen f ur (21) genau dann, wenn es ein y0gibt derart, dass(x, y)ein KKT-Punkt ist.
Beweis. WennxP(A,b)die Optimalitatsbedingungen erfullt, so gibt es einenVektor y RJ(x)+ mit der Eigenschaft
f(x) + yTA = 0T.Wobei A die J(x)entsprechende Zeilenteilmatrix von A ist. Wir setzen y zu einemVektor in Rm+ fort vermoge
yi := 0 fur allei / J(x).1nach Karush, Kuhn und Tucker
-
5/28/2018 Skriptum-OR2011
50/116
2. STRAFMETHODEN UND LAGRANGEFUNKTION 49
Man sieht leicht(?), dass(x,y)nun ein KKT-Punkt ist.
Ist umgekehrt(x,y)ein KKT-Punkt, dann folgt aus den komplementaren Schlupf:
yi > 0 = i J(x).bzw.
yi = 0 fur allei / J(x).Also haben wir (mit aTi als den Zeilenvektoren vonA)
f(x) = yTA=mi=1
yiaTi =
iJ(x)
yiaTi
und erkennen, dass die notwendige Optimalitatsbedingung aus Satz 3.3 erfullt ist.
KOROLLAR3.3. Seif : P(A, b) Rkonvex. Genau dann ist der PunktxP(A, b)optimal f ur das Problem (21), wenn es einy gibt derart, dass(x, y)ein KKT-Punkt ist.
Korollar 3.3 hat eine wichtige Konsequenz. Im Prinzip kann man ein konve-
xes Minimierungsproblem mit linearen Nebenbedingungen folgendermas-
sen losen:
(i) Formuliere die KKT-Bedingungen.
(ii) Berechne einen KKT-Punkt.
2.3. Ein paar Anwendungen. Als Illustration und Anwendung der KKT-Bedingungen leiten wir ein paar (auch in der Physik und Informationstheo-
rie wichtige) Aussagen ab.
2.3.1. Entropie. Wir betrachten das Polytop
n:= {x Rn+| x1+ . . . + xn= 1}aller n-dimensionalen Wahrscheinlichkeitsverteilungen. Einem x nordnet man die Entropie (als Masszahl fur den Ordnungszustand bzw. den
Informationsgehalt)
H(x1, . . . , xn) := n
j=1 xjln xj
zu (mitxjln xj := 0wennxj = 0). Um abzuschatzen, wie gross die Entro-pie werden kann, betrachten wir das Optimierungsproblem
minx>0
H(x) s.d. x1+ . . . + xn= 1.Die Funktionf(x) = H(x)ist konvex (Beweis?) auf der Menge
>n = {x n| x> 0}.
-
5/28/2018 Skriptum-OR2011
51/116
50 3. OPTIMALITATSBEDINGUGEN
Die zugehorige Lagrangefunktion ist
L(x, y) =
nj=1
xjln xj+ y yn
j=1
xj (x> 0, y R)
und ergibt z.B. die KKT-Bedingung
L(x, y)
xj= 1 + ln xj y = 0 (j = 1, . . . , n).
Die Komponenten einer Optimallosung x mussen also alle den gleichen
Wert
xj =ey1
annehmen. Wegen jxj = 1 ergibt sich x
= (1/ n , . . . , 1/n) und die
maximale Entropie alsH(1/ n , . . . , 1/n) = ln n.
BEMERKUNG.In der Informationstheorie definiert man die Entropie gewohnlich
uber den Logarithmus zur Basis2(d.h.log2 x anstelle des naturlichen Logarithmus
ln x).
2.3.2. Boltzmann-Verteilungen. Seien A1, . . . , Ansich gegenseitig aus-schliessende Ereignisse, von denen eines garantiert mit einer gewissen Wahr-
scheinlichkeit eintritt. Wir nehmen an, dass uns der Eintritt von Aj durcheine BeobachtungsvariableXsignalisiert wird, die dann den Wert
X(Aj) =wj (j = 1, . . . , n)annimmt. WennAj mit der Wahrscheinlichkeitxj = Pr(Aj)eintritt, ist derErwartungswertvonX:
(22) E(X) =n
j=1
wjPr(Aj) =w1x1+ . . . wnxn.
Wir fragen: Welche ist unter allen Wahrscheinlichkeiten x n mit demvorgegebenen Erwartungswertw= E(X) diejenige mit der gr ossten Entro-pie?
Die Frage fuhrt uns auf das konvexe Optimierungsproblem
minx>0
H(x) s.d.
x1 + . . . + xn = 1w1x1 + . . . + wnxn = w
und die KKT-Bedingungen
1 + ln xj = y1+ y2wj (j= 1, . . . , n)
und somit (im optimalen Fall)
xj =e(y11)+y2wj =ey11 ewj =K ewj
-
5/28/2018 Skriptum-OR2011
52/116
2. STRAFMETHODEN UND LAGRANGEFUNKTION 51
mit = y2 undK = ey11. Da es sich bei x um eine Wahrscheinlich-
keitsverteilung handelt, ergibt sich die KonstanteK folgendermassen:
1 =n
j=1
xj =K
nj=1
ewj = K = 1je
wj.
Also finden wir die Form einer sog. Boltzmann-Verteilung:
(23) xj =Kewj (j= 1, . . . , n).
BEMERKUNG.Man kann zeigen, dass sich die Konstante eindeutig aus der Er-wartungswertbedingung
w= K
n
j=1
wjewj
ergibt. In der Physik geht in die Masszahl die TemperaturT eines durch eine
Boltzmannverteilung beschriebenen Systems ein (T 1/). Die Parameter wjentsprechen moglichen Energiezustanden des Systems.
2.3.3. Simulated Annealing. Boltzmannverteilungen lassen sich auf dem
Computer leicht simulieren. Aus diesem Umstand kann man Algorithmen
fur diskrete Optimierungsprobleme gewinnen, die in der Praxis oft gute Er-
folge zeigen (s. Ubung 3.4). Solche Algorithmen sind unter dem Begriff
Simulated Annealingbekannt.
UBUNG3.4. Es seien die numerischen Parameterw1, . . . , wn R gegeben.Dann ist der Boltzmann-Erwartungswert zur
TemperaturT= 1/:
b() =K
nj=1
wjewj .
MAN ZEIGE: lim
b() = max{w1, . . . , wn} .
2.4. Lineare Programme. Generell ist einlineares Programm(LP)
ein mathematisches Optimierungsproblem mit endlich vielen Nebebedin-
gungen derart, dass(1) die Zielfunktion linear ist und
(2) die Nebenbedingungen lineare Gleichungen oder Ungleichungen
sind.
Zum Beispiel ist das folgende Problem ein lineares Programm:
(24) maxxRn
cTx s.d. Ax b
-
5/28/2018 Skriptum-OR2011
53/116
52 3. OPTIMALITATSBEDINGUGEN
(mit A Rmn, c Rn, b Rm). Dieses LP ist gleichwertig mit demkonvexen Minimierungsproblem
minxRn
f(x) s.d. Ax b.Die KKT-Bedingungen lauten:
Ax bATy = c ( cT + yTA= 0T)
cTx bTy = 0 (denn:(yTA)x yTb= 0)y 0.
SATZ 3.5. Genau dann istx Rn
eine Optimallosung des linearen Pro-gramms (24), wenn es ein y gibt derart, dass(x, y)ein KKT-Punkt ist.
Man bemerke, dass im Fall linearer Programme die KKT-Bedingungen auf
ein endliches System linearer Ungleichungen (in den Unbekannten x und
y) fuhren. ALSO:
Lineare Programme k onnen im Prinzip mit dem Fourier-Motzkin-Verfahren gelost werden.
BEMERKUNGEN:
(1) Das FM-Verfahren ist nicht das effizienteste Verfahren zum Losen
von linearen Programmen. (Geschicktere Methoden werden spater
diskutiert werden.)
(2) Im allgemeinen fuhren KKT-Bedingungennicht(!) auf lineare Un-
gleichungssysteme. KKT-Punkte sind deshalb typischerweise nicht
einfach zu berechnen.
BEISPIEL 3.5. Der kurzeste Vektor in einem PolyederP(A, b) sei zu be-rechnen. Das entsprechende Optimierungsproblem
min f(x) = x2 s.d. Ax bf uhrt auf die (wegenxTx=
jx
2j quadratischen) KKT-Bedingungen
Ax bxT + yTAT = 0T
xTx + yTb = 0
y 0.
-
5/28/2018 Skriptum-OR2011
54/116
2. STRAFMETHODEN UND LAGRANGEFUNKTION 53
2.5. Das Newton-Verfahren. SeiF Rk und F :F R einebeliebige Funktion. Man betrachtet das Nullstellenproblem
(25) F(x) =0 (x F).
BEISPIEL3.6. Die KKT-Bedingungen f uhren z.B. auf folgendes Nullstellen-
problem (in den Unbekannten(x, y)):
f(x) + yTg(x) = 0TyTg(x) = 0
(x, y) F.mit
F=
{(x, y)
Rn+m
|g(x)
0, y
0
}.
Newtons Methode versucht, das Nullstellenproblem (25) iterativ zu losen.
Dabei beginnt man bei einem Startpunkt x0 F(den man irgendwie zukonstruieren hat) und stoppt im Fall F(x0) = 0. Andernfalls sucht mannach einem Losungskandidaten xfur die Gleichung
F(x0+ x) =0 und x0+ x F.Den bestimmt man dadurch, dass man das Gleichungssystem linear rela-
xiert. D.h. man wahlt eine MatrixA0in der Hoffnung
F(x0+ h) F(x0) + A0hund lost das linearisierte System
F(x0) + A0h= 0 bzw. A0h= F(x0).Isth0 eine solche Losung, so setzt manx1 = x0+ h0und verfahrt nun mitx1genauso wie eben mitx0usw.
Auf diese Weise erzeugt man eine Folge x0, x1, . . . von Vektoren. Manstoppt in IterationK, wenn
F(xK) 0 und xK F.
BEMERKUNG.Obwohl man im allgemeinen (ohne starke Zusatzannahmen) kei-
ne Konvergenzgarantie geben kann, funktioniert die Methode in der Praxis uberra-
schend gut.
BEISPIEL3.7. Seif(x) =x2 2 = 0in der Variablenx R zu l osen. DieWahlAk =f
(xk)ergibt
hk=x2k+ 2
2xkund xk+1=xk+ hk =
xk2
+ 1
xk.
-
5/28/2018 Skriptum-OR2011
55/116
54 3. OPTIMALITATSBEDINGUGEN
2.6. Nichtlineare Nebenbedingungen. Bei allgemeinen Optimierungs-
problemen der Form
min f(x) s.d. g(x) 0sind die KKT-Bedingungen weder notwendig noch hinreichend fur Opti-
malitat. Trotzdem stellt man fest, dass KKT-Punkte oft (erstaunlich?) gute
Losungen ergeben. Viele algorithmische Verfahren der nichtlinearen Opti-
mierung sind nach dem Prinzip konstruiert, dass sie versuchen, KKT-Punkte
aufzuspuren2.
3. Lagrange-Dualitat
SeiL : X Y R eine beliebige Funktion. Dann gilt fur jedes Paar(x, y)
X
Y immer
minx
L(x, y) L(x, y) maxy
L(x, y)und damit allgemein die sog.schwache Dualitatsrelation
(26) maxy
minx
L(x, y) minx
maxy
L(x, y).Genau wenn (x, y) ein Sattelpunkt von L ist, wird Gleichheit und somitstarke Dualitaterreicht:
(27) maxy
minx
L(x, y) = L(x, y) = minx
maxy
L(x, y).
Die Suche nach einem Sattelpunkt ergibt unter diesem Aspekt zwei Teil-probleme:
PRIMALES P ROBLEM:
(28) minx
L1(x) mit L1(x) := maxy
L(x, y)
DUALESP ROBLEM:
(29) maxy
L2(y) mit L2(y) := minx
L(x, y)
In diesem Zusammenhang bedeutet die schwache Dualitat:
L2(y) L(x, y) L1(x)Also ist(x, y)genau dann ein Sattelpunkt, wenn gilt:
L2(y) = L(x, y) = L1(x)
2Die Vorlesung hat leider nicht die Zeit, tief in die nichtlineare Optimierung
einzusteigen.
-
5/28/2018 Skriptum-OR2011
56/116
3. LAGRANGE-DUALITAT 55
LEMMA3.2. IstL die Lagrangefunktion des Optimierungsproblems
min f(x) s.d. g1(x)
0, . . . , g
m(x)
0,
dann ist das primale Langrangeproblemaquivalent zum Optimierungspro-
blem.
Beweis. SeiS= {x Rn | gi(x) 0, i= 1, . . . , m}. Es gilt
L1(x) = maxy
f(x) +mi=1
yigi(x) (y 0).
also haben wir
L1(x) =
+ wennx / Sf(x) wennx S.
Also ist die Aufgabe, L1
(x) zu minimieren, gleichbedeutend mit der Aufgabe,f(x) uberSzu minimieren.
Das duale Lagrangeproblem ist im allgemeinen jedoch nichtaquivalent zum
ursprunglichen Optimierungsproblem. Seine Bedeutung fur die Optimie-
rung liegt in der folgenden Eigenschaft3:
Eine Losung des dualen Lagrangeproblems ergibt eine Untergren-ze fur den zu erwartenden Zielfunktionswert des ursprunglichen
Optimierungsproblems.
3.1. Dualitat linearer Programme. Wir betrachten jetzt ein lineares
Programm in der sog.Normalform(30) min
x0cTx s.d. Ax= b.
Die zugehorige Lagrangefunktion ist nun
L(x, y) =cTx + yT(b Ax) = yTb + (cT yTA)xfurx Rn+und y Rm.BEMERKUNG. Man beachte, dass in dieser Formulierungs des LPs die
dualen
Variablen y wegen der Gleichheitsrestriktionen bAx = 0 im Vorzeichennicht beschrankt sind.
Die duale Lagrangefunktion ist
L2(y) = minx0
bTy+ (cT yTA)x= wenn(cT yTA) 0T
yTb wenn(cT yTA) 0TDas duale Lagrangeproblem kann im vorliegenden Fall also so formuliert
werden:
(31) max bTy s.d. ATy c.3welche aus der schwachen Dualitat folgt!
-
5/28/2018 Skriptum-OR2011
57/116
56 3. OPTIMALITATSBEDINGUGEN
MAN SIEHT: Das duale Problem ist wieder ein lineares Programm. Wir
nennen es das zu (30)dualelineare Programm.
Schwache Dualitat impliziert fur jede zulassige Losung x von (30) und
zulassige Losungy von (31):
bTy cTx.(x, y)ist ein KKT-Punkt fur (30) (bzw. fur (31)), wenn gilt:
(1) xist eine zulassige Losung von (30).
(2) yist eine zulassige Losung von (31).
(3) Die Zielfunktionswerte sind gleich:bTy= cTx.
Insbesondere finden wir bei linearen Programmen:
Ein KKT-Punkt lost immer zwei lineare Programme gleichzeitig
(namlich das primale und das duale).
3.2. Der Hauptsatz der linearen Programmierung.
SATZ3.6 (
Hauptsatz der linearen Programmierung). Fur das lineare Pro-
gramm (30) (bzw. sein duales (31)) Gilt genau eine der drei Aussagen:
(1) Es existiert keine zul assige Losung.
(2) Es existieren zul assige Losungen mit beliebig gutem Zielfunktions-
wert.
(3) Es existiert (mindestens) ein KKT-Punkt(x, y)(und somit optima-le Losungen von (30) und (31) mit demselben Zielfunktionswert.
Beweis. Wir betrachten die Aussagen von der dualen Seite und setzen
S:= {yRm | ATy c} =P(AT, c).Im Fall des Stutzfunktonswerts (S, c) = gilt S = (d.h. Aussage 1 bzgl.(31)).(S, c) = + entspricht Aussage 2.(S,y)< bedeutet im FallS= , dass (31) eine Optimallosungy besitzt. Ausden KKT-Bedingung wissen wir, dass dann auch eine Optimallosungx von (30)
existiert und(x,y)ein KKT-Punkt ist.
KOROLLAR3.4. Das lineare Programm (30) (bzw. das lineare Programm(31)) besitzt eine Optimallosung genau dann, wenn sowohl (30) als auch
(31) zulassige Losungen besitzen.
Beweis. Die eine Richtung ist klar (welche?). Wir zeigen die andere Richtung der
Aquivalenzbehauptung. Seien x und y entsprechende zulassige Losungen. Dann
ist die Aussage 1 des Hauptsatzes unzutreffend. Nach der schwachen Dualitat gilt
ausserdem
cTx bTy.
-
5/28/2018 Skriptum-OR2011
58/116
4. BARRIEREMETHODEN 57
Die primale Zielfunktion ist also von unten und die duale Zielfunktion von oben
beschrankt. Damit scheidet auch Aussage 2 aus. Aussage 3 ergibt die Behauptung.
4. Barrieremethoden
Eine weitere Idee, ein OptimierungsproblemmitNebenbedingungen auf ein
Optimierungsproblem ohne Nebenbedingungen zuruckzufuhren, besteht da-
rin, durch eine Modifikation der Zielfunktion eine
Barriere zu errichten,
der einen etwaigen Losungsalgorithmus daran hindern wurde,uber den Zu-
lassigkeitsbereich hinauszutreten.
Dazu gibt es verschiedene Ansatze. In dieser Vorlesung konzentrieren wir
uns auf eine Methode, die sich vor allem in der linearen Programmierungbewahrt hat.
4.1. Die Frisch-Funktion. Wir betrachten ein Optimierungsproblem
der Form
minx0
f(x) s.d. Ax= b
mitA Rmn undb Rm.Die zugeordneteFrisch-Funktionist die Funktion
(32) f(x) =f(x) mi=1
ln xi,
mit einem frei zu wahlenden Parameter >0. Tatsachlich istf(x)nur fursolche x definiert, die in jederKomponentexi strikt positiv sind. Je mehrsichx dem Rand des Gebietes
Rn+= {x Rn | x 0}nahert,
explodiert f(x) gegen +. Ein Algorithmus, der f(x) mini-
mieren will, wird sich also tunlichst im (strikten) Inneren von Rn+aufhalten
wollen.
Wir betrachten nun das Optimierungsproblem
minx>0
f(x) s.d. Ax= b
mit der Lagrangefunktion
L(x, y) =f(x) + yT(b Ax) (x> 0, y Rm+).
-
5/28/2018 Skriptum-OR2011
59/116
58 3. OPTIMALITATSBEDINGUGEN
Die KKT-Bedingungen sind (weil wir im strikten Inneren von Rn+optimie-
ren):
f(x)
xj
xj
mi=1
yiaij = 0 (j= 1, . . . , n)
Ax = b
x > 0.
4.2. Lineare Zielfunktionen. Das lineare Programm
minx0
cTx s.d. Ax= b
ergibt nach dem Ansatz von Frisch das Problem
(33) minx>0
cTx mi=1
ln xi s.d. Ax= b
Das Problem (36) ist nicht mehr linear aber immer noch zumindest kon-
vex. Die KKT-Bedingungen kann man dann so schreiben:
(cjmi=1
yiaij)xj = (j = 1, . . . , n)
Ax = b
x > 0.
Setzen wir weiter sT
:= cT
yT
A zur Abkurzung, so erhalten wir dieKKT-Form
sjxj = (j = 1, . . . , n)
s + ATy = c
Ax = b
s, x > 0.
Sei(x, y, s)ein KKT-Punkt. Dann gilt (Beweis?):
(i) x ist eine zulassige Losung des ursprunglichen linearen Programms.
(ii) yist eine zulassige Losung des dazu dualen linearen Programms.
Wie weit weichtcTxvom erzielbaren OptimalwertcTx hochstens ab?
Die schwache Dualitat liefert folgende Abschatzung:
0 cTx cTx cTx yTb= sTx= n.Bei einem kleinen 0ware alsox eine schon fast optimale Losung!
-
5/28/2018 Skriptum-OR2011
60/116
KAPITEL 4
Methoden der Linearen Programmierung
Wir betrachten ein lineares Programm in Normalform:
(34) min cTx s.d. Ax= b, x 0.Dabei istA Rmn eine geeignete Koeffizientenmatrix und c Rn undb R
m
sind geeignete Parametervektoren, die als bekannt vorausgesetztwerden.
MAN BEACHTE: Jedes lineare Programm ist aquivalent zu einem LP in
Normalform, wenn wir zusatzliche nichtnegative Variablen einfuhren. Zum
Beispiel haben wir
maxxS
cTx minxS
(cT)xmi=1
aijxj bi zi+mi=1
aijxj =bi, zi 0.
Eine im Vorzeichen nicht beschrankte Variablexj kann durch die Differenzvon zwei nichtnegativen Variablenx+j, x
j ersetzt werden:
xj =x+j xj , x+j 0, xj 0.
1. Rationale lineare Programme
Ein lineares Programm heisstrational, wenn es mit ausschliesslich rationa-
len Parametern ausgedruckt werden kann:
minx0
cTx s.d. Ax= b, A Qmn, c Qn, b Qm.
Wenn wir die Restriktionsgleichungen und die Zielfunktion mit naturlichenZahlen multiplizieren, erhalten wir einaquivalentes lineares Programm mit
demselben Losungsbereich. Deshalb durfen wir oBdA annehmen, dass ein
rationales LP in Normalform mit ganzzahligen Parametern vorliegt:
minx0
cTx s.d. Ax= b, A Zmn, c Zn, b Zm.
(Andernfalls multiplizieren wir die Restriktionsungleichungen und die Ziel-
funktion einfach mit geeigneten Hauptnennern durch.)
59
-
5/28/2018 Skriptum-OR2011
61/116
60 4. METHODEN DER LINEAREN PROGRAMMIERUNG
In der Anwendungspraxis wird man es immer(!) mit rationalen linearen Pro-
grammen zu tun haben, da irrationale Zahlen auf dem Computer immer ge-
rundet werden mussen. Also machen wir furderhin die Annahme:
Alle von jetzt an betrachteten linearen Programme sind rational.
Fur die Analyse durfen wir weitherhin oBdA annehmen, dassAvollen Zei-lenrang hat:
rgA= m.
(Sonst entfernen wir einfach linear abhangige Gleichungen bis ein linear
unabhangiges System mit demselben Losungsraum erreicht ist.)
Im Falln = rgA=m ist das lineare Programmierproblem trivial, da dann
Ax = b nur eine eindeutig bestimmte Losung x = A1b besitzt. Wirwerden also nur Probleme mit
m= rgA n 1genauer unter die Lupe nehmen mussen.
1.1. Komplexitat rationaler linearer Programme. Wir betrachten das
(rationale) lineare Programm in Normalform
minx0
cTx s.d. Ax= b
mitA = [aij] Zmn,c Zn undb Zm und rgA = m n 1. Wirsetzen
(A, c, b) := min{k N | |aij|
-
5/28/2018 Skriptum-OR2011
62/116
1. RATIONALE LINEARE PROGRAMME 61
Beweis. Wir betrachten die Determinatenformel
|detA| = | m sgn()a1(1) am(m)| m |a1(1) am(m)|wobei m die Menge aller Permuationen der Indexmenge{1, . . . , m} ist. Alsofinden wir (wegenm! mm):
|detA| < m!(2)m mm2m = 2m(+log2m).DaA ganzzahlig ist, ist auch det(A)eine ganze Zahl. Im Fall det (A)= 0habenwir folglich |det(A)| 1.
BEMERKUNG.Lemma 4.1 besagt, dass |det(A)| eine
kleine Zahl ist. Liest man
sie in Binardarstellung in den Computer ein, hat man nicht mehr als
log2(1 + |det(A)|) m+ m log2 mStellen zu berucksichtigen.
1.2. Komplexitat von Basislosungen. Sei z.B. x eine Basislosung. Dann
existiert eine (m m)-UntermatrixAB mit der EigenschaftABxB =b bzw. xB =A
1B b.
Rechnen wir die Komponenten von x nach der Cramerschen Regel aus, so
ergibt sich
xj =|det AjB||detAB| fur allej B(x).
Die ubrigen Komponenten sindxj = 0, wennj N(x). AjB ist dabei dieMatrix, die man ausAB erhalt, wenn man diej-Spalte durchb ersetzt.
Damit ergibt sich fur die einzelnen Komponentenxj der Basislosungx:
xj = 0 oder 2m(+log2m) xj 2m(+log2m).
Die nachste Beobachtung zeigt, dass wir bei rationalen linearen Program-men durchaus mit einer gewissen Fehlertoleranz rechnen durfen.
LEMMA4.2. Seienx undxbeliebige Basislosungen mit der Eigenschaft
|cTx cTx| 14m(+log2m)
Dann giltcTx= cTx.
-
5/28/2018 Skriptum-OR2011
63/116
62 4. METHODEN DER LINEAREN PROGRAMMIERUNG
Beweis. Es gibt ganze Zahlen c,D,cund Dmit der Eigenschaft
cTx=
c
D und cTx=
c
D und |D|, |D| 14m(+log2m) .
FOLGERUNG Ist x eine Basislosung, deren Zielfunktionswert cTx vom
optimalen Wertz um hochstens
cT
x
z
4m(+log2m)
abweicht,dann mussx schon eine Optimallosung sein!
Ganz analog sieht man:
LEMMA4.3. Seix eine beliebige Basislosung. Dann gilt
|cTx| < 2(m+1)(+log2(m+1)).
Wegenm + 1
nerhalten wir somit fur Basislosungenx und deren nicht-
triviale Komponentenxj= 0die Abschatzungen (im Parametern):
2n(+log2n) xj 2n(+log2n) und |cTx| < 2n(+log2n)
2. Die Methode innerer Punkte (IPM)
Wir betrachten die Aufgabe, ein lineares Gleichungssystem innnichtnega-tiven Unbekanntenxj losen:
(35) Ax= b, x 0.Zum Beispiel sind ja KKT-Systeme linearer Programme von diesem Typ.Wir nehmen oBdA b= 0 an. (Sonst ware ja x = 0 schon trivialerweiseeine Losung.)
Wir wissen, dass (35) eine Basislosung gestattet, falls uberhaupt eine Losung
existiert. Also brauchen wir nur nach Losungen x 0 zu suchen, derenKomponenten beschrankt sind:
xj 2m(+log2m) (j = 1, . . . , n).
-
5/28/2018 Skriptum-OR2011
64/116
2. DIE METHODE INNERER PUNKTE (IPM) 63
Somit durfen wir oBdA annehmen, dass der Losungsbereich ein Polytop ist.
Ansonst wurden wir die Koordinatenbeschrankung einfach in die Problem-
formulierung (35) mit zusatzlichen Variablen einbauen:
xj+ zj = 2m(+log2m) , zj 0.
Wir machen im Folgenden also (oBdA!) die Annahme, dass der zugehorige