7 Stelsels niet-lineaire vergelijkingen en minimalisatieproblemen

Vergelijkbare documenten
2 Fourier analyse en de Fast Fourier Transform

Syllabus Numerieke Analyse I en II

V.2 Limieten van functies

Examenvragen Hogere Wiskunde I

Opgaven Functies en Reeksen. E.P. van den Ban

6 Geconjungeerde gradienten

V.4 Eigenschappen van continue functies

34 HOOFDSTUK 1. EERSTE ORDE DIFFERENTIAALVERGELIJKINGEN

Ter Leering ende Vermaeck

5 Totale kleinste kwadraten

1 Interpolatie en Approximatie

Opgaven Inleiding Analyse

Inleiding Analyse. Opgaven. E.P. van den Ban. c Mathematisch Instituut Universiteit Utrecht Voorjaar 2003, herzien

n=0 en ( f(y n ) ) ) n=0 equivalente rijen zijn.

(x x 1 ) + y 1. x x k+1 x k x k+1

Opgaven Inleiding Analyse

Radboud Universiteit Nijmegen Tentamen Calculus 1 NWI-NP003B 4 januari 2013,

Inleiding Analyse 2009

18.I.2010 Wiskundige Analyse I, theorie (= 60% van de punten)

Overzicht Fourier-theorie

extra sommen bij Numerieke lineaire algebra

Examen Complexe Analyse (September 2008)

Het oplossen van vergelijkingen Voor het benaderen van oplossingen van vergelijkingen van de vorm F(x)=0 bespreken we een aantal methoden:

Bespreking Examen Analyse 1 (Augustus 2007)

Dit is in feite de ongelijkheid van Cauchy Schwarz voor het standaardinproduct in R s van de vectoren

168 HOOFDSTUK 5. REEKSONTWIKKELINGEN

Analyse I. 1ste Bachelor Ingenieurswetenschappen Academiejaar ste semester 10 januari 2008

(x x 1 ) + y 1. x x 1 x k x x x k 1

3 Opgaven bij Hoofdstuk 3

Utrecht, 25 november Numerieke Wiskunde. Gerard Sleijpen Department of Mathematics.

Convexe Analyse en Optimalisering

1. (a) Formuleer het Cauchy criterium voor de convergentie van een reeks

Niet-standaard analyse (Engelse titel: Non-standard analysis)

OEFENOPGAVEN OVER REEKSEN

Modellen en Simulatie Recursies

Z.O.Z. Radboud Universiteit Nijmegen Tentamen Analyse 1 WP001B 16 juni 2016, 12:30 15:30 (16:30)

Analyse I. 2. Formuleer en bewijs de formule van Taylor voor een functie f : R R. Stel de formules op voor de resttermen van Lagrange en Liouville.

Hoofdstuk 10: Partiële differentiaalvergelijkingen en Fourierreeksen

1. (a) Gegeven z = 2 2i, w = 1 i 3. Bereken z w. (b) Bepaal alle complexe getallen z die voldoen aan z 3 8i = 0.

Opgaven bij Numerieke Wiskunde I

Doe de noodzakelijke berekeningen met de hand; gebruik Maple ter controle.

More points, lines, and planes

3.2 Vectoren and matrices

Vectoranalyse voor TG

Primitieve functie Als f : R --> R continu is op een interval, dan noemt men F : R --> R een primiteive functie of

Convexe Analyse en Optimalisering

Examen Complexe Analyse vrijdag 20 juni 2014, 14:00 18:00 uur Auditorium De Molen. Het examen bestaat uit 4 schriftelijke vragen.

Wanneer zijn alle continue functies uniform continu?

3 Rijen en reeksen van functies

Syllabus Analyse II, 2-de kandidatuur Informatica

Tussentoets Analyse 2. Natuur- en sterrenkunde.

Convexe functies op R (niet in het boek)

Eigenschappen van de gradiënt

TW2040: Complexe Functietheorie

EERSTE DEELTENTAMEN ANALYSE C

4 B-splines. 4.a Definities en elementaire eigenschappen 4 B-SPLINES 40

Tentamen Functies en Reeksen

Convexe Analyse en Optimalisering

. Maak zelf een ruwe schets van f met A = 2, ω = 6π en ϕ = π 6. De som van twee trigonometrische polynomen is weer een trigonometrisch polynoom

Je mag Zorich deel I en II gebruiken, maar geen ander hulpmiddelen (zoals andere boeken, aantekeningen, rekenmachine etc.)!

TW2040: Complexe Functietheorie

Inhoud college 5 Basiswiskunde Taylorpolynomen

Hoofdstuk 1: Inleiding

METRISCHE RUIMTEN EN CONTINUE AFBEELDINGEN aanvullend materiaal voor het college Analyse 1 Dr J. Hulshof (R.U.L.)

Definitie: Een functie f heeft een absoluut maximum f(x 0 ) in het punt. x 1 Domein(f) als voor alle x Domein(f) geldt:

Relevante vragen , eerste examenperiode

De parabool en de cirkel raken elkaar in de oorsprong; bepaal ook de coördinaten van de overige snijpunten A 1 en A 2.

Examen G0U13 Bewijzen en Redeneren Bachelor of Science Fysica en Wiskunde. vrijdag 3 februari 2012, 8:30 12:30

maplev 2010/7/12 14:02 page 157 #159 Taylor-ontwikkelingen

Examen G0U13 Bewijzen en Redeneren Bachelor 1ste fase Wiskunde. vrijdag 31 januari 2014, 8:30 12:30. Auditorium L.00.07

TENTAMEN WISKUNDIGE BEELDVERWERKINGSTECHNIEKEN

8. Differentiaal- en integraalrekening

TW2040: Complexe Functietheorie

Bekijk nog een keer het stelsel van twee vergelijkingen met twee onbekenden x en y: { De tweede vergelijking van de eerste aftrekken geeft:

Complexe Analyse - Bespreking Examen Juni 2010

Examen G0U13 - Bewijzen en Redeneren,

UNIVERSITEIT TWENTE Faculteit Elektrotechniek, Wiskunde en Informatica

TENTAMEN WISKUNDIGE BEELDVERWERKINGSTECHNIEKEN

Bijzondere kettingbreuken

Analyse I. 1ste Bachelor Ingenieurswetenschappen Academiejaar ste semester 12 januari 2010

Lineaire programmering

Eerste orde partiële differentiaalvergelijkingen

Schijnbaar gelijkbenige driehoeken

TRILLINGEN EN GOLVEN HANDOUT FOURIER

Dynamica van de logistische afbeelding. chaos 08-09

Het uitwendig product van twee vectoren

Hertentamen Topologie, Najaar 2009

STEEDS BETERE BENADERING VOOR HET GETAL π

1 Eigenwaarden en eigenvectoren

Relevante examenvragen , eerste examenperiode

dx; (ii) * Bewijs dat voor elke f, continu ondersteld in [0, a]: dx te berekenen.(oef cursus) Gegeven is de bepaalde integraal I n = π

Leeswijzer bij het college Functies en Reeksen

2 Kromming van een geparametriseerde kromme in het vlak. Veronderstel dat een kromme in het vlak gegeven is door een parametervoorstelling

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Uitwerking Tentamen Calculus, 2DM10, maandag 22 januari 2007

== Hertentamen Analyse 1 == Dinsdag 25 maart 2008, u

Oefeningentoets Differentiaalvergelijkingen, deel 1 dinsdag 6 november 2018 in lokaal 200M van 16:00 tot 18:00u

1 Stelsels van niet-lineaire vergelijkingen

EXAMEN LINEAIRE ALGEBRA EN ANALYTISCHE MEETKUNDE I. 1. Theorie

Paragraaf 2.1 Toenamediagram

Uitwerkingen Tentamen Gewone Differentiaalvergelijkingen

Transcriptie:

7 STELSELS NIET-LINEAIRE VERGELIJKINGEN EN MINIMALISATIEPROBLEMEN 72 7 Stelsels niet-lineaire vergelijkingen en minimalisatieproblemen 7.a Probleemstelling in één dimensie Bepaal de oplossing van de volgende twee problemen: f(x) = 0 f : (a, b) IR voldoend glad min F(x) F : (a, b) IR voldoend glad (7.1) x (a,b) aangenomen dat zo n oplossing bestaat. Het tweede probleem herleidt zich tot het eerste door F (x) = 0 op te lossen, maar numeriek behoeft dit niet zinvol te zijn als de afgeleide zich niet of moeilijk laat berekenen. 7.b Intervalhalvering of binaire search Als de tekens van f(a) en f(b) verschillen, ligt er (minstens) één nulpunt tussen en kunnen we dit vinden met de algoritme if f(a) f(b) < 0 then repeat c := (b +a)/2 ; if teken (f(c)) = teken (f(a)) then a := c else b := c end until b a voldoend klein. Convergentie is verzekerd, maar vrij traag. Geen generalisatie mogelijk naar verscheidene dimensies. 7.c Successieve substitutie Herformuleer probleem (7.1) als volgt: x = ϕ(x) := x f(x) (7.2) dan kunnen we het iteratieve proces bekijken: kies x 0 ; for k := 1 to do x k := ϕ(x k 1 ) (7.3) Stelling 1: Als α een oplossing is van de vergelijking α = ϕ(α) en als ϕ (α) < 1 (ϕ continu) (7.4) dan is er een d > 0 zodat het proces (7.3) convergeert naar α voor alle x 0 [α d, α + d]. Bewijs: Op grond van (7.4) is er een γ < 1 en een d > 0 zo, dat ϕ (x) γ x [α d, α + d] Bijgevolg geldt: als x k α d, dan ook x k+1 α = f(x k ) f(α) = f (ξ) x k α γ x k α γd zodat x k α γ k d 0 als k.

7 STELSELS NIET-LINEAIRE VERGELIJKINGEN EN MINIMALISATIEPROBLEMEN 73 Convergentie is volgens deze stelling alleen verzekerd in een (kleine) omgeving van α als de absolute waarde van de afgeleide kleiner dan 1 is. De convergentie kan heel traag zijn (als de afgeleide dicht bij +1 of 1 is) maar ook heel snel (als de afgeleide ongeveer nul is). Het proces is onmiddellijk te generaliseren naar verscheidene dimensies: Stelling 2: Als ϕ : D IR n IR n een continu differentieerbare funktie op een open gebied D IR n is met a = ϕ(a) voor zekere a D en als ( ϕ)(a) < 1 ( ϕ is de functionaalmatrix ( ϕ i x j ) n i,j=1 ) (7.5) dan is er een d > 0 zo, dat B := {x IR n x a d} D en zodat het proces x n+1 = ϕ(x n ) convergeert naar a voor alle x 0 B. Bewijs: zie boven; vervang absolute waarden door normen. In het successieve-substitutieproces (7.3) zit een grote vrijheid ingebakken. Omdat f(α) = 0 kunnen we i.p.v. (7.2) ook kiezen ϕ(x) = x f(x) g(x) met een willekeurige funktie g waarvoor g(α) 0. Kies bijvoorbeeld g(x) = f (α) (mits deze constante 0), dan geldt ϕ (x) = 1 f (x) f (α) zodat ϕ (α) = 0 We krijgen zo een zeer snelle convergentie maar het grote probleem is natuurlijk, dat α en dus ook f (α) onbekend zijn. Ga na, dat g(x) = f (x) wel een goede praktische keuze is. (7.6) 1.5 1 f(x) f(0) + x f (0) 0.5 0 x1 x0=0-0.5-1 -0.5 0 0.5 1 Figure 15: De funktie f met zijn raaklijn in x = 0. Deze raaklijn is een lineaire benadering van f in een omgeving van x = 0. Het nulpunt ervan geeft een betere benadering van het nulpunt van f. 7.d Newton-Raphson Als de funktie f, waarvan we het nulpunt α willen bepalen, een continue tweede afgeleide heeft in een relevant gebied rond het nulpunt, dan kunnen we f in en (naburig punt) x 0 ontwikkelen, f(x) = f(x 0 ) + (x x 0 )f (x 0 ) + 1 2 f (ξ)(x x 0 ) 2.

7 STELSELS NIET-LINEAIRE VERGELIJKINGEN EN MINIMALISATIEPROBLEMEN 74 Voor de oplossing α van f(α) = 0 geldt dus α = x 0 f(x 0) f (x 0 ) 1 2 f (ξ) f (x 0 ) (α x 0) 2. (7.7) Als x 0 al een goede benadering was van α, dan zal x 0 f(x 0 )/f (x 0 ) een betere zijn, immers dit punt is het nulpunt van de lineaire benadering f(x 0 ) + (x x 0 )f (x 0 ) van f(x) in de buurt van x 0 ; zie ook fig. 15. Zo vinden we het Newton-Raphson proces kies x 0 ; for k := 0 to do x k+1 := x k f(x k) f (x k ) end. (7.8) Stelling 3: Als f tweemaal continu differentieerbaar is in een omgeving van α en als f (α) 0, dan convergeert het Newton-Raphson proces (7.8) lokaal kwadratisch. Bewijs: Zij d zo, dat max x [α d,α+d] f (x) min x [α d,α+d] f (x) dan volgt uit (7.7): als x k [α d, α + d], dan geldt x k+1 α = 1 2 zodat x k+1 [α d, α + d] en de rij convergeert. 1 d f (ξ k ) f (x k ) (x k α) 2 < 1 2 x k α, (7.9) Opmerking: Een proces x k := ϕ(x k 1 ) met ϕ(α) = α heet lokaal convergent van orde p 1 in een omgeving van α, als voor alle startpunten x 0 voldoend dicht bij α geldt: x k+1 α C x k α p k voor zekere C > 0. Als p > 1, dan is het proces altijd lokaal convergent (ga na!). Een stelling zoals bovenstaande is weinig praktisch omdat het nulpunt α onbekend is. Een meer praktisch resultaat vinden we uit het volgende idee. Als f in een punt x 0 voldoend klein is, als de helling van f niet al te klein is en als de kromming van f (d.w.z. de tweede afgeleide) niet al te groot is, dan kan f een doorgang door nul in de buurt van x 0 niet vermijden en is het Newtonproces, dat start in x 0, convergent. De preciese formulering is als volgt: Stelling 4: Laat I IR een open interval zijn, laat f een differentieerbare funktie zijn op I met een Lipschitz continue afgeleide en laat x 0 I een punt zijn, waarvoor geldt: (a) f (x) f (y) γ x y x, y I, (b) 1/f (x) β x I, (c) f(x 0 )/f (x 0 ) α. (7.10) Als d := 1 2 α β γ < 1 en als r := α /(1 d) zo is dat (x 0 r, x 0 + r) I, dan convergeert het Newtonproces (7.8) met beginpunt x 0 naar een (unieke) limiet a [x 0 r, x 0 + r], dat een nulpunt is van f. Bewijs: Vanwege (7.10c) geldt: zodat x 1 (x 0 r, x 0 + r). Vanwege (7.10a,b) geldt x 1 x 0 = f(x 0 )/f (x 0 ) α < r (7.11) x k+1 x k f(x k )/f (x k ) β f(x k ) = β f(x k ) f(x k 1 ) f (x k 1 )(x k x k 1 ) (7.12)

7 STELSELS NIET-LINEAIRE VERGELIJKINGEN EN MINIMALISATIEPROBLEMEN 75 Om deze expressie te schatten gebruiken we de identiteit y f(y) = f(x) + x y f (t)dt = f(x) + (y x)f (x) + x (f (t) f (x))dt zodat uit (7.10a) voor alle x, y I volgt y f(y) f(x) (y x)f (x) γ x Vullen we dit in formule (7.12) in, dan vinden we t x dt 1 2 γ(x y)2 x k+1 x k 1 2 βγ(x k x k 1 ) 2 (7.13) onder de voorwaarde dat x k en x k 1 in I liggen. Dit laatste bewijzen we met induktie. Als alle iteranden {x 1, x 2,...,x k } in I liggen, dan volgt uit (7.11) en (7.13): x 2 x 1 1 2 β γ x 1 x 0 2 1 2 βγα2 = αd x 3 x 2 1 2 β γ x 2 x 1 1 2 β γ (1 2 α2 β γ) 2 = α ( 1 2 α β γ)3 = αd 3 αd 2 en in het algemeen x k+1 x k 1 2 β γ x k x k 1 α ( 1 2 α β γ)2k 1 α d k zodat x k x 0 x 1 x 0 + x 2 x k + + x k x k 1 α (1 + d + d 2 + + d k 1 ) r. Bijgevolg liggen alle iteranden in het (open) interval (x 0 r, x 0 + r) en is de rij een Cauchy-rij met limiet in het (gesloten) interval [x 0 r, x 0 + r]. Een sterkere versie van deze stelling staat bekend als de stelling van Newton-Kantorowitz. Hierbij is de begrenzing (7.10b) op de afgeleide slechts vereist in het startpunt x 0 en het convergentiegebied wat groter. Een preciese formulering zullen we geven in de volgende paragraaf. 7.e Problemen in verscheidene dimensies Zoals gezegd, is generalisatie van interhalvering in verscheidene dimensies niet mogelijk, terwijl de generalisatie van successieve substitutie en van Newton(achtige) processen heel gemakkelijk is. We zijn vooral geïnteresseerd in Newton(achtige) processen. Laten er n funkties f 1 f n gegevens zijn van n onbekenden x 1 x n, waarvoor we een gemeenschappelijk nulpunt willen vinden. We noteren de funkties en de onbekenden als vektoren in IR n. Gegeven is dus een (open) gebied D IR n (b.v. een bol) waarop de funktie f : D IR gedefinieerd is. We nemen aan dat alle componenten van f continue (partiële) tweede afgeleiden hebben. Definieer f (de Jacobiaan) als de matrix van partiële afgeleiden van f, dan is er (volgens de Taylorontwikkeling) een konstante γ, zo dat ( f) ij := f i x j, (7.14) f(x) f(y) f(y)(x y) γ x y 2. (7.15)

7 STELSELS NIET-LINEAIRE VERGELIJKINGEN EN MINIMALISATIEPROBLEMEN 76 Analoog aan het eendimensionale geval zal het Newton-Raphson proces, x n+1 = x n ( f(x n )) 1 f(x n ), (7.16) lokaal convergent zijn in een omgeving van een nulpunt a als de Jacobiaan f in dit punt inverteerbaar is: Stelling 5: Als f een nulpunt a heeft, als de Jacobiaan f(a) in dat punt inverteerbaar is en als alle partiële tweede afgeleiden continu zijn in een omgeving van a, dan is er een d > 0 zo dat het Newtonproces (7.16) convergeert naar a voor iedere startpunt x 0 met x 0 a d. Bewijs: Volledig analoog met het eendimensionale geval. Op dezelfde manier kan stelling 4 vertaald worden naar verscheidene dimensies en bewezen worden. Een iets sterkere variant ervan is de volgende stelling van Kantorowitz. Hierin gebruiken we voor de (open) bol met straal d om y IR n de volgende notatie: S(y, d) := {x IR n x y < d}. Stelling 6: (Newton-Kantorowitz) Laat f een continu differentieerbare afbeelding zijn van een open gebied D IR n naar IR n die voldoet aan de volgende eigenschappen (a) f(x) f(y) γ x y x,y D (b) ( f(x 0 )) 1 f(x 0 ) α voor zekere x 0 D (7.17) (c) ( f(x 0 )) 1 β met α, β en γ zo, dat h := αβγ 1 2 en dan heeft f een uniek nulpunt in S(x 0, ρ) D met ρ := 1 1 2h h α = 2α 1 + 1 2h, S(x 0, r) D met r := 1 + 1 2h α n en convergeert het Newtonproces, startend in x 0, naar dit nulpunt. (Geen bewijs). Hoewel deze stelling op zich een mooi resultaat is, is de verficatie van (2.4a) in het algemeen ondoenlijk en kijkt men gewoon of het proces in de praktijk convergeert. 7.f Een aangepaste (gedempte) Newtonmethode De Newtonmethode (7.16) convergeert lokaal, d.w.z. er is convergentie, als het startpunt voldoend dicht bij het gewenste nulpunt ligt. Starten we wat verder weg, dan kan de rij iteranden divergeren (of convergeren naar een andere limiet). Voorbeeld: De funktie arctan(x) heeft precies een nulpunt, x = 0. De Newtoniteratie luidt: Als voor het startpunt x 0 geldt x k+1 = x k (1 + x 2 k)arctan (x k ). (7.18) arctan(x 0 ) > 2 x 0 1 + x 2 0,

7 STELSELS NIET-LINEAIRE VERGELIJKINGEN EN MINIMALISATIEPROBLEMEN 77 dan ligt de volgende iterand x 1 verder van x = 0 dan dit startpunt, x 1 = x 0 (1 + x 2 0) arctan (x 0 ) < x 0. Analoog geldt dan k : x k+1 > x k. Aangezien het proces (7.18) geen andere limiet kan hebben, moet de rij divergeren. Een belangrijke reden, waarom (3.1) divergeert voor te grote startwaarden x 0 is, dat de stap (1 + x 2 k )arctan(x k) weliswaar in de goede richting is, maar zijn doel voorbij schiet. Een kortere stap zou beter zijn: vervang (3.1) door x k+1 = x k λ k (1 + x 2 k) arctan (x k ) (7.19) en kies in iedere slag een dempingsfactor λ k [0, 1]. Als we λ k goed kiezen, zal de volgende iterand wel dichter bij het gezochte nulpunt komen. Als de iteranden eenmaal voldoend dichtbij zijn, wordt demping overbodig en kunnen we terugkeren naar het standaard (kwadratisch convergente) Newtonproces. Een gedempt n-dimensionaal Newtonproces zal dus luiden: kies startwaarde x 0 ; k := 0; repeat y k := f(x k ); D k := f(x k ); s k := Dk 1 y k kies dempingsparameter λ k (0, 1]; x k+1 := x k λ k s k until convergentie (7.20) Aangezien we x willen vinden zo, dat f(x) = 0, lijkt het criterium f(x k ) voldoend klein zeer geschikt, vooral als we de Euclidische norm nemen omdat ϕ(x k ) := f(x k ) 2 2 = n i=1 f 2 i (x k ) (7.21) twee keer continu differentieerbaar is als f het is. Bovendien heeft deze functie de volgende prettige eigenschap ten opzichte van de Newton-zoekrichting s k in (7.20): Stelling 7: Er is een λ k > 0 zodat de funktie monotoon dalend is voor alle t [0, λ k ). g(t) := ϕ(x k ts k ) (7.22) Bewijs: Het is voldoende te laten zien, dat g dalend is in t = 0, d.w.z. dat g (0) < 0. We vinden g (0) = = = d dt ϕ (x k ts k ) t=0 = d dt ( n n j=1 n j=1 i=1 f 2 i (x k ts k )) t = 0 ϕ (x k ) s k,j ( = s T k ϕ x j x = xk ) n 2 f i (x k ) f i (x k ) s k,j x j i=1 = 2 y T k D k s k = 2 y k 2 = 2g(0) (7.23) Het bepalen van een geschikte waarde van λ k heet lijnminimalisatie (line search). In het eendimensionale voorbeeld zien we dat het vinden van een minimaliserende λ k equivalent is met het oorspronkelijke nulpuntsprobleem. Het heeft dus geen zin om een exacte lijnminimalisatie te doen. Een eenvoudige strategie voor de keuze van λ k wordt gegeven door de volgende algoritme: λ k := 1; r := ϕ(x k ); while ϕ(x k λ k s k ) r do λ k := 1 2 λ k end (7.24)

7 STELSELS NIET-LINEAIRE VERGELIJKINGEN EN MINIMALISATIEPROBLEMEN 78 We beginnen dus bij de waarde λ = 1 (echte Newtonstap) en we halveren λ (geen afrondfout) totdat we in een punt komen met een residu, dat kleiner is dan ϕ(x k ). Het is duidelijk, dat het zinvol is om met λ = 1 te beginnen, omdat dit op den duur (voor grote k) de optimale stapgrootte is. Als we echter nog ver van ons doel verwijderd zijn, kan dit betekenen dat we in iedere slag van het gedempte Newtonproces (7.20) vele malen moeten halveren en ϕ(x λs) berekenen bij iedere halvering. Dit werk kunnen we verminderen door in de k-de stap het zoeken naar een geschikte dempingsparameter niet aan te vangen met λ = 1, maar met tweemaal de demping van de vorige Newtonstap, tenzij dit groter dan 1 is: if k = 0 then λ 0 := 1 elsif λ k 1 1 2 then λ k := 2λ k 1 else λ k := 1; end r := ϕ(x k ); while ϕ(x k λ k s k ) r do λ k := 1 2 λ k; end (7.25) Hierbij baseren we ons op de heuristiek dat de dempingsparameter in de k-de slag wel niet veel van die van de k 1-ste slag zal verschillen, terwijl anderzijds de waarde van de dempingsparameter terug kan keren tot de optimale λ = 1 als we dicht genoeg bij het nulpunt zijn. We kunnen in (7.24) en (7.25) beter gebruik maken van de informatie uit (7.23) over de afname van ϕ in de zoekrichting door niet slechts te eisen, dat ϕ(x k+1 ) < ϕ(x k ) = g(0), maar te eisen dat een fractie α van de haalbare afname ook gerealiseerd wordt, dus ϕ(x k+1 ) < g(0) + αλ k g (0) = g(0)(1 2αλ k ) met 0 < α < 1. (7.26) In de praktijk blijkt α = 0.1 een goede keuze. Als we g(1) = ϕ(x k s k ) berekend hebben maar de Newtonstap verworpen hebben omdat g(1) g(0)(1 2α), kunnen we echter een beter gebruik maken van de beschikbare gegevens. We kennen g(0), g (0) en g(1) en het ligt dan voor de hand om de functie g te benaderen met de parabool p(t) = g(0) 2tg(0) + t 2 (g(1) + g(0)), ( waarbij p (0) = g (0) = 2g(0) ), (7.27) welke in de genoemde punten met g overeenstemt; p is een kwadratisch model voor het verloop van ϕ langs de lijn x k ts k. Deze parabool p(t) heeft altijd een minimum omdat de coëfficiënt van t 2 positief is. Uit p (t) = 2g(0) + 2t(g(0) + g(1)) = 0 volgt, dat dit minimum wordt aangenomen in het punt g(0) t 0 := g(0) + g(1) 1 2(1 α). Als deze parabool een goed model is van g, zal de gevonden waarde van t 0 een goede schatting leveren van het minimum van g en dus een betere waarde voor de dempingsparameter geven dan 1 2. Als we inderdaad g(t 0 ) < g(0)(1 2αt 0 ) vinden, hebben we een geschikte demping gevonden en kunnen we overgaan naar de volgende Newtonstap. Anders herhalen we deze procedure door naar het polynoom p 1 te kijken, dat in t 0 met g overeenstemt, p 1 (t) := g(0) 2tg(0) + t2 t 2 0 (g(t 1 ) + (2t 0 1) g(0)). (7.28) Omdat g(t 0 ) g(0)(1 2αt 0 ), is de coëfficiënt van t 2 positief en heeft p 1 een minimum in t 1 := t 2 0 g(0) g(t 0 ) + (2t 0 1)g(0) t 0 2(1 α). Als g(t 1 ) < g(0)(1 2αt 1 ) accepteren we de gevonden demping en anders herhalen we de procedure opnieuw.

7 STELSELS NIET-LINEAIRE VERGELIJKINGEN EN MINIMALISATIEPROBLEMEN 79 Voor de afleiding van deze algoritme hebben we aangenomen, dat p een goed model is voor g. Als echter g(1) g(0)) (of g(t 0 ) g(0)), kun je hieraan twijfelen. In dat geval is de gevonden waarde van t 0 veel kleiner dan 1 (resp. t 1 t 0 ). Het verdient dus aanbeveling om een drempel te leggen onder de te accepteren waarde van t 0 (resp. t 1 ), b.v. t 0 > 0.1 (resp. t 1 > 0.1 t 0 ). Zo vinden we de algoritme: ( ) g(0) t min := max g(0) + g(1), 0.1 ; while g(t min ) g(0)(1 2αt min ) do t 2 min t 1 := g(0) g(t min ) + (2t min 1) g(0) ; t min := max(t 1, 0.1 t min ) end ; λ k := t min (7.29) In deze algoritme wordt de staplengte steeds sterker verkleind dan bij de halveringsstrategie (7.24). Omdat hierbij rekening gehouden wordt met de reeds gevonden waarden, mogen we verwachten, dat een goede demping zo sneller gevonden wordt. 7.g De methode van de steilste helling (steepest descent) We beschouwen nu het probleem, een minimum te vinden van een functie ϕ(x) = ϕ(x 1,...,x n ) : IR n IR, aangenomen dat zo n minimum bestaat. De methode van Newton lost dit op door een nulpunt te bepalen van de gradient ϕ(x) = ( δϕ,..., δϕ ) T δx 1 δx n als funktie van x. Dit vereist kennis van de matrix van tweede afgeleiden van ϕ, de Hessiaan H ϕ := T ϕ. Vaak is deze Hessiaan echter niet of slechts zeer moeilijk uit te rekenen, zodat we met een differentiebenadering moeten volstaan. We kunnen echter ook methoden zoeken, die geen gebruik maakt van de Hessiaan of benaderingen ervan. We kunnen de funktie ϕ beschouwen als een berglandschap op een n-dimensionale aarde, waarin we moeten proberen het dal te vinden vanuit een zeker startpunt x 0. We willen naar beneden lopen en kiezen hiervoor een richting s. Door de helling in deze richting te bepalen, kunnen we zien welke kant naar beneden gaat. We hebben het idee, dat we door steeds maar naar beneden te lopen uiteindelijk wel in het dal (het minimum) zullen aankomen. Dit is echter alleen waar als ons pad niet op den duur parallel gaat lopen met een horizontale richting, dus als de hoek met alle horizontale richtingen groter dan een zekere positieve waarde blijft. Het snelst (d.w.z. via de korste weg) zijn we beneden, als we steeds de richting van de steilste helling blijven volgen (met infinitesimaal kleine stapjes!). Deze steilste helling wordt gegeven door de gradient ϕ van ϕ. De algoritme voor de gradient methode luidt dan: kies startpunt x 0 ; for k := 0, 1, 2, s k := ϕ(x k ); (bepaal de richting van de gradient) bepaal λ k zo dat ϕ(x k λ k s k ) ϕ(x k ts k ), t, x k+1 := x k λ k s k end (lijnminimalisatie) (7.30) Hierbij dalen we dus steeds een eindje af in de richting van de steilste helling en wel zover, dat we het minimum in die richting bereiken. Dit proces blijkt te convergeren naar een stationair punt

7 STELSELS NIET-LINEAIRE VERGELIJKINGEN EN MINIMALISATIEPROBLEMEN 80 van ϕ (punt met ϕ = 0). Algemener zullen we bewijzen dat iedere afdaalrichting s k goed is, als de cosinus van de hoek tussen s k en de gradient ϕ(x k ) maar niet te klein wordt (d.w.z. als de hoek van de zoekrichting met een horizontale richting maar niet te klein wordt). Stelling 8: Op een open gebied D IR n is ϕ : D IR een continu differentieerbare funktie, die voldoet aan de eis ϕ(x) ϕ(y) 2 γ x y 2, x, y D. (7.31) Het punt x 0 D is het beginpunt van het iteratieve proces kies startpunt x 0 ; for k := 0, 1, 2, kies zoekrichting s k zo, dat voor zekere β > 0 geldt: (a) s T k ϕ(x k) β s k 2 ϕ(x k ) 2 ; kies stapgrootte λ k zo, dat (b) ϕ(x k λ k s k ) ϕ(x k ts k ), t met x k ts k D ; x k+1 := x k λ k s k end. (7.32) Als de verzameling K := {x D ϕ (x) ϕ(x 0 )} een compact deel van D is, dan heeft de rij {x k } minstens één verdichtingspunt z en is ieder verdichtingspunt een stationair punt van ϕ. Opmerkingen: Voorwaarde (7.32a) eist dat de cosinus van de hoek tussen de zoekrichting en de gradient niet te klein wordt; voorwaarde (7.32b) is de lijnminimalisatie die in iedere slag dient te worden uitgevoerd; eis (7.31) is niet nodig maar voor het bewijs wel gemakkelijk. In (7.32b) wordt een exacte lijnminimalisatie gevraagd. In de praktijk is dit niet efficiënten en doen we een inexacte lijnminimalisatie, waarbij we stoppen als een fractie van de haalbare vermindering van de objectfunctie bereikt is zoals in (7.26). Bewijs: De rij {x k } is bevat in de compacte deelverzameling K en heeft dus minstens één verdichtingspunt z; we behoeven dus slechts te bewijzen, dat een verdichtingspunt een stationair punt is. Bij definitie is de rij {ϕ(x k )} monotoon dalend; omdat ϕ continu is op een compacte verzameling K is de rij {ϕ(x k )} is naar beneden begrensd en dus convergent, d.w.z. lim k ϕ (x k ) = ϕ(z). Stel nu dat z géén stationair punt is, dan is er een α > 0 zodat ϕ(z) α > 0 en er is een bol S(z, r) met straal r rond z zodat ϕ(x) 1 α > 0 x S(z, r) (7.33) 2 We kunnen nu een stukje Taylorontwikkeling bekijken van ϕ langs de zoekrichting x k ts k. Hiervoor geldt wegens (7.31) als s k 2 = 1, zodat ϕ(x k ts k ) ϕ(x k ) + ts T k ϕ(x k ) 1 2 γ t2 Het rechterlid is minimaal als ϕ(x k ts k ) ϕ (x k ) ts T k ϕ(x k ) + 1 2 γ t2 t = t m := 1 γ st k ϕ(x k ) met minimum ϕ(x k ) 1 2γ (st k ϕ(x k )) 2.

7 STELSELS NIET-LINEAIRE VERGELIJKINGEN EN MINIMALISATIEPROBLEMEN 81 In het volgende punt moet ϕ kleiner zijn dan dit minimum, dus ϕ(x k+1 ) ϕ(x k ) 1 2γ (st k ϕ(x k )) 2 ϕ(x k ) β2 2γ ϕ(x k) 2 ϕ(x k ) α2 β 2 8γ op grond van (7.32a) op grond van (7.33). Aangezien er oneindig veel punten van de rij {x k } binnen S(z, r) liggen, volgt hieruit dat de rij {ϕ(x k )} niet kan convergeren, hetgeen strijdig is. Gevolg. Het gedempte Newtonproces (7.20) is convergent als λ k wordt gekozen door lijnminimalisatie; ga na dat de cosinus van de hoek tussen de zoekrichting en de gradient niet nul kan worden. Opmerking: Bij ongunstige keuze van het startpunt kan het aantal iteraties bij een gradientmethode sterk oplopen, zoals in fig. 16 geschetst is. Getekend zijn de hoogtelijnen (niveaulijnen) behorende bij de iteranden x n, x n+1, x n+2 en de zoekrichtingen voor minimalisatie van de funktie f(x, y) := x 2 + 9y 2 : 5 gradient algorithme voor x^2 + 9 y^2 ; startpunt x=9, y=1 4 3 2 1 0-1 -2-3 -4-5 0 2 4 6 8 10 Figure 16: Voorbeeld van de iteratiestappen van de gradiëntalgoritme toegepast op de funktie f(x, y) := x 2 + 9y 2 en startpunt (x 0, y 0 ) := (9, 1). Vanuit het startpunt wordt gezocht naar het minimum van f gezocht in de richting van de gradiënt, een lijn met helling 45 o. In het minimum doen we een volgende stap in een richting loodrecht op de vorige. Zo zullen er dus zeer veel kleine stapjes nodig zijn om bij het minimum te komen.

REFERENCES 112 References [1] M. Hestenes & E. Stiefel, Methods of conjugate gradients for solving linear systems, J. Research NBS, 49, pp. 409 436, 1952. [2] C. Lanczos, An iteration method for the solution of the eigenvalue problem of linear differential and integral operators, J. Research NBS, 45, pp. 255 282, 1950. [3] J.K. Reid, On the method of conjugate gradients for the solution of large sparse systems of linear equations, Proc. Conf. on Large Sparse Sets of Linear Equations, Academic Press, New York, 1971. [4] J.A. Meijerink and H.A. van der Vorst, An iterative solution method for linear systems of which the coefficient matrix is a symmetric M-matrix, Math.of Comp., 31, pp. 148 162, 1977. [5] G.H. Golub & C.F. Van Loan, Matrix Computations, The Johns Hopkins University Press, Baltimore, Maryland, USA, 1 ste druk, 1983, 2 de druk, 1988, 3 de druk, 1995. [6] R. Bulirsch & J. Stoer, Introduction to Numerical Analysis, Springer Verlag, Berlin, 1977. (Ook verkrijgbaar in een goedkope duitstalige pocketeditie). [7] D. Kincaid & W. Cheney, Numerical Analysis, Brooks & Cole Publishing Company, Pacific Grove, California, USA, 1991; 2de druk, 1996.