Aanvullend dictaat Stochastische Operations Research I. H.C. Tijms



Vergelijkbare documenten
Stochastische Modellen in Operations Management (153088)

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander

Stochastische Modellen in Operations Management (153088)

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten:

MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN?

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Tentamen Inleiding Kansrekening wi juni 2010, uur

Opdracht 2. Deadline maandag 28 september 2015, 24:00 uur.

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Tentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten:

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Toegepaste Wiskunde 2: Het Kalman-filter

Kansrekening en Statistiek

Hertentamen Inleiding Kansrekening 5 juli 2017, 14:00 17:00 Docent: Prof. dr. F. den Hollander

Kansrekening en Statistiek

Statistiek voor A.I. College 6. Donderdag 27 September

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

P = LIMIETGEDRAG VAN MARKOV KETENS Limietverdeling van irreducibele, aperiodieke Markov keten:

Het tentamen heeft 25 onderdelen. Met ieder onderdeel kan maximaal 2 punten verdiend worden.

Je hebt twee uur de tijd voor het oplossen van de vraagstukken. µkw uitwerkingen. 12 juni 2015

S n = tijdstip van de n-de gebeurtenis, T n = S n S n 1 = tijd tussen n-de en (n 1)-de gebeurtenis.

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

o Dit tentamen bestaat uit vier opgaven o Beantwoord de opgaven 1 en 2 enerzijds, en de opgaven 3 en 4 anderzijds op aparte vellen papier

INLEIDING. Definitie Stochastisch Proces:

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

Vragen die je wilt beantwoorden zijn:

LIMIETGEDRAG VAN CONTINUE-TIJD MARKOV KETENS

Stochastische Modellen in Operations Management (153088)

MARKOV MODEL MET KOSTEN In Markov modellen zijn we vaak geïnteresseerd in kostenberekeningen.

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

FLIPIT 5. (a i,j + a j,i )d i d j = d j + 0 = e d. i<j

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Durft u het risico aan?

Cover Page. The handle holds various files of this Leiden University dissertation

Uitwerking Tentamen Inleiding Kansrekening 11 juni 2015, uur Docent: Prof. dr. F. den Hollander

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Combinatoriek groep 1 & 2: Recursie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie

Kansrekening en Statistiek

Statistiek voor A.I. College 5. Dinsdag 25 September 2012

Stochastische Modellen in Operations Management (153088)

Hertentamen Biostatistiek 3 / Biomedische wiskunde

Stochastische Modellen in Operations Management (153088)

Feedback proefexamen Statistiek I

S n = tijdstip van de n-de gebeurtenis, T n = S n S n 1 = tijd tussen n-de en (n 1)-de gebeurtenis.

Opgaven voor Kansrekening

Stochastische Modellen in Operations Management (153088)

Kansrekening en stochastische processen 2S610

Tentamen Inleiding Kansrekening 12 augustus 2010, uur Docent: F. den Hollander

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Stochastische grafen in alledaagse modellen

Tentamen Inleiding Kansrekening 16 juni 2017, 14:00 17:00 Docent: Prof. dr. F. den Hollander

Statistiek voor A.I. College 4. Donderdag 20 September 2012

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van uur.

Monte Carlo Markov Chains voor Bayesiaanse statistiek

Chapter 4: Continuous-time Markov Chains (Part I)

Universiteit Utrecht Faculteit Wiskunde en Informatica. Examen Optimalisering op maandag 18 april 2005, uur.

Local search. Han Hoogeveen. 21 november, 2011

Opgaven voor Kansrekening - Oplossingen

Zo geldt voor o.o. continue s.v.-en en X en Y dat de kansdichtheid van X + Y gegeven wordt door

Local search. Han Hoogeveen CGN A februari, 2009

Kansrekening en stochastische processen 2DE18

Toepassingen op differentievergelijkingen

Zoek de unieke oplossing van het stelsel π = π P waarvoor bovendien geldt dat i S π i = 1.

NETWERKEN VAN WACHTRIJEN

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions

VU University Amsterdam 2018, Maart 27

Tentamen Discrete Wiskunde 1 10 april 2012, 14:00 17:00 uur

Deel 2 van Wiskunde 2

Inleiding Statistiek

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Hoofdstuk 4 Kansen. 4.1 Randomheid

Examen G0U13 Bewijzen en Redeneren Bachelor 1ste fase Wiskunde. vrijdag 31 januari 2014, 8:30 12:30. Auditorium L.00.07

Samenvatting Statistiek

Tentamen Voortgezette Kansrekening (WB006C)

Opgaven voor Kansrekening

Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode

3.2 Vectoren and matrices

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

Combinatoriek groep 2

Monte Carlo Markov-ketens

Vrije Universiteit Amsterdam Opleiding Wiskunde - Bachelorscriptie. Vernieuwingsrijen. Arno E. Weber. studentnummer:

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Uitwerking tentamen Analyse van Algoritmen, 29 januari

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

WACHTRIJMODELLEN. aankomstproces van klanten; wachtruimte (met eindige of oneindige capaciteit); bedieningsstation (met één of meerdere bediendes).

Kansrekening en Statistiek

Polynomen. + 5x + 5 \ 3 x 1 = S(x) 2x x. 3x x 3x 2 + 2

Inleiding Analyse 2009

b) Uit Bayes volgt, gebruik makend van onderdeel a) P (T V )P (V ) P (T ) = (0.09)(0.07)

Kettingbreuken. 20 april K + 1 E + 1 T + 1 T + 1 I + 1 N + 1 G + 1 B + 1 R + 1 E + 1 U + 1 K + E + 1 N A + 1 P + 1 R + 1 I + 1

Basiskennis lineaire algebra

b. de aantallen aankomsten in disjuncte tijdsintervallen zijn onafhankelijk van elkaar

Overzicht. Lineaire vergelijkingen. Onderwerpen & Planning. Doel. VU Numeriek Programmeren 2.5

De dynamica van een hertenpopulatie. Verslag 1 Modellen en Simulatie

Transcriptie:

Aanvullend dictaat Stochastische Operations Research I H.C. Tijms november 2008

2

Contents 1 Markov Keten Monte Carlo Methoden 7 1.0.1 Reversibele Markov ketens.................. 7 1.0.2 Metropolis-Hastings algoritme................ 10 1.0.3 De Gibbs sampler....................... 16 1.1 Opgaven................................ 19 2 Stochastic Dynamic Programming 21 2.1 Stochastische dynamische programmering.............. 21 2.1.1 Een dobbelspel en optimaal stoppen............ 21 2.1.2 Het spel rood en zwart.................... 24 2.2 Investeringsprobleem en de Kelly strategie............. 25 2.2.1 Dynamische programmering met een stochastische planningsduur........................... 28 2.3 Opgaven................................ 30 3 Appendix 1: Poisson process 33 4 Appendix 2: Renewal-reward processes 43 4.1 Basic theory.............................. 43 4.2 Poisson arrivals see time averages.................. 48 4.3 Problems................................ 51 3

4 CONTENTS

Voorwoord Voor u ligt een aanvullend diktaat voor het college Stochastische Operations Research I. Het onderwerp discrete-tijds Markov ketens staat centraal in het college SOR I. Dit onderwerp wordt op een meer elementair niveau behandeld in hoofdstuk 15 van het eerder bij het tweedejaars college Simulatie gebruikte boek H.C. Tijms, Understanding Probability en op een hoger niveau in het boek H.C. Tijms, A First Course to Stochastic Models. Dit laatstgenoemde boek zal het te gebruiken boek zijn bij het vervolgcollege Stochastische Operations Research II waarin onder meer continue-tijds Markov ketens met toepassingen in de wachttijdtheorie aan de orde komen. In het college SOR I zullen we ons echter voor de discrete-tijds Markov ketens baseren op het materiaal in hoofdstuk 15 van het boek Understanding Probability en dit aanvullen met materiaal over Markov keten Monte Carlo methoden, een methode die steeds meer in allerlei gebieden gebruikt wordt (hoofdstuk 1 uit dit aanvullend diktaat). Verder wordt in het college SOR I een uit het boek Operationele analyse aangepast hoofdstuk over stochastische dynamische programmering (in feite Markov ketens met besturing) behandeld en dit is hoofdstuk 2 in het aanvullende diktaat. In het college dat zes weken lang twee keer twee uur college per week beslaat, zal sprake zijn van een mengvorm van hoor- en werkcollege. De opzet zal zo zijn dat iedere deelnemer actief betrokken wordt bij het maken van de opgaven. De ervaring wijst uit dat tentamen normaal gesproken niet haalbaar is indien niet actief deelgenomen aan de werkvorm. Verder is op vrijwillige en individuele basis een bonus van maximaal 0.5 punt te verkrijgen, zie hieronder bij college 4. College 1 (a) Het Markov-keten model, paragraaf 15.1 (uit boek Understanding Probability, 2de druk, Cambridge University Press, 2007). (b) Opgaven 15.1, 15.2 15.4, 15.5 en 15.6. College 2 (a) Tijdsafhankelijk gedrag van Markov-ketens en absorberende Markovketens, de paragrafen 15.2 en 15.3. (b) Opgaven 15.11, 15.12, 15.14, 15.18, 15.20 en 15.24. College 3 (a) Evenwichtsanalyse van Markov-ketens, paragraaf 15.4. (b) Opgaven 15.25, 15.29, 15.32 en 15.34 College 4 Hoofdstuk 1 over Markov keten Monte Carlo Methoden uit aanvullend diktaat.

6 CONTENTS NB: Aan de opgaven 2 en 3 kan op vrijwillige basis gewerkt worden en dit geeft dan een bonus van maximaal 0.5 punt (inleveren dient te geschieden uiterlijk op het laatste college; lengte verslag tussen 5 en 10 bladzijden exclusief de computerprogramma s die als bijlage toegevoegd dienen te worden). College 5 (a) Stochastische dynamische programmering, paragraaf 2.1 uit aanvullend diktaat. (b) Opgaven 1, 2, 3 en 4. College 6 (a) Stochastische Dynamische programmering, paragraaf 2.2 uit aanvullend diktaat. (b) Opgaven 6, 7, 8 en 9.

Chapter 1 Markov Keten Monte Carlo Methoden De Markov keten Monte Carlo methode is een methode om uit een (multivariate) kansdichtheid π(x) te simuleren die op een multiplicative constante na bekend is, waarbij het niet mogelijk is de multiplicatieve constante rechtstreeks door normalisatie te berekenen. Deze krachtige methode wordt in de praktijk veelvuldig gebruikt, met name in de Bayesiaanse statistiek die met deze simulatiemethode veel aan toepasbaarheid heeft gewonnen. Het basisidee van de simulatiemethode is simpel. In feite komt de methode neer op het construeren van een Markov keten waaruit direct random trekkingen gedaan kunnen worden en die π(x) als evenwichtsverdeling heeft. De theoretische basis van zo n constructie is het begrip reversibele Markov keten dat we eerst zullen bespreken. 1.0.1 Reversibele Markov ketens Het begrip reversibiliteit introduceren we aan de hand van het Ehrenfest model. In dit model is sprake van twee compartimenten A en B die tezamen r deeltjes bevatten. Elke keer wordt één van de deeltjes random gekozen en van compartiment verwisseld. Definiëren we X n als het aantal deeltjes in compartiment A na de nde stap, dan is {X n } een Markov keten met toestandsruimte I = {0, 1,..., r} en 1-staps overgangskansen p i,i 1 = i, p r i,i+1 = r i en p r ij = 0 anders. De evenwichtsvergelijkingen π j = p j 1,j π j 1 + p j+1,j π j+1, waarbij π 0 = p 10 π 1 en π r = p r 1,r π r 1, kunnen worden beschreven tot (ga na!): p j,j 1 π j = p j 1,j π j 1 voor j = 1,..., r. Bedenken we dat p ij = 0 voor j i > 1, dan volgt uit deze relatie dat de Markov keten {X n } de eigenschap heeft dat p jk π j = p kj π k voor alle j, k I. Definitie 7.5. Een irreducibele Markov keten 1 {X n } met een eindige toestand- 1 Een Markov keten heet irreducibel als elk tweetal toestanden onderling bereikbaar zijn, d.w.z. voor elke i en j is er een n met p (n) ij > 0. 7

8 CHAPTER 1. MARKOV KETEN MONTE CARLO METHODEN sruimte I heet reversibel als voor de unieke evenwichtsverdeling {π j } van de Markov keten geldt dat π j p jk = π k p kj voor alle j, k I. In woorden, in de evenwichtsituatie is het verloop van het proces terugwaarts in de tijd probabilistisch gezien identiek aan het verloop van het proces voorwaarts in de tijd. Het bewijs is simpel. Voor elke n 1 geldt P (X n = j) = π j voor alle j, zoals bij definitie 7.2 beargumenteerd is. Dus P (X n 1 = j X n = k) = P (X n = k X n 1 = j)p (X n 1 = j) P (X n = k) = p jkπ j π k. Dit geeft P (X n 1 = j X n = k) = p kj = P (X n = j X n 1 = k), omdat = p kj op grond van reversibiliteit. p jk π j π k In het vervolg zullen we ons beperken tot irreducibele Markov ketens met een eindige toestandsruimte. Een belangrijk resultaat dat we herhaaldelijk zullen gebruiken, is het volgende: Stelling 7.5 Laat {X n } een irreducibele Markov keten zijn met een eindige toestandsruimte I. Als er een kansverdeling {a j, j I} is zodat a j p jk = a k p kj voor alle j, k I, dan geldt a j = π j voor alle j I, waarbij {π j } de unieke evenwichtsverdeling van de Markov keten is. Bewijs. Sommeren we de vergelijking voor a j over k I, dan vinden we met k I p jk = 1 de evenwichtsvergelijkingen a j = k I a kp kj voor j I. Op grond van stelling 7.3 is de evenwichtsverdeling {π j } de enige kansverdeling die hieraan voldoet, waarmee de stelling bewezen is. Een interessante vraag is de volgende. Stel dat {a j, j I} een kansmassa functie op een eindige verzameling I is met a j > 0 voor alle j. Is het mogelijk een Markov keten te construren die {a j, j I} als unieke evenwichtsverdeling heeft? Het antwoord is ja. In feite, zijn zelfs oneindig veel Markov ketens met deze evenwichtsverdeling te construeren. De fysische constructie van zo n Markov keten is als volgt: stel dat de huidige toestand j is, kies dan random één van de andere toestanden, zeg toestand k. Deze toestand k is de volgende toestand van de Markov keten als a k > a j, anders is toestand k met kans a k /a j de volgende toestand van de Markov keten en blijft de Markov keten in de huidige toestand j met kans 1 a k /a j. Dus, met N = I het aantal toestanden in I, definieer een Markov keten op I met de 1-staps overgangskansen: voor elke j, k I met j k geldt a j p jk = 1 N 1 min(a k, a j ) = a k 1 N 1 min(a j/a k, 1) = a k p kj.

Deze Markov keten is irreducibel en aperiodiek (ga na!). Verder voldoet de Markov keten aan de reversibiliteitsconditie. Stelling 7.5 geeft nu dat de Markov keten {a j } als unieke evenwichtsverdeling heeft. Opmerking: {a j } is ook de unieke evenwichtsverdeling is van de Markov keten die we verkrijgen door in de 1 bovenstaande p jk s de constante te vervangen door een constante γ > 0 met N 1 (N 1)γ 1. Simulated annealing algoritme Reversibele Markov ketens liggen ten grondslag aan het simulated annealing algoritme. Dit is een zoekmethode om het absolute minimum van een veelal gecompliceerde functie te bepalen op een eindig maar zeer groot domein. Het kernidee van het algoritme is om volgens een kansverdeling van het ene punt naar het andere punt te bewegen zodat de zoekprocedure ook uit een locaal minimum kan ontsnappen. Wij geven slechts het ruwe idee van het algoritme. Stel dat c(i) een gegeven functie is op een eindige verzameling I. Voor elk punt i I is een locale omgevingsverzameling N(i) van punten gekozen met i / N(i) zodanig dat j N(k) als k N(j). Verder wordt verondersteld dat voor elk tweetal verschillende punten l en k er een keten l 0 = l, l 1,..., l r = k is met l v N(l v 1 ) voor v = 1,..., r. Voor het gemak nemen we aan dat elke N(j) uit eenzelfde aantal punten bestaat. Wij definiëren nu als volgt een Markov keten op I. Als de huidige toestand van de Markov keten j is, dan wordt random een kandidaattoestand k uit N(j) gekozen. De volgende toestand van de Markov keten is gelijk aan k als c(k) < c(j); anders is de volgende toestand gelijk aan k met kans e c(k)/t /e c(j)/t en gelijk aan de huidige toestand j met kans 1 e c(k)/t /e c(j)/t. Hierbij is T > 0 een besturingsparameter. Met andere woorden, de Markov keten is gedefinieerd door de 1-stapsovergangskansen 1 M min(e c(k)/t /e c(j)/t, 1) voor k N(j) p jk = 1 l j p jl voor k = j en p jk = 0 anders, waarbij M is het aantal elementen in elk van de N(j) s. Voor deze irreducibele Markov keten geldt e c(j)/t p jk = e c(k)/t p kj voor alle j, k I, oftewel de Markov keten is reversibel. Het bewijs is simpel. Neem( k j. Voor ) k / N(j) geldt p jk = p kj = 0 en voor k N(j) is e c(j)/t 1 min 1, e c(k)/t = M e ( c(j)/t 1 M min(e c(j)/t, e c(k)/t ) = e c(k)/t 1 min 1, ). e c(j)/t De Markov keten heeft M e c(k)/t dus de evenwichtskansen π i = 1 A e c(i)/t voor i I met A = k I e c(k)/t. 9 Als N(j) niet hetzelfde is voor alle j, neem dan M = max j N(j).

10 CHAPTER 1. MARKOV KETEN MONTE CARLO METHODEN Als de functie c(i) het absoluut minimum aanneemt in een uniek punt m, dan volgt uit π m = 1/(1 + k m e (c(k) c(m))/t ) dat π m 1 als T 0 (ga zelf na dat algemeen geldt dat i M π i 1 als T 0 met M is de verzameling van de punten waarin de functie c(i) het absolute minimum aanneemt). Dit resultaat is de basis van het simulated annealing algoritme. In dit algoritme wordt met een grotere waarde voor de zogenoemde afkoeltemperatuur T begonnen en laat men in elke iteratiestap n van het algoritme de parameter T dalen, bijvoorbeeld volgens T =C/ln(n + 1) met C > 0 een constante. Het algoritme wordt gestart met een toestand X 0 = i 0. Achtereenvolgens worden dan toestanden X 1 = i 1, X 2 = i 2,..., X N = i N gegenereerd met N groot en het absolute minimum van de functie c(i) wordt dan geschat door min k=0,1,...,n c(i k ). Een interessante toepassing van het simulated annealing algoritme is het handelsreizigersprobleem. Stel dat uitgaande van stad 0 de steden 1,..., r bezocht moeten worden, waarbij elk van deze steden slechts één keer aangedaan mag worden en weer teruggekeerd moet worden in de beginstad 0. Veronderstel dat niet-negatieve kosten c(i, j) worden gemaakt wanneer vanuit stad i de stad j als volgende stad wordt aangedaan. Een permutatie x = (x 1,..., x r ) van de gehele getallen 1,..., r geeft dan een route met de interpretatie dat vanuit stad 0 naar stad x 1 wordt gegaan, vanuit stad x 1 naar stad x 2, etc en uiteindelijk vanuit stad x r weer terug naar stad 0. De kosten van zo n route zijn c(x) = r+1 i=1 c(x i 1, x i ) met x 0 = x r+1 = 0. In het simulated annealing algoritme zou je voor elke route x als omgevingsverzameling N(x) kunnen kiezen al die routes die ontstaan door de verwisseling van twee elementen in de permutatie (x 1,..., x r ). Iedere omgevingsverzameling N(x) bestaat dan uit hetzelfde aantal van ( r 2) elementen. 1.0.2 Metropolis-Hastings algoritme In Markov keten theorie is het gebruikelijk een evenwichtsverdeling te zoeken voor een Markov keten. Bij de Markov keten Monte Carlo methode is in feite het omgekeerde het geval: op een multiplicatieve constante na, is een kansverdeling π(s) op een eindige doch zeer grote waardenverzameling S gegeven met π(s) > 0 voor alle s. Het doel is om een Markov {X n } keten te vinden die de kansverdeling {π(s)} als unieke evenwichtsverdeling heeft en waaruit we met simulatie een prestatiemaat van het type s S f(s)π(s) voor een gegeven functie f op S kunnen schatten, gebruikmakend van de ergodenstelling 1 lim n n n f(x k ) = f(s)π(s) met kans 1. s S k=1 Hoe de 1-stapsovergangskansen van zo n Markov keten te vinden? Noteer deze overgangskansen als p MH (s, t). Het idee is om eerst zogenoemde kandidaatovergangskansen te kiezen en die vervolgens zodanig aan te passen dat de reversibiliteitsconditie voor Markov ketens vervuld is. Voor elke s S, kies je

een kansmassa functie (discrete kansdichtheid) q(t s), t S. Dit doe je zodanig dat de Markov keten met q(t s) als 1-staps overgangskans van toestand s naar toestand t irreducibel is. Ingeval de kandidaat-kansen q(t s) meteen al zouden voldoen aan π(s)q(t s) = π(t)q(s t) voor alle s, t S. Dan is de reversibiliteitsconditie vervuld en kunnen we op grond van stelling 7.5 stellen dat {π(s)} de evenwichtsverdeling is van de Markov keten met de q(t s) als 1-staps overgangskansen en hebben we de gezochte Markov keten geconstrueerd. In het algemeen zal niet voor alle s, t de bovenstaande gelijkheid gelden. Stel dat voor de combinatie (s, t) met s t het ongelijkheidsteken geldt. Neem zonder beperking aan dat π(s)q(t s) > π(t)q(s t). In dit geval kunnen we, losjes gezegd, stellen dat het proces te frequent van s naar t gaat en te weinig vaak van t naar s. Een geschikte manier om dit te herstellen is door het aantal transities van s naar t te verminderen door middel van een zogenoemde acceptatiekans α(s, t): met kans 1 α(s, t) vindt de transitie van s naar t geen doorgang en blijft het proces in toestand s. De gezochte 1-staps overgangskansen p MH (s, t) worden dan gekozen als: p MH (s, t) = q(t s)α(s, t) voor s t. Hoe α(s, t) en α(t, s) te kiezen? De bovenstaande ongelijkheid vertelt ons dat transities van t naar s niet vaak genoeg gebeuren zodat het logisch is om in elk geval α(t, s) = 1 te kiezen. De keuze van α(s, t) wordt bepaald door de wens dat de 1-staps overgangskansen p MH (s, t) = q(t s)α(s, t) voldoen aan de reversibiliteitsconditie. Dit geeft met α(t, s) = 1 de eis Oftewel, met π(s)q(t s)α(s, t) = π(t)q(s t)α(t, s) = π(t)q(s t). α(s, t) = π(t)q(s t) π(s)q(t s) kunnen we bovenstaande ongelijkheid aanpassen tot een gelijkheid. Samenvattend, bij kandidaat-kansen q(t s) kiezen we de acceptatiekansen α(s, t) volgens [ ] π(t)q(s t) α(s, t) = min π(s)q(t s), 1 voor alle s, t I. De 1-staps overgangskansen p MH (s, t) van de gezochte Markov keten definiëren we door { q(t s)α(s, t) voor t s p MH (s, t) = 1 t s q(t s)α(s, t) voor t = s. 11

12 CHAPTER 1. MARKOV KETEN MONTE CARLO METHODEN De Markov keten met deze 1-staps overgangskansen voldoet aan de reversibiliteitsconditie π(s)p MH (s, t) = π(t)p MH (t, s) voor alle s, t. De aanname is gemaakt dat de kandidaat Markov keten met de 1-staps overgangskansen q(t s) irreducibel is. Deze aanname is essentieel en impliceert dat de Markov keten met de 1-staps overgangskansen p MH (s, t) ook irreducibel is zodat de kansverdeling π(s) de unieke evenwichtsverdeling is van deze Markov keten. Een belangrijke opmerking is dat voor de constructie van deze gezochte Markov keten het voldoende is de kansen π(s) te kennen op een multiplicatieve constante na. Immers in α(s, t) wordt alleen het quotiënt π(t)/π(s) gebruikt! Het toestandsverloop in de Markov keten met de p MH (s, t) als 1-staps overgangskansen is als volgt te beschrijven. Als de huidige toestand s 0 is, dan wordt een kandidaat-toestand t 1 geloot volgens de kansdichtheid {q(t s 0 ), t S}. Deze kandidaat-toestand wordt met kans α(s 0, t 1 ) geaccepteerd als volgende toestand s 1 van de Markov keten, terwijl met kans 1 α(s 0, t 1 ) de kandidaat-toestand t 1 wordt verworpen in welk geval de volgende toestand s 1 van de Markov keten gelijk is aan de huidige toestand s 0. Metropolis-Hastings algoritme Dit algoritme genereert een rij opeenvolgende toestanden uit een Markov keten {X n } die {π(s), s S} als unieke evenwichtsverdeling heeft, waarbij de kansen π(s) > 0 op een multiplicatieve constante na gegeven zijn. Stap 0. Kies voor elke s S een kansdichtheid q(t s). Neem een begintoestand s 0 uit S. Laat X 0 := s 0 en n := 1. Stap 1. Trek een kandidaat-toestand t n uit de kansdichtheid {q(t s n 1 ), t S}. Bereken de acceptatiekans [ ] π(tn )q(s n 1 t n ) α = min π(s n 1 )q(t n s n 1 ), 1. Stap 2. Trek een random getal u uit (0, 1). s n := t n ; anders, s n := s n 1. Als u α, dan accepteer t n en Stap 3. X n := s n en n := n + 1. Herhaal stap 1 met s n 1 vervangen door s n. Als voor de Markov keten met de q(t s) als 1-stapsovergangskansen de aanname van irreducibiliteit was verzwakt tot geen twee disjuncte fuiken, dan zou de Markov keten met de 1-staps overgangskansen (p MH (s, t)) meerdere disjuncte fuiken kunnen hebben. Dit is het geval als voor een zekere t a geldt q(t a s) = 1 voor elke s; de acceptatiekans α(s, t a ) is dan nul voor elke s t a zodat elke s t a een absorberende toestand is.

Als de gekozen kansdichtheden q(t s) symmetrisch zijn (d.w.z., q(t s) = q(s t) voor( alle s, t), dan vereenvoudigt in het algoritme de acceptatiekans α tot α = min π(tn ) π(s n 1 ),, 1 hetgeen het oorspronkelijke algoritme van Metropolis was. ) Stel dat je voor gegeven functie f de getalwaarde E[f(X)] = s S f(s)π(s) wilt berekenen met X een stochast die π(s) als kansdichtheid heeft. Pas dan m stappen van een Metropolis-Hastings algoritme toe met m voldoende groot. Op grond van de ergodenstelling voor Markov ketens schat je E[f(X)] met de gegenereerde rij van toestanden s 1, s 2,..., s m door 1 m m f(s k ). k=1 Het Metropolis-Hastings algoritme is beschreven voor de situatie met een discrete toestandsverzameling, waarbij je dus voor toestand s de kandidaat-toestand t trekt uit de discrete kansdichtheid q(t s), t S. Een nadere bestudering van het algoritme leert dat het algoritme woordelijk doorgaat voor de situatie met een continue toestandsverzameling mits enkele netheidscondities vervuld zijn. In die situatie trek je elke keer een kandidaat-toestand t uit een continue kansdichtheid. Bij de implementatie van het Metropolis-Hastings algoritme is de vraag hoe de kandidaat-dichtheden q(t s) te kiezen. Vele keuzes zijn mogelijk en als de ene keuze niet bevredigend werkt dan kan een andere keuze geprobeerd worden. De keuze van de begintoestand kan ook van invloed zijn. Het implementatie aspect wordt uitgebreid besproken in het klassieke artikel S. Chib and E. Greenberg, Understanding the Metropolis-Hastings algorithm, The American Statistician, Vol 49 (1995), blz 327-335. Een goede menging in de Markov-keten is essentieel, d.w.z. de Markov keten beweegt voldoende snel door het gehele waardenbereik van de te simuleren dichtheid π(x). Ongewenst is dus dat de Markov keten lange tijd in dezelfde toestand blijft zoals bij een lage acceptatiekans het geval is. Veelgebruikte keuzes zijn: (a) de onafhankelijkheidskeuze waarin q(t s) gegeven wordt door een kansdichtheid q(t) die onafhankelijk van s is (het is belangrijk dat de staart van de kansdichtheid q(x) die van de te simuleren kansdichtheid π(x) domineert). (b) de random-walk keuze waarin de nieuwe kandidaat-toestand t bepaald wordt door t = s+z met Z een stochast die een gegeven kansverdeling heeft (in dit geval hangt de kansdichtheidsfunctie q(t s) alleen af van t s). Als de kansdichtheid van Z symmetrisch is rond de oorsprong, dan geldt q(t s) = q(s t) voor alle s, t zodat in het algoritme de formule voor de acceptatiekans α vereenvoudigt tot [ ] π(tn ) α = min π(s n 1 ), 1. 13

14 CHAPTER 1. MARKOV KETEN MONTE CARLO METHODEN Empirische onderzoekingen leiden tot de aanbeveling de random-walk keuze zodanig te doen dat gemiddeld ongeveer 50% van de kandidaat-toestanden geweigerd worden. Voorbeeld 7.6. In dit voorbeeld lichten we de continue versie van het Metropolis- Hastings algoritme toe aan de kansdichtheid π(x) die op een multiplicatieve constante na gegeven is door waarbij n = 5 en a = 4. x 1 2 n e 1 2 a/x voor x > 0, Eerst beschrijven we hoe een stap van het algoritme eruit ziet als we de onafhankelijkheidskeuze doen voor q(t) de χ 2 1 dichtheid 2/(πt)e 1 2 t, t > 0 nemen. Bij de keuze s 0 = 10 voor de begintoestand is de eerste stap: (a) Een random trekking t 1 uit de χ 2 1 dichtheid wordt[ gedaan, stel ] dit geeft t 1 = 1.25. Dit resulteert voor de acceptatiekans α = min π(t1 )q(s 0 ), 1 π(s 0 )q(t 1 in ) α = min ( ) ( t 2.5 1 e 2/t 1 2/(πs0 )e 1 2 0) s ) ( 1 2/(πt1 )e 1 2 1), t ( s 2.5 0 e 2/s 0 = 0.1987. (b) Een random getal u tussen 0 en 1 wordt getrokken, stel u = 0.157. In dit geval is u α en wordt de kandidaat-toestand t 1 geaccepteerd als nieuwe toestand s 1 van de Markov keten. Het is leerzaam om het Metropolis-Hastings algoritme te proberen voor zowel de keuze van de uniforme dichtheid op (0, 1000) als de keuze van de χ 2 1 dichtheid voor de kandidaat-dichtheid. Deze uniforme dichtheid bedekt vrijwel de gehele kansmassa van de te simuleren dichtheid π ( x), maar leidt tot een Markov keten met een heel slechte menging van de toestand doordat heel vaak de kandidaattoestand niet geaccepteerd wordt. De χ 2 1 dichtheid geeft een betere menging maar alleen in een klein deel van het waardebereik van de dichtheid π(x): de χ 2 1 dichtheid heeft een veel te dunne staart in vergelijking met de dikke staart van de dichtheid π(x) (de kans op een trekking groter dan 15 uit de χ 2 1 dichtheid is 0.0001, terwijl de kansdichtheid π(x) nog een kansmassa 0.034 op (15, ) heeft!). De tekortkomingen van de uniforme dichtheid en de χ 2 1 dichtheid blijken ook uit schattingen voor de verwachtingswaarde van de dichtheid π(x) die na een miljoen trekkingen met het Metropolis-Hastings algoritme verkregen worden: deze schattingen zijn 3.75 en 3.04 terwijl de exacte waarde 4 is. Veel betere resultaten worden verkregen door voor de kandidaat-dichtheid q(x) een Paretodichtheid te kiezen met hetzelfde staartgedrag x 2.5 als de dichtheid π(x). De Pareto dichtheid wordt gegeven door (p/b)(b/x) p+1 voor x > b, waarbij de parameters b en p positieve getallen zijn. De passende keuze voor p is dus p = 1.5 en voor b is b = 1 een geschikte keuze. Als de stochastische variabele X hoort bij

15 Figuur 7.2 Menging in Metropolis-Hastings 100 90 80 70 60 50 40 30 20 10 0 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 0 100 200 300 400 500 de dichtheid π(x), dan wordt de kandidaat dichtheid q(t) = 1.5t 2.5 voor t > 1 gebruikt om de dichtheid π shift (y) van de stochast Y = X +1 te simuleren, waarbij π shift (y) = π(y 1) voor y > 1. Deze aanpak geeft een Metropolis-Hastings algoritme met een goede menging van de toestanden in het gehele waardebereik van π(x) en leidt na een miljoen trekkingen tot de schatting 3.98 voor E(X). Het is uiterst instructief om voor elk van de gebruikte keuzes voor q(t) een plot te maken van zeg de eerste 500 waarnemingen uit de gesimuleerde Markov keten met s 0 = 1 als begintoestand. In Figuur 7.2 geven we de op verticale as de waarden van de eerste 500 gesimuleerde toestanden zowel voor q(t) de uniforme dichtheid op (0, 1000) (linkerfiguur) als voor q(t) de Pareto dichtheid 1.5t 2.5 (rechterfiguur). Je ziet in de linkerfiguur dat de menging van de toestand heel slecht is voor de uniforme dichtheid: de kandidaat-toestand wordt vrijwel steeds verworpen. Voorbeeld 7.7. Stel je wilt een random element genereren uit een grote gecompliceerde combinatorische verzameling V. Als het praktisch onuitvoerbaar is om dit rechtstreeks te doen, dan zou je dit kunnen doen met Metropolis-Hastings simulatie. Dit illustreren we voor de situatie dat V de verzameling is van alle permutaties (s 1,..., s n ) van de getallen 1,..., n waarvoor n j=1 js j > a voor een gegeven constante a. Voor elk element s = (s 1,..., s n ) V, definiëren wij de omgevingsverzameling N(s) als alle elementen t = (t 1,..., t n ) V die uit s ontstaan door een verwisseling van twee posities. Bijvoorbeeld, bij n = 5 en a = 50 behoort (1, 2, 4, 3, 5) wel tot de omgevingsverzameling van (1, 2, 3, 4, 5) maar (5, 2, 3, 4, 1) niet. Pas nu het Metropolis-Hastings algoritme toe met q(t s) = 1 N(s) voor t N(s).

16 CHAPTER 1. MARKOV KETEN MONTE CARLO METHODEN De evenwichtsverdeling die we door de toepassing van het algoritme willen bereiken is π(s) = 1/ V voor s V. Dit betekent dat de acceptatiekans ( ) N(s) α(s, t) = min N(t), 1. Dus als de huidige toestand van de Markov keten s is, dan kies je random één van de buren uit N(s), stel het element t. Als t minder buren heeft dan s, dan blijf je in s. Anders, wordt een random getal U gegenereerd en is de volgende toestand van de Markov keten gelijk aan t als U < N(s) / N(t) en is gelijk aan s anders. Een random gekozen element uit V wordt verkregen na een voldoend groot aantal iteraties (de geconstrueerde Markov keten is aperiodiek). 1.0.3 De Gibbs sampler De Gibbs sampler is een speciaal geval van het Metropolis-Hastings algoritme en wordt gebruikt om trekkingen te doen uit een multivariate kansdichtheid waarvan de univariate conditionele dichtheden bekend zijn. De Gibbs sampler vindt veelvuldig toepassing in de Bayesiaanse statistiek. Bij de Gibbs sampler ga je uit van een multivariate stochastische vector (X 1,..., X d ) met simultane kansdichtheid π(x 1,..., x d ) = P (X 1 = x 1,..., X d = x d ). De univariate conditionele kansdichtheden π k (x x 1,..., x k 1, x k+1,..., x d ) van de stochastische vector (X 1,..., X d ) worden voor k = 1,..., d gedefinieerd door P (X k = x X 1 = x 1,..., X k 1 = x k 1, X k+1 = x k+1,..., X d = x d ) De aanname dat deze univariate conditionele dichtheden expliciet bepaald kunnen worden is essentieel voor de Gibbs sampler. Door uit de univariate conditionele dichtheden te trekken, genereert de Gibbs sampler een rij van opeenvolgende toestanden uit een Markov keten die π(x 1,..., x d ) als evenwichtsverdeling heeft. In de Gibbs sampler is de acceptatiekans altijd gelijk aan 1. Het algoritme is als volgt. Gibbs algoritme Stap 0. Kies een begintoestand x = (x 1,..., x d ). Stap 1. Genereer random een geheel getal k uit {1,..., d}. Doe een trekking y uit de univariate kansdichtheid π k (x x 1,..., x k 1, x k+1,..., x d ). Laat y = (x 1,..., x k 1, y, x k+1,..., x d ). Stap 2. Laat x := y. Herhaal stap 1 met de nieuwe toestand x.

17 Dit is een toepassing van het Metropolis-Hastings algoritme met q(y x) = 1 d P (X k = y X j = x j voor j = 1,..., d met j k) voor x = (x 1,..., x k 1, x k, x k+1,..., x d ) en y = (x 1,..., x k 1, y, x k+1,..., x d ). Voor de Gibbs sampler geldt dat de acceptatiekans α(x, y) altijd gelijk aan 1 is. Dit is eenvoudig in te zien. Op grond van q(y x) = 1 π(y) d P (X j = x j, j k) en q(x y) = 1 π(x) d P (X j = x j, j k), vinden we q(x y) = π(x) zodat q(y y) π(y) [ ] π(y)π(x) α(x, y) = min π(x)π(y), 1 = 1. Variant van het Gibbs algoritme Een veelgebruikte variant van bovenstaand algoritme is de Gibbs sampler waarin niet elke keer een random gekozen component van de toestandsvector aangepast wordt, maar in iedere iteratie achtereenvolgens elk van de componenten van de toestandsvector wordt aangepast. Dus als in de nde iteratie de toestandsvector x (n) = (x (n) 1, x (n) 2,..., x (n) d ) verkregen is, dan verloopt de (n + 1)ste iteratie als volgt: x (n+1) 1 is een random trekking uit π 1 (x x (n) 2, x (n) 3,..., x (n) d ) x (n+1) 2 is een random trekking uit π 2 (x x (n+1) 1, x (n) 3,..., x (n).. x (n+1) d d ). is een random trekking uit π d (x x (n+1) 1, x (n+1) 2,..., x (n+1) d 1 ). Dit geeft de aangepaste toestandsvector x (n+1) = (x (n+1) 1, x (n+1) 2,..., x (n+1) ) voor de volgende iteratie. Stel dat h(x 1,..., x d ) een gegeven functie is waarvoor we de verwachtingswaarde E[h(X 1,..., X d )] willen schatten. Als de Gibbs sampler de rij {x (k), k = 1, 2,...} van toestanden genereert, dan geeft (1/m) m k=1 h(x(k) ) een schatting voor de gezochte E[h(X 1,..., X d )] wanneer m voldoende groot gekozen wordt. In het bijzonder stelt de Gibbs rij ons in staat om voor een individuele stochast X k, zeg X 1, de marginale kansdichtheid of de verwachtingswaarde te schatten. Een Deze versie van de Gibbs sampler genereert een rij toestanden uit een Markov keten met 1-stapsovergangskansen p s, t = d j=1 π j(t j t 1,..., t j 1, s j+1..., s d ). d

18 CHAPTER 1. MARKOV KETEN MONTE CARLO METHODEN naïeve schatting voor de kansdichtheid π 1 (x) van de stochast X 1 wordt verkregen door het kanshistogram te baseren op de waarden x (k) 1 voor k = 1,..., m uit de Gibbs rij {x (k), k = 1, 2,..., m}. Een betere schatting wordt verkregen door gebruik te maken van de expliciete uitdrukking voor de univariate conditionele kansdichtheid π 1 (x x 2, x 3,..., x d ). De conditionele dichtheid stelt ons in staat π 1 (x) te schatten door ˆπ 1 (x) = 1 m m k=1 π 1 (x x (k) 2,..., x (k) d ). De theoretische achtergrond van deze schatter is π 1 (x) = E[π 1 (x X 2,..., X d )] (de wet van voorwaardelijke verwachtingen). De laatstgegeven schatter maakt gebruik van meer informatie en zal daardoor in het algemeen een betere schatter zijn met een lagere variantie. Voorbeeld 7.8. Veronderstel dat de simultane kansdichtheid π(x, y) van de stochasten X en Y op een multiplicative constante gegeven wordt door ( ) r y x+α 1 (1 y) r x+β 1 for x = 0, 1,..., r, 0 y 1, x waarbij r, α en β gegeven gehele positieve getallen zijn. Merk op dat de stochast X discreet verdeeld is en de stochast Y continu verdeeld. De Gibbs sampler werkt op dezelfde wijze voor discrete en continue verdelingen of mengsels van deze verdelingen. Stel nu dat we geïnteresseerd zijn om de marginale kansdichtheid π 1 (x) = P (X = x) van de stochast X te berekenen of de verwachting van X. Dit kunnen we doen met behulp van de Gibbs sampler. Het is vrij eenvoudig om uit de vorm van de simultane kansdichtheid π(x, y) af te leiden dat π 1 (x y) is de binomiale kansdichtheid met parameters r en y π 2 (y x) is de beta dichtheid met parameters x + α en r x + β. Een lange Gibbs rij (x 0, y 0 ), (x 1, y 1 ),..., (x m, y m ) voor een voldoende grote m wordt als volgt gegenereerd. Kies een geheeltallige beginwaarde x 0 tussen 0 en r. De rest van de rij wordt iteratief verkregen door afwisselend een waarde y j te trekken uit de beta dichtheid π 2 (y x j ) en een waarde x j+1 uit de binomiale dichtheid π 1 (x y j ). Codes om uit de binomiale dichtheid en de beta dichtheid random trekkingen te doen zijn alom beschikbaar. Voor de getalwaarden r = 16, α = 2, en β = 4, hebben we de tweede versie van de Gibbs sampler gebruikt om de marginale dichtheid π 1 (x) te schatten. In totaal zijn m = 250000 waarnemingen voor de toestandsvector (x, y) gegenereerd. In Figuur 7.3 geven we het gesimuleerde kanshistogram voor de marginale dichtheid π 1 (x), waarbij we

1.1. OPGAVEN 19 Figuur 7.3 De gesimuleerde en exacte kanshistogrammen 0.100 0.075 0.050 0.025 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0.100 0.075 0.050 0.025 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 de conditionele schatter ˆπ 1 (x) gebruikt hebben. In dit voorbeeld wordt ˆπ 1 (x) gegeven door ˆπ 1 (x) = 1 m ( r m k=1 x) y x k (1 y k ) r x voor x = 0, 1..., r. Onder het gesimuleerde kanshistogram geven we ter vergelijking het histogram met de exacte waarden van de π 1 (x) (in het beschouwde voorbeeld is het mogelijk de exacte kansen te berekenen uit π 1 (x) = ( ) r (α+β 1)!(x+α 1)!(r x+β 1)! voor x = 0, 1,..., r). x (α 1)!(β 1)!(α+β+r 1)! 1.1 Opgaven 1. Simuleer met het Metropolis-Hastings algoritme het kanshistogram van π(1) = 0.2 en π(2) = 0.8 door het gooien met een zuivere munt (d.w.z. q(s t) = 0.5 voor s, t=1, 2) en zie hoe snel convergentie plaatsvindt. 2. Veronderstel dat de simultane kansdichtheid van de continue stochasten X 1 en X 2 op een multiplicative constante na gegeven wordt door e 1 2 (x2 1 x2 2 +x2 1 +x2 2 7x 1 7x 2 ) voor < x 1, x 2 <. Experimenteer met Markov keten Monte Carlo simulatie om de verwachtingswaarde, de spreiding en de marginale kansdichtheid van X 1 te vinden. Pas zowel de Gibbs sampler toe als het Metropolis-Hastings algoritme met de random-walk keuze (x 1, x 2 ) + (Z 1, Z 2 ) met Z 1 en Z 2 onafhankelijke N(0, a 2 ) verdeelde stochasten. Probeer verschillende waarden van a (zeg, a = 0.02, 0.2, 1 en 5) en zie hoe de menging van de toestand verloopt en wat de gemiddelde waarde van de acceptatiekans is. 2. In een actuarieel model hebben de stochasten X, Y en N een simultane kansdichtheid π(x, y, n) die op een multiplicatieve constante na gegeven wordt door

20 CHAPTER 1. MARKOV KETEN MONTE CARLO METHODEN ( n )y x+α 1 (1 y) n x+β 1 λ λn e x n! voor x = 0, 1,..., n, 0 < y < 1 en n = 0, 1,.... De stochast N representeert het aantallen polissen in een portefeuille, de stochast Y representeert de kans dat een gegeven polis tot een claim leidt (elke polis heeft dezelfde claimkans en de polissen gedragen zich onafhankelijk van elkaar), en de stochast X representeert het aantal claims dat resulteert van de polissen in de portefeuille. Voor de data α = 2, β = 8 en λ = 50 simuleer met de Gibbs sampler het kanshistogram van de marginale dichtheid van X alsmede de verwachting en spreiding van X zowel met een naïeve schattingsprocedure als met de schattingsprocedure die de expliciete formule voor de univariate conditionele dichtheid π 1 (x y, n) gebruikt. Ga daartoe eerst na dat de univariate conditionele kansdichtheden van X, Y en N worden gegeven door: π 1 (x y, n) is een binomiale(n, y) dichtheid, π 2 (y x, n) is een beta(x + α, n x + β) dichtheid en π 3 (n x, y) is een Poisson(λ(1 y)) dichtheid verschoven naar x.

Chapter 2 Stochastic Dynamic Programming 2.1 Stochastische dynamische programmering De toepassing van dynamische programmering op stochastische sequentiële beslissingsproblemen is conceptueel niet moeilijker dan in het geval van deterministische sequentiële beslissingsproblemen. Bij problemen met deterministische toestandsovergangen kan je van tevoren al bepalen welke reeks van beslissingen je zult nemen. Bij stochastische dynamische programmeringsproblemen zijn de toekomstige toestanden onzeker en is het dus niet mogelijk om reeds van tevoren te zeggen welke reeks van beslissingen genomen zal worden. Wat we nodig hebben is een verzameling van conditionele beslissingen van de vorm Als de gerealiseerde toestand gelijk is aan..., neem dan de beslissing.... Een dergelijke strategie kan verkregen worden door de achterwaartse recursie van dynamische programmering toe te passen. De redenering achter de recursieve relatie voor stochastische dynamische programmeringsproblemen is in essentie dezelfde als voor deterministische problemen. De beste manier om dit te laten zien is met behulp van enkele karakteristieke voorbeelden van stochastische dynamische programmering. 2.1.1 Een dobbelspel en optimaal stoppen Een interessant spel is het volgende. Het spel bestaat uit het maximaal zes keer gooien van een zuivere dobbelsteen. Na elke worp moet je beslissen of je doorgaat of stopt. De uitbetaling van het spel is het aantal geworpen ogen van de laatste worp voordat je stopte. Welke strategie moet je volgen om de verwachte uitbetaling te maximaliseren? Het probleem is een typisch voorbeeld van een stochastisch sequentieel beslissingsprobleem. De toestand van een dynamisch proces wordt geobserveerd op discrete tijdstippen. Na elke observatie van de toestand wordt een beslissing genomen. Dan wordt een directe opbrengst ontvangen, die alleen gebaseerd 21

22 CHAPTER 2. STOCHASTIC DYNAMIC PROGRAMMING is op de toestand op dat moment en de genomen beslissing. Vervolgens gaat het proces naar de volgende toestand overeenkomstig een gegeven kansverdeling. Welke strategie moet gekozen worden opdat de verwachte waarde van de totaal te verkrijgen opbrengst over een gegeven periode met eindige lengte maximaal is? Dynamische programmering stelt je in staat om dergelijke problemen op te lossen met gebruik van een recursief algoritme. Op dezelfde manier als in de vorige paragrafen voor deterministische sequentiële beslissingsproblemen, wordt het oorspronkelijke probleem opgedeeld in een reeks van geneste subproblemen die recursief aan elkaar gekoppeld worden. Om dat te doen hebben we het basisbegrip waardefunctie nodig. Voor het beschouwde probleem definiëren wij voor k = 0, 1,..., 6 de functie f k (i) door f k (i) = het maximale verwachte aantal punten als nog k worpen te gaan zijn en het aantal punten van de laatste worp gelijk aan i is. Het doel is om f 6 (0) en de optimale strategie te bepalen. Om de recursieve relatie voor f k (i) te bepalen, redeneer je als volgt. Er zijn twee mogelijke acties stop en ga door in de huidige beslissingssituatie waarin nog k worpen te gaan zijn en i punten verkregen zijn in de vorige worp. Als de beslissing om te stoppen genomen wordt, dan wordt een onmiddellijke beloning van i ontvangen en is het spel afgelopen. Als wij doorgaan met het spel, dan wordt er nog geen beloning ontvangen en zal de volgende toestand van het proces gelijk aan j zijn met kans 1/6 voor j = 1,..., 6. Als voor doorgaan wordt gekozen en vervolgens optimaal verder wordt gespeeld in de resterende k 1 worpen, dan is de verwachte uitbetaling voor het spel gelijk aan 6 j=1 f k 1(j)/6. Dus vinden we de volgende recursieve relatie: { f k (i) = max i, 1 6 6 j=1 } f k 1 (j). Startend met f 0 (i) = i voor alle i, wordt achtereenvolgens voor k = 1,..., 5 de waardefunctie f k (i) berekend voor i = 1,..., 6. Tenslotte volgt de verwachte uitbetaling van een spel uit f 6 (0) = 1 6 6 f 5 (j). j=1 Voor elke combinatie (k, i) is het nodig om de optimale beslissing, zeg d k (i), waarvoor het maximum in de recursieve relatie voor f k (i) wordt bereikt te bewaren. Dit handboek van beslissingen geeft je een optimale strategie. Numerieke berekeningen Het is leerzaam om de berekeningen voor dit specifieke probleem uit te voeren. De algoritme wordt gestart met f 0 (i) = i voor i = 1,..., 6, waarbij d 0 (i) = stop voor

2.1. STOCHASTISCHE DYNAMISCHE PROGRAMMERING 23 alle i. De waardefunctie f k (i) wordt achtereenvolgens berekend voor k = 1,..., 5: f 1 (i) = f 2 (i) = f 3 (i) = f 4 (i) = f 5 (i) = { 3.5 voor i = 1, 2, 3 met d1 (i) = ga door, i voor i = 4, 5, 6 met d 1 (i) = stop, { 4.25 voor i = 1, 2, 3, 4 met d2 (i) = ga door, i voor i = 5, 6 met d 2 (i) = stop, { 4.667 voor i = 1, 2, 3, 4 met d3 (i) = ga door, i voor i = 5, 6 met d 3 (i) = stop, { 4.944 voor i = 1, 2, 3, 4 met d4 (i) = ga door, i voor i = 5, 6 met d 4 (i) = stop, { 5.130 voor i = 1, 2, 3, 4, 5 met d5 (i) = ga door, i voor i = 6 met d 5 (i) = stop. Tenslotte bereken je de maximale verwachte uitbetaling als f 6 (0) = 5.275. Dit heeft tot gevolg dat het gunstig is om dit spel te spelen als het spel een inzet s heeft met 0 < s < 5.275. Dan zal, op grond van de wet van de grote aantallen, je feitelijke gemiddelde winst per spel willekeurig dicht bij 5.275 s komen als het spel voldoende vaak wordt gespeeld en de optimale strategie wordt gebruikt. De berekeningen van het dynamisch-programmeringsalgoritme laten zien dat de optimale strategie een eenvoudige structuur heeft en gekarakteriseerd wordt door de kengetallen s 1 = 4, s 2 = 5, s 3 = 5, s 4 = 5, en s 5 = 6. Als nog m worpen te gaan zijn, dan schrijft de strategie voor te stoppen als de vorige worp s m of meer punten heeft opgeleverd en door te gaan anders (m = 1,..., 5). Ter afsluiting van deze subparagraaf beschouwen we nog enkele varianten van het behandelde spel. In de eerste variant bestaat het spel uit het ten hoogste M keer werpen van een onzuivere dobbelsteen, waarbij M een gegeven geheel getal is. Elke worp met de dobbelsteen levert j punten op met een gegeven kans p(j) voor j = 1,..., 6. Als we de waardefunctie definiëren als hierboven, dan volgt de recursieve relatie { f k (i) = max i, 6 j=1 } f k 1 (j) p(j) voor k = 1,..., M met de randconditie f 0 (i) = i voor alle i. Het wordt nu aan jezelf over gelaten om de dynamische-programmeringsformulering te vinden voor de tweede variant, waarbij twee zuivere dobbelstenen worden gegooid en de som van de twee dobbelstenen telt.

24 CHAPTER 2. STOCHASTIC DYNAMIC PROGRAMMING 2.1.2 Het spel rood en zwart Stel dat je naar een casino gaat omdat je een bepaalde som geld nodig hebt voor de volgende ochtend. Gokken is de laatste mogelijkheid om het geld te verkrijgen. Je besluit om het spel met rood en zwart te gaan spelen. Vanwege de tijdslimiet kan je nog maar een eindig aantal keren, zeg n keer, spelen. Elke keer kan je elk geheel bedrag in euro s inzetten tot aan je vermogen. Je wint je inzet plus je eigen geld terug met een gegeven kans p en je verliest je inzet met kans q = 1 p. Je oorspronkelijke kapitaal is gelijk aan A euro en je doel is om tenminste B euro te bereiken met B > A. Wat is de optimale inzetstrategie als je de kans wilt maximaliseren op het verkrijgen van het benodigde geld in niet meer dan n weddenschappen? Dit probleem kan geïnterpreteerd worden als een stochastisch sequentieel beslissingsprobleem. De toestand is gelijk aan i als je huidige vermogen gelijk is aan i euro. Voor toestand i zijn de mogelijke beslissingen d = 0, 1,..., i, waarbij beslissing d correspondeert met het inzetten van d euro. Om dit probleem met behulp van dynamische programmering op te lossen, definiëren we voor k = 1,..., n de waardefunctie f k (i) = de maximale kans op het bereiken van een vermogen van tenminste B euro als je nog k keer mag inzetten en je huidige vermogen gelijk is aan i euro. De volgende redenering wordt gevolgd om een recursieve relatie voor f k (i) te vinden. Stel dat je d euro inzet met k weddenschappen te gaan en vervolgens optimaal inzet in de resterende k 1 weddenschappen. Onder de conditie dat de volgende toestand gelijk is aan s, bereik je je doel met kans f k 1 (s). De volgende toestand is of i + d of i d met respectievelijke kansen p en q. Dus in de situatie dat er k weddenschappen te gaan zijn en je huidige vermogen gelijk is aan i euro, bereik je je uiteindelijke doel met kans pf k 1 (i + d) + qf k 1 (i d) als je d euro inzet en vervolgens optimaal verder speelt in de resterende k 1 spelen. Het maximaliseren van deze kans over alle mogelijke d geeft de recursie f k (i) = max {pf k 1(i + d) + qf k 1 (i d)}. d=0,1,...,i Elke beslissing d waarvoor het maximum in deze recursieve relatie wordt bereikt is een optimale beslissing voor de situatie waarin er nog k weddenschappen te gaan zijn en je huidige vermogen gelijk is aan i euro. Door op recursieve wijze de waardefunctie te berekenen, verkrijg je een optimale inzetstrategie. De recursie wordt gestart met f 0 (i) = 1 voor i B en f(i) = 0 voor i < B. Alles-of-niets strategie Als de winstkans p voldoet aan p 1 2, dan geldt dat de optimale strategie is om domweg je hele vermogen i in te zetten als i < B/2 en B i als je huidig

2.2. INVESTERINGSPROBLEEM EN DE KELLY STRATEGIE 25 vermogen i groter is dan of gelijk aan B/2. Het bewijs van dit resultaat vereist zeer diepgaande wiskunde. Een intuïtieve verklaring voor de optimaliteit van de alles-of-niets strategie voor het geval van een ongunstig spel is dat deze je geld zo kort mogelijk aan het huisvoordeel van het casino blootstelt en op die manier je winstkans zo hoog mogelijk maakt. Numeriek voorbeeld Beschouw ter illustratie het getallenvoorbeeld A = 1, B = 5, p = 0.5, n = 7. Tabel 5.6 Numerieke resultaten f k (i) d k (i) k/i 1 2 3 4 1 2 3 4 1 0 0 0.5 0.5 0-1 0-1-2 2-3 1-2-3-4 2 0 0.25 0.5 0.75 0-1 1-2 2-3 1 3 0.125 0.375 0.5 0.75 1 2 1-2-3 0-1 4 0.1875 0.375 0.5625 0.75 1 0-2 1-2 0-1 5 0.1875 0.375 0.5938 0.7813 0-1 1-2 2 1 6 0.1875 0.3906 0.5938 0.7969 0-1 1-2 2 1 7 0.1953 0.3984 0.5938 0.7969 1 2 0-1-2 1 In tabel 5.6 zijn de berekeningen samengevat. De tabel geeft zowel de waardefunctie f k (i) als de optimale beslissing d k (i). Zoals uit de resultaten blijkt zijn er verscheidene optimale inzetstrategieën, waaronder de alles-of-niets strategie. De maximale kans om de benodigde 5 euro te verkrijgen is 0.1953 als je start met 1 euro en er niet meer dan 7 weddenschappen zijn toegestaan. 2.2 Investeringsprobleem en de Kelly strategie Als inleiding tot het investeringsprobleem, beschouwen we het volgende scenario. Tijdens de internethausse op de beurs aan het eind van de vorige eeuw gingen talloze dotcombedrijven naar de beurs. Vooral in de eerste week kon de beurskoers van een nieuw dotcombedrijf sterk fluctueren. Stel eens dat gemiddeld van de helft van de nieuwe dotcombedrijven op de beurs de koers in de eerste week met 80% stijgt en van de andere helft met 60% daalt. Dit betekent dat elke dollar geïnvesteerd in een nieuw dotcombedrag na één week 0.5 $1.8 1 + 0.5 $0.4 = $1.1 als verwachte waarde heeft, een verwachte winstsstijging van 10%. Je hebt een beginkapitaal van $10 000 om te investeren in dit soort bedrijven. Stel eens dat je de volgende strategie gaat aanhouden voor de komende 52 weken: aan het begin van elke week beleg je het gehele huidige kapitaal in een nieuw dotcombedrijf en aan het eind van de week verkoop je het aandeel weer. Wat is de meest waarschijnlijke waarde van je kapitaal na 52 weken? De lezer wordt uitgenodigd om op dit moment niet verder te lezen en voor zichzelf een schatting te maken. Velen denken dat de meest waarschijnlijke waarde in de buurt van 15 duizend dollar zal liggen en achten de kans vrijwel gelijk aan nul dat je na

26 CHAPTER 2. STOCHASTIC DYNAMIC PROGRAMMING 52 weken minder dan je beginkapitaal van 10 duizend dollar hebt. De meest waarschijnlijke waarde van je kapitaal na 52 weten is echter $1.95! Dit kun je direct inzien door te bedenken dat het aantal stijgingen in 52 weken binomiaal verdeeld is met parameters n = 52 en p = 0.5. Dus de meest waarschijnlijke waarde van je kapitaal na 52 weken is (1.8) 26 (0.4) 26 $10000 = $1.95. Als je elke keer je gehele kaptaal herinvesteer, dan is de kans op een eindkapitaal van niet meer dan $1.95 gelijk aan de binomiaalkans 0.555 en is de kans op een kapitaal hoger dan je beginkapitaal van 10 duizend dollar gelijk aan 0.058. De winststijging van gemiddeld 10% per week is misleidend: de factor 1.8 0.4 is bepalend en deze factor is kleiner dan 1. Bij investeren over een langere periode is het echter optimaal om elke keer eenzelfde vaste fractie van je kapitaal in te zetten. In het voorgaande voorbeeld is het optimaal om elke keer dezelfde fractie α = 5 van je kapitaal in te zetten. In dat geval kan worden berekend 24 dat de kans op een kapitaal van niet meer dan $1.95 nihil is, teerwijl de kans op een eindkapitaal hoger dan 10 duizend dollar bijna 70% is. De waarde α = 5 24 volgt uit een algemene formule die bekend staat onder de naam Kelly formule. Deze formule heeft betrekking op de situatie dat je een reeks van onafhankelijke investeringsmogelijkheden hebt, waarbij je bij elke investering het geïnvesteerde bedrag f 1 keer terugkrijgt met kans p en f 2 keer met kans 1 p met waarden voor p, f 1 en f 2 die voldoen aan f 1 > 1, 0 f 2 < 1 en pf 1 + (1 p)f 2 > 1. In het bovenstaande voorbeeld is p = 0.5, f 1 = 1.8 en f 2 = 0.4. Bij toepassen van de Kelly strategie is de groei van je kapitaal op de lange duur maximaal en overschrijdt je kapitaal uiteindelijk elke waarde. Dit resultaat kunnen we plausibel maken door de situatie te beschouwen dat we een reeks van N investeringsmogelijkheden hebben en het doel is om de verwachtingswaarde van de logaritme van het eindkapitaal te maximaliseren. De keuze voor een logaritmische utiliteitsfunctie wordt niet verder toegelicht, maar is te verklaren op grond van economische overwegingen. Definieer de waardefunctie L k (x) = de maximale verwachte utiliteitswaarde van je eindkapitaal als er nog k keer geïnvesteerd mag worden en je huidige kapitaal gelijk is aan x. voor k = 0,..., N en x > 0, waarbij L 0 (x) = ln(x). Wij veronderstellen dat het kapitaal oneindig deelbaar is, d.w.z. elke fractie van je huidige kapitaal mag elke keer geïnvesteerd worden. De beslissing in elke toestand representeren we als de fractie van het huidige kapitaal dat je investeert. We hebben nu te doen met een dynamisch-programmeringsprobleem waarvoor de verzameling van toestanden een continue verzameling is evenals de verzameling van mogelijke beslissingen. Voor het principe van dynamische programmering maakt dit echter niets uit. Het volgende resultaat zullen we nu bewijzen. Om een recursieve relatie

2.2. INVESTERINGSPROBLEEM EN DE KELLY STRATEGIE 27 te vinden voor L k (x) redeneren wij als gebruikelijk. Stel dat je een fractie α inzet van je huidige kapitaal x en vervolgens optimaal handelt in de resterende k 1 investeringsmogelijkheden. Je vermogen als nog k 1 perioden te gaan zijn, is met kans p gelijk aan x αx+f 1 αx en met kans 1 p gelijk aan x αx+f 2 αx zodat de verwachte waarde van de logaritme van je eindvermogen gegeven wordt door pl k 1 ([1 + (f 1 1)α]x) + (1 p)l k 1 ([1 + (f 2 1)α]x). Maximaliseren we deze uitdrukking over α, dan vinden we de recursie L k (x) = max 0 α 1 {pl k 1 ([1 + (f 1 1)α]x) + (1 p)l k 1 ([1 + (f 2 1)α]x)}. Het volgende resultaat zullen we nu bewijzen. Voor alle k = 1,..., N en x > 0 geldt dat de maximaliserende beslissing α in de optimaliteitsvergelijking en de waardefunctie L k (x) gegeven worden door ( ) α pf1 + (1 p)f 2 1 = min, 1 (f 1 1)(1 f 2 ) en L k (x) = kc + ln(x), waarbij c = p ln(1+(f 1 1)α )+(1 p) ln(1+(f 2 1)α ) > 0. Met andere woorden, de optimale strategie is altijd dezelfde fractie a van je huidige kapitaal in te zetten, ongeacht de hoogte van je kapitaal en het aantal investeringsmogelijkheden dat nog te gaan is. Een waarlijk opmerkelijk resultaat! Het bewijs van dit resultaat gaat met behulp van inductie. Het inductiebewijs start met n = 1. Aangezien L 0 (x) = ln(x) en ln(ab) = ln(a) + ln(b), kunnen wij de uitdrukking voor L 1 (x) schrijven als L 1 (x) = ln(x) + max 0 α 1 {p ln(1 + (f 1 1)α) + (1 p) ln(1 + (f 2 1)α)}. Beschouw de functie h(α) = p ln(1 + (f 1 1)α) + (1 p) ln(1 + (f 2 1)α) voor 0 α 1. De oplossing van h (α) = 0 is α 0 = pf 1+(1 p)f 2 1 (f 1 1)(1 f 2. De function h(α) ) is concaaf in α met h(0) = 0. Dit betekent dat de functie h(α) op (0, 1) het maximum aanneemt in α = min(α 0, 1). Verder zien we dat L 1 (x) = ln(x) + c. Veronderstel dat de bewering bewezen voor n = 1,..., k 1. Substituteren we L k 1 (x) = (k 1)c + ln(x) in de recursie vergelijking voor L k (x), dan volgt dat L k (x) = ln(x) + (k 1)c + max 0 α 1 {p ln(1 + (f 1 1)α) + (1 p) ln(1 + (f 2 1)α)}. De vergelijking voor L k (x) is dezelfde als die voor L 1 (x), op de additieve constante (k 1)c na. Dit heeft tot gevolg dat de maximaliserende waarde α in de recursieve vergelijking voor L k (x) ook gegeven wordt door α = α en dat L k (x) = (k 1)c + ln(x) + c = kc + ln(x). Hiermee is het bewijs rond.