Stochastische Modellen in Operations Management (153088) S1 S2 X ms X ms R1 S0 240 ms Ack L1 R2 10 ms Internet R3 L2 D0 10 ms D1 D2 Richard Boucherie Stochastische Operations Research TW, Ravelijn H 219 http://wwwhome.math.utwente.nl/~boucherierj/onderwijs/153088/153088.html 1
Stochastische dynamische programmering 2 Fasen n aantal opeenvolgende momenten waarop beslissingen moeten worden genomen Toestandsruimte S n verzameling van mogelijke toestanden i die kunnen optreden in fase n Beslissingsruimte D n (i) verzameling van mogelijk acties d die beschikbaar zijn bij toestand i in fase n Directe resultaat r n (i,d) Verwachte opbrengst gedurende fase n als gevolg van beslissing d in toestand i Overgang j i,d : p n (j i,d) kans op toestand j als gevolg van beslissing d bij toestand i in fase n
Stochastische dynamische programmering 3 Doelstelling maximaliseer de verwachte resultaten over de gehele planningshorizon : N max E r n (i n,d n ) Optimale waardefunctie definieer f n (i) als het maximale verwachte resultaat vanaf fase n vanuit toestand i S n Recurrente betrekkingen f n (i) = max d D n (i) deze werken achterwaarts! n= 0 r n (i,d) + p n ( j i,d) f n +1 ( j) j S n+1
Vandaag: oneindige horizon 4 Wat gaat mis? Discontering en contante waarde Verwachte resultaat Oneindige horizon; deterministische optimalisering Voorbeeld Optimaliteitsvergelijking
Stochastische dynamische programmering 5 Doelstelling maximaliseer de verwachte resultaten over de gehele planningshorizon : N max E r n (i n,d n ) Optimale waardefunctie definieer f n (i) als het maximale verwachte resultaat vanaf fase n vanuit toestand i S n Recurrente betrekkingen f n (i) = max d D n (i) deze werken achterwaarts! n= 0 r n (i,d) + p n ( j i,d) f n +1 ( j) j S n+1
Vandaag: oneindige horizon 6 Wat gaat mis? Discontering en contante waarde Verwachte resultaat Oneindige horizon; deterministische optimalisering Voorbeeld Optimaliteitsvergelijking
Discontering en contante waarde (1) 7 Kapitaal K 0 rentegevend belegd Rentevoet i % per jaar Na jaar rente, bezit Rentevoet constant, dan na t jaar bezit Samengestelde interest (rente-op-rente) Omgekeerd, kapitaal U, uitgekeerd over t jaren kan nu worden uitgekeerd middels betaling van a < 1 : disconteringsfactor, K : contante waarde lagere rente geeft grotere disconteringsfactor
Discontering en contante waarde (2) 8 Stel een rij bedragen, waarbij betaald in jaar t. Contante waarde van X, CW(X), is mits de rij convergeert. Indien beslissingscriterium is contante waarde, verkies dan boven indien CW(X)>CW(Y) Maakt het mogelijk betalingen in de toekomst te vergelijken
Discontering en contante waarde (3) 9 Wanneer betalingen constant zijn, zeg M, disconteringsfactor a CW (X) = x t a t = t= 0 Ma t = M a t t= 0 = M(1+ a + a 2 +...) = M 1 a t= 0
a t = 1 t= 0 T t= 0 1 a a t =1+ a + a 2 +...+ a T T a a t = a + a 2 +...+ a T + a T +1 t= 0 T (1 a) a t =1 a T +1 t= 0 t= 0 t= 0 T T a t = 1 at +1 1 a 1 a T +1 a t = lim a t = lim T 1 a = 1 1 a T t= 0 Intermezzo: geometrische reeks (a 1) (a <1) 10
Intermezzo: geometrische reeks 11 a t =1+ a + a 2 +... t= 0 a a t = a + a 2 + a 3 +... t= 0 (1 a) a t =1 (a <1) t= 0
Vandaag: oneindige horizon 12 Wat gaat mis? Discontering en contante waarde Verwachte resultaat Oneindige horizon; deterministische optimalisering Voorbeeld Optimaliteitsvergelijking
Doelstelling Verwachte resultaat Verwachte resultaten over de gehele planningshorizon : 13 E lim N N 1 N 1 n= 0 r n (i n,d n )
Stochastische dynamische programmering 14 Doelstelling maximaliseer de verwachte resultaten over de gehele planningshorizon : Optimale waardefunctie max E definieer f n (i) als het maximale verwachte resultaat vanaf fase n vanuit toestand i S n Recurrente betrekkingen f n (i) = max d D n (i) deze werken achterwaarts! n= 0 r n (i n,d n )a n r n (i,d) + p n ( j i,d) f n +1 ( j) j S n+1
Vandaag: oneindige horizon 15 Wat gaat mis? Discontering en contante waarde Verwachte resultaat Oneindige horizon; deterministische optimalisering Voorbeeld Optimaliteitsvergelijking
16 Oneindige horizon; deterministisch Toepassingen beslissingsproblemen over een oneindige horizon waarbij de beslismomenten geordend zijn in de tijd Probleemstructuur analoog aan dynamische programmeringsproblemen, maar nu over een oneindige horizon
Oneindige horizon; deterministisch 17 Definities Politiek / Strategie Indien voor iedere toestand i S op tijdstip t een beslissing δ t (i) voorgeschreven is, noemen we de functie δ t een beslisregel De oneindige rij π=(δ 0, δ 1, ) noemen we een politiek of strategie een stationaire politiek π=(δ, δ, ) is een voorschrift dat op ieder tijdstip aan iedere toestand i S dezelfde beslissing δ(i) D(i) toekent
Opbrengst Oneindige horizon; deterministisch Indien in toestand i S op tijdstip t een beslissing δ t (i) =j S wordt genomen geeft dit directe opbrengst r(i,δ t (i))=r(i,j). Criteria voor vergelijken politieken maximale contante waarde (verdisconteerde resultaat) over een oneindige horizon, startend in i S : 18 maximale gemiddelde resultaat per tijdseenheid over een oneindige horizon, startend in i S : V π (.) waarde functie behorende bij politiek π
Oneindige horizon; deterministisch 19
Vandaag: oneindige horizon 20 Wat gaat mis? Discontering en contante waarde Verwachte resultaat Oneindige horizon; deterministische optimalisering Voorbeeld Optimaliteitsvergelijking
Voorbeeld: eenvoudig netwerk 21 Systeem met twee toestanden: S={1,2} Directe opbrengst r(i,j) bij transitie i naar j als in figuur Gezocht politiek die (voor iedere begintoestand) de contante waarde maximaliseert over oneindige horizon
Voorbeeld: eenvoudig netwerk 22 Willekeurige politiek Startend in 1 pad (1,1,2,2,1,1, ) opbrengsten (4,5,3,2,4,5, ) niet-stationaire politiek
Voorbeeld: eenvoudig netwerk Stationaire politieken 23 Politiek 1 beter dan politiek 2 als
Voorbeeld: eenvoudig netwerk Stationaire politieken 24 Politiek 1 beter dan politiek 2 als
Voorbeeld: eenvoudig netwerk 25
Vandaag: oneindige horizon 26 Wat gaat mis? Discontering en contante waarde Verwachte resultaat Oneindige horizon; deterministische optimalisering Voorbeeld Optimaliteitsvergelijking
Optimaliteitsvergelijkingen 27 Algemeen systeem Toestandsruimte S We beperken ons tot stationaire politieken Actieruimte D(i), i S Optimaliteitsvergelijkingen Hoe vind je de onbekende waardefunctie V die oplossing is van deze functionaalvergelijking? Waarde-iteratie of successieve approximatie Politiek of strategie iteratie Lineaire programmering
Waarde-iteratie 28
Voorbeeld: eenvoudig netwerk 29
Waarde-iteratie 30
Voorbeeld: eenvoudig netwerk 31
Next on SMOM 32 Toestandsruimte S Actieruimte D(i), i Strategie / politiek Contante waarde Optimaliteitsvergelijkingen S Hoe vind je de onbekende waardefunctie V die oplossing is van deze functionaalvergelijking? Waarde-iteratie of successieve approximatie Politiek of strategie iteratie Lineaire programmering En voor stochastische systemen?
Oneindige horizon; deterministisch 33 Contante waarde Optimaliteitsvergelijkingen Vervangen de recursie voor eindige horizon Waarde-iteratie
Oneindige horizon; stochastisch 34 Contante waarde Optimaliteitsvergelijkingen Vervangen de recursie voor eindige horizon Waarde-iteratie