Inleiding Adaptieve Systemen Hoofdstuk X: Reinforcement leren

Transcriptie

1 Inleiding Adaptieve Systemen Hoofdstuk X: Reinforcement leren Cursusjaar Gerard Vreeswijk β-faculteit, Departement Informatica en Informatiekunde, Leerstoelgroep Intelligente Systemen 21 juni 2013 Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

2 Inhoud Markov beslis-problemen. Dynamisch programmeren. Reinforcement leren: principes. Monte-Carlo sampling. Temporal difference (TD) leren. Q-leren. Model-gebaseerd leren. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

3 Deel I: Markov beslis-problemen Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

4 De blikjes-robot Uit: Barto and Sutton, Reinforcement Learning: An Introduction, MIT Press, Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

5 Italian DustBot Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

6 Italian DustBot Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

7 Toestandengraaf voor de blikjes-robot Uit: Barto and Sutton, Reinforcement Learning: An Introduction, MIT Press, Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

8 Markov beslisproblemen Een Markov beslisprobleem (MDP) bestaat uit: Een eindige verzameling toestanden S = {s 1,..., s n }. Een eindige verzameling acties per toestand A s = {a s 1,..., as n}. (Maar vaak bezitten alle toestanden dezelfde acties.) P(i, a, j): kans om in toestand j terecht te komen als actie a wordt uitgevoerd in toestand i. Er geldt j P(i, a, j) = 1. R(i, a, j) onmiddellijke beloning voor het terechtkomen in j, als actie a wordt geselecteerd in toestand i. γ: discount parameter voor toekomstige beloningen: 0 γ 1. Toestanden kunnen terminaal zijn: ketens van stappen die hier terecht komen worden niet verder voortgezet. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

9 Markov eigenschap Een systeem van toestanden, acties en toestandsovergangen door acties bezit de Markov eigenschap als, voor het voorspellen naar welke volgende toestand een stap gemaakt zal worden, alleen wetenschap nodig is van de huidige toestand en de huidige actie. Markov eigenschap P(s t+1 s t, a t ) = P(s t+1 s t, a t,..., s 1, a 1 ) Dus, voor het voorspellen van de toekomst doet het er niet toe hoe je in de huidige toestand gekomen bent. Vergelijk processen in de natuur: waar zou het verleden gerepresenteerd moeten zijn? Puur filosofisch punt: een systeem is altijd wel Markov te maken: definieer de huidige toestand als het nu de geschiedenis. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

10 Backup-diagrammen voor V Π en Q Π Er zijn twee manieren om naar transities (overgangen) te kijken: Toestand Actie Toestand. Dit wordt het V Π -diagram genoemd. Actie Toestand Actie. Dit wordt het Q Π -diagram genoemd. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

11 Passief vs. actief leren Passief leren. Leer uitkomst van proces zonder besluiten te (kunnen) nemen over de te nemen acties predictie. Stel bv. dat in bovenstaand MDP alle acties met een kans van een 1/2 worden gekozen. Wat is de verwachte som van de beloningen? Actief leren. leer een policy (actieselectie-patroon) zodat de uitkomst op termijn zo goed mogelijk is controle. Wat is de optimale actie in elke toestand? Wat is dan de verwachte som van de beloningen? Met discount factor γ = 0.9? Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni 2013 / 45

12 Discount factor De discount factor, 0 γ 1, kan op twee manieren begrepen worden: Existentie. De discount factor is een kans op het voortzetten van een run. De kans dat je er na k ronden nog bent is gelijk aan γ k 1. Inflatie. Rewards ontwaarden naarmate je verder in de toekomst kijkt: Een reward na k ronden is op dit moment nog maar waard. γ k 1 Wat als γ = 0? Wat als γ = 1? Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

13 De argmax functie Definitie arg max x 1,...,x n = { x 1,..., x n y 1,..., y n : f (y 1,..., y n ) f (x 1,..., x n ) } Opmerkingen: Vaak n = 1 en arg max x = {x y : f (y) f (x)}. Argmax is meestal een verzameling. Als argmax een singleton set is, dan wordt argmax geïdentificeerd met het enige element uit die set. Voorbeelden: arg max x { x 1 x 2 } = {0} = 0 arg max x { x log(x)} = arg max x { x sin(x)} = 1 2π (mod 2π) Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

14 Policy Een policy Π selecteert een actie als een functie van de huidige toestand a t = Π(s t ) Voorbeeld policy: G Doel: leer de optimale policy Π. Dit is de policy die de verwachte beloningen maximaliseert, nu en met discount γ in de toekomst: ( ) Π = arg max E γ t R(s t, Π(s t ), s t+1 ) s 0 = s Π t=0 Er zijn discrete A S policies. 1 Hoe weten we welke policy het beste is? 1 Aangenomen dat in elke toestand hetzelfde arsenaal aan acties beschikbaar is. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

15 Waarde-functie Een waardefunctie voor policy Π schat de verwachte toekomstige beloningen, uitgaande van een toestand: ( ) V (s t ) = E γ t R(s t, Π(s t ), s t+1 ) s 0 = s t=0 Een kwaliteitsfunctie schat de verwachte toekomstige beloningen, uitgaande van een toestand en een actie op die toestand: Q(s t, a t ) = s t+1 P(s t, a t, s t+1 ) (R(s t, a t, s t+1 ) + γv (s t+1 )) Voorbeeld van een waardefunctie (in een deterministische wereld): Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni /

16 De V -functie en de Q-functie Model Een model geeft aan, of kan berekenen, welke toestanden volgen uit opgegeven toestand-actie paren. We maken gebruik van twee profijt-schatters: 1 De V -functie voor het evalueren van toestanden. 2 De Q-functie voor het evalueren van acties op toestanden. Als de waardefunctie V bekend is, dan kunnen we in een toestand alle acties uitproberen, met behulp van het model de nieuwe toestand bepalen, en vervolgens de actie selecteren die leidt tot de meest waardevolle volgende toestand. Als de Q-functie bekend is dan kunnen we in elke toestand direct de actie selecteren met de hoogste Q-waarde. Een model is dan niet meer nodig: je hopt van actie naar actie. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

17 Backup-diagrammen voor de optimale V en Q Een agent kan alleen maar maximaliseren over één deel van het backup-diagram, nl. dat deel waar het zelf zijn actie kan bepalen. Vervolgens is het aan het toeval overgeleverd bt. welke immediate reward het ontvangt en in welke nieuwe toestand het beland. Deze diagrammen leiden naar de Bellman vergelijking voor Q. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

18 Deel II: Dynamisch programmeren Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

19 Dynamisch programmeren De optimale Q-functie voldoet aan de zg. Bellman vergelijking: Bellman vergelijking Q (i, a) = j P(i, a, j) (R(i, a, j) + γv (j)) I.p.v. s i, s j, etc. schrijven we i, j, etc. Hier is V (j) = max a Q (j, a). De optimale policy verkrijgen we dan door: Π (i) = arg max Q (i, a). a Opmerkingen: V is uniek bepaald. Π is niet altijd uniek bepaald. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

20 Evalueren van een policy Voor elke policy Π kunnen we toestandswaarden V (s), s S, berekenen. Dit correspondeert met passief leren waarbij de vastgelegde policy de overgangskansen bepaalt. Omdat we nu een vaste policy Π hebben, kunnen we de acties uit de overgangs- en beloningsfuncties elimineren: P(i, j) = P(i, Π(i), j) en: R(i, j) = R(i, Π(i), j). Nu is V Π (i) voor elke toestand i vastgelegd: Voor niet-terminale toestanden i V Π (i) = j P(i, j) ( ) R(i, j) + γv Π (j) En voor terminale toestanden i V Π (i) = 0. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

21 Evalueren van een policy Stelsel van n lineaire vergelijkingen met n onbekenden V (i). Twee methoden: Gauss-eliminatie. Veeg matrix links-onder en rechts-boven schoon. V (1) = j... =... V (n) = j P(1, j) (R(1, j) + γv (j)) P(n, j) (R(n, j) + γv (j)) Policy evaluation. Start met V (i) = 0, voor alle i, en herhaal V (i) := j P(i, j) (R(i, j) + γv (j)) een groot aantal keer voor alle niet-terminale toestanden i. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

22 Opgave Gegeven de toestanden A t/m D waarvan B terminaal is. Stel dat alle overgangskansen, P(i, a, j) uniform verdeeld zijn, en dat discount γ = 0.9. Bereken de V -waarden voor alle toestanden. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

23 Uitwerking: met lineaire algebra V -waarden berekenen V (A) = j P(A, j) (R(A, j) + γv (j)) V (B) = 0 = R(A, B) + γv (B) = V (B) V (C) = j P(C, j) (R(C, j) + γv (j)) = 0.5(R(C, A) + γv (A)) + 0.5(R(C, D) + γv (D)) = V (A) V (D) V (D) = j P(D, j) (R(D, j) + γv (j)) = R(D, B) + γv (B) = 0.5(R(D, B) + γv (B)) + 0.5(R(D, C) + γv (C)) = V (B) V (C) Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

24 Uitwerking analytisch oplossen van V -waarden Notatie vereenvoudigen: A = B B = 0 C = 0.45A D D = B C Dat is: A B C D = Oplossen (met bv. Gauss-eliminatie) geeft: A = 1, B = 0, C = , D = Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

25 Value Iteration We kunnen de optimale policy berekenen door gebruik te maken van dynamisch programmeren. Dit heet value iteration. 1 Initialiseer Q-waarden en V -waarden (b.v. op 0). 2 Maak een update voor de Q-waarden: Q(i, a) := j P(i, a, j) (R(i, a, j) + γv (j)) Voor terminale toestanden : P(i, a, i) = 1 en R(i, a, i) = 0 voor elke actie. 3 Bereken dan de nieuwe waarde functie: V (i) := max a Q(i, a). 4 Pas de policy aan zodat in elke toestand de actie met maximale huidige waarde wordt geselecteerd: Π(i) := argmax a Q(i, a). 5 Ga naar (2) totdat V niet meer verandert Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

26 Value iteration: voorbeeld Beschouw een deterministisch doolhof. (De uitkomst van elke actie is bekend.) De kosten van alle acties zijn 1. Rechtsboven is de doeltoestand D met waarde nul. Als we value iteration toepassen, dan krijgen we achtereenvolgens: 0 0 D De complexiteit van dynamisch programmeren voor een deterministisch doolhof is O(NAL), waarbij N het aantal toestanden, A het aantal acties per toestand, en L het langste optimale pad is. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

27 Deel III: Reinforcement leren Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

28 Reinforcement leren Geen a-priori gegeven model (overgangs-kansen, beloningen) is nodig. Reinforcement leren leert een subjectieve kijk op de wereld door te interacteren met die wereld. G Epoch = Sequentie Ervaringen (stapjes) Subjectieve kijk van de agent op de wereld Een policy wordt uitgevoerd. Dit levert ervaringen op, waarvan geleerd kan worden om een nieuwe policy te berekenen. Exploratie van de toestandsruimte is nodig. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

29 Principes van reinforcement leren Om de Q-functie te leren, herhalen RL algoritmen voortdurend het volgende: 1 Selecteer actie a t gegeven de toestand s t 2 Vergaar de beloning r t en observeer de opvolgende toestand s t+1 3 Werk de Q-functie bij, door gebruik te maken van de laatste ervaring: (s t, a t, r t, s t+1 ) Epoch = keten opeenvolgende toestanden eindigend in terminale toestand (of na vast aantal stapjes). Uit de epochs willen we de waarde functie en de optimale strategie leren. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

30 Het exploratie vs. exploitatie probleem Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

31 De N-armige bandiet Barto & Sutton: the N-armed bandit. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

32 Het exploratie vs. exploitatie probleem Stel je speelt een twee-armige bandiet: er zijn twee acties, L en R, beide kosten een Euro. Als de kansen en de bedragen nauwkeurig bekend zijn is het simpel om optimaal te spelen. Stel: De linkerarm heeft 10% kans op uitbetalen van 6 euro. De rechterarm heeft 1% kans op uitbetalen van 1 euro. De verwachte opbrengsten zijn dan E(links) = (6 1) (0 1) (1 0.1) = 0.4 E(rechts) = (1 1) (0 1) (1 0.01) = 0.0 Helaas weet je de kansen en opbrengsten niet. Door herhaaldelijk beide armen uit te proberen, kun je de kans op winst en het winstbedrag leren (door gemiddelden te bepalen). Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

33 Vier RL methoden Er zijn (tenminste) vier methoden om te leren: Vier methoden voor reinforcement leren Monte Carlo sampling Temporal difference leren Q-leren Model-gebaseerd dynamisch programmeren De eerste drie methoden gebruiken geen overgangsmodel en worden daarom ook vaak direct RL of model-free RL genoemd. De vierde methode schat eerst een transitiemodel en berekent de waardefunctie aan de hand van dynamisch programmeren. Daarom wordt deze methode ook wel indirect RL of model-based RL genoemd. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

34 Monte-Carlo Sampling Reward-to-go De verdisconteerde som van alle beloningen in die epoch vanaf het eerste moment dat die toestand bezocht is tot de epoch afgelopen is. Bepaal voor elke toestand s in een epoch k de reward-to-go a k. Dat kan door de beloning terugwaarts vanuit het einde te updaten: a k = R 0 + γa k Schatting voor de utiliteit van een toestand: neem het gemiddelde van alle rewards-to-go van alle keren dat die toestand in een epoch voorkomt: k i=1 V (s) = a i(s) s bezocht in epoch i aantal keren dat s bezocht werd in een epoch Convergeert langzaam (de update-variantie is groot, er zijn immers veel mogelijke epochs). Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

35 Opgave Stel discount γ = 0.5. Stel vervolgens dat de agent de volgende epochs (sequenties van toestanden) meemaakt: {A, B, D} {A, C, G} {A, B, E} {A, B, D} 1 Welke updates van de V -functie zal de agent maken met Monte Carlo sampling? 2 Welke met temporal-difference leren? Neem α = 1/5. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

36 Monte Carlo sampling: uitwerking Stel discount γ = 0.5. Welke updates van de V -functie zal de agent maken met Monte Carlo sampling? A B C Run 1: ABD gemiddeld Run 2: ACG gemiddeld 5.0/2 5 5 Run 3: ABE gemiddeld 7.5/3 0 5 Run 4: ABD gemiddeld 15/4 10/3 5 Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

37 Temporal difference leren In plaats van direct de hele epoch te gebruiken voor een update, kunnen we ook alleen de waarde in de opvolgende toestand gebruiken. Doe voor elke stap van i naar j in een epoch: Als j terminaal: Als j niet terminaal: V (i) := V (i) + α (R(i, j) V (i)) V (i) := V (i) + α (R(i, j) + γv (j) V (i)) Idee: geef elke keer V (i) een duwtje in de gewenste richting. Hier is α de learning rate. Bij vaste α komt dit snel in de buurt van de echte utiliteit, maar convergeert daarna niet verder. Als α steeds kleiner wordt naarmate een toestand i vaker bezocht is, convergeert het uiteraard wel. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

38 Voorbeeld We willen V (i) benaderen. Opvolgers van i zijn j en k met P(i, j) = 1/3 en P(i, k) = 2/3. Stel met steekproef komt de overgang i j 10 keer voor, en de overgang i k komt 20 keer voor. Dan: 10 : V (i) := V (i) + α(r(i, j) + γv (j) V (i)) 20 : V (i) := V (i) + α(r(i, k) + γv (k) V (i)) : V (i) := V (i) + α(10r(i, j) + 10γV (j) + 20R(i, k) + 20γV (k) 30V (i)) 30αV (i) = α(10r(i, j) + 10γV (j) + 20R(i, k) + 20γV (k)) Precies een stap in de gewenste richting: V (i) := 1 3 (R(i, j) + γv (j)) + 2 (R(i, k) + γv (k)). 3 Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

39 Temporal difference learning: uitwerking Stel discount γ = 0.5. Welke updates van de V -functie zal de agent maken met temporal difference learning? A B C D-G V ABD 5 + γb 5 + γd 5 5 V ACG 5 + γc 5 + γg 5 5 V ABE 5 + γb 5 + γe 5 + γ V ABD 5 + γb 5 + γd V Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

40 Q-leren Q-learning (Watkins, 1989) verandert de Q-waarde voor één actie op basis van de onmiddellijke reward en de optimale Q-waarde in de volgende toestand: Q-leren update-formule Q(s t, a t ) := Q(s t, a t ) + α (r t + γv (s t+1 ) Q(s t, a t )) Waarbij V (s) = max a Q(s, a). Als Q-leren gebruikt wordt, convergeert de Q-functie naar de optimale Q-functie als alle toestand/actie paren oneindig vaak bezocht worden (en de leersnelheid afneemt). Voordeel van Q-leren: simpel te implementeren. Nadeel van Q-leren: kan lang duren voordat beloning aan eind van keten terug gepropageerd is naar een toestand. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

41 Voorbeeld Q-leren Toestanden A, B, C, D, en eindtt. E. Acties L en R. R=-1 R=-1 R=-1 P(L) = 0.9 P(L) = 0.9 P(L) = 0.9 P(R) = 0.1 P(R) = 0.1 P(R) = 0.1 A B C D E R=-1 P(L) = 1.0 P(R) = 1.0 R=-1 P(L) = 0.1 P(R) = 0.9 R=-1 P(L) = 0.1 P(R) = 0.9 R=-1 P(L) = 0.1 P(R) = 0.9 Stel de volgende overgangen worden gemaakt met α = 0.5 en γ = 1.0: (A, L, B); (B, R, C); (C, R, D); (D, R, E); (C, L, D); (D, L, C); (C, R, D); (D, R, E); (B, L, A); (A, R, B); (B, L, C); (C, R, D); (D, L, E). Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

42 Model-gebaseerd RL Schat P(i, a, j): ˆP(i, a, j) := aantal i[a] j overgangen aantal i[a] momenten Schat R(i, a, j): ˆR(i, a, j) := Σ beloningen op i[a] j overgangen aantal i[a] j overgangen Herhaal de update aantal keer voor alle (niet-terminale) toestanden: Q(i, a) := ( ) ˆP(i, a, j) ˆR(i, a, j) + γv (j) j Vaak is het niet nodig om alle Q-waarden te updaten slechts een subset van de Q-waarden zal significant veranderen door de laatste ervaring. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

43 Direct vs. indirect RL S G Een doolhof. Reward goal = +1; Reward blocked = 2; Reward penalty = 10; Reward anders = 1. 10% noise in het uitvoeren van een actie. Max-random exploration (30% 0% exploratie-stappen) Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

44 Indirect vs. direct RL Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

45 Direct vs. indirect RL Voordelen direct RL: Minder geheugenruimte nodig (immers, de transitiefunctie kan groot zijn). Werkt ook met continue representaties (bv. neurale netwerken). Kan beter werken als Markov-eigenschap niet geldt. Nadelen direct RL: Veel informatie wordt weggegooid. Agent heeft geen mogelijkheid tot introspectie: bv. welke actie heb ik nog weinig uitgeprobeerd (voor exploratie). Leren kan veel langer duren. Geleerde waardefunctie meestal veel minder nauwkeurig. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45