Inleiding Adaptieve Systemen Hoofdstuk X: Reinforcement leren

Maat: px
Weergave met pagina beginnen:

Download "Inleiding Adaptieve Systemen Hoofdstuk X: Reinforcement leren"

Transcriptie

1 Inleiding Adaptieve Systemen Hoofdstuk X: Reinforcement leren Cursusjaar Gerard Vreeswijk β-faculteit, Departement Informatica en Informatiekunde, Leerstoelgroep Intelligente Systemen 21 juni 2013 Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

2 Inhoud Markov beslis-problemen. Dynamisch programmeren. Reinforcement leren: principes. Monte-Carlo sampling. Temporal difference (TD) leren. Q-leren. Model-gebaseerd leren. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

3 Deel I: Markov beslis-problemen Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

4 De blikjes-robot Uit: Barto and Sutton, Reinforcement Learning: An Introduction, MIT Press, Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

5 Italian DustBot Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

6 Italian DustBot Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

7 Toestandengraaf voor de blikjes-robot Uit: Barto and Sutton, Reinforcement Learning: An Introduction, MIT Press, Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

8 Markov beslisproblemen Een Markov beslisprobleem (MDP) bestaat uit: Een eindige verzameling toestanden S = {s 1,..., s n }. Een eindige verzameling acties per toestand A s = {a s 1,..., as n}. (Maar vaak bezitten alle toestanden dezelfde acties.) P(i, a, j): kans om in toestand j terecht te komen als actie a wordt uitgevoerd in toestand i. Er geldt j P(i, a, j) = 1. R(i, a, j) onmiddellijke beloning voor het terechtkomen in j, als actie a wordt geselecteerd in toestand i. γ: discount parameter voor toekomstige beloningen: 0 γ 1. Toestanden kunnen terminaal zijn: ketens van stappen die hier terecht komen worden niet verder voortgezet. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

9 Markov eigenschap Een systeem van toestanden, acties en toestandsovergangen door acties bezit de Markov eigenschap als, voor het voorspellen naar welke volgende toestand een stap gemaakt zal worden, alleen wetenschap nodig is van de huidige toestand en de huidige actie. Markov eigenschap P(s t+1 s t, a t ) = P(s t+1 s t, a t,..., s 1, a 1 ) Dus, voor het voorspellen van de toekomst doet het er niet toe hoe je in de huidige toestand gekomen bent. Vergelijk processen in de natuur: waar zou het verleden gerepresenteerd moeten zijn? Puur filosofisch punt: een systeem is altijd wel Markov te maken: definieer de huidige toestand als het nu de geschiedenis. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

10 Backup-diagrammen voor V Π en Q Π Er zijn twee manieren om naar transities (overgangen) te kijken: Toestand Actie Toestand. Dit wordt het V Π -diagram genoemd. Actie Toestand Actie. Dit wordt het Q Π -diagram genoemd. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

11 Passief vs. actief leren Passief leren. Leer uitkomst van proces zonder besluiten te (kunnen) nemen over de te nemen acties predictie. Stel bv. dat in bovenstaand MDP alle acties met een kans van een 1/2 worden gekozen. Wat is de verwachte som van de beloningen? Actief leren. leer een policy (actieselectie-patroon) zodat de uitkomst op termijn zo goed mogelijk is controle. Wat is de optimale actie in elke toestand? Wat is dan de verwachte som van de beloningen? Met discount factor γ = 0.9? Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni 2013 / 45

12 Discount factor De discount factor, 0 γ 1, kan op twee manieren begrepen worden: Existentie. De discount factor is een kans op het voortzetten van een run. De kans dat je er na k ronden nog bent is gelijk aan γ k 1. Inflatie. Rewards ontwaarden naarmate je verder in de toekomst kijkt: Een reward na k ronden is op dit moment nog maar waard. γ k 1 Wat als γ = 0? Wat als γ = 1? Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

13 De argmax functie Definitie arg max x 1,...,x n = { x 1,..., x n y 1,..., y n : f (y 1,..., y n ) f (x 1,..., x n ) } Opmerkingen: Vaak n = 1 en arg max x = {x y : f (y) f (x)}. Argmax is meestal een verzameling. Als argmax een singleton set is, dan wordt argmax geïdentificeerd met het enige element uit die set. Voorbeelden: arg max x { x 1 x 2 } = {0} = 0 arg max x { x log(x)} = arg max x { x sin(x)} = 1 2π (mod 2π) Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

14 Policy Een policy Π selecteert een actie als een functie van de huidige toestand a t = Π(s t ) Voorbeeld policy: G Doel: leer de optimale policy Π. Dit is de policy die de verwachte beloningen maximaliseert, nu en met discount γ in de toekomst: ( ) Π = arg max E γ t R(s t, Π(s t ), s t+1 ) s 0 = s Π t=0 Er zijn discrete A S policies. 1 Hoe weten we welke policy het beste is? 1 Aangenomen dat in elke toestand hetzelfde arsenaal aan acties beschikbaar is. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

15 Waarde-functie Een waardefunctie voor policy Π schat de verwachte toekomstige beloningen, uitgaande van een toestand: ( ) V (s t ) = E γ t R(s t, Π(s t ), s t+1 ) s 0 = s t=0 Een kwaliteitsfunctie schat de verwachte toekomstige beloningen, uitgaande van een toestand en een actie op die toestand: Q(s t, a t ) = s t+1 P(s t, a t, s t+1 ) (R(s t, a t, s t+1 ) + γv (s t+1 )) Voorbeeld van een waardefunctie (in een deterministische wereld): Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni /

16 De V -functie en de Q-functie Model Een model geeft aan, of kan berekenen, welke toestanden volgen uit opgegeven toestand-actie paren. We maken gebruik van twee profijt-schatters: 1 De V -functie voor het evalueren van toestanden. 2 De Q-functie voor het evalueren van acties op toestanden. Als de waardefunctie V bekend is, dan kunnen we in een toestand alle acties uitproberen, met behulp van het model de nieuwe toestand bepalen, en vervolgens de actie selecteren die leidt tot de meest waardevolle volgende toestand. Als de Q-functie bekend is dan kunnen we in elke toestand direct de actie selecteren met de hoogste Q-waarde. Een model is dan niet meer nodig: je hopt van actie naar actie. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

17 Backup-diagrammen voor de optimale V en Q Een agent kan alleen maar maximaliseren over één deel van het backup-diagram, nl. dat deel waar het zelf zijn actie kan bepalen. Vervolgens is het aan het toeval overgeleverd bt. welke immediate reward het ontvangt en in welke nieuwe toestand het beland. Deze diagrammen leiden naar de Bellman vergelijking voor Q. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

18 Deel II: Dynamisch programmeren Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

19 Dynamisch programmeren De optimale Q-functie voldoet aan de zg. Bellman vergelijking: Bellman vergelijking Q (i, a) = j P(i, a, j) (R(i, a, j) + γv (j)) I.p.v. s i, s j, etc. schrijven we i, j, etc. Hier is V (j) = max a Q (j, a). De optimale policy verkrijgen we dan door: Π (i) = arg max Q (i, a). a Opmerkingen: V is uniek bepaald. Π is niet altijd uniek bepaald. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

20 Evalueren van een policy Voor elke policy Π kunnen we toestandswaarden V (s), s S, berekenen. Dit correspondeert met passief leren waarbij de vastgelegde policy de overgangskansen bepaalt. Omdat we nu een vaste policy Π hebben, kunnen we de acties uit de overgangs- en beloningsfuncties elimineren: P(i, j) = P(i, Π(i), j) en: R(i, j) = R(i, Π(i), j). Nu is V Π (i) voor elke toestand i vastgelegd: Voor niet-terminale toestanden i V Π (i) = j P(i, j) ( ) R(i, j) + γv Π (j) En voor terminale toestanden i V Π (i) = 0. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

21 Evalueren van een policy Stelsel van n lineaire vergelijkingen met n onbekenden V (i). Twee methoden: Gauss-eliminatie. Veeg matrix links-onder en rechts-boven schoon. V (1) = j... =... V (n) = j P(1, j) (R(1, j) + γv (j)) P(n, j) (R(n, j) + γv (j)) Policy evaluation. Start met V (i) = 0, voor alle i, en herhaal V (i) := j P(i, j) (R(i, j) + γv (j)) een groot aantal keer voor alle niet-terminale toestanden i. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

22 Opgave Gegeven de toestanden A t/m D waarvan B terminaal is. Stel dat alle overgangskansen, P(i, a, j) uniform verdeeld zijn, en dat discount γ = 0.9. Bereken de V -waarden voor alle toestanden. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

23 Uitwerking: met lineaire algebra V -waarden berekenen V (A) = j P(A, j) (R(A, j) + γv (j)) V (B) = 0 = R(A, B) + γv (B) = V (B) V (C) = j P(C, j) (R(C, j) + γv (j)) = 0.5(R(C, A) + γv (A)) + 0.5(R(C, D) + γv (D)) = V (A) V (D) V (D) = j P(D, j) (R(D, j) + γv (j)) = R(D, B) + γv (B) = 0.5(R(D, B) + γv (B)) + 0.5(R(D, C) + γv (C)) = V (B) V (C) Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

24 Uitwerking analytisch oplossen van V -waarden Notatie vereenvoudigen: A = B B = 0 C = 0.45A D D = B C Dat is: A B C D = Oplossen (met bv. Gauss-eliminatie) geeft: A = 1, B = 0, C = , D = Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

25 Value Iteration We kunnen de optimale policy berekenen door gebruik te maken van dynamisch programmeren. Dit heet value iteration. 1 Initialiseer Q-waarden en V -waarden (b.v. op 0). 2 Maak een update voor de Q-waarden: Q(i, a) := j P(i, a, j) (R(i, a, j) + γv (j)) Voor terminale toestanden : P(i, a, i) = 1 en R(i, a, i) = 0 voor elke actie. 3 Bereken dan de nieuwe waarde functie: V (i) := max a Q(i, a). 4 Pas de policy aan zodat in elke toestand de actie met maximale huidige waarde wordt geselecteerd: Π(i) := argmax a Q(i, a). 5 Ga naar (2) totdat V niet meer verandert Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

26 Value iteration: voorbeeld Beschouw een deterministisch doolhof. (De uitkomst van elke actie is bekend.) De kosten van alle acties zijn 1. Rechtsboven is de doeltoestand D met waarde nul. Als we value iteration toepassen, dan krijgen we achtereenvolgens: 0 0 D De complexiteit van dynamisch programmeren voor een deterministisch doolhof is O(NAL), waarbij N het aantal toestanden, A het aantal acties per toestand, en L het langste optimale pad is. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

27 Deel III: Reinforcement leren Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

28 Reinforcement leren Geen a-priori gegeven model (overgangs-kansen, beloningen) is nodig. Reinforcement leren leert een subjectieve kijk op de wereld door te interacteren met die wereld. G Epoch = Sequentie Ervaringen (stapjes) Subjectieve kijk van de agent op de wereld Een policy wordt uitgevoerd. Dit levert ervaringen op, waarvan geleerd kan worden om een nieuwe policy te berekenen. Exploratie van de toestandsruimte is nodig. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

29 Principes van reinforcement leren Om de Q-functie te leren, herhalen RL algoritmen voortdurend het volgende: 1 Selecteer actie a t gegeven de toestand s t 2 Vergaar de beloning r t en observeer de opvolgende toestand s t+1 3 Werk de Q-functie bij, door gebruik te maken van de laatste ervaring: (s t, a t, r t, s t+1 ) Epoch = keten opeenvolgende toestanden eindigend in terminale toestand (of na vast aantal stapjes). Uit de epochs willen we de waarde functie en de optimale strategie leren. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

30 Het exploratie vs. exploitatie probleem Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

31 De N-armige bandiet Barto & Sutton: the N-armed bandit. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

32 Het exploratie vs. exploitatie probleem Stel je speelt een twee-armige bandiet: er zijn twee acties, L en R, beide kosten een Euro. Als de kansen en de bedragen nauwkeurig bekend zijn is het simpel om optimaal te spelen. Stel: De linkerarm heeft 10% kans op uitbetalen van 6 euro. De rechterarm heeft 1% kans op uitbetalen van 1 euro. De verwachte opbrengsten zijn dan E(links) = (6 1) (0 1) (1 0.1) = 0.4 E(rechts) = (1 1) (0 1) (1 0.01) = 0.0 Helaas weet je de kansen en opbrengsten niet. Door herhaaldelijk beide armen uit te proberen, kun je de kans op winst en het winstbedrag leren (door gemiddelden te bepalen). Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

33 Vier RL methoden Er zijn (tenminste) vier methoden om te leren: Vier methoden voor reinforcement leren Monte Carlo sampling Temporal difference leren Q-leren Model-gebaseerd dynamisch programmeren De eerste drie methoden gebruiken geen overgangsmodel en worden daarom ook vaak direct RL of model-free RL genoemd. De vierde methode schat eerst een transitiemodel en berekent de waardefunctie aan de hand van dynamisch programmeren. Daarom wordt deze methode ook wel indirect RL of model-based RL genoemd. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

34 Monte-Carlo Sampling Reward-to-go De verdisconteerde som van alle beloningen in die epoch vanaf het eerste moment dat die toestand bezocht is tot de epoch afgelopen is. Bepaal voor elke toestand s in een epoch k de reward-to-go a k. Dat kan door de beloning terugwaarts vanuit het einde te updaten: a k = R 0 + γa k Schatting voor de utiliteit van een toestand: neem het gemiddelde van alle rewards-to-go van alle keren dat die toestand in een epoch voorkomt: k i=1 V (s) = a i(s) s bezocht in epoch i aantal keren dat s bezocht werd in een epoch Convergeert langzaam (de update-variantie is groot, er zijn immers veel mogelijke epochs). Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

35 Opgave Stel discount γ = 0.5. Stel vervolgens dat de agent de volgende epochs (sequenties van toestanden) meemaakt: {A, B, D} {A, C, G} {A, B, E} {A, B, D} 1 Welke updates van de V -functie zal de agent maken met Monte Carlo sampling? 2 Welke met temporal-difference leren? Neem α = 1/5. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

36 Monte Carlo sampling: uitwerking Stel discount γ = 0.5. Welke updates van de V -functie zal de agent maken met Monte Carlo sampling? A B C Run 1: ABD gemiddeld Run 2: ACG gemiddeld 5.0/2 5 5 Run 3: ABE gemiddeld 7.5/3 0 5 Run 4: ABD gemiddeld 15/4 10/3 5 Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

37 Temporal difference leren In plaats van direct de hele epoch te gebruiken voor een update, kunnen we ook alleen de waarde in de opvolgende toestand gebruiken. Doe voor elke stap van i naar j in een epoch: Als j terminaal: Als j niet terminaal: V (i) := V (i) + α (R(i, j) V (i)) V (i) := V (i) + α (R(i, j) + γv (j) V (i)) Idee: geef elke keer V (i) een duwtje in de gewenste richting. Hier is α de learning rate. Bij vaste α komt dit snel in de buurt van de echte utiliteit, maar convergeert daarna niet verder. Als α steeds kleiner wordt naarmate een toestand i vaker bezocht is, convergeert het uiteraard wel. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

38 Voorbeeld We willen V (i) benaderen. Opvolgers van i zijn j en k met P(i, j) = 1/3 en P(i, k) = 2/3. Stel met steekproef komt de overgang i j 10 keer voor, en de overgang i k komt 20 keer voor. Dan: 10 : V (i) := V (i) + α(r(i, j) + γv (j) V (i)) 20 : V (i) := V (i) + α(r(i, k) + γv (k) V (i)) : V (i) := V (i) + α(10r(i, j) + 10γV (j) + 20R(i, k) + 20γV (k) 30V (i)) 30αV (i) = α(10r(i, j) + 10γV (j) + 20R(i, k) + 20γV (k)) Precies een stap in de gewenste richting: V (i) := 1 3 (R(i, j) + γv (j)) + 2 (R(i, k) + γv (k)). 3 Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

39 Temporal difference learning: uitwerking Stel discount γ = 0.5. Welke updates van de V -functie zal de agent maken met temporal difference learning? A B C D-G V ABD 5 + γb 5 + γd 5 5 V ACG 5 + γc 5 + γg 5 5 V ABE 5 + γb 5 + γe 5 + γ V ABD 5 + γb 5 + γd V Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

40 Q-leren Q-learning (Watkins, 1989) verandert de Q-waarde voor één actie op basis van de onmiddellijke reward en de optimale Q-waarde in de volgende toestand: Q-leren update-formule Q(s t, a t ) := Q(s t, a t ) + α (r t + γv (s t+1 ) Q(s t, a t )) Waarbij V (s) = max a Q(s, a). Als Q-leren gebruikt wordt, convergeert de Q-functie naar de optimale Q-functie als alle toestand/actie paren oneindig vaak bezocht worden (en de leersnelheid afneemt). Voordeel van Q-leren: simpel te implementeren. Nadeel van Q-leren: kan lang duren voordat beloning aan eind van keten terug gepropageerd is naar een toestand. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

41 Voorbeeld Q-leren Toestanden A, B, C, D, en eindtt. E. Acties L en R. R=-1 R=-1 R=-1 P(L) = 0.9 P(L) = 0.9 P(L) = 0.9 P(R) = 0.1 P(R) = 0.1 P(R) = 0.1 A B C D E R=-1 P(L) = 1.0 P(R) = 1.0 R=-1 P(L) = 0.1 P(R) = 0.9 R=-1 P(L) = 0.1 P(R) = 0.9 R=-1 P(L) = 0.1 P(R) = 0.9 Stel de volgende overgangen worden gemaakt met α = 0.5 en γ = 1.0: (A, L, B); (B, R, C); (C, R, D); (D, R, E); (C, L, D); (D, L, C); (C, R, D); (D, R, E); (B, L, A); (A, R, B); (B, L, C); (C, R, D); (D, L, E). Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

42 Model-gebaseerd RL Schat P(i, a, j): ˆP(i, a, j) := aantal i[a] j overgangen aantal i[a] momenten Schat R(i, a, j): ˆR(i, a, j) := Σ beloningen op i[a] j overgangen aantal i[a] j overgangen Herhaal de update aantal keer voor alle (niet-terminale) toestanden: Q(i, a) := ( ) ˆP(i, a, j) ˆR(i, a, j) + γv (j) j Vaak is het niet nodig om alle Q-waarden te updaten slechts een subset van de Q-waarden zal significant veranderen door de laatste ervaring. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

43 Direct vs. indirect RL S G Een doolhof. Reward goal = +1; Reward blocked = 2; Reward penalty = 10; Reward anders = 1. 10% noise in het uitvoeren van een actie. Max-random exploration (30% 0% exploratie-stappen) Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

44 Indirect vs. direct RL Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

45 Direct vs. indirect RL Voordelen direct RL: Minder geheugenruimte nodig (immers, de transitiefunctie kan groot zijn). Werkt ook met continue representaties (bv. neurale netwerken). Kan beter werken als Markov-eigenschap niet geldt. Nadelen direct RL: Veel informatie wordt weggegooid. Agent heeft geen mogelijkheid tot introspectie: bv. welke actie heb ik nog weinig uitgeprobeerd (voor exploratie). Leren kan veel langer duren. Geleerde waardefunctie meestal veel minder nauwkeurig. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45

Open vragen. Naam:...

Open vragen. Naam:... Tentamen IAS. Vrijdag 29 juni 2012 om 13.30-16.30 uur, zaal: RUPPERT-40. 1 Naam:............................................................................................................. Collegekaart-nummer:...........................

Nadere informatie

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Tentamen Kunstmatige Intelligentie (INFOB2KI) Tentamen Kunstmatige Intelligentie (INFOB2KI) 12 december 2014 8:30-10:30 Vooraf Mobiele telefoons en dergelijke dienen uitgeschakeld te zijn. Het eerste deel van het tentamen bestaat uit 8 multiple-choice

Nadere informatie

Reinforcement Leren. 1 Introductie. Samenvatting. Intelligent Systems Group Institute of Computing and Computing Sciences Universiteit Utrecht

Reinforcement Leren. 1 Introductie. Samenvatting. Intelligent Systems Group Institute of Computing and Computing Sciences Universiteit Utrecht Reinforcement Leren Marco A. Wiering (marco@cs.uu.nl) Intelligent Systems Group Institute of Computing and Computing Sciences Universiteit Utrecht Samenvatting Dit korte overzichtsartikel beschrijft reinforcement

Nadere informatie

Opgave 2 ( = 12 ptn.)

Opgave 2 ( = 12 ptn.) Deel II Opgave 1 (4 + 2 + 6 = 12 ptn.) a) Beschouw bovenstaande game tree waarin cirkels je eigen zet representeren en vierkanten die van je tegenstander. Welke waarde van de evaluatiefunctie komt uiteindelijk

Nadere informatie

succes. Door steeds opnieuw toernooien te blijven spelen evolueert de populatie. We kunnen dit doen onder ideale omstandigheden,

succes. Door steeds opnieuw toernooien te blijven spelen evolueert de populatie. We kunnen dit doen onder ideale omstandigheden, Inleiding Adaptieve Systemen deel 2, 25 juni 2014, 13.30-16.30, v. 1 Er is op vrijdag 27 juni nog een practicumsessie! De aanvullende toets is op 4 juli, 13-15 uur. Competitie en cooperatie 1. Bekijk de

Nadere informatie

1 als x y = 0, A B C D E F. = (t j o j )o j (1 o j )x ji.

1 als x y = 0, A B C D E F. = (t j o j )o j (1 o j )x ji. Tentamen IAS. Vrijdag 1 Juli 2011 om 13.30-16.30 uur, zaal: EDUC-α 1 Dit tentamen duurt 3 uur. Er zijn 20 vragen, waarvan 4 open vragen en 16 meerkeuze. Het is verboden literatuur, aantekeningen, een programmeerbare

Nadere informatie

1 als x y = 0, = (t j o j )o j (1 o j )x ji.

1 als x y = 0, = (t j o j )o j (1 o j )x ji. Tentamen IAS. Vrijdag 1 Juli 2011 om 13.30-16.30 uur, zaal: EDUC-α 1 Dit tentamen duurt 3 uur. Er zijn 20 vragen, waarvan 4 open vragen en 16 meerkeuze. Het is verboden literatuur, aantekeningen, een programmeerbare

Nadere informatie

X1 X2 T c i = (d y)x i. c i,nieuw = c i,oud + (d y) x i. w nieuw. = w oud

X1 X2 T c i = (d y)x i. c i,nieuw = c i,oud + (d y) x i. w nieuw. = w oud Tent. IAS ma 22-6-2009, tijd: 13.15-16.15 uur, zaal: EDUC-α, deeltent. 2 van 2 Versie C 1 Welkom. Dit tentamen duurt 3 uur en telt 20 vragen: 4 open vragen en 16 meerkeuzevragen. Wel: rekenmachine. Niet:

Nadere informatie

Open vragen. Veel succes!

Open vragen. Veel succes! Tent. IAS wo 30-Jul-2010, tijd: 13:30-16:30 uur, zaal: EDUC-β 1 Dit tentamen duurt 3 uur. Er zijn 20 vragen, waarvan 4 open vragen en 16 meerkeuze. Het is verboden literatuur, aantekeningen, een programmeerbare

Nadere informatie

Stochastische Modellen in Operations Management (153088)

Stochastische Modellen in Operations Management (153088) Stochastische Modellen in Operations Management (153088) S1 S2 X ms X ms R1 S0 240 ms Ack L1 R2 10 ms Internet R3 L2 D0 10 ms D1 D2 Richard Boucherie Stochastische Operations Research TW, Ravelijn H 219

Nadere informatie

Open vragen. Naam:...

Open vragen. Naam:... Tentamen IAS. Vrijdag 28 juni 2013 om 13.30-16.30 uur, zaal: EDUC-β. Versie D 1 Naam:............................................................................................................. Collegekaart-nummer:...........................

Nadere informatie

Stochastische Modellen in Operations Management (153088)

Stochastische Modellen in Operations Management (153088) S1 S2 X ms X ms Stochastische Modellen in Operations Management (153088) R1 S0 240 ms Ack Internet R2 L1 R3 L2 10 ms 1 10 ms D1 Richard Boucherie Stochastische Operations Research TW, Ravelijn H 219 http://wwwhome.math.utwente.nl/~boucherierj/onderwijs/153088/153088.html

Nadere informatie

VU University Amsterdam 2018, Maart 27

VU University Amsterdam 2018, Maart 27 Department of Mathematics Exam: Voortgezette biostatistiek VU University Amsterdam 2018, Maart 27 c Dept. of Mathematics, VU University Amsterdam NB. Geef een duidelijke toelichting bij de antwoorden.

Nadere informatie

INLEIDING. Definitie Stochastisch Proces:

INLEIDING. Definitie Stochastisch Proces: Definitie Stochastisch Proces: INLEIDING Verzameling van stochastische variabelen die het gedrag in de tijd beschrijven van een systeem dat onderhevig is aan toeval. Tijdparameter: discreet: {X n, n 0};

Nadere informatie

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Tentamen Kunstmatige Intelligentie (INFOB2KI) Tentamen Kunstmatige Intelligentie (INFOB2KI) 30 januari 2014 10:30-12:30 Vooraf Mobiele telefoons dienen uitgeschakeld te zijn. Het tentamen bestaat uit 7 opgaven; in totaal kunnen er 100 punten behaald

Nadere informatie

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten:

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten: Definitie van Markov keten: MARKOV KETENS Een stochastisch proces {X n, n 0} met toestandsruimte S heet een discrete-tijd Markov keten (DTMC) als voor alle i en j in S geldt P (X n+ = j X n = i, X n,...,

Nadere informatie

Samenvatting (Dutch)

Samenvatting (Dutch) Samenvatting (Dutch) 162 Hier zal een korte samenvatting gegeven worden van de resultaten van het onderzoek gepresenteerd in dit proefschrift. Affect, Gemoedstoestand en Informatieverwerking Om te overleven

Nadere informatie

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten:

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten: Definitie van Markov keten: MARKOV KETENS Een stochastisch proces {X n, n 0} met toestandsruimte S heet een discrete-tijd Markov keten (DTMC) als voor alle i en j in S geldt P (X n+1 = j X n = i, X n 1,...,

Nadere informatie

Toegepaste Wiskunde 2: Het Kalman-filter

Toegepaste Wiskunde 2: Het Kalman-filter Toegepaste Wiskunde 2: Het Kalman-filter 25 februari, 2008 Hans Maassen 1. Inleiding Het Kalman filter schat de toestand van een systeem op basis van een reeks, door ruis verstoorde waarnemingen. Een meer

Nadere informatie

Stochastische Modellen in Operations Management (153088)

Stochastische Modellen in Operations Management (153088) R1 L1 R2 1 S0 Stochastische Modellen in Operations Management (153088) 240 ms 10 ms Ack Internet Richard Boucherie Stochastische Operations Research TW, Ravelijn H 219 http://wwwhome.math.utwente.nl/~boucherierj/onderwijs/153088/153088.html

Nadere informatie

Hertentamen Voortgezette biostatistiek / Biomedische wiskunde

Hertentamen Voortgezette biostatistiek / Biomedische wiskunde Hertentamen Voortgezette biostatistiek / Biomedische wiskunde 1 juni 2016; 18:30-20:30 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau.

Nadere informatie

Hertentamen Biostatistiek 3 / Biomedische wiskunde

Hertentamen Biostatistiek 3 / Biomedische wiskunde Hertentamen Biostatistiek 3 / Biomedische wiskunde 2 juni 2014; 18:30-20:30 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau. Het

Nadere informatie

Stochastische Modellen in Operations Management (153088)

Stochastische Modellen in Operations Management (153088) R1 L1 R2 S0 Stochastische Modellen in Operations Management (153088) 240 ms 10 ms Ack Internet Richard Boucherie Stochastische Operations Research TW, Ravelijn H 219 http://wwwhome.math.utwente.nl/~boucherierj/onderwijs/153088/153088.html

Nadere informatie

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15 Bayesiaans leren Les 2: Markov Chain Monte Carlo Joris Bierkens Vakantiecursus augustus 209 /5 Samenvatting en vooruitblik Veel statistische problemen kunnen we opvatten in een Bayesiaanse context n π(θ)

Nadere informatie

Tentamen Biostatistiek 3 / Biomedische wiskunde

Tentamen Biostatistiek 3 / Biomedische wiskunde Tentamen Biostatistiek 3 / Biomedische wiskunde 25 maart 2014; 12:00-14:00 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau. Het

Nadere informatie

Tentamen Kunstmatige Intelligentie

Tentamen Kunstmatige Intelligentie Naam: Studentnr: Tentamen Kunstmatige Intelligentie Department of Information and Computing Sciences Opleiding Informatica Universiteit Utrecht Donderdag 2 februari 2012 08.30 10:30, EDUCA-ALFA Vooraf

Nadere informatie

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15 Bayesiaans leren Les 2: Markov Chain Monte Carlo Joris Bierkens Vakantiecursus augustus 2019 1/15 Samenvatting en vooruitblik Veel statistische problemen kunnen we opvatten in een Bayesiaanse context n

Nadere informatie

Deel 2 van Wiskunde 2

Deel 2 van Wiskunde 2 Deel 2 van Wiskunde 2 Organisatorische informatie Wat Dag Tijd Zaal Docent College Tue 5+6 Aud 6+15 Jacques Resing Thu 1+2 Aud 1+4 Jacques Resing Werkcollege Tue 7+8 Aud 6+15 Jacques Resing Instructie

Nadere informatie

Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren

Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren Cursusjaar 2014-2015 Gerard Vreeswijk β-faculteit, Departement Informatica en Informatiekunde, Leerstoelgroep Intelligente Systemen 17 juni

Nadere informatie

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions cursus 4 mei 2012 werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions Huiswerk P&D, opgaven Chapter 6: 9, 19, 25, 33 P&D, opgaven Appendix A: 1, 9 doen

Nadere informatie

Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Juni 7

Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Juni 7 Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 07, Juni 7 c Dept. of Mathematics, VU University Amsterdam NB. Geef een duidelijke toelichting

Nadere informatie

Open vragen. Naam:...

Open vragen. Naam:... Tentamen IAS. Vrijdag 28 juni 2013 om 13.30-16.30 uur, zaal: EDUC-β. 1 Naam:............................................................................................................. Collegekaart-nummer:...........................

Nadere informatie

0.97 0.03 0 0 0.008 0.982 0.01 0 0.02 0 0.975 0.005 0.01 0 0 0.99

0.97 0.03 0 0 0.008 0.982 0.01 0 0.02 0 0.975 0.005 0.01 0 0 0.99 COHORTE MODELLEN Markov ketens worden vaak gebruikt bij de bestudering van een groep van personen of objecten. We spreken dan meestal over Cohorte modellen. Een voorbeeld van zo n situatie is het personeelsplanning

Nadere informatie

Hoofdstuk 18,19.1,21.1/3,17.1/2 Russell/Norvig = [RN] Leren

Hoofdstuk 18,19.1,21.1/3,17.1/2 Russell/Norvig = [RN] Leren AI Kunstmatige Intelligentie (AI) Hoofdstuk 18,19.1,21.1/3,17.1/2 Russell/Norvig = [RN] Leren voorjaar 2016 College 10, 26 april 2016 www.liacs.leidenuniv.nl/ kosterswa/ai/ 1 Introductie Er zijn vele soorten

Nadere informatie

Het tentamen heeft 25 onderdelen. Met ieder onderdeel kan maximaal 2 punten verdiend worden.

Het tentamen heeft 25 onderdelen. Met ieder onderdeel kan maximaal 2 punten verdiend worden. Hertentamen Inleiding Kansrekening WI64. 9 augustus, 9:-: Het tentamen heeft 5 onderdelen. Met ieder onderdeel kan maximaal punten verdiend worden. Het tentamen is open boek. Boeken, nota s en een (eventueel

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen

Nadere informatie

Tentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander

Tentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander Tentamen Inleiding Kansrekening 9 juni 6, : 3: Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan. Er zijn 8 vragen, elk met onderdelen. Elk onderdeel

Nadere informatie

P = LIMIETGEDRAG VAN MARKOV KETENS Limietverdeling van irreducibele, aperiodieke Markov keten:

P = LIMIETGEDRAG VAN MARKOV KETENS Limietverdeling van irreducibele, aperiodieke Markov keten: LIMIETGEDRAG VAN MARKOV KETENS Limietverdeling van irreducibele, aperiodieke Markov keten: Voorbeeld: Zoek de unieke oplossing van het stelsel π = π P waarvoor bovendien geldt dat i S π i = 1. P = 0 1/4

Nadere informatie

MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN?

MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN? MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN? KARMA DAJANI In deze lezing gaan we over een bijzonder model in kansrekening spreken Maar eerst een paar woorden vooraf Wat doen we

Nadere informatie

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN. Continue Verdelingen 1 A. De uniforme (of rechthoekige) verdeling Kansdichtheid en cumulatieve frequentiefunctie Voor x < a f(x) = 0 F(x) = 0 Voor a x

Nadere informatie

VU University Amsterdam 2018, juli 11.

VU University Amsterdam 2018, juli 11. Department of Mathematics Herexamen: Voortgezette biostatistiek VU University Amsterdam 018, juli 11. c Dept. of Mathematics, VU University Amsterdam NB. Geef een duidelijke toelichting bij de antwoorden.

Nadere informatie

Lineaire vergelijkingen II: Pivotering

Lineaire vergelijkingen II: Pivotering 1/25 Lineaire vergelijkingen II: Pivotering VU Numeriek Programmeren 2.5 Charles Bos Vrije Universiteit Amsterdam c.s.bos@vu.nl, 1A40 15 april 2013 2/25 Overzicht Pivotering: Methodes Norm en conditionering

Nadere informatie

MARKOV MODEL MET KOSTEN In Markov modellen zijn we vaak geïnteresseerd in kostenberekeningen.

MARKOV MODEL MET KOSTEN In Markov modellen zijn we vaak geïnteresseerd in kostenberekeningen. MARKOV MODEL MET KOSTEN In Markov modellen zijn we vaak geïnteresseerd in kostenberekeningen. voorraadmodel: voorraadkosten personeelsplanningmodel: salariskosten machineonderhoudsmodel: reparatiekosten

Nadere informatie

3 De stelling van Kleene

3 De stelling van Kleene 18 3 De stelling van Kleene Definitie 3.1 Een formele taal heet regulier als hij wordt herkend door een deterministische eindige automaat. Talen van de vorm L(r) met r een reguliere expressie noemen we

Nadere informatie

Tentamen Inleiding Kansrekening wi juni 2010, uur

Tentamen Inleiding Kansrekening wi juni 2010, uur Technische Universiteit Delft Mekelweg Faculteit Electrotechniek, Wiskunde en Informatica 8 CD Delft Tentamen Inleiding Kansrekening wi juni, 9.. uur Bij dit examen is het gebruik van een (evt. grafische

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren

Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren Cursusjaar 2017-2018 Gerard Vreeswijk β-faculteit, Departement Informatica en Informatiekunde, Leerstoelgroep Intelligente Systemen 21 maart

Nadere informatie

Uitwerking 1 Uitwerkingen eerste deeltentamen Lineaire Algebra (WISB121) 3 november 2009

Uitwerking 1 Uitwerkingen eerste deeltentamen Lineaire Algebra (WISB121) 3 november 2009 Departement Wiskunde, Faculteit Bètawetenschappen, UU. In elektronische vorm beschikbaar gemaakt door de TBC van A Eskwadraat. Het college WISB werd in 9- gegeven door Prof. Dr. F. Beukers. Uitwerking

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation

Cover Page. The handle   holds various files of this Leiden University dissertation Cover Page The handle http://hdl.handle.net/1887/39637 holds various files of this Leiden University dissertation Author: Smit, Laurens Title: Steady-state analysis of large scale systems : the successive

Nadere informatie

Vragen die je wilt beantwoorden zijn:

Vragen die je wilt beantwoorden zijn: Net als bij een discrete-tijd Markov keten is men bij de bestudering van een continue-tijd Markov keten zowel geïnteresseerd in het korte-termijn gedrag als in het lange-termijn gedrag. Vragen die je wilt

Nadere informatie

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Technische Universiteit Delft Mekelweg 4 Faculteit Elektrotechniek, Wiskunde en Informatica 2628 CD Delft Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Formulebladen, rekenmachines,

Nadere informatie

Het Vergelijken van Toevalsveranderlijken vanuit een Speltheoretisch Perspectief. Bart De Schuymer

Het Vergelijken van Toevalsveranderlijken vanuit een Speltheoretisch Perspectief. Bart De Schuymer Het Vergelijken van Toevalsveranderlijken vanuit een Speltheoretisch Perspectief Bart De Schuymer Overzicht 1 Cykeltransitiviteit Probabilistische relatie Transitiviteit Cykeltransitiviteit 2 Vergelijken

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Lineaire Algebra voor BMT en TIW (DM) op maandag juni Dit tentamen bestaat uit 6 open vragen, en 4 kort-antwoord vragen. De

Nadere informatie

Ruimtewiskunde. college. Stelsels lineaire vergelijkingen. Vandaag UNIVERSITEIT TWENTE. Stelsels lineaire vergelijkingen.

Ruimtewiskunde. college. Stelsels lineaire vergelijkingen. Vandaag UNIVERSITEIT TWENTE. Stelsels lineaire vergelijkingen. college 4 collegejaar college build slides Vandaag : : : : 16-17 4 29 maart 217 38 1 2 3.16-17[4] 1 vandaag Vectoren De notatie (x 1, x 2,..., x n ) wordt gebruikt voor het punt P met coördinaten (x 1,

Nadere informatie

Tentamen Voortgezette biostatistiek / Biomedische wiskunde

Tentamen Voortgezette biostatistiek / Biomedische wiskunde Tentamen Voortgezette biostatistiek / Biomedische wiskunde 27 maart 2015; 15:15-17:15 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau.

Nadere informatie

S n = tijdstip van de n-de gebeurtenis, T n = S n S n 1 = tijd tussen n-de en (n 1)-de gebeurtenis.

S n = tijdstip van de n-de gebeurtenis, T n = S n S n 1 = tijd tussen n-de en (n 1)-de gebeurtenis. HET POISSON PROCES In veel praktische toepassingen kan het aaankomstproces van personen, orders,..., gemodelleerd worden door een zogenaamd Poisson proces. Definitie van een Poisson proces: Een Poisson

Nadere informatie

werkcollege 6 - D&P9: Estimation Using a Single Sample

werkcollege 6 - D&P9: Estimation Using a Single Sample cursus 9 mei 2012 werkcollege 6 - D&P9: Estimation Using a Single Sample van frequentie naar dichtheid we bepalen frequenties van meetwaarden plot in histogram delen door totaal aantal meetwaarden > fracties

Nadere informatie

Hertentamen Inleiding Kansrekening 5 juli 2017, 14:00 17:00 Docent: Prof. dr. F. den Hollander

Hertentamen Inleiding Kansrekening 5 juli 2017, 14:00 17:00 Docent: Prof. dr. F. den Hollander Hertentamen Inleiding Kansrekening 5 juli 07, 4:00 7:00 Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan, wel het gebruik van rekenmachine. Er

Nadere informatie

Tentamen in2205 Kennissystemen

Tentamen in2205 Kennissystemen TECHNISCHE UNIVERSITEIT DELFT Faculteit Elektrotechniek, Wiskunde en Informatica Tentamen in2205 Kennissystemen 21 Januari 2010, 14:0017:00 Dit tentamen heeft 5 meerkeuzevragen in totaal goed voor 10 punten

Nadere informatie

3 Wat is een stelsel lineaire vergelijkingen?

3 Wat is een stelsel lineaire vergelijkingen? In deze les bekijken we de situatie waarin er mogelijk meerdere vergelijkingen zijn ( stelsels ) en meerdere variabelen, maar waarin elke vergelijking er relatief eenvoudig uitziet, namelijk lineair is.

Nadere informatie

FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie

FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie Lineaire Algebra, tentamen Uitwerkingen vrijdag 4 januari 0, 9 uur Gebruik van een formuleblad of rekenmachine is niet toegestaan. De

Nadere informatie

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander Universiteit Leiden Niels Bohrweg Tentamen Inleiding Kansrekening 25 juni 2009, 0.00 3.00 uur Docent: F. den Hollander Mathematisch Instituut 2333 CA Leiden Bij dit tentamen is het gebruik van een (grafische)

Nadere informatie

Vorig college. IN2505-II Berekenbaarheidstheorie. Turingmachines. Turingmachine en Taal. College 2

Vorig college. IN2505-II Berekenbaarheidstheorie. Turingmachines. Turingmachine en Taal. College 2 Vorig college College 2 Algoritmiekgroep Faculteit EWI TU Delft Welke problemen zijn (niet) algoritmisch oplosbaar? Wat is een probleem? Wat is een algoritme? 13 april 2009 1 2 Turingmachines Turingmachine

Nadere informatie

Toepassingen op differentievergelijkingen

Toepassingen op differentievergelijkingen Toepassingen op differentievergelijkingen We beschouwen lineaire differentievergelijkingen of lineaire recurrente betrekkingen van de vorm a 0 y k+n + a y k+n + + a n y k+ + a n y k = z k, k = 0,,, Hierbij

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering

Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering Lerende Machines Verbeter in taak T, Voorbeeld: je ziet de karakteristieken (Features) van een aantal dieren

Nadere informatie

LIMIETGEDRAG VAN CONTINUE-TIJD MARKOV KETENS

LIMIETGEDRAG VAN CONTINUE-TIJD MARKOV KETENS LIMIETGEDRAG VAN CONTINUE-TIJD MARKOV KETENS Hoofdstelling over limietgedrag van continue-tijd Markov ketens. Stelling: Een irreducibele, continue-tijd Markov keten met toestandsruimte S = {1, 2,..., N}

Nadere informatie

a) Bepaal punten a l en b m zó dat de lijn door a en b parallel is met n.

a) Bepaal punten a l en b m zó dat de lijn door a en b parallel is met n. . Oefen opgaven Opgave... Gegeven zijn de lijnen l : 2 + λ m : 2 2 + λ 3 n : 3 6 4 + λ 3 6 4 a) Bepaal punten a l en b m zó dat de lijn door a en b parallel is met n. b) Bepaal de afstand tussen die lijn

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

TW2040: Complexe Functietheorie

TW2040: Complexe Functietheorie TW2040: Complexe Functietheorie week 4.9, maandag K. P. Hart Faculteit EWI TU Delft Delft, 13 juni, 2016 K. P. Hart TW2040: Complexe Functietheorie 1 / 41 Outline III.6 The Residue Theorem 1 III.6 The

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Lineaire Algebra voor BMT en TIW (DM) op dinsdag 9 april 8, 9.. uur. Dit tentamen bestaat uit 6 open vragen, en 4 kort-antwoord

Nadere informatie

Oude tentamenopgaven

Oude tentamenopgaven Oude tentamenopgaven (met enkele uitwerkingen Vraag De omvang (n van een celpopulatie over de tijd (t, 2, 3,... laat zich beschrijven middels een eerste orde Markov proces. Voor elke tijdstap, is het mogelijk

Nadere informatie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie Deze week: Schatten Statistiek voor Informatica Hoofdstuk 6: Schatten Cursusjaar 2009 Peter de Waal Departement Informatica Statistische inferentie A Priori en posteriori verdelingen Geconjugeerde a priori

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 2 Donderdag 15 September 1 / 42 1 Kansrekening Vandaag: Vragen Eigenschappen van kansen Oneindige discrete uitkomstenruimtes Continue uitkomstenruimtes Continue stochasten

Nadere informatie

Modeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag 11 Januari 2013

Modeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag 11 Januari 2013 Modeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag Januari 20 Opgave. Python Gegeven is de volgende (slechte) Python code:. def t(x): 2. def p(y):. return x*y

Nadere informatie

TW2040: Complexe Functietheorie

TW2040: Complexe Functietheorie TW2040: Complexe Functietheorie week 4.6, maandag K. P. Hart Faculteit EWI TU Delft Delft, 30 mei, 2016 K. P. Hart TW2040: Complexe Functietheorie 1 / 33 Outline 1 2 Algemeenheden Gedrag op de rand Machtreeksen

Nadere informatie

Opgaven bij Numerieke Wiskunde I

Opgaven bij Numerieke Wiskunde I Opgaven bij Numerieke Wiskunde I 7 november 8 1. (a) Gegeven verschillende interpolatiepunten x, x 1, x [a, b], en getallen y, y 1, y, z 1, toon aan dat er hooguit 1 polynoom p P 3 is met p(x i ) = y i,

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

o Dit tentamen bestaat uit vier opgaven o Beantwoord de opgaven 1 en 2 enerzijds, en de opgaven 3 en 4 anderzijds op aparte vellen papier

o Dit tentamen bestaat uit vier opgaven o Beantwoord de opgaven 1 en 2 enerzijds, en de opgaven 3 en 4 anderzijds op aparte vellen papier Toets Stochastic Models (theorie) Maandag 22 rnei 2OL7 van 8.45-1-1-.45 uur Onderdeel van de modules: o Modelling and analysis of stochastic processes for MATH (20L400434) o Modelling and analysis of stochastic

Nadere informatie

b) Uit Bayes volgt, gebruik makend van onderdeel a) P (T V )P (V ) P (T ) = (0.09)(0.07)

b) Uit Bayes volgt, gebruik makend van onderdeel a) P (T V )P (V ) P (T ) = (0.09)(0.07) Uitwerkingen tentamen 6 juli 22. We stellen T de gebeurtenis test geeft positief resultaat, F de gebeurtenis, chauffeur heeft gefraudeerd, V de gebeurtenis, chauffeur heeft vergissing gemaakt C de gebeurtenis,

Nadere informatie

Het oplossen van stelsels lineaire vergelijkingen Wiskunde 2, 2DM60 College 2b

Het oplossen van stelsels lineaire vergelijkingen Wiskunde 2, 2DM60 College 2b Het oplossen van stelsels lineaire vergelijkingen Wiskunde 2, 2DM60 College 2b Ruud Pellikaan g.r.pellikaan@tue.nl /k 2014-2015 Lineaire vergelijking 2/64 DEFINITIE: Een lineaire vergelijking in de variabelen

Nadere informatie

Tentamen Inleiding Speltheorie 29-10-2003

Tentamen Inleiding Speltheorie 29-10-2003 entamen Inleiding Speltheorie 9-0-003 Dit tentamen telt 5 opgaven die in 3 uur moeten worden opgelost. Het maximaal te behalen punten is 0, uitgesplitst naar de verschillende opgaven. Voor het tentamencijfer

Nadere informatie

0 2λ µ 0

0 2λ µ 0 Example 6.7 Machine werkplaats met vier onafhankelijke machines 1, 2, 3 en 4. Bedrijfsduur machine i (i = 1, 2, 3, 4) is B i Exp(µ), reparatieduur wegens defect machine i is R i Exp(λ). Er zijn twee reparateurs

Nadere informatie

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i).

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). MARKOV PROCESSEN Continue-tijd Markov ketens (CTMCs) In de voorafgaande colleges hebben we uitgebreid gekeken naar discrete-tijd Markov ketens (DTMCs). Definitie van discrete-tijd Markov keten: Een stochastisch

Nadere informatie

Statistiek voor A.I. College 6. Donderdag 27 September

Statistiek voor A.I. College 6. Donderdag 27 September Statistiek voor A.I. College 6 Donderdag 27 September 1 / 1 2 Deductieve statistiek Kansrekening 2 / 1 Vraag: Afghanistan In het leger wordt uit een groep van 6 vrouwelijke en 14 mannelijke soldaten een

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2), Vrijdag 24 januari 24, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven

Nadere informatie

Hoofdstuk 4 Kansen. 4.1 Randomheid

Hoofdstuk 4 Kansen. 4.1 Randomheid Hoofdstuk 4 Kansen 4.1 Randomheid Herhalingen en kansen Als je een munt opgooit (of zelfs als je een SRS trekt) kunnen de resultaten van tevoren voorspeld worden, omdat de uitkomsten zullen variëren wanneer

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk

Nadere informatie

Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Maart 28

Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Maart 28 Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 07, Maart 8 c Dept. of Mathematics, VU University Amsterdam NB. Geef een duidelijke toelichting

Nadere informatie

TW2040: Complexe Functietheorie

TW2040: Complexe Functietheorie TW2040: Complexe Functietheorie week 4.10, donderdag K. P. Hart Faculteit EWI TU Delft Delft, 23 juni, 2016 K. P. Hart TW2040: Complexe Functietheorie 1 / 46 Outline 1 2 3 K. P. Hart TW2040: Complexe Functietheorie

Nadere informatie

Tentamen Voortgezette Kansrekening (WB006C)

Tentamen Voortgezette Kansrekening (WB006C) WB6C: Voortgezette Kansrekening Donderdag 26 januari 212 Tentamen Voortgezette Kansrekening (WB6C) Het is een open boek tentamen. Gebruik van een rekenmachine of andere hulpmiddelen is niet toegestaan.

Nadere informatie

Tentamen Inleiding Kansrekening 16 juni 2017, 14:00 17:00 Docent: Prof. dr. F. den Hollander

Tentamen Inleiding Kansrekening 16 juni 2017, 14:00 17:00 Docent: Prof. dr. F. den Hollander Tentamen Inleiding Kansrekening 6 juni 7, : 7: Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan. Er zijn 8 vragen, elk met twee of drie onderdelen.

Nadere informatie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord

Nadere informatie

IN2505 II Berekenbaarheidstheorie Tentamen Maandag 2 juli 2007, uur

IN2505 II Berekenbaarheidstheorie Tentamen Maandag 2 juli 2007, uur TECHNISCHE UNIVERSITEIT DELFT Faculteit Elektrotechniek, Wiskunde en Informatica Mekelweg 4 2628 CD Delft IN2505 II Berekenbaarheidstheorie Tentamen Maandag 2 juli 2007, 14.00-17.00 uur BELANGRIJK Beschikbare

Nadere informatie

34 HOOFDSTUK 1. EERSTE ORDE DIFFERENTIAALVERGELIJKINGEN

34 HOOFDSTUK 1. EERSTE ORDE DIFFERENTIAALVERGELIJKINGEN 34 HOOFDSTUK 1. EERSTE ORDE DIFFERENTIAALVERGELIJKINGEN 1.11 Vraagstukken Vraagstuk 1.11.1 Beschouw het beginwaardeprobleem = 2x (y 1), y(0) = y 0. Los dit beginwaardeprobleem op voor y 0 R en maak een

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

Algoritmes in ons dagelijks leven. Leve de Wiskunde! 7 April 2017 Jacobien Carstens

Algoritmes in ons dagelijks leven. Leve de Wiskunde! 7 April 2017 Jacobien Carstens Algoritmes in ons dagelijks leven Leve de Wiskunde! 7 April 2017 Jacobien Carstens Wat is een algoritme? Een algoritme is een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd

Nadere informatie