Inleiding Adaptieve Systemen Hoofdstuk X: Reinforcement leren
|
|
- Willem van Beek
- 5 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Inleiding Adaptieve Systemen Hoofdstuk X: Reinforcement leren Cursusjaar Gerard Vreeswijk β-faculteit, Departement Informatica en Informatiekunde, Leerstoelgroep Intelligente Systemen 21 juni 2013 Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
2 Inhoud Markov beslis-problemen. Dynamisch programmeren. Reinforcement leren: principes. Monte-Carlo sampling. Temporal difference (TD) leren. Q-leren. Model-gebaseerd leren. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
3 Deel I: Markov beslis-problemen Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
4 De blikjes-robot Uit: Barto and Sutton, Reinforcement Learning: An Introduction, MIT Press, Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
5 Italian DustBot Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
6 Italian DustBot Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
7 Toestandengraaf voor de blikjes-robot Uit: Barto and Sutton, Reinforcement Learning: An Introduction, MIT Press, Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
8 Markov beslisproblemen Een Markov beslisprobleem (MDP) bestaat uit: Een eindige verzameling toestanden S = {s 1,..., s n }. Een eindige verzameling acties per toestand A s = {a s 1,..., as n}. (Maar vaak bezitten alle toestanden dezelfde acties.) P(i, a, j): kans om in toestand j terecht te komen als actie a wordt uitgevoerd in toestand i. Er geldt j P(i, a, j) = 1. R(i, a, j) onmiddellijke beloning voor het terechtkomen in j, als actie a wordt geselecteerd in toestand i. γ: discount parameter voor toekomstige beloningen: 0 γ 1. Toestanden kunnen terminaal zijn: ketens van stappen die hier terecht komen worden niet verder voortgezet. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
9 Markov eigenschap Een systeem van toestanden, acties en toestandsovergangen door acties bezit de Markov eigenschap als, voor het voorspellen naar welke volgende toestand een stap gemaakt zal worden, alleen wetenschap nodig is van de huidige toestand en de huidige actie. Markov eigenschap P(s t+1 s t, a t ) = P(s t+1 s t, a t,..., s 1, a 1 ) Dus, voor het voorspellen van de toekomst doet het er niet toe hoe je in de huidige toestand gekomen bent. Vergelijk processen in de natuur: waar zou het verleden gerepresenteerd moeten zijn? Puur filosofisch punt: een systeem is altijd wel Markov te maken: definieer de huidige toestand als het nu de geschiedenis. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
10 Backup-diagrammen voor V Π en Q Π Er zijn twee manieren om naar transities (overgangen) te kijken: Toestand Actie Toestand. Dit wordt het V Π -diagram genoemd. Actie Toestand Actie. Dit wordt het Q Π -diagram genoemd. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
11 Passief vs. actief leren Passief leren. Leer uitkomst van proces zonder besluiten te (kunnen) nemen over de te nemen acties predictie. Stel bv. dat in bovenstaand MDP alle acties met een kans van een 1/2 worden gekozen. Wat is de verwachte som van de beloningen? Actief leren. leer een policy (actieselectie-patroon) zodat de uitkomst op termijn zo goed mogelijk is controle. Wat is de optimale actie in elke toestand? Wat is dan de verwachte som van de beloningen? Met discount factor γ = 0.9? Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni 2013 / 45
12 Discount factor De discount factor, 0 γ 1, kan op twee manieren begrepen worden: Existentie. De discount factor is een kans op het voortzetten van een run. De kans dat je er na k ronden nog bent is gelijk aan γ k 1. Inflatie. Rewards ontwaarden naarmate je verder in de toekomst kijkt: Een reward na k ronden is op dit moment nog maar waard. γ k 1 Wat als γ = 0? Wat als γ = 1? Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
13 De argmax functie Definitie arg max x 1,...,x n = { x 1,..., x n y 1,..., y n : f (y 1,..., y n ) f (x 1,..., x n ) } Opmerkingen: Vaak n = 1 en arg max x = {x y : f (y) f (x)}. Argmax is meestal een verzameling. Als argmax een singleton set is, dan wordt argmax geïdentificeerd met het enige element uit die set. Voorbeelden: arg max x { x 1 x 2 } = {0} = 0 arg max x { x log(x)} = arg max x { x sin(x)} = 1 2π (mod 2π) Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
14 Policy Een policy Π selecteert een actie als een functie van de huidige toestand a t = Π(s t ) Voorbeeld policy: G Doel: leer de optimale policy Π. Dit is de policy die de verwachte beloningen maximaliseert, nu en met discount γ in de toekomst: ( ) Π = arg max E γ t R(s t, Π(s t ), s t+1 ) s 0 = s Π t=0 Er zijn discrete A S policies. 1 Hoe weten we welke policy het beste is? 1 Aangenomen dat in elke toestand hetzelfde arsenaal aan acties beschikbaar is. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
15 Waarde-functie Een waardefunctie voor policy Π schat de verwachte toekomstige beloningen, uitgaande van een toestand: ( ) V (s t ) = E γ t R(s t, Π(s t ), s t+1 ) s 0 = s t=0 Een kwaliteitsfunctie schat de verwachte toekomstige beloningen, uitgaande van een toestand en een actie op die toestand: Q(s t, a t ) = s t+1 P(s t, a t, s t+1 ) (R(s t, a t, s t+1 ) + γv (s t+1 )) Voorbeeld van een waardefunctie (in een deterministische wereld): Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni /
16 De V -functie en de Q-functie Model Een model geeft aan, of kan berekenen, welke toestanden volgen uit opgegeven toestand-actie paren. We maken gebruik van twee profijt-schatters: 1 De V -functie voor het evalueren van toestanden. 2 De Q-functie voor het evalueren van acties op toestanden. Als de waardefunctie V bekend is, dan kunnen we in een toestand alle acties uitproberen, met behulp van het model de nieuwe toestand bepalen, en vervolgens de actie selecteren die leidt tot de meest waardevolle volgende toestand. Als de Q-functie bekend is dan kunnen we in elke toestand direct de actie selecteren met de hoogste Q-waarde. Een model is dan niet meer nodig: je hopt van actie naar actie. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
17 Backup-diagrammen voor de optimale V en Q Een agent kan alleen maar maximaliseren over één deel van het backup-diagram, nl. dat deel waar het zelf zijn actie kan bepalen. Vervolgens is het aan het toeval overgeleverd bt. welke immediate reward het ontvangt en in welke nieuwe toestand het beland. Deze diagrammen leiden naar de Bellman vergelijking voor Q. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
18 Deel II: Dynamisch programmeren Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
19 Dynamisch programmeren De optimale Q-functie voldoet aan de zg. Bellman vergelijking: Bellman vergelijking Q (i, a) = j P(i, a, j) (R(i, a, j) + γv (j)) I.p.v. s i, s j, etc. schrijven we i, j, etc. Hier is V (j) = max a Q (j, a). De optimale policy verkrijgen we dan door: Π (i) = arg max Q (i, a). a Opmerkingen: V is uniek bepaald. Π is niet altijd uniek bepaald. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
20 Evalueren van een policy Voor elke policy Π kunnen we toestandswaarden V (s), s S, berekenen. Dit correspondeert met passief leren waarbij de vastgelegde policy de overgangskansen bepaalt. Omdat we nu een vaste policy Π hebben, kunnen we de acties uit de overgangs- en beloningsfuncties elimineren: P(i, j) = P(i, Π(i), j) en: R(i, j) = R(i, Π(i), j). Nu is V Π (i) voor elke toestand i vastgelegd: Voor niet-terminale toestanden i V Π (i) = j P(i, j) ( ) R(i, j) + γv Π (j) En voor terminale toestanden i V Π (i) = 0. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
21 Evalueren van een policy Stelsel van n lineaire vergelijkingen met n onbekenden V (i). Twee methoden: Gauss-eliminatie. Veeg matrix links-onder en rechts-boven schoon. V (1) = j... =... V (n) = j P(1, j) (R(1, j) + γv (j)) P(n, j) (R(n, j) + γv (j)) Policy evaluation. Start met V (i) = 0, voor alle i, en herhaal V (i) := j P(i, j) (R(i, j) + γv (j)) een groot aantal keer voor alle niet-terminale toestanden i. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
22 Opgave Gegeven de toestanden A t/m D waarvan B terminaal is. Stel dat alle overgangskansen, P(i, a, j) uniform verdeeld zijn, en dat discount γ = 0.9. Bereken de V -waarden voor alle toestanden. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
23 Uitwerking: met lineaire algebra V -waarden berekenen V (A) = j P(A, j) (R(A, j) + γv (j)) V (B) = 0 = R(A, B) + γv (B) = V (B) V (C) = j P(C, j) (R(C, j) + γv (j)) = 0.5(R(C, A) + γv (A)) + 0.5(R(C, D) + γv (D)) = V (A) V (D) V (D) = j P(D, j) (R(D, j) + γv (j)) = R(D, B) + γv (B) = 0.5(R(D, B) + γv (B)) + 0.5(R(D, C) + γv (C)) = V (B) V (C) Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
24 Uitwerking analytisch oplossen van V -waarden Notatie vereenvoudigen: A = B B = 0 C = 0.45A D D = B C Dat is: A B C D = Oplossen (met bv. Gauss-eliminatie) geeft: A = 1, B = 0, C = , D = Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
25 Value Iteration We kunnen de optimale policy berekenen door gebruik te maken van dynamisch programmeren. Dit heet value iteration. 1 Initialiseer Q-waarden en V -waarden (b.v. op 0). 2 Maak een update voor de Q-waarden: Q(i, a) := j P(i, a, j) (R(i, a, j) + γv (j)) Voor terminale toestanden : P(i, a, i) = 1 en R(i, a, i) = 0 voor elke actie. 3 Bereken dan de nieuwe waarde functie: V (i) := max a Q(i, a). 4 Pas de policy aan zodat in elke toestand de actie met maximale huidige waarde wordt geselecteerd: Π(i) := argmax a Q(i, a). 5 Ga naar (2) totdat V niet meer verandert Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
26 Value iteration: voorbeeld Beschouw een deterministisch doolhof. (De uitkomst van elke actie is bekend.) De kosten van alle acties zijn 1. Rechtsboven is de doeltoestand D met waarde nul. Als we value iteration toepassen, dan krijgen we achtereenvolgens: 0 0 D De complexiteit van dynamisch programmeren voor een deterministisch doolhof is O(NAL), waarbij N het aantal toestanden, A het aantal acties per toestand, en L het langste optimale pad is. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
27 Deel III: Reinforcement leren Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
28 Reinforcement leren Geen a-priori gegeven model (overgangs-kansen, beloningen) is nodig. Reinforcement leren leert een subjectieve kijk op de wereld door te interacteren met die wereld. G Epoch = Sequentie Ervaringen (stapjes) Subjectieve kijk van de agent op de wereld Een policy wordt uitgevoerd. Dit levert ervaringen op, waarvan geleerd kan worden om een nieuwe policy te berekenen. Exploratie van de toestandsruimte is nodig. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
29 Principes van reinforcement leren Om de Q-functie te leren, herhalen RL algoritmen voortdurend het volgende: 1 Selecteer actie a t gegeven de toestand s t 2 Vergaar de beloning r t en observeer de opvolgende toestand s t+1 3 Werk de Q-functie bij, door gebruik te maken van de laatste ervaring: (s t, a t, r t, s t+1 ) Epoch = keten opeenvolgende toestanden eindigend in terminale toestand (of na vast aantal stapjes). Uit de epochs willen we de waarde functie en de optimale strategie leren. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
30 Het exploratie vs. exploitatie probleem Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
31 De N-armige bandiet Barto & Sutton: the N-armed bandit. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
32 Het exploratie vs. exploitatie probleem Stel je speelt een twee-armige bandiet: er zijn twee acties, L en R, beide kosten een Euro. Als de kansen en de bedragen nauwkeurig bekend zijn is het simpel om optimaal te spelen. Stel: De linkerarm heeft 10% kans op uitbetalen van 6 euro. De rechterarm heeft 1% kans op uitbetalen van 1 euro. De verwachte opbrengsten zijn dan E(links) = (6 1) (0 1) (1 0.1) = 0.4 E(rechts) = (1 1) (0 1) (1 0.01) = 0.0 Helaas weet je de kansen en opbrengsten niet. Door herhaaldelijk beide armen uit te proberen, kun je de kans op winst en het winstbedrag leren (door gemiddelden te bepalen). Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
33 Vier RL methoden Er zijn (tenminste) vier methoden om te leren: Vier methoden voor reinforcement leren Monte Carlo sampling Temporal difference leren Q-leren Model-gebaseerd dynamisch programmeren De eerste drie methoden gebruiken geen overgangsmodel en worden daarom ook vaak direct RL of model-free RL genoemd. De vierde methode schat eerst een transitiemodel en berekent de waardefunctie aan de hand van dynamisch programmeren. Daarom wordt deze methode ook wel indirect RL of model-based RL genoemd. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
34 Monte-Carlo Sampling Reward-to-go De verdisconteerde som van alle beloningen in die epoch vanaf het eerste moment dat die toestand bezocht is tot de epoch afgelopen is. Bepaal voor elke toestand s in een epoch k de reward-to-go a k. Dat kan door de beloning terugwaarts vanuit het einde te updaten: a k = R 0 + γa k Schatting voor de utiliteit van een toestand: neem het gemiddelde van alle rewards-to-go van alle keren dat die toestand in een epoch voorkomt: k i=1 V (s) = a i(s) s bezocht in epoch i aantal keren dat s bezocht werd in een epoch Convergeert langzaam (de update-variantie is groot, er zijn immers veel mogelijke epochs). Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
35 Opgave Stel discount γ = 0.5. Stel vervolgens dat de agent de volgende epochs (sequenties van toestanden) meemaakt: {A, B, D} {A, C, G} {A, B, E} {A, B, D} 1 Welke updates van de V -functie zal de agent maken met Monte Carlo sampling? 2 Welke met temporal-difference leren? Neem α = 1/5. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
36 Monte Carlo sampling: uitwerking Stel discount γ = 0.5. Welke updates van de V -functie zal de agent maken met Monte Carlo sampling? A B C Run 1: ABD gemiddeld Run 2: ACG gemiddeld 5.0/2 5 5 Run 3: ABE gemiddeld 7.5/3 0 5 Run 4: ABD gemiddeld 15/4 10/3 5 Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
37 Temporal difference leren In plaats van direct de hele epoch te gebruiken voor een update, kunnen we ook alleen de waarde in de opvolgende toestand gebruiken. Doe voor elke stap van i naar j in een epoch: Als j terminaal: Als j niet terminaal: V (i) := V (i) + α (R(i, j) V (i)) V (i) := V (i) + α (R(i, j) + γv (j) V (i)) Idee: geef elke keer V (i) een duwtje in de gewenste richting. Hier is α de learning rate. Bij vaste α komt dit snel in de buurt van de echte utiliteit, maar convergeert daarna niet verder. Als α steeds kleiner wordt naarmate een toestand i vaker bezocht is, convergeert het uiteraard wel. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
38 Voorbeeld We willen V (i) benaderen. Opvolgers van i zijn j en k met P(i, j) = 1/3 en P(i, k) = 2/3. Stel met steekproef komt de overgang i j 10 keer voor, en de overgang i k komt 20 keer voor. Dan: 10 : V (i) := V (i) + α(r(i, j) + γv (j) V (i)) 20 : V (i) := V (i) + α(r(i, k) + γv (k) V (i)) : V (i) := V (i) + α(10r(i, j) + 10γV (j) + 20R(i, k) + 20γV (k) 30V (i)) 30αV (i) = α(10r(i, j) + 10γV (j) + 20R(i, k) + 20γV (k)) Precies een stap in de gewenste richting: V (i) := 1 3 (R(i, j) + γv (j)) + 2 (R(i, k) + γv (k)). 3 Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
39 Temporal difference learning: uitwerking Stel discount γ = 0.5. Welke updates van de V -functie zal de agent maken met temporal difference learning? A B C D-G V ABD 5 + γb 5 + γd 5 5 V ACG 5 + γc 5 + γg 5 5 V ABE 5 + γb 5 + γe 5 + γ V ABD 5 + γb 5 + γd V Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
40 Q-leren Q-learning (Watkins, 1989) verandert de Q-waarde voor één actie op basis van de onmiddellijke reward en de optimale Q-waarde in de volgende toestand: Q-leren update-formule Q(s t, a t ) := Q(s t, a t ) + α (r t + γv (s t+1 ) Q(s t, a t )) Waarbij V (s) = max a Q(s, a). Als Q-leren gebruikt wordt, convergeert de Q-functie naar de optimale Q-functie als alle toestand/actie paren oneindig vaak bezocht worden (en de leersnelheid afneemt). Voordeel van Q-leren: simpel te implementeren. Nadeel van Q-leren: kan lang duren voordat beloning aan eind van keten terug gepropageerd is naar een toestand. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
41 Voorbeeld Q-leren Toestanden A, B, C, D, en eindtt. E. Acties L en R. R=-1 R=-1 R=-1 P(L) = 0.9 P(L) = 0.9 P(L) = 0.9 P(R) = 0.1 P(R) = 0.1 P(R) = 0.1 A B C D E R=-1 P(L) = 1.0 P(R) = 1.0 R=-1 P(L) = 0.1 P(R) = 0.9 R=-1 P(L) = 0.1 P(R) = 0.9 R=-1 P(L) = 0.1 P(R) = 0.9 Stel de volgende overgangen worden gemaakt met α = 0.5 en γ = 1.0: (A, L, B); (B, R, C); (C, R, D); (D, R, E); (C, L, D); (D, L, C); (C, R, D); (D, R, E); (B, L, A); (A, R, B); (B, L, C); (C, R, D); (D, L, E). Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
42 Model-gebaseerd RL Schat P(i, a, j): ˆP(i, a, j) := aantal i[a] j overgangen aantal i[a] momenten Schat R(i, a, j): ˆR(i, a, j) := Σ beloningen op i[a] j overgangen aantal i[a] j overgangen Herhaal de update aantal keer voor alle (niet-terminale) toestanden: Q(i, a) := ( ) ˆP(i, a, j) ˆR(i, a, j) + γv (j) j Vaak is het niet nodig om alle Q-waarden te updaten slechts een subset van de Q-waarden zal significant veranderen door de laatste ervaring. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
43 Direct vs. indirect RL S G Een doolhof. Reward goal = +1; Reward blocked = 2; Reward penalty = 10; Reward anders = 1. 10% noise in het uitvoeren van een actie. Max-random exploration (30% 0% exploratie-stappen) Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
44 Indirect vs. direct RL Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
45 Direct vs. indirect RL Voordelen direct RL: Minder geheugenruimte nodig (immers, de transitiefunctie kan groot zijn). Werkt ook met continue representaties (bv. neurale netwerken). Kan beter werken als Markov-eigenschap niet geldt. Nadelen direct RL: Veel informatie wordt weggegooid. Agent heeft geen mogelijkheid tot introspectie: bv. welke actie heb ik nog weinig uitgeprobeerd (voor exploratie). Leren kan veel langer duren. Geleerde waardefunctie meestal veel minder nauwkeurig. Gerard Vreeswijk (ICS Dept.) Hoofdstuk X: Reinforcement leren 21 juni / 45
Open vragen. Naam:...
Tentamen IAS. Vrijdag 29 juni 2012 om 13.30-16.30 uur, zaal: RUPPERT-40. 1 Naam:............................................................................................................. Collegekaart-nummer:...........................
Nadere informatieTentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 12 december 2014 8:30-10:30 Vooraf Mobiele telefoons en dergelijke dienen uitgeschakeld te zijn. Het eerste deel van het tentamen bestaat uit 8 multiple-choice
Nadere informatieReinforcement Leren. 1 Introductie. Samenvatting. Intelligent Systems Group Institute of Computing and Computing Sciences Universiteit Utrecht
Reinforcement Leren Marco A. Wiering (marco@cs.uu.nl) Intelligent Systems Group Institute of Computing and Computing Sciences Universiteit Utrecht Samenvatting Dit korte overzichtsartikel beschrijft reinforcement
Nadere informatieOpgave 2 ( = 12 ptn.)
Deel II Opgave 1 (4 + 2 + 6 = 12 ptn.) a) Beschouw bovenstaande game tree waarin cirkels je eigen zet representeren en vierkanten die van je tegenstander. Welke waarde van de evaluatiefunctie komt uiteindelijk
Nadere informatiesucces. Door steeds opnieuw toernooien te blijven spelen evolueert de populatie. We kunnen dit doen onder ideale omstandigheden,
Inleiding Adaptieve Systemen deel 2, 25 juni 2014, 13.30-16.30, v. 1 Er is op vrijdag 27 juni nog een practicumsessie! De aanvullende toets is op 4 juli, 13-15 uur. Competitie en cooperatie 1. Bekijk de
Nadere informatie1 als x y = 0, A B C D E F. = (t j o j )o j (1 o j )x ji.
Tentamen IAS. Vrijdag 1 Juli 2011 om 13.30-16.30 uur, zaal: EDUC-α 1 Dit tentamen duurt 3 uur. Er zijn 20 vragen, waarvan 4 open vragen en 16 meerkeuze. Het is verboden literatuur, aantekeningen, een programmeerbare
Nadere informatie1 als x y = 0, = (t j o j )o j (1 o j )x ji.
Tentamen IAS. Vrijdag 1 Juli 2011 om 13.30-16.30 uur, zaal: EDUC-α 1 Dit tentamen duurt 3 uur. Er zijn 20 vragen, waarvan 4 open vragen en 16 meerkeuze. Het is verboden literatuur, aantekeningen, een programmeerbare
Nadere informatieX1 X2 T c i = (d y)x i. c i,nieuw = c i,oud + (d y) x i. w nieuw. = w oud
Tent. IAS ma 22-6-2009, tijd: 13.15-16.15 uur, zaal: EDUC-α, deeltent. 2 van 2 Versie C 1 Welkom. Dit tentamen duurt 3 uur en telt 20 vragen: 4 open vragen en 16 meerkeuzevragen. Wel: rekenmachine. Niet:
Nadere informatieOpen vragen. Veel succes!
Tent. IAS wo 30-Jul-2010, tijd: 13:30-16:30 uur, zaal: EDUC-β 1 Dit tentamen duurt 3 uur. Er zijn 20 vragen, waarvan 4 open vragen en 16 meerkeuze. Het is verboden literatuur, aantekeningen, een programmeerbare
Nadere informatieStochastische Modellen in Operations Management (153088)
Stochastische Modellen in Operations Management (153088) S1 S2 X ms X ms R1 S0 240 ms Ack L1 R2 10 ms Internet R3 L2 D0 10 ms D1 D2 Richard Boucherie Stochastische Operations Research TW, Ravelijn H 219
Nadere informatieOpen vragen. Naam:...
Tentamen IAS. Vrijdag 28 juni 2013 om 13.30-16.30 uur, zaal: EDUC-β. Versie D 1 Naam:............................................................................................................. Collegekaart-nummer:...........................
Nadere informatieStochastische Modellen in Operations Management (153088)
S1 S2 X ms X ms Stochastische Modellen in Operations Management (153088) R1 S0 240 ms Ack Internet R2 L1 R3 L2 10 ms 1 10 ms D1 Richard Boucherie Stochastische Operations Research TW, Ravelijn H 219 http://wwwhome.math.utwente.nl/~boucherierj/onderwijs/153088/153088.html
Nadere informatieVU University Amsterdam 2018, Maart 27
Department of Mathematics Exam: Voortgezette biostatistiek VU University Amsterdam 2018, Maart 27 c Dept. of Mathematics, VU University Amsterdam NB. Geef een duidelijke toelichting bij de antwoorden.
Nadere informatieINLEIDING. Definitie Stochastisch Proces:
Definitie Stochastisch Proces: INLEIDING Verzameling van stochastische variabelen die het gedrag in de tijd beschrijven van een systeem dat onderhevig is aan toeval. Tijdparameter: discreet: {X n, n 0};
Nadere informatieTentamen Kunstmatige Intelligentie (INFOB2KI)
Tentamen Kunstmatige Intelligentie (INFOB2KI) 30 januari 2014 10:30-12:30 Vooraf Mobiele telefoons dienen uitgeschakeld te zijn. Het tentamen bestaat uit 7 opgaven; in totaal kunnen er 100 punten behaald
Nadere informatieP (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten:
Definitie van Markov keten: MARKOV KETENS Een stochastisch proces {X n, n 0} met toestandsruimte S heet een discrete-tijd Markov keten (DTMC) als voor alle i en j in S geldt P (X n+ = j X n = i, X n,...,
Nadere informatieSamenvatting (Dutch)
Samenvatting (Dutch) 162 Hier zal een korte samenvatting gegeven worden van de resultaten van het onderzoek gepresenteerd in dit proefschrift. Affect, Gemoedstoestand en Informatieverwerking Om te overleven
Nadere informatieP (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten:
Definitie van Markov keten: MARKOV KETENS Een stochastisch proces {X n, n 0} met toestandsruimte S heet een discrete-tijd Markov keten (DTMC) als voor alle i en j in S geldt P (X n+1 = j X n = i, X n 1,...,
Nadere informatieToegepaste Wiskunde 2: Het Kalman-filter
Toegepaste Wiskunde 2: Het Kalman-filter 25 februari, 2008 Hans Maassen 1. Inleiding Het Kalman filter schat de toestand van een systeem op basis van een reeks, door ruis verstoorde waarnemingen. Een meer
Nadere informatieStochastische Modellen in Operations Management (153088)
R1 L1 R2 1 S0 Stochastische Modellen in Operations Management (153088) 240 ms 10 ms Ack Internet Richard Boucherie Stochastische Operations Research TW, Ravelijn H 219 http://wwwhome.math.utwente.nl/~boucherierj/onderwijs/153088/153088.html
Nadere informatieHertentamen Voortgezette biostatistiek / Biomedische wiskunde
Hertentamen Voortgezette biostatistiek / Biomedische wiskunde 1 juni 2016; 18:30-20:30 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau.
Nadere informatieHertentamen Biostatistiek 3 / Biomedische wiskunde
Hertentamen Biostatistiek 3 / Biomedische wiskunde 2 juni 2014; 18:30-20:30 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau. Het
Nadere informatieStochastische Modellen in Operations Management (153088)
R1 L1 R2 S0 Stochastische Modellen in Operations Management (153088) 240 ms 10 ms Ack Internet Richard Boucherie Stochastische Operations Research TW, Ravelijn H 219 http://wwwhome.math.utwente.nl/~boucherierj/onderwijs/153088/153088.html
Nadere informatieBayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15
Bayesiaans leren Les 2: Markov Chain Monte Carlo Joris Bierkens Vakantiecursus augustus 209 /5 Samenvatting en vooruitblik Veel statistische problemen kunnen we opvatten in een Bayesiaanse context n π(θ)
Nadere informatieTentamen Biostatistiek 3 / Biomedische wiskunde
Tentamen Biostatistiek 3 / Biomedische wiskunde 25 maart 2014; 12:00-14:00 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau. Het
Nadere informatieTentamen Kunstmatige Intelligentie
Naam: Studentnr: Tentamen Kunstmatige Intelligentie Department of Information and Computing Sciences Opleiding Informatica Universiteit Utrecht Donderdag 2 februari 2012 08.30 10:30, EDUCA-ALFA Vooraf
Nadere informatieBayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15
Bayesiaans leren Les 2: Markov Chain Monte Carlo Joris Bierkens Vakantiecursus augustus 2019 1/15 Samenvatting en vooruitblik Veel statistische problemen kunnen we opvatten in een Bayesiaanse context n
Nadere informatieDeel 2 van Wiskunde 2
Deel 2 van Wiskunde 2 Organisatorische informatie Wat Dag Tijd Zaal Docent College Tue 5+6 Aud 6+15 Jacques Resing Thu 1+2 Aud 1+4 Jacques Resing Werkcollege Tue 7+8 Aud 6+15 Jacques Resing Instructie
Nadere informatieInleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren
Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren Cursusjaar 2014-2015 Gerard Vreeswijk β-faculteit, Departement Informatica en Informatiekunde, Leerstoelgroep Intelligente Systemen 17 juni
Nadere informatiewerkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions
cursus 4 mei 2012 werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions Huiswerk P&D, opgaven Chapter 6: 9, 19, 25, 33 P&D, opgaven Appendix A: 1, 9 doen
Nadere informatieDepartment of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Juni 7
Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 07, Juni 7 c Dept. of Mathematics, VU University Amsterdam NB. Geef een duidelijke toelichting
Nadere informatieOpen vragen. Naam:...
Tentamen IAS. Vrijdag 28 juni 2013 om 13.30-16.30 uur, zaal: EDUC-β. 1 Naam:............................................................................................................. Collegekaart-nummer:...........................
Nadere informatie0.97 0.03 0 0 0.008 0.982 0.01 0 0.02 0 0.975 0.005 0.01 0 0 0.99
COHORTE MODELLEN Markov ketens worden vaak gebruikt bij de bestudering van een groep van personen of objecten. We spreken dan meestal over Cohorte modellen. Een voorbeeld van zo n situatie is het personeelsplanning
Nadere informatieHoofdstuk 18,19.1,21.1/3,17.1/2 Russell/Norvig = [RN] Leren
AI Kunstmatige Intelligentie (AI) Hoofdstuk 18,19.1,21.1/3,17.1/2 Russell/Norvig = [RN] Leren voorjaar 2016 College 10, 26 april 2016 www.liacs.leidenuniv.nl/ kosterswa/ai/ 1 Introductie Er zijn vele soorten
Nadere informatieHet tentamen heeft 25 onderdelen. Met ieder onderdeel kan maximaal 2 punten verdiend worden.
Hertentamen Inleiding Kansrekening WI64. 9 augustus, 9:-: Het tentamen heeft 5 onderdelen. Met ieder onderdeel kan maximaal punten verdiend worden. Het tentamen is open boek. Boeken, nota s en een (eventueel
Nadere informatieTECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen
Nadere informatieTentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander
Tentamen Inleiding Kansrekening 9 juni 6, : 3: Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan. Er zijn 8 vragen, elk met onderdelen. Elk onderdeel
Nadere informatieP = LIMIETGEDRAG VAN MARKOV KETENS Limietverdeling van irreducibele, aperiodieke Markov keten:
LIMIETGEDRAG VAN MARKOV KETENS Limietverdeling van irreducibele, aperiodieke Markov keten: Voorbeeld: Zoek de unieke oplossing van het stelsel π = π P waarvoor bovendien geldt dat i S π i = 1. P = 0 1/4
Nadere informatieMARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN?
MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN? KARMA DAJANI In deze lezing gaan we over een bijzonder model in kansrekening spreken Maar eerst een paar woorden vooraf Wat doen we
Nadere informatieHOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN
HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN. Continue Verdelingen 1 A. De uniforme (of rechthoekige) verdeling Kansdichtheid en cumulatieve frequentiefunctie Voor x < a f(x) = 0 F(x) = 0 Voor a x
Nadere informatieVU University Amsterdam 2018, juli 11.
Department of Mathematics Herexamen: Voortgezette biostatistiek VU University Amsterdam 018, juli 11. c Dept. of Mathematics, VU University Amsterdam NB. Geef een duidelijke toelichting bij de antwoorden.
Nadere informatieLineaire vergelijkingen II: Pivotering
1/25 Lineaire vergelijkingen II: Pivotering VU Numeriek Programmeren 2.5 Charles Bos Vrije Universiteit Amsterdam c.s.bos@vu.nl, 1A40 15 april 2013 2/25 Overzicht Pivotering: Methodes Norm en conditionering
Nadere informatieMARKOV MODEL MET KOSTEN In Markov modellen zijn we vaak geïnteresseerd in kostenberekeningen.
MARKOV MODEL MET KOSTEN In Markov modellen zijn we vaak geïnteresseerd in kostenberekeningen. voorraadmodel: voorraadkosten personeelsplanningmodel: salariskosten machineonderhoudsmodel: reparatiekosten
Nadere informatie3 De stelling van Kleene
18 3 De stelling van Kleene Definitie 3.1 Een formele taal heet regulier als hij wordt herkend door een deterministische eindige automaat. Talen van de vorm L(r) met r een reguliere expressie noemen we
Nadere informatieTentamen Inleiding Kansrekening wi juni 2010, uur
Technische Universiteit Delft Mekelweg Faculteit Electrotechniek, Wiskunde en Informatica 8 CD Delft Tentamen Inleiding Kansrekening wi juni, 9.. uur Bij dit examen is het gebruik van een (evt. grafische
Nadere informatieHoofdstuk 3 Statistiek: het toetsen
Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.
Nadere informatieInleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren
Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren Cursusjaar 2017-2018 Gerard Vreeswijk β-faculteit, Departement Informatica en Informatiekunde, Leerstoelgroep Intelligente Systemen 21 maart
Nadere informatieUitwerking 1 Uitwerkingen eerste deeltentamen Lineaire Algebra (WISB121) 3 november 2009
Departement Wiskunde, Faculteit Bètawetenschappen, UU. In elektronische vorm beschikbaar gemaakt door de TBC van A Eskwadraat. Het college WISB werd in 9- gegeven door Prof. Dr. F. Beukers. Uitwerking
Nadere informatieCover Page. The handle holds various files of this Leiden University dissertation
Cover Page The handle http://hdl.handle.net/1887/39637 holds various files of this Leiden University dissertation Author: Smit, Laurens Title: Steady-state analysis of large scale systems : the successive
Nadere informatieVragen die je wilt beantwoorden zijn:
Net als bij een discrete-tijd Markov keten is men bij de bestudering van een continue-tijd Markov keten zowel geïnteresseerd in het korte-termijn gedrag als in het lange-termijn gedrag. Vragen die je wilt
Nadere informatieTentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u
Technische Universiteit Delft Mekelweg 4 Faculteit Elektrotechniek, Wiskunde en Informatica 2628 CD Delft Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Formulebladen, rekenmachines,
Nadere informatieHet Vergelijken van Toevalsveranderlijken vanuit een Speltheoretisch Perspectief. Bart De Schuymer
Het Vergelijken van Toevalsveranderlijken vanuit een Speltheoretisch Perspectief Bart De Schuymer Overzicht 1 Cykeltransitiviteit Probabilistische relatie Transitiviteit Cykeltransitiviteit 2 Vergelijken
Nadere informatieTECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Lineaire Algebra voor BMT en TIW (DM) op maandag juni Dit tentamen bestaat uit 6 open vragen, en 4 kort-antwoord vragen. De
Nadere informatieRuimtewiskunde. college. Stelsels lineaire vergelijkingen. Vandaag UNIVERSITEIT TWENTE. Stelsels lineaire vergelijkingen.
college 4 collegejaar college build slides Vandaag : : : : 16-17 4 29 maart 217 38 1 2 3.16-17[4] 1 vandaag Vectoren De notatie (x 1, x 2,..., x n ) wordt gebruikt voor het punt P met coördinaten (x 1,
Nadere informatieTentamen Voortgezette biostatistiek / Biomedische wiskunde
Tentamen Voortgezette biostatistiek / Biomedische wiskunde 27 maart 2015; 15:15-17:15 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau.
Nadere informatieS n = tijdstip van de n-de gebeurtenis, T n = S n S n 1 = tijd tussen n-de en (n 1)-de gebeurtenis.
HET POISSON PROCES In veel praktische toepassingen kan het aaankomstproces van personen, orders,..., gemodelleerd worden door een zogenaamd Poisson proces. Definitie van een Poisson proces: Een Poisson
Nadere informatiewerkcollege 6 - D&P9: Estimation Using a Single Sample
cursus 9 mei 2012 werkcollege 6 - D&P9: Estimation Using a Single Sample van frequentie naar dichtheid we bepalen frequenties van meetwaarden plot in histogram delen door totaal aantal meetwaarden > fracties
Nadere informatieHertentamen Inleiding Kansrekening 5 juli 2017, 14:00 17:00 Docent: Prof. dr. F. den Hollander
Hertentamen Inleiding Kansrekening 5 juli 07, 4:00 7:00 Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan, wel het gebruik van rekenmachine. Er
Nadere informatieTentamen in2205 Kennissystemen
TECHNISCHE UNIVERSITEIT DELFT Faculteit Elektrotechniek, Wiskunde en Informatica Tentamen in2205 Kennissystemen 21 Januari 2010, 14:0017:00 Dit tentamen heeft 5 meerkeuzevragen in totaal goed voor 10 punten
Nadere informatie3 Wat is een stelsel lineaire vergelijkingen?
In deze les bekijken we de situatie waarin er mogelijk meerdere vergelijkingen zijn ( stelsels ) en meerdere variabelen, maar waarin elke vergelijking er relatief eenvoudig uitziet, namelijk lineair is.
Nadere informatieFACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie
FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie Lineaire Algebra, tentamen Uitwerkingen vrijdag 4 januari 0, 9 uur Gebruik van een formuleblad of rekenmachine is niet toegestaan. De
Nadere informatieTentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander
Universiteit Leiden Niels Bohrweg Tentamen Inleiding Kansrekening 25 juni 2009, 0.00 3.00 uur Docent: F. den Hollander Mathematisch Instituut 2333 CA Leiden Bij dit tentamen is het gebruik van een (grafische)
Nadere informatieVorig college. IN2505-II Berekenbaarheidstheorie. Turingmachines. Turingmachine en Taal. College 2
Vorig college College 2 Algoritmiekgroep Faculteit EWI TU Delft Welke problemen zijn (niet) algoritmisch oplosbaar? Wat is een probleem? Wat is een algoritme? 13 april 2009 1 2 Turingmachines Turingmachine
Nadere informatieToepassingen op differentievergelijkingen
Toepassingen op differentievergelijkingen We beschouwen lineaire differentievergelijkingen of lineaire recurrente betrekkingen van de vorm a 0 y k+n + a y k+n + + a n y k+ + a n y k = z k, k = 0,,, Hierbij
Nadere informatieHoofdstuk 5: Steekproevendistributies
Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel
Nadere informatieTransparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering
Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering Lerende Machines Verbeter in taak T, Voorbeeld: je ziet de karakteristieken (Features) van een aantal dieren
Nadere informatieLIMIETGEDRAG VAN CONTINUE-TIJD MARKOV KETENS
LIMIETGEDRAG VAN CONTINUE-TIJD MARKOV KETENS Hoofdstelling over limietgedrag van continue-tijd Markov ketens. Stelling: Een irreducibele, continue-tijd Markov keten met toestandsruimte S = {1, 2,..., N}
Nadere informatiea) Bepaal punten a l en b m zó dat de lijn door a en b parallel is met n.
. Oefen opgaven Opgave... Gegeven zijn de lijnen l : 2 + λ m : 2 2 + λ 3 n : 3 6 4 + λ 3 6 4 a) Bepaal punten a l en b m zó dat de lijn door a en b parallel is met n. b) Bepaal de afstand tussen die lijn
Nadere informatieData analyse Inleiding statistiek
Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»
Nadere informatieTW2040: Complexe Functietheorie
TW2040: Complexe Functietheorie week 4.9, maandag K. P. Hart Faculteit EWI TU Delft Delft, 13 juni, 2016 K. P. Hart TW2040: Complexe Functietheorie 1 / 41 Outline III.6 The Residue Theorem 1 III.6 The
Nadere informatie9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Nadere informatieTECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Lineaire Algebra voor BMT en TIW (DM) op dinsdag 9 april 8, 9.. uur. Dit tentamen bestaat uit 6 open vragen, en 4 kort-antwoord
Nadere informatieOude tentamenopgaven
Oude tentamenopgaven (met enkele uitwerkingen Vraag De omvang (n van een celpopulatie over de tijd (t, 2, 3,... laat zich beschrijven middels een eerste orde Markov proces. Voor elke tijdstap, is het mogelijk
Nadere informatieDeze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie
Deze week: Schatten Statistiek voor Informatica Hoofdstuk 6: Schatten Cursusjaar 2009 Peter de Waal Departement Informatica Statistische inferentie A Priori en posteriori verdelingen Geconjugeerde a priori
Nadere informatieKansrekening en Statistiek
Kansrekening en Statistiek College 2 Donderdag 15 September 1 / 42 1 Kansrekening Vandaag: Vragen Eigenschappen van kansen Oneindige discrete uitkomstenruimtes Continue uitkomstenruimtes Continue stochasten
Nadere informatieModeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag 11 Januari 2013
Modeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag Januari 20 Opgave. Python Gegeven is de volgende (slechte) Python code:. def t(x): 2. def p(y):. return x*y
Nadere informatieTW2040: Complexe Functietheorie
TW2040: Complexe Functietheorie week 4.6, maandag K. P. Hart Faculteit EWI TU Delft Delft, 30 mei, 2016 K. P. Hart TW2040: Complexe Functietheorie 1 / 33 Outline 1 2 Algemeenheden Gedrag op de rand Machtreeksen
Nadere informatieOpgaven bij Numerieke Wiskunde I
Opgaven bij Numerieke Wiskunde I 7 november 8 1. (a) Gegeven verschillende interpolatiepunten x, x 1, x [a, b], en getallen y, y 1, y, z 1, toon aan dat er hooguit 1 polynoom p P 3 is met p(x i ) = y i,
Nadere informatieHoofdstuk 5 Een populatie: parametrische toetsen
Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie
Nadere informatieo Dit tentamen bestaat uit vier opgaven o Beantwoord de opgaven 1 en 2 enerzijds, en de opgaven 3 en 4 anderzijds op aparte vellen papier
Toets Stochastic Models (theorie) Maandag 22 rnei 2OL7 van 8.45-1-1-.45 uur Onderdeel van de modules: o Modelling and analysis of stochastic processes for MATH (20L400434) o Modelling and analysis of stochastic
Nadere informatieb) Uit Bayes volgt, gebruik makend van onderdeel a) P (T V )P (V ) P (T ) = (0.09)(0.07)
Uitwerkingen tentamen 6 juli 22. We stellen T de gebeurtenis test geeft positief resultaat, F de gebeurtenis, chauffeur heeft gefraudeerd, V de gebeurtenis, chauffeur heeft vergissing gemaakt C de gebeurtenis,
Nadere informatieHet oplossen van stelsels lineaire vergelijkingen Wiskunde 2, 2DM60 College 2b
Het oplossen van stelsels lineaire vergelijkingen Wiskunde 2, 2DM60 College 2b Ruud Pellikaan g.r.pellikaan@tue.nl /k 2014-2015 Lineaire vergelijking 2/64 DEFINITIE: Een lineaire vergelijking in de variabelen
Nadere informatieTentamen Inleiding Speltheorie 29-10-2003
entamen Inleiding Speltheorie 9-0-003 Dit tentamen telt 5 opgaven die in 3 uur moeten worden opgelost. Het maximaal te behalen punten is 0, uitgesplitst naar de verschillende opgaven. Voor het tentamencijfer
Nadere informatie0 2λ µ 0
Example 6.7 Machine werkplaats met vier onafhankelijke machines 1, 2, 3 en 4. Bedrijfsduur machine i (i = 1, 2, 3, 4) is B i Exp(µ), reparatieduur wegens defect machine i is R i Exp(λ). Er zijn twee reparateurs
Nadere informatieP (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i).
MARKOV PROCESSEN Continue-tijd Markov ketens (CTMCs) In de voorafgaande colleges hebben we uitgebreid gekeken naar discrete-tijd Markov ketens (DTMCs). Definitie van discrete-tijd Markov keten: Een stochastisch
Nadere informatieStatistiek voor A.I. College 6. Donderdag 27 September
Statistiek voor A.I. College 6 Donderdag 27 September 1 / 1 2 Deductieve statistiek Kansrekening 2 / 1 Vraag: Afghanistan In het leger wordt uit een groep van 6 vrouwelijke en 14 mannelijke soldaten een
Nadere informatieStatistiek voor Natuurkunde Opgavenserie 1: Kansrekening
Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail
Nadere informatieTECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica
TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2), Vrijdag 24 januari 24, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven
Nadere informatieHoofdstuk 4 Kansen. 4.1 Randomheid
Hoofdstuk 4 Kansen 4.1 Randomheid Herhalingen en kansen Als je een munt opgooit (of zelfs als je een SRS trekt) kunnen de resultaten van tevoren voorspeld worden, omdat de uitkomsten zullen variëren wanneer
Nadere informatieOefenvragen bij Statistics for Business and Economics van Newbold
Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd
Nadere informatieDeze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten
Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk
Nadere informatieDepartment of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Maart 28
Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 07, Maart 8 c Dept. of Mathematics, VU University Amsterdam NB. Geef een duidelijke toelichting
Nadere informatieTW2040: Complexe Functietheorie
TW2040: Complexe Functietheorie week 4.10, donderdag K. P. Hart Faculteit EWI TU Delft Delft, 23 juni, 2016 K. P. Hart TW2040: Complexe Functietheorie 1 / 46 Outline 1 2 3 K. P. Hart TW2040: Complexe Functietheorie
Nadere informatieTentamen Voortgezette Kansrekening (WB006C)
WB6C: Voortgezette Kansrekening Donderdag 26 januari 212 Tentamen Voortgezette Kansrekening (WB6C) Het is een open boek tentamen. Gebruik van een rekenmachine of andere hulpmiddelen is niet toegestaan.
Nadere informatieTentamen Inleiding Kansrekening 16 juni 2017, 14:00 17:00 Docent: Prof. dr. F. den Hollander
Tentamen Inleiding Kansrekening 6 juni 7, : 7: Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan. Er zijn 8 vragen, elk met twee of drie onderdelen.
Nadere informatieTentamen Kansrekening en Statistiek MST 14 januari 2016, uur
Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord
Nadere informatieIN2505 II Berekenbaarheidstheorie Tentamen Maandag 2 juli 2007, uur
TECHNISCHE UNIVERSITEIT DELFT Faculteit Elektrotechniek, Wiskunde en Informatica Mekelweg 4 2628 CD Delft IN2505 II Berekenbaarheidstheorie Tentamen Maandag 2 juli 2007, 14.00-17.00 uur BELANGRIJK Beschikbare
Nadere informatie34 HOOFDSTUK 1. EERSTE ORDE DIFFERENTIAALVERGELIJKINGEN
34 HOOFDSTUK 1. EERSTE ORDE DIFFERENTIAALVERGELIJKINGEN 1.11 Vraagstukken Vraagstuk 1.11.1 Beschouw het beginwaardeprobleem = 2x (y 1), y(0) = y 0. Los dit beginwaardeprobleem op voor y 0 R en maak een
Nadere informatieVOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert
VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel
Nadere informatieAlgoritmes in ons dagelijks leven. Leve de Wiskunde! 7 April 2017 Jacobien Carstens
Algoritmes in ons dagelijks leven Leve de Wiskunde! 7 April 2017 Jacobien Carstens Wat is een algoritme? Een algoritme is een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd
Nadere informatie