succes. Door steeds opnieuw toernooien te blijven spelen evolueert de populatie. We kunnen dit doen onder ideale omstandigheden,

Vergelijkbare documenten
Open vragen. Naam:...

1 als x y = 0, = (t j o j )o j (1 o j )x ji.

X1 X2 T c i = (d y)x i. c i,nieuw = c i,oud + (d y) x i. w nieuw. = w oud

Open vragen. Veel succes!

1 als x y = 0, A B C D E F. = (t j o j )o j (1 o j )x ji.

Open vragen. Naam:...

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren

Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren

Tentamen Kunstmatige Intelligentie (INFOB2KI)

d(w j, x i ) d(w l, x i ) Voorbeeld

Inleiding Adaptieve Systemen Hoofdstuk X: Reinforcement leren

Opgave 2 ( = 12 ptn.)

Inleiding Adaptieve Systemen Hoofdstuk 4: Neurale netwerken

Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016

Open vragen. Naam:...

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

heten excitatory. heten inhibitory.

AI en Software Testing op de lange termijn

Opdracht 2 Het Multilayer Perceptron

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Beknopte uitwerking Examen Neurale Netwerken (2L490) d.d

AI introductie voor testers

Continuous Learning in Computer Vision S.L. Pintea

Tentamen Kunstmatige Intelligentie

Tentamen in2205 Kennissystemen

Examenvragen Hogere Wiskunde I

Aantekeningen Ch. 4 Artificial neural networks

9. Lineaire Regressie en Correlatie

5. Vergelijkingen Vergelijkingen met één variabele Oplossen van een lineaire vergelijking

Tentamen in2205 Kennissystemen

AI Kaleidoscoop. College 12: Subsymbolische methoden. Twee scholen. Leeswijzer: Performance cliff (2) Performance cliff

13 Hidden Markov Modellen.

Tentamen in2205 Kennissystemen

Discrete Wiskunde 2WC15, Lente Jan Draisma

Tentamen Biostatistiek 3 / Biomedische wiskunde

Hertentamen Voortgezette biostatistiek / Biomedische wiskunde

Tentamen Voortgezette biostatistiek / Biomedische wiskunde

Ter Leering ende Vermaeck

Hertentamen Biostatistiek 3 / Biomedische wiskunde

1.1 Rekenen met letters [1]

Convexe Analyse en Optimalisering

Het XOR-Netwerk heeft lokale Minima

Data analyse Inleiding statistiek

Examen G0N34 Statistiek

Uitwerking Tentamen Datamining (2II15) 26/06/09

Oude tentamens Kunstmatige intelligentie Universiteit Leiden Informatica 2005

Modeling Cognitive Development on Balance Scale Phenomena[4] Replicatie van Shultz et al.

De pariteitstestmatrix van de (6,4) Hamming-code over GF(5) is de volgende: [ H =

ONBETWIST ONderwijs verbeteren met WISkunde Toetsen Voorbeeldtoetsen Lineaire Algebra Deliverable 3.10 Henk van der Kooij ONBETWIST Deliverable 3.

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling

Kwantummechanica Donderdag, 13 oktober 2016 OPGAVEN SET HOOFDSTUK 4. Bestudeer Appendix A, bladzijden van het dictaat.

Personiceren van stemmen met Deep Learning

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

te vermenigvuldigen, waarbij N het aantal geslagen Nederlandse munten en B het aantal geslagen buitenlandse munten zijn. Het resultaat is de vector

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15

Hoofdstuk 3 : Determinanten

Blokmatrices. , I 21 = ( 0 0 ) en I 22 = 1.

Opgaven Kunstmatige Intelligentie 1 maart 2017

Opgaven Kunstmatige intelligentie 4 mei 2012

Meerkeuze antwoorden. Naam:... Collegekaart-nummer:...

Uitwerkingen opgaven Kunstmatige intelligentie

b) Uit Bayes volgt, gebruik makend van onderdeel a) P (T V )P (V ) P (T ) = (0.09)(0.07)

Cover Page. The handle holds various files of this Leiden University dissertation

Geef niet alleen antwoorden, maar bewijs al je beweringen.

Zoekproblemen met tegenstanders. Zoekalgoritmen ( ) College 9: Zoeken met een tegenstander (I) Een zoekprobleem met een tegenstander

De statespace van Small World Networks

VU University Amsterdam 2018, Maart 27

extra sommen bij Numerieke lineaire algebra

1.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x.

Derde serie opdrachten systeemtheorie

Antwoorden op de theoretische vragen in de examen voorbereiding

Computationele Intelligentie

Hopfield-Netwerken, Neurale Datastructuren en het Nine Flies Probleem

-- V HOOFDSTUK V STORINGSREKENING

Local search. Han Hoogeveen. 21 november, 2011

Tussentoets Analyse 1

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15

FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie

Uitwerkingen Mei Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Hertentamen Voortgezette biostatistiek / Biomedische wiskunde

Computationele Intelligentie

Technische Universiteit Delft. ANTWOORDEN van Tentamen Gewone differentiaalvergelijkingen, TW2030 Vrijdag 30 januari 2015,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Examen Neurale Netwerken (2L490), op woensdag 28 juni 2006, uur.

Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Juni 7

Meerkeuze antwoorden. Naam:... Collegekaart-nummer:...

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Computerrekenpakket Maple zesde jaar

Universiteit Utrecht Faculteit Wiskunde en Informatica. Examen Optimalisering op maandag 18 april 2005, uur.

Labo IDP. In dit labo gaan we IDP gebruiken voor het analyseren van logische circuits. XOR Q AND. Figuur 1: Een logisch circuit.

8. Analyseren van samenhang tussen categorische variabelen

Data analyse Inleiding statistiek

3 Wat is een stelsel lineaire vergelijkingen?

Het tentamen heeft 25 onderdelen. Met ieder onderdeel kan maximaal 2 punten verdiend worden.

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017:

Basiskennis lineaire algebra

Toegepaste Statistiek, Dag 7 1

Reinforcement Leren. 1 Introductie. Samenvatting. Intelligent Systems Group Institute of Computing and Computing Sciences Universiteit Utrecht

Transcriptie:

Inleiding Adaptieve Systemen deel 2, 25 juni 2014, 13.30-16.30, v. 1 Er is op vrijdag 27 juni nog een practicumsessie! De aanvullende toets is op 4 juli, 13-15 uur. Competitie en cooperatie 1. Bekijk de volgende uitbetalings-matrix van een 2-player game: C D C (5, 5) (4, 7) D (7, 4) (1, 1) Dit spel laat zich analyseren als (a) Prisoner s Dilemma (b) Stag Hunt (c) Chicken (d) Battle of the Sexes antwoord: T > R > S > P, dus Chicken (slideset 9 2014, slide 28) 2. De Tit-for-Tat strategie in het Iterated Prisoner s Dilemma houdt in: (a) begin met C, en wissel de keuze nadat de tegenstander D speelt (b) begin met C, en kopieer daarna steeds de vorige zet van de tegenstander (c) begin met C, maar blijf D spelen als de tegenstander een keer D speelt (d) begin met C, maar speel D als de tegenstander op de vorige zet C speelde antwoord: a is Pavlov, c is Unforgiving, d is een bizarre variant van TFT: afstraffen als de tegenstander juist aardig is. 3. We spelen een toernooi met meerdere kopieën van diverse strategieën voor het Iterated Prisoner s Dilemma: All-C, All-D, Titfor-Tat, Pavlov, en Random. Na afloop veranderen we de populatie afhankelijk van het succes. Door steeds opnieuw toernooien te blijven spelen evolueert de populatie. We kunnen dit doen onder ideale omstandigheden, of met introduceren van een kleine hoeveelheid ruis (noise). Welke strategie gaat de populatie domineren (en blijft soms zelfs als enige over)? (a) ideaal: All-C; met ruis: Pavlov (b) ideaal: All-C; met ruis: Random (c) ideaal: All-D; met ruis: Tit-for-Tat (d) ideaal: Tit-for-Tat; met ruis: Pavlov antwoord: Zie Flake, blz. 300. In moreel opzicht is All-C wel idealistisch te noemen, maar dat wil nog niet zeggen dat het in een ideale (ruis-vrije) wereld overleeft... Neurale netwerken 4. Bij het trainen van een multi-layer feedforward network met behulp van het backpropagation algoritme kunnen de gewichten het best worden geïnitialiseerd met: (a) Alle gewichten gelijk aan 1. (b) Alle gewichten gelijk aan 0. (c) Alle gewichten uniform random gekozen in het interval [ 5, +5]. (d) Alle gewichten uniform random gekozen in het interval [ 0.5, +0.5]. 5. De optimale gewichten voor een lineaire perceptron kunnen berekend worden door middel van multivariate lineaire regressie. De N input voorbeelden X 1, X 2,..., X N vormen de kolommen van de inputmatrix X: X = [X 1, X 2,..., X N ]. De bijhorende outputs Y 1, Y 2,..., Y N vormen de kolommen van de outputvector Y : Y = [Y 1, Y 2,..., Y N ]. 1

Voor de gewichtenvector W geldt: Y = W T X. Geef aan hoe de gewichten berekend kunnen worden in termen van X en Y : W T X = Y W T =... antwoord: Je zou misschien links en rechts door X willen delen, maar dat kan niet want X is een matrix en daar kun je niet door delen. Een beter idee is al om links en rechts met X 1 te vermenigvuldigen: XX 1 is de identiteitsmatrix, dus dan is de gewenste oplossing W T = Y X 1 verkregen. Helaas, dat kan ook niet zomaar, want X is geen vierkante matrix en heeft dus niet een inverse. De briljante ingeving staat in slideset 12 op slide 15: eerst links en rechts met X T vermenigvuldigen. Nu staat er links XX T, en dat is wèl een vierkante matrix die je kunt inverteren: W T X = Y W T XX T = Y X T W T = Y X T (XX T ) 1 6. Voor het supervised leren van een feedforward neuraal netwerk beschikken we over 500 voorbeelden. Wat is de meest geschikte strategie van onderstaande opties: (a) Minimaliseer de error op de 500 voorbeelden. Rapporteer de gewichten met de laagste error. (b) Minimaliseer de error op de 500 random gekozen voorbeelden (random keuze met teruglegging, dus dubbele keuzes zijn toegelaten). Rapporteer de gewichten met de laagste error op opnieuw 500 random gekozen voorbeelden (eveneens random keuze met teruglegging). (c) Verdeel de data in 300 trainingsvoorbeelden en 200 testvoorbeelden. Minimaliseer de error op de trainingsvoorbeelden. Neem de gewichten met de laagste error op de trainingsvoorbeelden en rapporteer hun fout op de testvoorbeelden. (d) Verdeel de data in 300 trainingsvoorbeelden en 200 testvoorbeelden. Minimaliseer de error op de trainingsvoorbeelden. Neem de gewichten met de laagste error op de testvoorbeelden en rapporteer hun fout op de testvoorbeelden. antwoord: (Zie Mitchell, pagina 111) 7. We willen online stochastic gradient descent toepassen op een lineair neuron met output Y d, target T d, input X d,i en gewichten w i voor het voorbeeld d: Y d = i w ix d,i. De error is E d ( w) = 1 2 (T d Y d ) 2. Geef aan hoe de gewichten update w i berekend kan worden uit T d, Y d en X d,i : w i = α E d( w) w i =... Hint: je kunt niet direct de afgeleide van E d naar w i bepalen, maar wel de afgeleide van E d naar Y d, èn de afgeleide van Y d naar... antwoord: staat in slideset 12 op slide 21: w i = α E d( w) w i = α E d( w) Y d Y d w i = α(t d Y d )( 1)X d,i = +α(t d Y d )X d,i 8. Gegeven is een 1-dimensionaal Kohonen netwerk met buurfunctie: 1 als x y = 0, g(x, y) = 0.5 als x y = 1, 0 anders. 2

Het netwerk ligt in R 2 zoals weergegeven in de figuur. Bepaal de ligging van dit netwerk na updates met de volgende twee voorbeelden, waarbij de leerfactor, α, gelijk aan 0.25 is. Schrijf de tussenresultaten van je berekening op in de tabel op het antwoordblad. De voorbeelden worden aangeboden in deze volgorde: voorbeeld 1: (0, 4), en voorbeeld 2: (3, 3). (a) ENNs koppelen de activatie van output neuronen terug naar input neuronen. (b) ENNs koppelen de activatie van hidden neuronen terug naar input neuronen. (c) ENNs gebruiken inputs van vorige tijdstappen als huidige input neuronen. (d) ENNS koppelen alle neuronen in het netwerk terug naar elkaar. 10. Welke uitspraak is waar bij batch vs. online gradient descent van de gewichten van een neural netwerk: antwoord: Bij het eerste datapunt is A de knoop die het dichtst bij het datapunt staat. Dus A kruipt α = 0.25 van de afstand tot het datapunt naar dat datapunt toe. De buur-knopen B en F kruipen ieder 0.5α in de richting van het datapunt. Het tweede datapunt valt samen met knoop C. Die hoeft zelf dus niet meer te kruipen, maar sleept wel zijn buur-knopen B en D mee. A B C 0 (1, 3) (2, 4) (3, 3) na vb. 1 ( 3 4, 3 1 4 ) (1 3 4, 4) (3, 3) na vb. 2 ( 3 4, 3 1 29 4 ) (1 32, 3 7 8 ) (3, 3) D E F 0 (4, 2) (3, 1) (2, 2) na vb. 1 (4, 2) (3, 1) (1 3 4, 2 1 4 ) na vb. 2 (3 7 8, 2 1 8 ) (3, 1) (1 3 4, 2 1 4 ) 9. Elman Neurale Netwerken (ENNs) zijn recurrente netwerken waarvoor geldt: (a) Online leren volgt precies de foutfunctie. (b) Batch leren volgt precies de foutfunctie. (c) Online en batch leren volgen beiden precies de fout-functie. (d) Online en batch leren volgen beiden niet precies de fout-functie. 11. We passen kwalitatief gesuperviseerd leren met vector-kwantisatie (LVQ) toe op drie cluster-representanten: A = (0,0) met label Wit, B = (2,4) met label Zwart, en C = (3,2) met label Zwart. Bepaal de bewegingen van deze cluster-representanten als het leervoorbeeld X = (1, 1) met label Zwart wordt aangeboden. Gebruik de Euclidische afstandsmaat. (a) A beweegt naar X toe. (b) C beweegt naar X toe. (c) C beweegt naar X toe en A beweegt van X af. (d) B en C bewegen naar X toe en A beweegt van X af. 12. Bereken de gewichten en bias van de lineaire perceptron met inputs X 1, X 2 en output Y die het OR-probleem, zoals beschreven in 3

onderstaande tabel en figuur, correct classificeert X 1 X 2 Y 0 0 0 0 1 1 1 0 1 1 1 1 Na temporal difference learning met verdisconteringsfactor γ en leerfactor α hebben de toestanden de volgende waarden (de waarden bij Epoch 2 zijn tevens de eindwaarden): A B C T 1 T 2 Epoch 1 0.8 0.8 6.4 0 0 Epoch 2 0.416 3.52 0.032 0 0 Welke van onderstaande uitspraken met betrekking tot de gebruikte parameters is correct? (a) α = 1.0 en γ = 0.8 (b) α = 0.5 en γ = 0.8 (c) α = 0.8 en γ = 0.5 (d) α = 0.8 en γ = 1.0 14. Welke van onderstaande uitspraken over de Markov eigenschap is correct? De Markov eigenschap... antwoord: (zie Mitchel, blz. 87) Kies w 1 en w 2 positief, het maakt niet eens uit wat de waarde precies is. Kies de bias negatief, zodat de uitkomst negatief wordt bij X 1 = X 2 = 0, maar wel zo dat de uitkomst positief blijft zodra X 1 = 1 of X 2 = 1. Bijvoorbeeld: w 1 = w 2 = 1 en bias= 0.5. Maar ook w 1 = w 2 = 0.5 en bias= 0.3 is een mogelijkheid, en vele andere. Reinforcement learning 13. Beschouw een reinforcement leerprobleem met toestanden A, B, C, T 1 en T 2, waarbij T 1 en T 2 eindtoestanden zijn. Er worden twee runs uitgevoerd, resulterend in Epoch 1 = A, B, C, T 2 en Epoch 2 = A, B, C, A, B, T 1. De directe rewards R(X, Y ) die worden geobserveerd bij een toestandsovergang van toestand X naar toestand Y zijn als volgt: R(A, B) = 1 R(B, T 1 ) = 4 R(B, C) = 1 R(C, T 2 ) = 8 R(C, A) = 1 (a) schrijft voor in welke toestand je welke actie moet uitvoeren (b) zegt dat, gegeven het heden, de toekomst onafhankelijk is van het verleden (c) zegt dat wanneer je actie a uitvoert in toestand s, elke toestand s met een bepaalde kans bereikt kan worden (d) wordt in reinforcement leren alleen door modelgebaseerde (indirecte) algoritmen gebruikt antwoord: (b) is correct, het verwoordt de formule P (s t+1 s t, a t ) = P (s t+1 s t, a t,..., s 1, a 1 ). (a) beschrijft niet de Markov eigenschap maar een policy in een deterministische wereld (c) zou je kunnen geven als je nog wel vaag iets van de formule weet, maar niet meer van de betekenis ervan. (d) is niet waar omdat bijv temporal difference learning door het meenemen van alleen kennis over huidige en volgende toestand ook de Markov property uitbuit; dit 4

geldt niet voor Monte Carlo sampling: die neemt de hele toekomst mee. 15. Welke van onderstaande uitspraken is niet correct? (a) Monte Carlo sampling is alleen toepasbaar voor eindige trials/runs (b) Q-learning is een vorm van temporal difference learning (c) Reinforcement learning algoritmen lossen de Bellman vergelijking op (d) Met Q-learning kan, uiteindelijk, een optimale policy bepaald worden antwoord: (a) is waar omdat je in de berekeningen steeds meeneemt hoeveel beloning je nog krijgt tot het einde van een epoch; dit is de daadwerkelijk te verkrijgen beloning in het epoch en niet de te verwachten beloning. (b) is waar: je doet ipv hetzelfde als bij TD, alleen met Q ipv V (c) is niet waar: als we al voldoende informatie hebben op de vergelijking op te lossen (een model) dan is dat doorgaans te complex; RL algoritmen benaderen daarom de Q-functie. Overigens is het bij Q-learning wel zo dat als alle toestand/actie paren oneindig vaak bezocht worden, de Q-functie convergeert naar de optimale Q-functie en gegeven de optimale Q-functie kunnen we ook een optimale policy vaststellen; vandaar dat antwoord (d) juist wel waar is. Leren van regels 16. Er is een verschil tussen het leren van één regel of het leren van meerdere regels voor een gegeven data-set. Welk van de volgende verschillen is correct? (c) bij het leren van meerdere regels kun je een hogere accuratesse bereiken (d) bij het leren van één regel heb je een kleiner bereik 17. Welk van de volgende beweringen over overfitting bij het leren van regels is niet correct? (a) overfitting is een algemeen probleem bij leertechnieken binnen de AI (b) overfitting is alleen een probleem bij supervised learning techniques (c) overfitting kan worden tegengegaan door bij heuristisch zoeken de accuratesse van hypotheses te verlagen (d) overfitting kan worden tegengegaan regels te zoeken van een logische taal met minder uitdrukkingskracht 18. Welk van de volgende beweringen over het heuristisch zoeken naar regels is niet correct? (a) bij heuristisch zoeken naar regels weet je nooit zeker of een bestaande consistente oplossing ook zal worden bereikt (b) heuristisch zoeken naar regels is een betere afspiegeling van hoe de mens regels induceert (bijvoorbeeld in de natuurkunde, bij het herkennen van patronen, bij het inschatten van strategieën van anderen, etc.) dan niet-heuristisch zoeken (c) heuristisch zoeken van regels kan omgaan met inconsistente data (d) heuristisch zoeken resulteert vaak in een bredere zoekboom dan nietheuristisch zoeken (a) bij het leren van één regel is er een grotere kans op inconsistenties (b) bij het leren van meerdere regels is het lastiger om te gaan met ruis 5