UvA Avondcursus. Hoe Wiskunde Werkt. Week 7, tweede college 21 november Voorspellen van Gedrag. Johan van Benthem

Vergelijkbare documenten
Killing Cluedo Nationale Wiskundedagen 2002

Allianties en speltheorie

Speltheorie in de computerwetenschappen. Patrick De Causmaecker Met dank aan Katja Verbeeck Katholieke Universiteit Leuven Campus Kortrijk

Evolutionaire speltheorie en de Trust Game

Opdrachten Toeval Opdrachten Toeval Opdracht 1.1 (Bestaat toeval) Opdracht 1.2(toeval in de natuur)

Uitwerking Eerste Quiz Speltheorie,

De Minimax-Stelling en Nash-Evenwichten

Ondernemen = Kiezen = Spelen. Lezing op het Nationaal T&U Congres 9 oktober Tom Verhoeff. Faculteit Wiskunde & Informatica

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

De specialisaties van Econometrie & Operationele Research (OR)

Rijk worden met Bid Grid?

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions

8. Analyseren van samenhang tussen categorische variabelen

1. (a) Formuleer het Cauchy criterium voor de convergentie van een reeks

Hoofdstuk 1. Afspraken en notaties

3 Wat is een stelsel lineaire vergelijkingen?

Uitwerking Tweede Quiz Speltheorie,

Eindige Fourier-Analyse in de Additieve Combinatoriek

Hoofdstuk 4 Kansen. 4.1 Randomheid

Modellen en Simulatie Speltheorie

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

WISB134 Modellen & Simulatie. Lecture 5 - Scalaire recursies (deel 2)

Niet lineaire stelsels differentiaalvergelijkingen en stabiliteit. Lorenz-attractor

Gevangenenprobleem. Samenwerken en onderhandelen

ANTWOORDENMODEL SPELTHEORIE

Populaties beschrijven met kansmodellen

Statistiek voor A.I. College 5. Dinsdag 25 September 2012

(b) Formuleer het verband tussen f en U(P, f), en tussen f en L(P, f). Bewijs de eerste. (c) Geef de definitie van Riemann integreerbaarheid van f.

Uitwerkingen Mei Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Toeval in de greep. De echte kans om te winnen bij het gokspel op korte en lange termijn onderzocht met simulaties(apps)

Werkcollege Game Design, Game Theory.

VAN BEGINNER TOT WINNER GIJSBERT OONK

Speltheorie voor economen

Opdracht 1 Topics on Parsing and Formal Languages - fall 2010

Domein A: Vaardigheden

Examen G0U13 Bewijzen en Redeneren Bachelor 1ste fase Wiskunde. vrijdag 31 januari 2014, 8:30 12:30. Auditorium L.00.07

Oneindige spelen. Dion Coumans. Begeleider: dr. W. Veldman

8. Complexiteit van algoritmen:

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

Een objectief Ranglijst Systeem. ontworpen door. Martien Maas

MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN?

Nascholing Economie: Speltheorie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Bij het oplossen van een telprobleem zijn de volgende 2 dingen belangrijk: Is de volgorde van de gekozen dingen van belang?

6.0 Voorkennis [1] Algemeen: u n = u n-1 + u n-2 met u 0 = 1 en u 1 = 1. Bereken de 12 de term van deze rij

LANDSEXAMEN VWO Het examenprogramma Het examenprogramma voor het commissie-examen Wiskunde D bestaat uit de volgende (sub)domeinen:

Opdracht 1 Topics on Parsing and Formal Languages - fall 2010

Spel en logica van interactie

Kansrekening en Statistiek

Eindexamen filosofie vwo II

WISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

Stochastische Modellen in Operations Management (153088)

Rekenen en Redeneren met Oneindig

Wat moet je weten en doen voor een goed examen natuurkunde.

Kansrekening en Statistiek

VOOR HET SECUNDAIR ONDERWIJS

Tentamen Inleiding Speltheorie

Inleiding Programmeren 2

Set 1 Inleveropgaven Kansrekening (2WS20)

opgaven formele structuren deterministische eindige automaten

Opgave 1 - Uitwerking

LANDSEXAMEN VWO Het examenprogramma Het examenprogramma voor het commissie-examen Wiskunde D bestaat uit de volgende (sub)domeinen:

Uitwerking Opgaven Formele talen, grammaticas en automaten Week 1

Evenwichten in de speltheorie

Je hebt twee uur de tijd voor het oplossen van de vraagstukken. µkw uitwerkingen. 12 juni 2015

De kunst van het kiezen. Het juiste profiel

Inleiding Speltheorie - 29 januari 2003, uur

Network Formation Games

gegevens analyseren Welk onderzoekmodel gebruik je? Quasiexperiment ( 5.5) zonder controle achtergronden

Kansrekening en Statistiek

De enveloppenparadox

: Toeval en/of determinisme in de natuurwetenschap (Deel II)

WISKUNDE D VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

Gödels theorem An Incomplete Guide to Its Use and Abuse, Hoofdstuk 3

Essay. Norbert Vogel* Morele feiten bestaan niet

Examenprogramma wiskunde D vwo

Hier vertel je wat je hebt gedaan om informatie te vinden. Wat en waar gezocht? Wie geïnterviewd, enz.

Opmerking Als is afgerond op duizendtallen, hiervoor geen punten aftrekken.

In de Theorie worden de begrippen toevalsvariabele, kansverdeling en verwachtingswaarde toegelicht.

Compex wiskunde A1-2 vwo 2003-I

Fundamentele begrippen in de financiële wiskunde

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

Tentamenset A. 2. Welke van de volgende beweringen is waar? c. N R N d. R Z R

Onderwijsbehoeften: - Korte instructie - Afhankelijk van de resultaten Test jezelf toevoegen Toepassing en Verdieping

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

les 2 toeval en waarschijnlijkheid

Formeel Denken 2014 Uitwerkingen Tentamen

Opgave 2 ( = 12 ptn.)

Logisch denken over kansen

Wiskundige beweringen en hun bewijzen

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Praktische opdracht Wiskunde A Patience

Filebestrijding middels Speltheorie

f : z z 2 + c. x n = 1 2 z n dan krijgen we z n+1 = z 2 n + a 2 a2 4 De parameter c correspondeert dus met a middels c = a 2 a2 4

Statistiek voor A.I. College 3. Dinsdag 18 September 2012

IJburgcollege Wiskunde A en C september 2017 Statistiek Opgavenboek 1 (noteer je uitwerkingen van de opdrachten in het Uitwerkingenboek 1)

Opgaven voor Kansrekening

Derde college algoritmiek. 16/17 februari Toestand-actie-ruimte

Grofweg zijn er twee typen redeneervraagstukken. A. Gedrag van een formule verklaren. B. Het doorzien van de structuur van de formule.

Strategie en speltheorie

Transcriptie:

1 UvA Avondcursus Hoe Wiskunde Werkt Week 7, tweede college 21 november 2001 Voorspellen van Gedrag Johan van Benthem Institute for Logic, Language and Computation ILLC http://www.illc.uva.nl/

2 1 Voorspellen van toekomstig gedrag De logische route zoekt een argumentatie: 'Onderzoek de verplichtingen en moraal': gedrag op grond van gedane beloften, of morele plicht? 'Onderzoek de logica': ons handelen ontstaat doordat wij redeneren naar de beste beslissing? 'Sociaal contract': we hebben dat ooit om goede redenen afgesproken, en die gelden nog steeds? De statistische route zoekt een wellicht blind, maar vaak herhaald gedragspatroon dat 'vanzelf' regelmaat oplevert, met globale uitkomst onafhankelijk van de opzet van individuele personen. 2 Spelevenwicht als voorspelling Een strategisch evenwicht in een spel is al een soort voorspelling. Een strategie beschrijft immers gedrag onder allerlei omstandigheden. Oude discussie: Wat is een gemengde strategie? Zetten afhankelijk van worpen van een dobbelsteen komen vrijwel nooit voor. Het gaat meer om evenwicht op den duur bij herhaald spel: (a) frequenties van gedrag (dwz objectieve waarschijnlijkheid), of (b) spelers' verwachtingen over elkaars gedrag (subjectieve waarschijnlijkheid). Derde optie: (c) percentages van een bevolking die de verschillende zuivere strategieën spelen.

3 3 Eindig herhaalde spelen Prisoner's Dilemma C D C 3. 3 0, 5 D 5, 0 1, 1 Het enige Nash evenwicht was (D, D). Bekijk een aantal van deze spelen achter elkaar. Alle oude strategieën blijven uiteraard bestaan: "speel altijd C", "speel altijd D". Maar er ontstaan ook hele nieuwe strategieën want we kunnen onze keuzen afhankelijk maken van wat de tegenstander in de vorige ronde heeft gedaan. (NB In de spelbomen van Week 6 kon dat ook al.) Voorbeeld: Lik op Stuk Begin met C. Speel C als de tegenstander in de vorige ronde C heeft gespeeld, en D als hij D heeft gespeeld. Dit straft tegenwerking meteen af in de volgende ronde maar vergeeft ook weer na een ronde. Feit (D, D) is het enige Nash evenwicht in een herhaald Prisoner's Dilemma. Backward induction: Zermelo analyse spelboom. In de een-na-laatste ronde is de situatie der spelers als in het enkele spel: dus spelen ze (D, D). Maar dat begrijpen ze de ronde daarvoor al, dus kunnen ze daar net zo goed (D, D) spelen: enz.

4 Oneindig herhaalde spelen Uitkomsten voor een speler van oneindige rij: Σ i r i u i waar i loopt van 0 tot oneindig r i u i kans dat je aan het i-de spel toekomt, dan wel een z.g. discontofactor je uitkomst in het i-de spel. Voorbeeld Prisoner's Dilemma, met r = 3/4. Spelers die steeds D spelen krijgen beide: Σ i (3/4) i 1 = (1 / (1 3/4)) 1 = 4 Steeds C spelen geeft beide: Σ i (3/4) i 3 = 12 Speler tegen LoS met altijd D : 5 + (3/4) 4 = 8 Speler tegen LoS met één keer D en daarna C : 5 + 0 + (3/4) 2 12 = 11 3/4 Speler tegen LoS met D, C, D, C, Σ i (9/16) i 5 = (1 / (1 9/16)) 5 = 11 3/7 Iets anders dan LoS tegen LoS : net niet 12... Goed nieuws Oneindige spelen hebben meer strategische evenwichten dan eindig herhaalde. (D, D) is nog steeds een evenwicht, maar ook Feit (LoS, LoS) is een Nash evenwicht! 4

Afwijken helpt niet tegen een LoS tegenstander. Informeel argument. Je wint 5 bij je eerste keer D waar de ander nog C speelt, maar of (a) je keert eens terug naar C, en verliest dan 5, en we staan weer op gelijke voet, of (b) je blijft D spelen, en krijgt in totaal minder dan wanneer je steeds C had gespeeld. (Zie eerdere rekensom.) Het precieze argument is iets ingewikkelder! Valkuil Waarom is herhaald PD zo aanlokkelijk? Je komt met slimme strategiëen op voorsprong, zodat de LoS speler minder krijgt dan jij! Maar ten koste van de beste opbrengst voor jou zelf Slecht nieuws 'Folk Theorems': Er bestaat een overstelpend grote hoeveelheid evenwichten. Bijv. is in herhaald PD elk paar uitkomsten (x, y) met x, y rationaal 1, tot aan de lijn x+y = 5, een mogelijke uitkomst van een Nash evenwicht. Aardig verband: deze evenwichten hebben vaak te maken met de 'afdwingbare' strategie-paren in het enkele spel die je tot evenwicht zou kunnen maken door afspraken, of door boetes/straffen. 5 Strategieën via eindige automaten Begrip uit Week 1! Eindige automaat voor D : D D C 5

6 Eindige automaat voor LoS, begintoestand links: D C C D D C Spelers met een beperkt geheugen! Hoe meer toestanden: hoe meer 'sophistication' in respons. Vereenvoudigt allerlei zaken: bijv. uitkomsten kunnen we nu identificeren met de gemiddelde opbrengst over de eindige herhaalde 'cyclus' van paren toestanden waarin dergelijke automaten uiteindelijk raken als ze tegen elkaar spelen. 6 Lik op Stuk: how the good guys win? Je kunt tegen LoS niet beter uitkomen dan door via LoS mee te werken. Samenwerking loont! Axelrod's Tournooi 'Tit for Tat' won doorgaans op den duur tegen andere computerprogramma's. http://www-personal.umich.edu/%7eaxe/ Precieze verklaring niet makkelijk. Er is meer aan de hand dan (LoS, LoS)'s Nash evenwicht. Axelrod suggereert (a) LoS, eenmaal aanwezig, is stabiel tegen invasie door anderen en nog sterker, (b) samenwerking heeft ook meer kans op ontstaan in een bevolking dan tegenwerking. (Deze laatste bewering is wiskundig omstreden.) Voorbeeld 1: een bevolking met LoS kan niet worden geïnfilteerd door groepje slechterikken.

7 De indringers kunnen zich niet handhaven. Ze krijgen gemiddeld 4 onderling, en in ontmoeting met inboorling 8. Inboorling met soortgenoot krijgt 12 met slechterik 3. Maar nu de kansen! Bijv. bij 10% indringers zijn verwachte waarden: 9/10 12 + 1/10 3 =11.1 > 9/10 8 + 1/10 4 =7.6 Voorbeeld 2: een bevolking met D kan wel worden geïnfilteerd door LoS goedzakken. Die kunnen zich dank zij voordeel uitbreiden, mits samenwerking genoeg meerwaarde geeft. Bijv. 3/4 4 + 1/4 8 = 5 < 3/4 3 + 1/4 12 = 5 1/4! Dit scenario afkomstig uit de evolutie-biologie. Zorg Afhankelijkheid van te specifieke getallen? spelwaarden, discontofactor, groepspercentages Het gaat alleen om kwalitatieve voorspellingen over stabiliteit. Die kunnen we bijv. technisch aflezen uit monotonie van variabelen in formules. 7 Evolutionaire stabiliteit Stel dat mutanten binnenkomen die strategie F spelen tegen een bevolking die in evenwicht strategie G speelt. Stel de kans dat een mutant een andere mutant tegenkomt is ε. Verwachte waarde van een ontmoeting voor een mutant: ε u (G, G) + (1 ε) u (G, F) Mutant mutant, mutant mutant, normaal

Voor de oude bevolking ligt dit symmetrisch: ε u (F, G) + (1 ε) u (F, F) Normaal Stabiliteit van F eist dat Mutant < Normaal voor elke andere strategie G Dit is een versterking van het Nash evenwicht: Feit F is evolutionair stabiel (a) (F, F) is een Nash evenwicht, en (b) als u (F, F) = u (G, F), dan u (G, G) < U (F, G) Spelen waar dit uitmaakt makkelijk te vinden. In het oneindig herhaalde Prisoner's Dilemma: D is niet evolutionair stabiel (zie boven), maar LoS is dat evenmin! Een invasie door pure 'goodies' is nl. mogelijk. Dit is een populair scenario van speltheoretici. Rubinstein ("Economics and Language") past ES zelfs toe op onze taal: varianten op betekenissen, of op standaardconventies zoals 'informatief zijn, en de toehoorder helpen', leggen het af We kunnen ook op een andere (zij het verwante) manier naar oneindig herhaalde spelen kijken, dichter bij Robbert's eerste college. In het volgende kijken we naar spelers in een bevolking met pure of gemengde strategieën die vaststaan: er wordt niet onderweg gereageerd op wat in eerdere ontmoetingen is gebeurd. Geen LoSers! 8

8 Spelen als dynamische systemen Replicator dynamiek. Meer gedetailleerd model van wat in een populatie gebeurt. Bijv. Chicken: Duif 9 Havik Duif 1, 1 0, 2 Havik 2, 0 1, 1 Evenwichten (Du, Ha), (Ha, Du), 50/50 Du/Ha. Interpreteer nu de uitkomsten als 'extra fitness'. Stel in de bevolking zijn p % Ha's, 1 p % Du's. Een Du heeft gemiddeld als extra fitness: f D (p) = (1 p) 1 + p 0 = 1 p Een Ha heeft gemiddeld als extra fitness: f H (p) = (1 p) 2 + p 1 = 2 3p Gemiddelde fitness winst f gem p f H (p) + (1 p) f D (p) = 1 2p 2 Replicator vergelijking voor verandering in p(t): dp/dt = p (f H (p) f gem ) In ons geval: p' = p (2p 2 3p +1) = p (p 1) (2p 1) Rustpunten: p=0, p=1, p=1/2

Dynamisch systeem: asymptotische convergentie naar p =1/2! 0 1/2 1 Algemeen convergentie naar evenwichten uit het enkele spel, eventueel naar gemengde stategiëen. Resultaat hangt af van type 'basis-ontmoeting'. Zelfde analyse voor Prisoner's Dilemma: met onze waarden replicator vergelijking: p' = p (p 2) (p 1) en convergentie naar p = 1 : de D's winnen. NB In deze analyse winnen de bad guys dus! Uitkomsten afhankelijk van het model. (Binmore: met andere scenarios kunnen ook gemengde populaties voorkomen maar om het goede te laten zegevieren veel extra aannamen nodig ) 10 Herschrijving algemene formule: p' = p (1 p) (p (u H, H u D, H ) + (1 p) (u H, D u D, D ) Resultaten dan direct afleesbaar uit spel-matrix. Geen continuïteit: kleine verschillen in begincondities kunnen beslissend zijn voor soort systeem.

Terzijde Verband vorige onderwerp: evolutionaire stabiliteit helpt soms deze gedetailleerde dynamisch-systeem berekeningen over te slaan. Feit In 1-staps 2-persoon spelen zijn de symmetrische evolutionair stabiele strategieën juist de asymptotische attractoren in de bovenstaande replicator dynamiek. Met meer dan 2 spelers ligt dit ingewikkelder. Terzijde Rijmen diverse 'strijdige' uitkomsten? D is evolutionair stabiel in het enkele PD maar "steeds D" is niet e.s. in oneindig herhaald PD. Onze twee modellen voor 'oneindige herhaling' zijn dus niet helemaal hetzelfde. Axelrod's tournooi past ook in deze traditie: populatie dynamica met ronden inzendingen in verschillende mengsels. 1997: The complexity of cooperation. Geschiedenis van dit onderzoek tot vandaag, inclusief kritiek van norrige speltheoretici, en vele verfijningen (bijv. leermechanismen die strategieën kunnen veranderen): http://jasss.soc.surrey.ac.uk/3/2/forum/1.html 9 Nogmaals voorspellen/verklaren gedrag Hangt sterk af van model en begin-aannamen. Bijv. overleven 'goodies' soms niet qua ES, maar wel als ze grotere kans hebben initieel om elkaar te ontmoeten, bijv. door ongelijke distributie van het territorium. Ook zegt de theorie weinig over het leren van nieuwe strategieën, of ontstaan van een sociale hiërarchie die interacties beïnvloedt. 11

Veel scenarios zijn nu nog te ingewikkeld voor analytische oplossingen als dynamisch systeem, en er wordt veel gewerkt met computersimulaties. Bijv. filosoof Skyrms over Haas en Hert, met studie van ontstaan van normen en regels. Vraag Wanneer ontstaat samenwerking 'vanzelf'? 12 Algemene discussie: bewuste moraliteit, geplande sociale organisatie versus blinde, in grote aantallen vanzelf ontstaande gedragspatronen. Algemene discussie: logica versus statistiek. Welke verschijnselen van 'rationeel' handelen en meningsvorming in onze maatschappij berusten op logisch redeneren, en welke louter op onvermijdelijke statistische patronen? Bijv. Mouwen's natuurkundig model voor meningsverandering Literatuur Ken Binmore, 1992, Fun and Games, Heath & Co., Lexington (Mass.). Robert Axelrod, 1984, The Evolution of Cooperation, Pelican books, Harmondsworth. Kees Mouwen, 1998, The Dynamics of Opinion Change, Tilburg University Press, Tilburg. http://serendip.brynmawr.edu/playground/pd.html M. Osborne & A. Rubinstein, 1994, A Course in Game Theory, MIT Press, Cambridge (Mass.).

13 OPGAVEN, laatste set 1 Wat is de uitkomst in oneindig PD van LoS tegen GRIM, de strategie die begint met C maar na de eerste D van de tegenstander voortaan altijd D speelt? Is (GRIM, GRIM) een Nash evenwicht? 2 Schrijf een eindige automaat voor GRIM. 3 (bonus) Bewijs het Feit dat evolutionair stabiele strategiën via versterkt Nash evenwicht karakteriseert. 4 (bonus) Wat is de replicator-formule voor het spel 'Hertje en Haasje', met een matrix als op RD's college gegeven? Waar zit de asymptotische attractor?