UvA Avondcursus. Hoe Wiskunde Werkt. Week 7, tweede college 21 november Voorspellen van Gedrag. Johan van Benthem

1 UvA Avondcursus Hoe Wiskunde Werkt Week 7, tweede college 21 november 2001 Voorspellen van Gedrag Johan van Benthem Institute for Logic, Language and Computation ILLC http://www.illc.uva.nl/

2 1 Voorspellen van toekomstig gedrag De logische route zoekt een argumentatie: 'Onderzoek de verplichtingen en moraal': gedrag op grond van gedane beloften, of morele plicht? 'Onderzoek de logica': ons handelen ontstaat doordat wij redeneren naar de beste beslissing? 'Sociaal contract': we hebben dat ooit om goede redenen afgesproken, en die gelden nog steeds? De statistische route zoekt een wellicht blind, maar vaak herhaald gedragspatroon dat 'vanzelf' regelmaat oplevert, met globale uitkomst onafhankelijk van de opzet van individuele personen. 2 Spelevenwicht als voorspelling Een strategisch evenwicht in een spel is al een soort voorspelling. Een strategie beschrijft immers gedrag onder allerlei omstandigheden. Oude discussie: Wat is een gemengde strategie? Zetten afhankelijk van worpen van een dobbelsteen komen vrijwel nooit voor. Het gaat meer om evenwicht op den duur bij herhaald spel: (a) frequenties van gedrag (dwz objectieve waarschijnlijkheid), of (b) spelers' verwachtingen over elkaars gedrag (subjectieve waarschijnlijkheid). Derde optie: (c) percentages van een bevolking die de verschillende zuivere strategieën spelen.

3 3 Eindig herhaalde spelen Prisoner's Dilemma C D C 3. 3 0, 5 D 5, 0 1, 1 Het enige Nash evenwicht was (D, D). Bekijk een aantal van deze spelen achter elkaar. Alle oude strategieën blijven uiteraard bestaan: "speel altijd C", "speel altijd D". Maar er ontstaan ook hele nieuwe strategieën want we kunnen onze keuzen afhankelijk maken van wat de tegenstander in de vorige ronde heeft gedaan. (NB In de spelbomen van Week 6 kon dat ook al.) Voorbeeld: Lik op Stuk Begin met C. Speel C als de tegenstander in de vorige ronde C heeft gespeeld, en D als hij D heeft gespeeld. Dit straft tegenwerking meteen af in de volgende ronde maar vergeeft ook weer na een ronde. Feit (D, D) is het enige Nash evenwicht in een herhaald Prisoner's Dilemma. Backward induction: Zermelo analyse spelboom. In de een-na-laatste ronde is de situatie der spelers als in het enkele spel: dus spelen ze (D, D). Maar dat begrijpen ze de ronde daarvoor al, dus kunnen ze daar net zo goed (D, D) spelen: enz.

4 Oneindig herhaalde spelen Uitkomsten voor een speler van oneindige rij: Σ i r i u i waar i loopt van 0 tot oneindig r i u i kans dat je aan het i-de spel toekomt, dan wel een z.g. discontofactor je uitkomst in het i-de spel. Voorbeeld Prisoner's Dilemma, met r = 3/4. Spelers die steeds D spelen krijgen beide: Σ i (3/4) i 1 = (1 / (1 3/4)) 1 = 4 Steeds C spelen geeft beide: Σ i (3/4) i 3 = 12 Speler tegen LoS met altijd D : 5 + (3/4) 4 = 8 Speler tegen LoS met één keer D en daarna C : 5 + 0 + (3/4) 2 12 = 11 3/4 Speler tegen LoS met D, C, D, C, Σ i (9/16) i 5 = (1 / (1 9/16)) 5 = 11 3/7 Iets anders dan LoS tegen LoS : net niet 12... Goed nieuws Oneindige spelen hebben meer strategische evenwichten dan eindig herhaalde. (D, D) is nog steeds een evenwicht, maar ook Feit (LoS, LoS) is een Nash evenwicht! 4

Afwijken helpt niet tegen een LoS tegenstander. Informeel argument. Je wint 5 bij je eerste keer D waar de ander nog C speelt, maar of (a) je keert eens terug naar C, en verliest dan 5, en we staan weer op gelijke voet, of (b) je blijft D spelen, en krijgt in totaal minder dan wanneer je steeds C had gespeeld. (Zie eerdere rekensom.) Het precieze argument is iets ingewikkelder! Valkuil Waarom is herhaald PD zo aanlokkelijk? Je komt met slimme strategiëen op voorsprong, zodat de LoS speler minder krijgt dan jij! Maar ten koste van de beste opbrengst voor jou zelf Slecht nieuws 'Folk Theorems': Er bestaat een overstelpend grote hoeveelheid evenwichten. Bijv. is in herhaald PD elk paar uitkomsten (x, y) met x, y rationaal 1, tot aan de lijn x+y = 5, een mogelijke uitkomst van een Nash evenwicht. Aardig verband: deze evenwichten hebben vaak te maken met de 'afdwingbare' strategie-paren in het enkele spel die je tot evenwicht zou kunnen maken door afspraken, of door boetes/straffen. 5 Strategieën via eindige automaten Begrip uit Week 1! Eindige automaat voor D : D D C 5

6 Eindige automaat voor LoS, begintoestand links: D C C D D C Spelers met een beperkt geheugen! Hoe meer toestanden: hoe meer 'sophistication' in respons. Vereenvoudigt allerlei zaken: bijv. uitkomsten kunnen we nu identificeren met de gemiddelde opbrengst over de eindige herhaalde 'cyclus' van paren toestanden waarin dergelijke automaten uiteindelijk raken als ze tegen elkaar spelen. 6 Lik op Stuk: how the good guys win? Je kunt tegen LoS niet beter uitkomen dan door via LoS mee te werken. Samenwerking loont! Axelrod's Tournooi 'Tit for Tat' won doorgaans op den duur tegen andere computerprogramma's. http://www-personal.umich.edu/%7eaxe/ Precieze verklaring niet makkelijk. Er is meer aan de hand dan (LoS, LoS)'s Nash evenwicht. Axelrod suggereert (a) LoS, eenmaal aanwezig, is stabiel tegen invasie door anderen en nog sterker, (b) samenwerking heeft ook meer kans op ontstaan in een bevolking dan tegenwerking. (Deze laatste bewering is wiskundig omstreden.) Voorbeeld 1: een bevolking met LoS kan niet worden geïnfilteerd door groepje slechterikken.

7 De indringers kunnen zich niet handhaven. Ze krijgen gemiddeld 4 onderling, en in ontmoeting met inboorling 8. Inboorling met soortgenoot krijgt 12 met slechterik 3. Maar nu de kansen! Bijv. bij 10% indringers zijn verwachte waarden: 9/10 12 + 1/10 3 =11.1 > 9/10 8 + 1/10 4 =7.6 Voorbeeld 2: een bevolking met D kan wel worden geïnfilteerd door LoS goedzakken. Die kunnen zich dank zij voordeel uitbreiden, mits samenwerking genoeg meerwaarde geeft. Bijv. 3/4 4 + 1/4 8 = 5 < 3/4 3 + 1/4 12 = 5 1/4! Dit scenario afkomstig uit de evolutie-biologie. Zorg Afhankelijkheid van te specifieke getallen? spelwaarden, discontofactor, groepspercentages Het gaat alleen om kwalitatieve voorspellingen over stabiliteit. Die kunnen we bijv. technisch aflezen uit monotonie van variabelen in formules. 7 Evolutionaire stabiliteit Stel dat mutanten binnenkomen die strategie F spelen tegen een bevolking die in evenwicht strategie G speelt. Stel de kans dat een mutant een andere mutant tegenkomt is ε. Verwachte waarde van een ontmoeting voor een mutant: ε u (G, G) + (1 ε) u (G, F) Mutant mutant, mutant mutant, normaal

Voor de oude bevolking ligt dit symmetrisch: ε u (F, G) + (1 ε) u (F, F) Normaal Stabiliteit van F eist dat Mutant < Normaal voor elke andere strategie G Dit is een versterking van het Nash evenwicht: Feit F is evolutionair stabiel (a) (F, F) is een Nash evenwicht, en (b) als u (F, F) = u (G, F), dan u (G, G) < U (F, G) Spelen waar dit uitmaakt makkelijk te vinden. In het oneindig herhaalde Prisoner's Dilemma: D is niet evolutionair stabiel (zie boven), maar LoS is dat evenmin! Een invasie door pure 'goodies' is nl. mogelijk. Dit is een populair scenario van speltheoretici. Rubinstein ("Economics and Language") past ES zelfs toe op onze taal: varianten op betekenissen, of op standaardconventies zoals 'informatief zijn, en de toehoorder helpen', leggen het af We kunnen ook op een andere (zij het verwante) manier naar oneindig herhaalde spelen kijken, dichter bij Robbert's eerste college. In het volgende kijken we naar spelers in een bevolking met pure of gemengde strategieën die vaststaan: er wordt niet onderweg gereageerd op wat in eerdere ontmoetingen is gebeurd. Geen LoSers! 8

8 Spelen als dynamische systemen Replicator dynamiek. Meer gedetailleerd model van wat in een populatie gebeurt. Bijv. Chicken: Duif 9 Havik Duif 1, 1 0, 2 Havik 2, 0 1, 1 Evenwichten (Du, Ha), (Ha, Du), 50/50 Du/Ha. Interpreteer nu de uitkomsten als 'extra fitness'. Stel in de bevolking zijn p % Ha's, 1 p % Du's. Een Du heeft gemiddeld als extra fitness: f D (p) = (1 p) 1 + p 0 = 1 p Een Ha heeft gemiddeld als extra fitness: f H (p) = (1 p) 2 + p 1 = 2 3p Gemiddelde fitness winst f gem p f H (p) + (1 p) f D (p) = 1 2p 2 Replicator vergelijking voor verandering in p(t): dp/dt = p (f H (p) f gem ) In ons geval: p' = p (2p 2 3p +1) = p (p 1) (2p 1) Rustpunten: p=0, p=1, p=1/2

Dynamisch systeem: asymptotische convergentie naar p =1/2! 0 1/2 1 Algemeen convergentie naar evenwichten uit het enkele spel, eventueel naar gemengde stategiëen. Resultaat hangt af van type 'basis-ontmoeting'. Zelfde analyse voor Prisoner's Dilemma: met onze waarden replicator vergelijking: p' = p (p 2) (p 1) en convergentie naar p = 1 : de D's winnen. NB In deze analyse winnen de bad guys dus! Uitkomsten afhankelijk van het model. (Binmore: met andere scenarios kunnen ook gemengde populaties voorkomen maar om het goede te laten zegevieren veel extra aannamen nodig ) 10 Herschrijving algemene formule: p' = p (1 p) (p (u H, H u D, H ) + (1 p) (u H, D u D, D ) Resultaten dan direct afleesbaar uit spel-matrix. Geen continuïteit: kleine verschillen in begincondities kunnen beslissend zijn voor soort systeem.

Terzijde Verband vorige onderwerp: evolutionaire stabiliteit helpt soms deze gedetailleerde dynamisch-systeem berekeningen over te slaan. Feit In 1-staps 2-persoon spelen zijn de symmetrische evolutionair stabiele strategieën juist de asymptotische attractoren in de bovenstaande replicator dynamiek. Met meer dan 2 spelers ligt dit ingewikkelder. Terzijde Rijmen diverse 'strijdige' uitkomsten? D is evolutionair stabiel in het enkele PD maar "steeds D" is niet e.s. in oneindig herhaald PD. Onze twee modellen voor 'oneindige herhaling' zijn dus niet helemaal hetzelfde. Axelrod's tournooi past ook in deze traditie: populatie dynamica met ronden inzendingen in verschillende mengsels. 1997: The complexity of cooperation. Geschiedenis van dit onderzoek tot vandaag, inclusief kritiek van norrige speltheoretici, en vele verfijningen (bijv. leermechanismen die strategieën kunnen veranderen): http://jasss.soc.surrey.ac.uk/3/2/forum/1.html 9 Nogmaals voorspellen/verklaren gedrag Hangt sterk af van model en begin-aannamen. Bijv. overleven 'goodies' soms niet qua ES, maar wel als ze grotere kans hebben initieel om elkaar te ontmoeten, bijv. door ongelijke distributie van het territorium. Ook zegt de theorie weinig over het leren van nieuwe strategieën, of ontstaan van een sociale hiërarchie die interacties beïnvloedt. 11

Veel scenarios zijn nu nog te ingewikkeld voor analytische oplossingen als dynamisch systeem, en er wordt veel gewerkt met computersimulaties. Bijv. filosoof Skyrms over Haas en Hert, met studie van ontstaan van normen en regels. Vraag Wanneer ontstaat samenwerking 'vanzelf'? 12 Algemene discussie: bewuste moraliteit, geplande sociale organisatie versus blinde, in grote aantallen vanzelf ontstaande gedragspatronen. Algemene discussie: logica versus statistiek. Welke verschijnselen van 'rationeel' handelen en meningsvorming in onze maatschappij berusten op logisch redeneren, en welke louter op onvermijdelijke statistische patronen? Bijv. Mouwen's natuurkundig model voor meningsverandering Literatuur Ken Binmore, 1992, Fun and Games, Heath & Co., Lexington (Mass.). Robert Axelrod, 1984, The Evolution of Cooperation, Pelican books, Harmondsworth. Kees Mouwen, 1998, The Dynamics of Opinion Change, Tilburg University Press, Tilburg. http://serendip.brynmawr.edu/playground/pd.html M. Osborne & A. Rubinstein, 1994, A Course in Game Theory, MIT Press, Cambridge (Mass.).

13 OPGAVEN, laatste set 1 Wat is de uitkomst in oneindig PD van LoS tegen GRIM, de strategie die begint met C maar na de eerste D van de tegenstander voortaan altijd D speelt? Is (GRIM, GRIM) een Nash evenwicht? 2 Schrijf een eindige automaat voor GRIM. 3 (bonus) Bewijs het Feit dat evolutionair stabiele strategiën via versterkt Nash evenwicht karakteriseert. 4 (bonus) Wat is de replicator-formule voor het spel 'Hertje en Haasje', met een matrix als op RD's college gegeven? Waar zit de asymptotische attractor?