Eindwerk Speltheorie Ben Hermans 2011-2012 1 Speltheorie 1.1 Wat is speltheorie? Speltheorie is een tak van de wiskunde die zogenaamde spellen analyseert. Een spel beperkt zich hierbij niet tot een vrijetijdsbesteding (zoals bijvoorbeeld een kaartspel), maar houdt een interactie in tussen één of meerdere spelers waarbij het nemen van beslissingen centraal staat. Het wegnemen van lucifers (zie Wiskunde B-dag 2011) is een voorbeeld van een spel met twee spelers waarbij om de beurt een beslissing moet worden genomen. Bij de speltheorie wordt altijd aangenomen dat mensen rationeel handelen. Meestal betekent dit voor eigen gewin gaan. Bij het luciferspel bijvoorbeeld wordt ervan uitgegaan dat elke speler het spel tracht te winnen. 1.2 Typen spellen 1.2.1 Coöperatieve spellen en niet-coöperatieve spellen Bij coöperatieve spellen kunnen bindende afspraken gemaakt worden tussen verschillende spelers. We hebben het dan niet over de spelregels (die liggen al op voorhand vast), maar over de gebruikte tactiek, ook wel strategie genoemd. Bij niet-coöperatieve spellen is het niet mogelijk dat er bindende afspraken worden gemaakt. Een voorbeeld van een coöperatief spel is de variant op het driedeurenspel (uit de MMM-wedstrijd 2012) waarbij de twee spelers op voorhand hun strategie kunnen uitwisselen. Schaken en dammen zijn voorbeelden van nietcoöperatieve spellen. 1
1.2.2 Spellen met complete en incomplete informatie De naam spreekt voor zich. Bij een spel met complete informatie kennen alle spelers de volledige situatie, m.a.w. ze beschikken over alle relevante informatie. Een gemakkelijk voorbeeld is opnieuw schaken waarbij een speler op elk moment van het spel weet hoe de pionnen van zijn tegenspeler staan. Een spel met incomplete informatie is een spel waarbij één of meerdere spelers niet beschikken over alle informatie omtrent het spel. Een voorbeeld is het spel stratego, waarbij je niet wee hoe de pionnen van je tegenstander opgesteld staan, net zoals ook bij Zeeslag het geval is. Een ander voorbeeld is de Sonttol, maar daar gaan we het later nog uitgebreid over hebben. 1.2.3 Symmetrische en niet-symmetrische spellen Bij een symmetrisch spel hangt de strategie per speler niet af van de rol die hij in het spel heeft. Dit is een redelijk vage omschrijving. Er wordt bedoeld dat bij een symmetrisch spel er geen rollen zijn waarvan je beslissingen ullen afhangen, ofwel iedereen heeft hetzelfde doel. Een voorbeeld is opnieuw schaken, waarbij je dezelfde pionnen en hetzelfde doel (de koning van de tegenstander schaakmat zetten) hebt als je tegenspeler. Een ander (u allicht bekend) vorbeeld is het kaartspel wizards waarbij iedereen hetzelfde aantal kaarten heeft en tracht zijn voorspeld aantal slagen te halen. Een niet-symmetrisch spel bevat wel rollen. Een voorbeeld is weervolven, hoewel dit moeilijk speltheoretisch benaderd kan worden, en wiezen waarbij de ploegen en dus de strategieën voortdurend wisselen. 1.2.4 Sequentiële en simultane spellen Bij sequentiële spellen ben je je als speler bewust van de beslissingen van de tegenspeler. Als variatie op schaken dragen we maar eens dammen aan als voorbeeld. Bij simultane spellen gebeuren de acties van de spelers tegelijkertijd of weten ze niet van de acties van de tegenspeler. Een gekend simultaan spel is bijvoorbeeld blad-steen-schaar. 1.2.5 Hybride spellen en metaspellen Dit zijn nog categorieën apart en ik vermeld ze even kort. Een hybride spel combineert elementen uit afzonderlijke typen spellen. Ik zou niet zo direct een voorbeeld kunnen bedenken. Een metaspel wordt vaak gezien als een spel binnen een spel. De ontwikkelingen in het metaspel zijn belangrijk voor het andere spel. Bij poker bijvoorbeeld zou je kunnen meegaan met een slechte hand om de ander zijn 2
hand op het einde te zien en zo meer te weten te komen over zijn speelstijl. Het doel van het spel binnen het pokerspel is dan informatie te verkrijgen over andere spelers en niet het winnen met de kaarten. Zo, dat was ongeveer alles over de inleiding op de speltheorie. Maar voor we kunnen beginnen aan de Sonttol moeten we nog één aspect van de speltheorie duidelijk maken... het Nash-evenwicht. 1.3 Het Nash-evenwicht Het Nash-evenwicht is afkomstig van de geniale wiskundige John Forbes Nash. In de film A Beautiful Mind wordt gehandeld over bepaalde delen uit zijn leven en over zijn schizofrenie. Over meneer Nash kan u ongetwijfeld boeken lezen maar hier gaan we niet verder op hem in. Ik kan het Nash-evenwicht waarschijnlijk het best uitleggen aan de hand van een voorbeeld. Het meest bekende is het Gevangenendilemma (ook wel het Prisoner s dilemma). Er zijn twee gevangenen die moeten kiezen tussen zwijgen of bekennen. We noemen de gevangenen A en B. We gaan ervan uit dat het twee volharde criminelen betreft die enkel handelen voor hun eigen goed. Hun straf hangt af van hun eigen beslissing en van de beslissing van de ander. Het volgende schema noemen we een payoff (of uitbetaling). Het bevat de mogelijke keuzes van beide spelers en wat hun winst/verlies bedraagt in elke situatie. A zwijgt A bekent B zwijgt A en B geldboete A is vrij, B krijgt 10 jaar B bekent B is vrij, A krijgt 10 jaar A en B krijgen 5 jaar Als je het zo bekijkt zegt mijn intuïtie dat ze allebei zouden zwijgen en dus gaan voor de geldboete. Maar dit is geen Nash-evenwicht. Een Nashevenwicht betekent dat voor een gegeven strategie van je tegenspeler jouw strategie dan ook vastligt (in functie van het doel van het spel). In dit geval, als B zeker weet dat A zwijgt dan zal hij bekennen (het is immers een volharde crimineel) om vrij te zijn in plaats van een geldboete te moeten betalen. Gegeven dat A bekent, zal B ook bekennen (5 jaar i.p.v. 10 jaar in de gevangenis). Hierbij is dus het Nash-evenwicht: A en B bekennen 3
en ze krijgen allebei 5 jaar. Goed, dan kunnen we nu overgaan naar het eigenlijke onderwerp: de Sonttol. 2 De Sonttol 2.1 Wat is de Sonttol? De Sonttol is ingevoerd in Denemarken van 1429 tot 1857. Buitenlandse schepen die door de Sont, de zeestraat tussen Denemarken en Zweden, voeren moesten tol betalen aan de Deense kroon. Aanvankelijk ging het om een vast bedrag per schip maar dat veranderde naar een belasting over de waarde van het schip. Op dat moment zaten de Denen met een probleem. Ze konden moeilijk ieder passerend schip ondersteboven halen om de vrachtwaarde te bepalen. Makkelijker was het om gewoon de kapitein te vragen naar de waarde van zijn lading. Spijtig genoeg was niet elke kapitein even eerlijk. Dus hebben de Denen veel belastingsgeld misgelopen, tot er op een dag een slimmerik afkwam. Het volgende plan werd ingevoerd: de kapitein werd gevraagd naar de vrachtwaarde, waarop vervolgens belasting werd geheven. Maar op elk moment had de Deense koning het recht om de vracht over te kopen tegen de opgegeven waarde. Mijn intuïtie zegt mij dat ik als schipper waarschijnlijk de juiste waarde zou hebben opgegeven om geen verlies te lijden bij de verkoop of om niet te veel belasting te betalen. Is deze intuïtie juist? Hier volgt een speltheoretische benadering van de Sonttol. 2.2 Speltheoretische benadering De Sonttol kan gezien worden als een spel tussen twee spelers, de Deense koning en de schipper. Het is een niet-coöperatief spel, de koning en de schipper werken immers niet samen. Ook is het niet-symmetrisch, de koning en de schipper vertegenwoordigen verschillende rollen en hebben andere doelen. Er is hier natuurlijk sprake van incomplete informatie, want de koning kent de vrachtwaarde niet. Het spel is sequentieel omdat de schipper en de koning om de beurt handelen. We voeren enkele letters in: K = koning S = schipper v = werkelijke vrachtwaarde 4
m = de vrachtwaarde die de schipper opgeeft = de belastingsvoet (gelegen tussen 0 en 1) Het verloop van de gebeurtenissen is als volgt: eerst deelt de schipper m (de opgegeven vrachtwaarde) mee aan de koning. Daarna beslist de koning of hij de vracht zal opkopen tegen de waarde m of dat hij belasting zal heffen die dan gelijk is aan m. Payoff: Belasting heffen Opkopen Opbrengst K m v m Opbrengst S m m v Laten we deze speltheoretische situatie analyseren. Intuïtief zou je kunnen aanvoelen dat de koning niet kan weten of m groter of kleiner is dan v, en dat hij dus zal moeten gokken om zijn gewilde belasting te realiseren. Maar bekijken we eens het volgende: Stel dat de schipper weet dat de koning zijn vracht zal opkopen met kans p = en de belasting zal heffen met kans 1 p = 1 = = 1. Definiren we dan de stochast X = het verlies van de schipper: i m v m P ( = i ) 1 Dit is een kansverdeling omdat P ( = i ) = 1 + = = 1. 5
Het verwachte verlies voor de schipper is dan: E() = 1 m + v (v m) = m + v m = Dus is het verwachte verlies van de schipper onafhankelijk van de opgegeven waarde m. Hier wordt een Nash-evenwicht bereikt: gegeven de strategie van de koning (opkopen met kans ) heeft het voor de schipper geen zin om van strategie te veranderen. Gegeven de strategie van de schipper zal de koning zijn strategie niet aanpassen omdat zijn verwachte opbrengst toch dezelfde blijft, namelijk v. Aangezien de verwachte opbrengst voor de koning onafhankelijk is van m (de opgegeven waarde), kan de koning altijd zijn gewenste opbrengst realiseren. Bekijken we de functie y = : 1.5 1 0.5 B A 0.5 0 1 2 6
Het zinvol domein is [0,1] aangezien de belastingsvoet is. = 0 y = 0 = 1 y = 1 (1) 2 dy d = 1 = > 0 y is strikt stijgend. (2) () 2 () 2 Uit (1) en (2) volgt dat 0 1 0 y 1 2 v De verwachte opbrengst van de koning is = yv. Hij kan dus een opbrengst verkrijgen tot 50% van de werkelijke waarde van de lading van het schip. Aangezien de normale belastingsvoet zo n 2 à 3% was, kan de koning altijd zijn gewenste opbrengst realiseren. Om te bepalen wat de geheven belastingsvoet moet zijn, halen we uit de vorige functie. y = () y = y = y (y 1) = y = y 1 y De functie y = is de inverse funcite van de hierboven getekende 1 functie. Laten we deze functie ook maar eens tekenen: 7
2 1 2 1 0 1 2 1 De groene functie is de functie waar we momenteel mee werken. Het is de inverse van de zwarte functie (y = ). Het zinvol domein is [0, 1 2 ] Een voorbeeldje: de koning wil 2% belastingsvoet heffen op de werkelijke waarde v. Dan is: 2 100 = 1 2 = 2 98 = 1 2, 04% 49 100 Dus moet de koning 2,04% belastingsvoet heffen om een belastingsvoet van 2% te realiseren. Hiermee is het verhaal voor de koning wel afgerond. Hij heeft een prachtige strategie waarbij hij de schipper altijd schaakmat kan zetten. Hieruit volgt logischerwijs dat er geen winnende strategie is voor de schipper, tenminste wanneer de koning dit plan volgt. Maar aangezien de verwachte opbrengst van de koning enkel op lange termijn geldt, zullen enkele schippers wat meer geluk hebben dan andere. Als wiskundigen zijn we ook nog niet uitgepraat over het systeem. voor een zelfgevonden stelling: Tijd Stelling 1. Opkopen met kans p = is de enige nuttige (= winstge- 8
vende) strategie voor de koning. Bewijs. Stel de kans dat de koning de lading opkoopt gelijk aan p. Dan is het verwachte verlies van de schipper gelijk aan: E() = p (v m) + (1 p) m = pv pm + m pm = pv ( p p) m Als de koning de gegeven vrachtwaarde m waardeloos wil maken moet: p p = 0 = p + p p () = p = Dit is dus de unieke oplossing om m uit het spel te zetten. Stel nu dat de koning deze strategie niet volgt: p p 0 Dan is het verwachte verlies van de schipper: ( p p) m + pv = y Dit is een rechte in functie van m. Als p p > 0 zal Als p p < 0 zal lim y = + en lim y = m + m lim y = en lim y = + m + m 9
Aangezien de schipper zijn verlies wil minimaliseren zal hij in het eerste geval een vrachtwaarde van en in het tweede geval een vrachtwaarde van + opgeven. Enkele opmerkingen: In de praktijk is het ondenkbaar dat de schipper een negatieve vrachtwaarde opgeeft. Ook de waarde oneindig is praktisch onmogelijk. Daarbij zijn dit geen Nash-evenwichten, want: Gegeven de strategie de strategie van de schipper (m = + ) heeft het voor de koning geen zin om zijn strategie te volgen, maar kan hij best gewoon belasting heffen, aangezien zijn opbrengst dan altijd + is. Gegeven de strategie van de schipper (m = ) zal de koning zijn strategie niet volgen, maar simpelweg de lading opkopen want dan wordt de opbrengst van de koning weer oneindig groot. Daaruit kunnen we concluderen dat er niet echt een winnende strategie bestaat voor de schipper, en al zeker niet als de koning zijn winnende strategie volgt. 2.3 Besluit Sonttol Er zijn nog enkele dingen te zeggen over de Sonttol. Ik heb niet bewezen, en ik zou ook niet kunnen bewijzen dat ik alle Nash-evenwichten gevonden heb, maar bij de meeste situaties is dat ook niet de bedoeling. In het geval van de Sonttol zouden andere Nash-evenwichten toch geen meerwaarde bieden voor de koning. Hij kan ondertussen, zoals aangetoond, altijd zijn gewenste opbrengst realiseren. Hij was niet volledig geïnformeerd over de werkelijke vrachtwaarde v, maar met het gespeelde Nash-evenwicht (opkopen met kans ) kan hij wel altijd de schipper buiten spel zetten. In de literatuur wordt dat een shotgun-clausule genoemd. De shotgun-clausule is toepasbaar in vele belastingssystemen en andere spellen waarbij één speler niet over volledige informatie beschikt. In de praktijk betekent dit wel dat de koning willekeurig een aantal schipladingen moet opkopen. Dit kan leiden tot etra kosten, maar die zijn vaak te voorspellen. De koning kan gemakkelijk wat meer opbrengst van de schipper verkrijgen, door simpelweg zijn belastingstarief te verhogen. De Denen zijn dus met een zeer inventief systeem gekomen, zeker als we in beschouwing nemen dat de speltheorie toen nog niet bestond. Ik denk dat we nu wel uitgepraat zijn over de Sonttol. Maar dit is maar één van de vele aspecten van de speltheorie en als ik eerlijk mag zijn, een redlijk simpel aspect. We bestudeerden enkel de strategie van de koning, 10
omdat de schipper niet echt een zet had in het spel, buiten m meedelen, maar dat werd dan weer buiten spel gezet. Aangezien ik maar geen genoeg kan krijgen van de speltheorie zal ik nu eens een voorbeeld bekijken van een spel waarbij beide spelers meespelen. Dit spel heet Matching Pennies. 3 Matching Pennies 3.1 Inleiding op het spel Ik zal kort nog iets zeggen over het spel Matching Pennies. De spelregels zijn als volgt: er zijn twee spelers (A en B) en die kiezen allebei Kop of Munt. Als beide spelers hetzelfde kiezen krijgt A één euro van B, als ze verschillend kiezen krijgt B één euro van A. Matching Pennies is een niet-coöperatief, symmetrisch, simultaan spel met complete informatie. Ik denk dat deze onderverdeling voor zich spreekt. A en B werken niet samen, ze beschikken over dezelfde middelen, ze spelen niet om de beurt maar maken tegelijkertijd hun keuze, en ze beschikken over alle informatie in verband met het spel. Bij dit spel hoort de volgende simpele payoff: B kiest Kop B kiest Munt A kiest Kop A krijgt 1 euro B krijgt 1 euro A kiest Munt B krijgt 1 euro A krijgt 1 euro 3.2 Speltheoretische benadering Ten eerste, er is geen Nash-evenwicht in dit spel. Als A weet wat B zal kiezen, zal hij zijn eigen keuze altijd aanpassen en omgekeerd. Er bestaat zelfs geen echte strategie die voordeel biedt. Als je bijvoorbeeld twee keer het spel speelt, is het misschien verstandig om twee keer hetzelfde te kiezen, aangezien de meeste mensen verwachten dat je dat niet doet. Maar als je dit spel meerdere keren speelt, gaan zulke strategieën niet op. Het enige waar het hier op aankomt is onvoorspelbaar te zijn. Stelling 2. Enkel de gemengde strategie ( 1 2, 1 ) van A én B leidt tot een gemengd 2 Nash-evenwicht. 11
Goed, een kort woordje uitleg: met gemengde strategie bedoelen een strategie waarbij je meerdere mogelijkheden hebt. In dit geval zijn de mogelijkheden kiezen voor Kop en kiezen voor Munt. In het geval van de Sonttol was de gemengde strategie van de de koning (, 1 ) met de 1 kans voor opkopen en de kans om belasting te heffen. Met een gemengd Nash-evenwicht bedoelen we een situatie waarbij beide spelers niet beter kunnen spelen bij de gegeven strategie. Dus niet zoals bij de Sonttol, waarbij de schipper niet koos voor een strategie, maar enkel de koning dat deed. Bewijs. Stel dat A met kans p kiest voor Kop en met kans 1 p kiest voor Munt. Zijn gemengde strategie is dan (p, 1 p). Naar analogie is de gemengde strategie van B (q, 1 q). Definieer de stochast X = de winst van A: i 1 1 P ( = i ) pq + (1 p)(1 q) p(1 q) + (1 p)q Dit is een kansverdeling omdat: P ( = i ) = pq + (1 p)(1 q) + p(1 q) + (1 p)q = pq + 1 p q + pq + p pq + q pq = 1 De verwachte opbrengst van A wordt dan: E() = pq + (1 p)(1 q) p(1 q) q(1 p) = pq + 1 q p + pq p + pq q + pq = 4pq + 1 2p 2q = (4pq 2p) + (1 2q) = 2p(2q 1) (2q 1) = (2p 1)(2q 1) Als p = 1 2 dan is de verwachte opbrengst van A altijd 0. Als p 0 dan 12
kan B zijn strategie daaraan aanpassen zodat A verlies zal lijden. Want als p < 1 2 dan zal q > 1 2 zodat E() < 0. Als p > 1 2 dan zal q < 1, zodat weer 2 E() < 0. Hetzelfde geldt voor B. Als q 0 dan kan A zijn verwachte opbrengst altijd positief maken, zodat B verlies lijdt. We hebben hier een gemengd Nashevenwicht, waarbij A en B dezelfde gemengde strategie hebben, namelijk ( 1 2, 1 2 ). 4 Besluit van het eindwerk In dit eindwerk hebben we de eerste niveaus van de speltheorie onderzocht. Het ging voornamelijk over simpele situaties, waarbij de leerstof over kansrekenen uit het zesde jaar en een kleine portie rekenverstand toereikend waren. Persoonlijk vind ik de speltheorie enorm boeiend. Het ligt mij wel om dergelijke systemen op te stellen en ze uit te werken, al kan ik mij niet voorstellen hoe je een spel als schaken, waarbij je ongelooflijk veel mogelijkheden hebt, kunt analyseren. In dit werk ging het telkens over twee mogelijkheden en lag de oplossing erin elke mogelijkheid een bepaalde kanswaarde toe te schrijven. Dan nog vond ik het fantastisch dat je zo n dingen kan vinden, zonder dat je ze op het eerste zicht zou zien. Ik ga dit besluit en dit werk niet meer rekken. Ik hoop dat u er evenveel van hebt genoten dit werk te lezen, als ik er van heb genoten het te schrijven. Het spel is gespeeld, over and out. 4.1 Bronnenlijst Voor dit eindwerk heb ik gebruik gemaakt van volgende sites: http://nl.wikipedia.org/wiki/speltheorie http://nl.wikipedia.org/wiki/nash-evenwicht http://www.kennislink.nl/publicaties/de-speltheorie-van-de-sonttol http://www.math.leidenuniv.nl/ muskulus/files/lezing-nl.pdf 13