Hoofdstuk 5 Dobbelen, echt en virtueel 5.1 dobbelen In dit hoofdstukje gaan we de variabiliteit in een steekproef onderzoeken. Daarbij maken we gebruik van een beproefd stochastisch proces, nl het gooien met dobbelstenen. We nemen aan dat de uitslag van zo n worp alleen door het toeval wordt bepaald. > Maak in SPSS een nieuwe data-verzameling (File > New > Data). We gaan hier de resultaten van n = 50 worpen met 2 dobbelstenen in opslaan. Ga naar het nieuwe Data Editor venster, tabblad Data View, regel 1. Goed dan, aan de slag. Ga naar http://dobbelsteen.virtuworld.net waar je met twee virtuele dobbelstenen aan de gang kunt. Werp de dobbelstenen, en noteer de geworpen punten voor de eerste dobbelsteen in de eerste kolom, en die voor de tweede dobbelsteen in de tweede kolom. Ga naar een nieuwe regel, werp opnieuw, en ga zo door tot je 50 worpen (regels) hebt, elk met 2 kolommen. > Noem de twee variabelen (kolommen) worp1 en worp2. Zorg ook voor het correcte aantal decimalen bij deze variabelen. Sla de gegevens op in een bestand dobbel.sav. > Als de dobbelstenen helemaal eerlijk zouden zijn, wat is dan het verwachte gemiddelde van worp1? En van worp2? Als de dobbelstenen helemaal eerlijk zouden zijn, dan volgen de variabelen worp1 en worp2 een zgn. uniforme kansverdeling, waarbij iedere uitkomst een even grote kans van voorkomen heeft. Een dobbelsteen heeft 6 vlakken, en ieder vlak heeft een kans van 1/6 om boven te liggen. > Wat is je verwachting van de gemiddelde waarde van een worp. Kun je de te verwachten standaarddeviatie ook exact uitrekenen? Doen! > Controleer of de werkelijke gemiddelden ongeveer overeenkomen met je verwachtingen. Hebben worp1 en worp2 dezelfde minima, maxima, variantie? 21
> Iedere variabele heeft 6 mogelijke uitkomsten. Zijn deze mogelijke uitkomsten even vaak voorgekomen in jouw experiment, m.a.w. heb je wel eerlijke dobbelstenen gebruikt? Baseer je antwoorden op de vorm van het histogram. [Een meer formele toets om te onderzoeken of de dobbelsteen eerlijk is, d.w.z. een uniforme verdeling volgt, kun je uitvoeren met de zgn. Kolmogorov-Smirnov-toets. Deze is te vinden via Analyze > Nonparametric > 1-Sample KS > Uniform. Dat hoef je nu nog niet te doen! Als je het wel doet: er wordt getest tegen H0: de verdeling is uniform. P<0.05 betekent dat H0 op dat niveau verworpen kan worden en de verdeling dus niet-uniform is.] 5.2 COMPUTE [dv 16] Je kunt in SPSS ook eenvoudige berekeningen uitvoeren met je variabelen (P&D 5.4, 7.4) Dat is vooral handig als je nieuwe variabelen wilt uitrekenen, op basis van je bestaande variabelen. > Maak een nieuwe variabele genaamd wsom die de som is van de twee worpen met de dobbelstenen. Daarvoor gebruiken we het commando COMPUTE. [Data Editor] Kies Transform > Compute... Er verschijnt dan een invulscherm waarin je linksboven de naam van de nieuw te berekenen variabele opgeeft (wsom), en rechtsboven de formule voor die nieuwe variabele. Die formule kun je rechtstreeks intypen (worp1+worp2) of interactief opbouwen met losse elementen van het invulscherm. Het opgebouwde commando kun je doorsturen naar de SPSS Engine(met knop OK) of naar een Syntax venster (knop Paste). Doe dit laatste. De nieuwe variabele komt rechts naast de reeds gedefinieerde variabelen in je data-verzameling. [Syntax] Met het commando: COMPUTE wsom = worp1+worp2. (5.1) > Maak nog een nieuwe variabele genaamd wversch die het verschil worp1-worp2 bevat van de twee worpen met de dobbelstenen. Zorg weer voor het correcte aantal decimalen bij deze nieuwe variabelen. Sla alle gegevens op in hetzelfde bestand dobbel.sav dat je zo juist hebt bewaard. 22
> Als de dobbelstenen helemaal eerlijk zouden zijn, wat is het verwachte gemiddelde van wsom? En van wversch? Verwacht je voor beide nieuwe variabelen dezelfde minima, maxima, variantie? Motiveer je antwoorden! [merk op: je kunt ook het absolute verschil abs(worp1-worp2) kiezen. Het verwachte gemiddelde daarvan is een stuk ingewikkelder te berekenen, het is (Σn 2 + Σn)/36, met de som van 1 tot 5.] > Controleer of de werkelijke gemiddelden, minima, maxima en varianties ongeveer overeenkomen met je verwachting. Bespreek eventuele opmerkelijke afwijkingen van je verwachtingen. 5.3 simuleren Het dobbelen in de vorige opdracht kunnen we ook door de computer laten doen. We spreken dan van simulatie (P&D 6.3). Simulaties zijn handig omdat we veel statistische vragen kunnen reduceren tot een vraag die we met simulatie kunnen beantwoorden. We hoeven dan geen dobbelstenen te gooien, gewassen te oogsten, doodsoorzaken te bepalen, of klinkerduren te meten lekker makkelijk dus. Bovendien kunnen we makkelijk what-if - spelletjes spelen, door parameters van de simulatie anders in te stellen. Dat is makkelijker dan dobbelstenen verzwaren, kunstmest strooien, behandelingsmethoden wijzigen, of spreekomstandigheden aanpassen. > Maak een nieuwe variabele genaamd simu1, die een computer-simulatie is van de eerste dobbelsteen. Daarvoor gebruiken we weer het commando COMPUTE. Doe dit via het Syntax venster; als je menu s gebruikt kies dan voor de knop Paste en niet voor OK. De formule die je opgeeft moet gebruik maken van de voorgedefinieerde functie RV.UNIFORM(min,max) die een random variabele met een continue uniforme verdeling tussen min en max oplevert. RV.UNIFORM behoort tot de functie groep: Random numbers. Welke waarden moet je invullen voor min,max? Denk eraan dat elk dobbelsteengetal een gelijke kans moet krijgen! Het resultaat van de functie RV.UNIFORM moet je nog wel afronden met behulp van de functie RND(). Zorg dat je als argument tussen de haakjes de complete functie voor het random number invult. Je wilt tenslotte datgene wat uit het algoritme RV.UNIFORM komt afronden, dus let op waar je haakjes staan en wat dit betekent voor het eindresultaat simu1. 23
> Doe hetzelfde voor een tweede nieuwe variabele simu2 voor de tweede virtuele dobbelsteen. Bereken ook weer de som (ssom) en het verschil(sversch). Zorg weer voor het correcte aantal decimalen bij alle nieuwe variabelen. Sla de uitgebreide data-verzameling weer op in hetzelfde bestand dobbel.sav dat je eerder hebt bewaard. > Inspecteer de overeenkomsten en verschillen tussen de echte en virtuele worpen met de eerste dobbelsteen, en idem met de tweede dobbelsteen. Doe hetzelfde met de echte en virtuele som- en verschil-variabelen. Zijn er opmerkelijke verschillen in frequentieverdeling, histogram, gemiddelde, interquartile range, minima, maxima, gemiddelde, variantie? > Welke variabelen liggen dichter bij de verwachtingen die je eerder hebt geformuleerd, die van de echte dobbelstenen of van de virtuele? Bespreek! 5.4 meer simuleren Je hebt vermoedelijk gemerkt dat het werpen van de echte dobbelstenen, en invoeren van de uitkomsten meer tijd heeft gekost dan het simuleren met virtuele dobbelstenen. Als je eenmaal de commando s voor de simulatie in het Syntax venster hebt staan, dan hoef je alleen maar die commando s door te geven aan de SPSS Engine. Je ziet dat om iets te simuleren, computers handiger zijn dan de echte wereld. > Noteer eerst het gemiddelde voor de variabele sversch dat je vond bij de vorige opdracht:.... Mooi. Nu gaan we de hele simulatie herhalen! We concentreren ons voorlopig op de variabele sversch. [Syntax] Nu blijkt het handig te zijn wanneer we de vorige opdracht via het Syntax venster hebben uitgevoerd. Selecteer de juiste commando s in het Syntax venster: als het goed is heb je drie COMPUTE commando s, plus een DESCRIPTIVES commando 6. Kies dan Run > Selection in dat venster. Denk eraan dat COMPUTE bestaande variabelen overschrijft zonder te vragen of je dat wel echt wilt. Maar in het Outputvenster wordt wel steeds het gemiddelde en standaarddeviatie van sversch neergezet en bewaard, waar je dan verder mee 6 [Syntax] Eventueel kun je tekst in het Syntax venster verplaatsen en bewerken; dat gaat ongeveer hetzelfde als in een standaard Windows editor. 24
kunt werken. Uiteraard kun je ook steeds nieuwe variabelen maken in je Syntax venster, maar voor ons doel is dat eigenlijk niet nodig. > Noteer het gemiddelde voor de nieuw berekende variabele sversch:.... Op dit punt hebben we een experiment waarin 2 dobbelstenen 50 worden geworpen, en het gemiddelde verschil bepaald tussen de twee uitkomsten, al tweemaal gesimuleerd. En met minder moeite dan het echte dobbelen. Dit zouden we een groot aantal keer kunnen herhalen, maar dat doen we niet. Verzamel gewoon alle waarden die gevonden zijn in de klas voor sversch. Dit kost te veel tijd, ga door naar het volgende hoofdstuk na wel nog even over de eerst volgende opdracht te hebben nagedacht! > Kun je eerst bedenken wat het verwachte gemiddelde zal zijn over alle gemiddelden van sversch die zijn gesimuleerd? (dwz het gemiddeld van het gemiddelde verschil!) Heb je verwachtingen over de variantie of standaarddeviatie hiervan, noteer die dan ook, en schrijf je motivaties voor deze verwachtingen uit bij je aantekeningen. > Voer de in de klas verzamelde gegevens weer in SPSS in. Geef de variabele een zinnige naam. Sla de gegevens op in SPSS formaat, in bestand simutotaal.sav in je cursus-directory. Inspecteer de variabele, met behulp van de grafische en numerieke technieken die we eerder behandeld hebben. Maak histogrammen met verschillende intervallen langs de horizontale as. Wat valt je op aan de frequentie-verdeling en/of histogram? Bekijk of de variabele normaal verdeeld is. Komt het gemiddelde ongeveer overeen met de verwachte waarde? Zijn de virtuele dobbelstenen nu eerlijk gebleken, of niet? Waarom is de zekerheid van deze uitspraak nu toegenomen ten opzichte van de opdracht in 5.3? Eigenlijk heb jullie nu samen één experiment gedaan waarin je n x 50 simulaties hebt gedaan. Je nieuwe dataverzameling is even accuraat als één experiment waarin je n x 50 maal met twee dobbelstenen hebt gegooit. Een normale verdeling is gebaseerd op een oneindig aantal worpen en je zal gezien hebben dat hoe vaker je gooit hoe nauwkeuriger de resultaten op een normale verdeling lijken en de gemiddelden gaan lijken op de verdeling die je wiskundig gezien verwacht. 25