12. VARIANTIEANALYSE

Maat: px
Weergave met pagina beginnen:

Download "12. VARIANTIEANALYSE"

Transcriptie

1 12. VARIANTIEANALYSE 12.1 Inleiding Dit hoofdstuk gaat over variantieanalyse (ook wel ANOVA, ANalysis Of VAriance) en is een compacte mix van ideeën en meningen van diverse auteurs, geselecteerd volgens onze smaak, en onze ideeën, en verwerkt op onze manier. Deze auteurs zijn allen deskundigen, maar helaas zijn ze het niet altijd met elkaar eens. Het zij zo. In elk geval hebben we ons laten inspireren door publicaties van achtereenvolgens Bradley (1968), Edwards (1968), Hays (1973), Hoel (1971), Kerlinger (1981), Kirk (1968), Koele en Van der Brink (1987), Meerling (1984) en Winer (1971). Wat betreft de notaties en terminologieën is het schipperen: consequent Nederlandse terminologie aanhouden zou prachtig zijn, maar dat is ons niet gelukt. Vaak zijn begrippen domweg niet goed vertaalbaar. Bovendien zou dat voorbijgaan aan het feit dat daarmee de merendeels Engelstalige literatuur nogal moeilijk toegankelijk wordt. Hoe zit dit hoofdstuk in elkaar? We beginnen zo meteen (paragraaf 12.2) met een drietal voorbeelden van onderzoek waarvan de uitkomsten getoetst kunnen worden met de ANOVA-techniek. De bedoeling van de paragraaf is je vertrouwd te maken met de toetsingstechniek, met de zo hier en daar wat afwijkende terminologie, en met de voorwaarden waaronder van de techniek gebruik mag worden gemaakt. In paragraaf 12.3 introduceren we de techniek op een meer intuïtieve wijze door in te gaan op de gedachtegang achter de toets. In paragraaf 12.4 leiden we een formele gedaante af voor de eenvoudigste toetsingsgrootheid. In de daaropvolgende paragrafen compliceren we die grootheid exemplarisch. Telkens wanneer je bij het bestuderen van die paragrafen een vastloper oploopt, geldt als welgemeend advies: terug naar paragraaf 2. Met de daarin aangedragen studeerstof moet je in staat zijn om de verdere paragrafen zelfstandig te bestuderen. Zoals te doen gebruikelijk besluiten we het hoofdstuk met een aantal opgaven ANOVA: enkele voorbeelden Variantieanalyse is, net als de t-toets, een statistische generalisatietechniek, dat wil zeggen: een instrument dat behulpzaam is, of kan zijn, bij de formulering van uitspraken omtrent de eigenschappen van populaties op basis van steekproefgegevens. Die uitspraken hebben betrekking op het al dan niet gelijk zijn van een aantal (twee of meer) populatiegemiddelden. In deze zin kan variantieanalyse dan ook opgevat worden als een soort uitgebreide t-toets. Echter, met behulp van variantieanalyse kunnen de gegevens van meer dan twee steekproeven gelijktijdig geanalyseerd worden. Bovendien is het mogelijk om de effecten van verschillende onafhankelijke variabelen simultaan in de analyse te betrekken. Kijk eens naar Tabel In dit voorbeeld wordt het gemiddeld niveau vergeleken van neuroticisme van een drietal populaties, namelijk bewoners van laagbouw, middelhoogbouw en hoogbouwwoningen. Daaruit zijn drie even grote, aselecte steekproeven getrokken. Daarna is aan alle personen in de steekproef een neuroticismetest afgenomen.

2 224 Tabel Bouwhoogte en neuroticisme (met een algemeen gemiddelde van 66.33). Bouwhoogte Laag Middelhoog Hoog Neuroticismescores Gemiddelde Standaarddeviatie Er zijn dus drie populaties onderscheiden aan de hand van één variabele, te weten de variabele bouwhoogte. Bouwhoogte is in deze opzet een onafhankelijke variabele, en neuroticisme de afhankelijke variabele. De terminologie wijkt bij de variantieanalyse overigens af van de gebruikelijke (zoals bij de t-toets). Onafhankelijke variabelen worden factoren genoemd, en de schaalpunten ervan (dus in het voorbeeld de drie bouwhoogtes, laag, middelhoog en hoog) niveaus. Het aantal personen/respondenten of scores per steekproef worden het aantal replicatie genoemd. De groep replicaties bij een onderscheiden niveau heet een cel. Om nu te onderzoeken of de drie populaties verschillen wat gemiddelde neuroticismescore betreft zouden we drie t-toetsen uit kunnen voeren: voor een vergelijking van de groepen laag-middelhoog, laag-hoog en middelhoog-hoog. Daar kleven echter verschillende bezwaren aan. Eén ervan noemen we hier: iedere keer dat je de t-toets uitvoert loop je het risico op een alfa-fout (dus je verwerpt de H 0 ten onrechte). Dat is bij één keer een t- toetsuitvoering een moedwillig ingecalculeerd risico.bij zo n repeterende t-toetsing (en om van vier groepen de gemiddelden te vergelijken, moet al zes keer een t-toets uitgevoerd worden!) vergroot je echter het risico zeer snel en cumuleert het werkelijke alfaniveau tot onaanvaardbaar hoog niveau. In het bovenstaande voorbeeld zou je om alle drie de condities te vergelijken drie t- toetsen uit moeten voeren. Voor elke toetsing heb je een kans om een α-fout te maken van De kans dat je tenminste één foute beslissing neemt wordt nu, de kans dat je bij de vergelijking niveau laag met niveau middelhoog een foute beslissing neemt plus de kans dat je bij de vergelijking niveau laag met niveau hoog een foute beslissing neemt plus de kans dat je bij de vergelijking niveau middelhoog met niveau hoog een foute beslissing neemt plus de kans dat je bij beide vergelijkingen een verkeerde beslissing neemt. Je ziet, overall genomen wordt deze kans een stuk groter dan het α-niveau van vijf procent. Variantieanalyse biedt de mogelijkheid om op grond van één toetsing de houdbaarheid te onderzoeken van de nulhypothese: alle populatiegemiddelden zijn aan elkaar gelijk. Verwerping van deze nulhypothese impliceert overigens dat niet alle populatiegemiddelden aan elkaar gelijk zijn, maar verwerping geeft niet aan waar die verschillen te vinden zijn.

3 HOOFDSTUK 12: VARIANTIEANALYSE (Verdere analyse kan dus noodzakelijk zijn). Variantieanalyse kan dus het beste gekenschetst worden als een vrij globale generalisatietechniek, die in feite uitsluitend kan worden toegepast als men a priori geen specifieke voorspellingen kan of wil doen omtrent de verschillen tussen de populaties. Een variantieanalyse toegepast op de scores in Tabel 12.1 zal tot verwerping van de nulhypothese leiden; de gemiddelden zijn niet gelijk. Kan nu geconcludeerd worden dat verschillen in neuroticisme veroorzaakt worden door verschil in bouwhoogte van de woning? Hier is enige terughoudendheid op zijn plaats. Het is immers niet uit te sluiten dat de drie populaties niet alleen wat betreft bouwhoogte systematisch van elkaar verschillen, maar ook wat betreft andere factoren, die niet in het onderzoek opgenomen zijn. Bejaarden en gezinnen met kleine kinderen zullen bij voorbeeld vaker in laagbouw aangetroffen worden, en zo zijn er nog talloze alternatieve verklaring voor het verschil in gemiddeld neuroticisme te bedenken. Hieruit kunnen we de wijze les trekken dat vergelijkingen tussen populatiegemiddelden alleen mogelijk zijn wanneer de steekproeven niet op meerdere (en onbekende) niveaus systematisch verschillen. Kortom: de respondenten dienen aselect aan de condities toegewezen te worden (en de interne en constructvaliditeit dient in orde te zijn). Door middel van variantieanalyse toetsen we alleen de kans dat gevonden verschillen aan toevallige steekproeffluctuaties moeten worden toegeschreven. Nog een voorbeeld. In Tabel 12.2 staan gegevens vermeld waarop dezelfde variantieanalyse-techniek als voor Tabel 12.1 kan worden toegepast. In het voorbeeld is sprake van factor schrijfcursus, met als niveaus: traditioneel schrijfonderwijs, schrijfonderwijs met expliciete instructies, en herschrijfonderwijs. Als afhankelijke variabele is het oordeel van een docent over de kwaliteit van de schrijfproducten gekozen. In de tabel zie je oordelen over schrijfproducten die zijn geschreven na één maand onderwijs volgens de desbetreffende methode. Tabel Onderwijsvorm en kwaliteit van schrijfproducten (N.B. Het overall gemiddelde is 5.2 Onderwijsvorm Traditioneel Instructie Herschrijf Kwaliteitsoordeel Gemiddelde Standaarddeviatie Als dit onderzoek net zo was opgezet als dat in Tabel 12.1 zou de interpretatie buitengewoon moeilijk zijn: eventuele significante verschillen zouden toegeschreven kunnen worden aan het feit dat de drie onderwijsvormen verschillende typen studenten aantrekken, waardoor geen causaal verband aangetoond kan worden tussen onderwijsvorm en prestatie. Wanneer echter de studenten of meer algemeen: proefpersonen aselect aan één van de drie onderwijsvormen zijn toegewezen (en andere validiteitbedreigende factoren

4 226 goed zijn gecontroleerd), kunnen we eventueel optredende verschillen interpreteren als een effect van het verschil in onderwijs behoudens uiteraard het optreden van een alfafout. Het is de combinatie van aselecte toewijzing en sophistication van variantieanalytische technieken die experimenteel onderzoek grote diensten kan bewijzen. Die sophistication is niet gering en schuilt vooral in het feit dat variantieanalyse technieken biedt waarmee je de mogelijke invloed kunt nagaan van meer factoren, en alle mogelijke combinaties van die factoren, op een afhankelijke variabele. Het voorbeeld uit Tabel 12.3 maakt dit duidelijk. Het heeft betrekking op hetzelfde onderzoek als uit Tabel 12.2, maar er is een tweede onafhankelijke variabele (factor) geïntroduceerd, namelijk het geslacht van de docent. Tabel 12.3.Onderwijsvorm, geslacht van de docent en kwaliteit van schrijfproducten. Onderwijsvorm Sekse Docent Traditioneel Instructie Herschrijf Gemiddeld (sd) Man Gemiddeld (sd) 4.8 (1.3) 5.8 (1.3) 5.2 (1.5) 5.3 (1.3) Vrouw Gemiddeld (sd) 5.6 (2.1) 5.6 (1.5) 5.8 (2.3) 5.7 (1.8) Overall Gemiddeld (sd) 5.2 (1.7) 5.7 (1.3) 5.5 (1.8) 5.5 (1.6) Er zijn zo zes condities ontstaan, waaraan beschikbare studenten weer aselect toegewezen zijn. Het is mogelijk met behulp van variantieanalyse de houdbaarheid van drie hypothesen te onderzoeken: 1) verschillende onderwijsvormen leiden tot verschillen in gemiddelde score op de afhankelijke variabele (5.2 vs. 5.7 en 5.5.); 2) het geslacht van de docent is van invloed op de scores op de afhankelijke variabele (5.3 vs 5.7); 3) de mogelijke invloed van de ene factor is niet voor ieder niveau van de andere factor dezelfde (de celgemiddelden: 4.8, 5.8 en 5.2 voor mannelijke docenten en 5.6, 5.6 en 5.8 voor vrouwelijke docenten).

5 Deze laatste hypothese is nogal lastig geformuleerd, maar kan als volgt geïllustreerd worden. Het is denkbaar dat mannelijke docenten over het algemeen minder succesvol zijn (in termen van gemiddelde op de afhankelijke variabele) dan vrouwelijke docenten (hypothese 2); dat sluit echter niet de mogelijkheid uit dat ze bij één van de specifieke onderwijsvormen succesvoller zijn dan hun vrouwelijke collega s. Toetsing van de derde hypothese geeft de mogelijkheid de aanwezigheid van dit soort nuances (de zogenaamde interactie-effecten; zie Hoofdstuk 5) na te gaan. Om de variantieanalyse te mogen toepassen moet aan een drietal voorwaarden zijn voldaan: 1) De scores in de verschillende groepen moeten normaal verdeeld zijn; 2) De verschillende groepen moeten een (nagenoeg) gelijke variantie hebben (dit impliceert overigens een gelijk aantal replicaties per cel); 3) De scores in de verschillende groepen moeten minimaal op intervalniveau zijn gerepresenteerd. In alle voorbeelden die hierna nog volgen kun je zien dat deze aannames worden gedaan. Overigens blijkt de tweede aanname in de praktijk zeker bij grote steekproeven wat minder belangrijk, en ook aan het belang van de eerste aanname wordt wel eens getwijfeld. Samenvattend: in deze paragraaf hebben we duidelijk willen maken dat variantieanalyse gebruikt wordt om populatiegemiddelden met elkaar te vergelijken, en dat die vergelijkingen bij bepaalde experimentele opzetten de basis kunnen vormen voor uitspraken omtrent de invloed van meer factoren en combinaties van die factoren op een afhankelijke variabele Een intuïtieve uitleg van de methode der variantie-analyse De bedoeling van experimenteel toetsend onderzoek is altijd: nagaan of verschillende groepen, c.q. condities van elkaar verschillen. In 12.2 hebben we gezien dat het vergelijken van meer dan twee groepen (steekproeven) het beste kan gebeuren door een variantieanalyse uit te voeren. We beschouwen de steekproeven als representaties van verschillende subpopulaties. Binnen alle onderscheiden subpopulaties doen we een aantal waarnemingen. Deze waarnemingen verschillen natuurlijk van replicatie tot replicatie. We kunnen dus binnen elke groep de variantie van de scores (waarnemingen) berekenen. We nemen dus nu aan dat in elke groep (steekproef uit de subpopulatie) de scores normaal verdeeld zijn, en dat alle groepen een gelijke variantie hebben, die we altijd S 2 noemen. Wanneer we drie subpopulaties onderscheiden, zoals in Tabel 12.1, dan verkrijgen we drie scoreverdelingen. In Figuur 12.1 wordt hiervan een voorbeeld gegeven (we gaan er hier, en in alle andere gevallen, vanuit dat de scores op intervalniveau zijn gemeten).

6 228 Figuur Drie frequentieverdelingen van de scores in drie subpopulaties. A A A B B B C C C Totaal Totaal Totaal Naar deze figuur moet je eens wat langer kijken. Laten we beginnen me de eerste set van drie steekproeven (links: A, B en C). We zien dat de drie scoreverdelingen typisch normaal zijn verdeeld, en op grond van de drie configuraties mogen we verder aannemen dat de varianties in de drie subpopulaties gelijk zijn. Bovendien zien we dat de gemiddelde scores in de drie subpopulaties aan elkaar gelijk zijn. Nu valt op dat alles aan deze drie subpopulaties gelijk is; de normale scoreverdeling, de varianties voor de subpopulaties en de gemiddelde scores. Het lijkt dan ook niet zinnig meer om nog van drie verschillende subpopulaties te spreken zoals we aanvankelijk deden. We kunnen ook zeggen: de drie onderscheiden subpopulaties

7 HOOFDSTUK 12: VARIANTIEANALYSE vormen in feite één populatie, en onze groep scores komt ook in zijn geheel uit die éne populatie (zie: Figuur 12.1 Totaal). Goed, kijk nu eens de tweede (in het midden) en de derde set (rechts) van drie steekproeven. Ook hier zien we dat de drie groepen scores normaal verdeeld zijn, en dat de varianties in de drie onderscheiden subpopulaties gelijk zijn. Een belangrijk verschil echter met de eerste set betreft de verschillen in gemiddelden per subpopulatie. Zoals je ziet, zijn die aan elkaar ongelijk. Bij gevolg kunnen we nu niet stellen dat al onze waarnemingen uit één en dezelfde populatie komen; ze komen daarentegen daadwerkelijk uit drie verschillende populaties (we laten nog even in het midden waardoor die verschillen dan zijn veroorzaakt, maar uiteraard gaat het de onderzoeker erom aannemelijk te maken dat die verschillen systematisch samenhangen met de verschillende factorniveaus in zijn experiment). Deze geobserveerde verschillen in gemiddelde scores, hebben belangrijke consequenties voor de variantie van de totale populatie (zie de onderste figuren). We lichten dit toe en zetten uiteen wat de betekenis is van die consequenties. Naar aanleiding de drie meest linker plaatjes in Figuur 12.1 stelden we vast dat de drie subpopulaties in alle relevante opzichten gelijk waren en dat onze observaties bijgevolg uit één populatie afkomstig waren. Het zal je niet veel moeite kosten om in te zien dat de variantie van die éne (super)populatie gelijk is aan de variantie van de drie subpopulaties. Zo niet in de beide andere kolommen van Figuur De variantie van de totale populatie (we zetten hier aanhalingstekens omheen. Er is immers in feite geen sprake van één populatie) is hier niet dezelfde als in één der onderscheiden subpopulaties, maar veel groter! Dat verschil in variantie tussen de totale populatie en de subpopulatie wordt veroorzaakt en dit is van het grootste belang door de variantie die het gevolg is van de verschillen in de gemiddelde scores van de subpopulaties (zie Totaal in de middelste en de rechter kolom van Figuur 12.1). We kunnen nu een paar tussentijdse conclusies trekken. Allereerst wordt de variantie in de totale populatie gevormd door de varianties van de subpopulaties (die we gelijk veronderstellen) en door de variantie van de verschillende gemiddelde scores. Wanneer die gemiddelden niet van elkaar verschillen (zoals in de linker kolom van Figuur 12.1 I), dan is de totale populatievariantie dus gelijk aan de subpopulatievarianties. Wanneer die gemiddelden wel verschillen, dan is de totale populatievariantie groter dan de afzonderlijke subpopulatievarianties. We willen nog enige momenten stilstaan bij die verschillen in gemiddelden. Bekijk nog eens de gegevens uit Tabel 12.2, hier herhaald.

8 230 Tabel Onderwijsvorm en kwaliteit van schrijfproducten (N.B. Het overall gemiddelde is 5.2 (herhaald) Onderwijsvorm Traditioneel Instructie Herschrijf Kwaliteitsoordeel Gemiddelde Standaarddeviatie We hebben al een paar maal gezegd dat experimenteel-toetsend onderzoek gericht is op de vraag of er tussen bepaalde groepen replicaties verschillen bestaan. De onderzoeker die het bovenstaande experiment heeft uitgevoerd wil natuurlijk nagaan of prestaties van leerlingen samenhangen met verschillen in onderwijsvorm. Hij wil in bovenstaande termen dus kijken of de drie groepen scores uit verschillende populaties afkomstig zijn. Om dat te kunnen nagaan, is hij uiteraard geïnteresseerd in de verschillen in de gemiddelde scores van de drie subpopulaties. Immers: op dat niveau heeft hij getracht verschillen tussen populaties teweeg te brengen. Wanneer hij de vraag komen deze groepen scores uit verschillende populaties? positief beantwoord kan worden, dan zijn het drie verschillende populaties die de onderzoeker ook bewust heeft gecreëerd (uiteraard onder de aanname dat hij bij het toewijzen van scores aan condities aselect te werk is gegaan). We kunnen dan ook zeggen: de verschillen in gemiddelde scores zijn significant. Alvorens we daartoe in staat zijn, moet er getoetst worden: een ANOVA stelt ons derhalve tot zulke uitspraken in staat, maar we moeten hem wel eerst uitvoeren. Daarmee gaan we nu verder. Variantieanalyse is geheel gebaseerd op de analyse van de variantie van één populatie. Deze analyse moet uitwijzen waar die variantie vandaan komt. In het bovenstaande voorbeeld naar aanleiding van Tabel 12.2 gaat het er dus om na te gaan welk deel van de variantie tussen respondenten toe te schrijven is aan verschillen in behandeling (niveaus van de factor). Als er geen verschillen tussen de niveaus van de factor aangetoond kunnen worden, dan zullen de varianties in de drie subpopulaties gelijk zijn aan de totale variantie. Zijn die verschillen er wel, dan zullen de varianties in de drie subpopulaties kleiner zijn dan de totale variantie. Aan het slot van deze paragraaf herhalen we nogmaals de essentie van de ANOVA. Naarmate een groter deel van de totale variantie toegeschreven kan worden aan de variantie tussen condities (en dus verhoudingsgewijs een geringer deel aan de

9 HOOFDSTUK 12: VARIANTIEANALYSE variantie tussen proefpersonen), zal er eerder sprake zijn van een significant effect. De toetsingstechniek is dus gebaseerd op de verhouding van varianties tussen condities en de variantie binnen condities is. Alle verschillen binnen condities zijn verschillen in individuele replicaties (proefpersonen) en kunnen nimmer als effect geinterpreteerd worden. Echter, alle verschillen tussen condities zijn gecreëerde verschillen, en kunnen derhalve mogelijk wel als een effect geïnterpreteerd worden. In het vervolg zullen we de begrippen binnen en tussen nog dikwijls tegenkomen. Soms zullen we ook gebruik maken van de Engelse benaming: within en between Een meer formele gedaante van de F-toets In deze paragraaf leiden we de formele gedaante af van de variantieanalysetechniek. Dat wil zeggen, we zullen laten zien hoe de eerder (zie 12.3) geformuleerde gedachtegang algebraïsch kan worden gerepresenteerd, en hoe de toetsingsgrootheid valt te berekenen. We zullen laten zien dat de uiteindelijke F- ratio (zo heet de uitkomst van een ANOVA) gedefinieerd kan worden als: 2 tussencondities, (12.1) F 2 S binnencondities = S en dat deze ratio een bekende verdeling heeft onder de aanname van gelijke populatiegemiddelden (en dat is altijd de nulhypothese; er vanuit gaande dat H 0 juist is bereken je de kans om de verschillen te vinden die je gevonden hebt. En als die kans klein genoeg is verwerp je H 0 ). Voor de afleiding van de formele gedaante van de toetsingsgrootheid, gaan we uit van een bepaald model voor een score. Stel dat we op grond van een bepaalde factor a populaties (de niveaus van de onafhankelijke variabele) worden onderscheiden. We nemen aan dat de variabele X normaal verdeeld is in elke subpopulatie dezelfde variantie. De score van observatie r in conditie i kunnen we nu schrijven als de mate waarin het gemiddelde van conditie i afwijkt van het algemeen gemiddelde en de mate waarin de score van replicatie r afwijkt van het conditie gemiddelde. Als we het algemene gemiddelde aangeven met μ. (mu), dan ziet de vergelijking er als volgt uit: X = µ + α + e (12.2) Ir i ir Dus: we ontleden elke score in een algemeen deel (μ. ), een deel dat geldt voor conditie i (α i ) en een deel dat inherent is aan observatie r (e r ).

10 232 Nu zijn drie varianties interessant: de variantie van (S 2 X), de variantie tussen de condities (S 2 α) en de variantie binnen condities (tussen replicaties: S 2 e). Wanneer we de gebruikelijke formule voor de variantie gebruiken krijgen we: S 2 X = ( X X) i N 1 2 (12.2a) 2 S α ( α α) = Condities 1 i 2 (12.2b) S 2 e ( e e) = N Condities r 2 (12.2c) Laten we ons eerst concentreren op de tellers in deze vergelijkingen. Deze noemen we kwadratensom (Sum of Squares, of afgekort: SS). Er geldt natuurlijk dat indien H 0 waar is de totale kwadratensom gelijk is aan de kwadratensom van de verschillen tussen condities en de verschillen tussen replicaties. Immers, het enige wat we doen is elke score opdelen in verschillede elementen. Wanneer we dit uitschrijven in (geobserveerde scores) krijgen we: ( X i X ) = ( X i X ) + ( X X ir i) (12.3) In woorden: de kwadratensom van de geobserveerde scores is gelijk aan de kwadratensom van de verschillen tussen condities plus de verschillen binnen condities. Als we de kwadratensommen delen door de respectievelijke vrijheidsgraden (degrees of freedom: df) dan krijgen we de variantie die met elk van deze (drie) bronnen verbonden is (zie Tabel 12.4). Om het makkelijk te maken, noemen in variantieanalyse de variantie die met een bron geassocieerd is niet de variantie maar de gemiddelde kwadratensom (Mean Square: MS) Tabel Kwadratensom (Sum of Squares: SS), vrijheidsgraden (df), en gemiddelde kwadratensom (Mean Square: MS). Bron SS df MS Tussen SS Tussen N condities -1 SS Tussen / N condities-1 Binnen SS Binnen N N condities SS Binnen /(N- N condities ) Totaal SS Totaal N 1 SS Totaal /(N 1)

11 HOOFDSTUK 12: VARIANTIEANALYSE Nu zijn we eindelijk waar we moeten zijn, want nu kunnen we de toetsingsgrootheid F definiëren. SS(tussen) N(condities)-1 MS(tussen) F= = SS(binnen) MS(binnen) N-N(condities) (12.4) Dus: de toetsingsgrootheid F is gebaseerd op de verhouding van de variantie (MS) tussen condities en de variantie (MS) binnen condities. Hoe groter de variantie tussen condities (relatief) is, hoe groter de toetsingsgrootheid F, en hoe onwaarschijnlijker H 0. Om de toetsingsgrootheid F te kunnen interpreteren hebben we nog, net zoals bij de t-toets het aantal vrijheidsgraden (df) nodig. Dat zijn er bij variantieanalyse twee: het aantalvrijheidsgraden van de teller (het aantal condities min 1) en het aantal vrijheidsgraden van de noemer (het aantal replicaties (observaties) het aantal condities). Aan de hand van de toetsingsgrootheid en de beide vrijheidsgraden ligt de kans dat op deze specifieke steekproefuitkomst vast, onder de aanname dat H 0 waar is Enkele experimentele opzetten Het één-factorexperiment In een één-factorexperiment is er één onafhankelijke variabele met verschillende niveaus. Het effect van de manipulatie van deze onafhankelijke variabele op de afhankelijke variabele wordt bestudeerd. Bij voorbeeld onderzoeker CJ ontwerpt drie versies van hetzelfde formulier, en legt deze versies aan evenzoveel groepen respondenten voor. Hij is geïnteresseerd in het effect van de manipulatie van de onafhankelijke variabele (type formulier, met drie niveaus) op het aantal correct beantwoorde vragen. Het gaat CJ in eerste instantie om het schatten van de houdbaarheid van de nulhypothese: er is geen verschil in gemiddeld aantal correct beantwoorde vragen tussen de drie condities (versies, H 0 : µ 1 = µ 2 = µ 3 ) tegen de alternatieve hypothese dat niet alle drie de gemiddelden aan elkaar gelijk zijn. In het algemeen gaat het bij een één-factorexperiment om het schatten van de houdbaarheid van de nulhypothese H 0 : µ 1 = µ 2 =... = µ i = µ a, wat ook geschreven kan worden als H 0 : S 2 α = 0: de variantie in groepsgemiddelden is gelijk aan nul. Taalbeheerser CJ is geïnteresseerd in de kwaliteit van verschillende versies van het huursubsidieformulier. Hij laat daarom dertig mensen een van de drie versies van het huursubsidieformulier invullen op grond van dezelfde situatiebeschrijving. Vanzelfsprekend heeft CJ personen at random aan een van de drie versies van het

12 234 huursubsidieformulier toegewezen. In elk formulier telt hij het aantal fouten dat de invullers maken. Deze aantallen zijn in Tabel 12.5 weergegeven. Tabel Aantal fouten in drie versies van het huursubsidieformulier (N.B. Het algemeen gemiddelde is 10.87). Formulier Versie A Versie B Versie C X 1 = 9.1 X 2 = 11.4 X 3 = 12.1 Met behulp van de variantieanalyse kan nu worden nagegaan of de versie van het huursubsidieformulier invloed heeft op de toetsscores (het aantal fouten). Daarbij moet de taalbeheerser dan aannemen -- of eigenlijk; zij moet er zeker van zijn -- dat de subpopulaties alle normaal verdeeld zijn met dezelfde variantie. We moeten om de hypothese te kunnen toetsen de F-ratio bereken. Deze is gebaseerd op MS (between) en MS (within). Om deze beide variantieschattingen te berekenen, starten we met het uitrekenen van de respectievelijke Sums of Squares (SS (between) en SS (within). Voor de SS (between) moeten we voor alle replica s in alle cellen dus het celgemiddelde van het algemeen gemiddelde aftrekken, kwadrateren en dan op tellen (zie het tweede lid van vergelijking 12.4). Het celgemiddelde is voor alle replica s in één cel natuurlijk hetzelfde. Om rekenwerk te besparen kunnen we dus voor elke cel net zo goed één keer het celgemiddelde van het algemeen gemiddelde afhalen, kwadrateren en vermenigvuldigen met het aantal replica s in de desbetreffende cel. Dit toegepast op Tabel 12.5 levert: Versie A 10 *( ) 2 = 31.3 Versie B 10 *( ) 2 = 2.81 Versie C 10 *( ) 2 = Totaal SS (between) Voor we verder gaan is het verstandig even te kijken naar de bijdragen aan de SS (between). Je ziet dat de grootste bijdrage komt van Versie C, dat Versie A nauwelijks bijdraagt, en Versie B tussen deze beide uitersten in ligt. We gaan verder met de SS (within). Deze is gedefinieerd als de verschillen binnen condities (zie derde lid vergelijking 12.4). We moeten dus nagaan in hoeverre

13 HOOFDSTUK 12: VARIANTIEANALYSE de individuele scores afwijken van het groepsgemiddelde: Trek van elke score het groepsgemiddelde af, kwadrateer dit en tel alle gekwadrateerde verschillen bij elkaar op. Dat levert: Versie A (10-9.1) 2 + (10-9.1) 2 + (12-9.1) (9-9.1) 2 = Versie B ( ) 2 + ( ) ( ) 2 = Versie C ( ) 2 + ( ) (9-12.4) 2 = SS (within) Nu kunnen we de variantieanalytische tabel invullen: Bron SS df MS Between / 2 = Within / 27 = 7.12 De gezochte F-ratio is dus / 7.12 = 3.46, met 2 vrijheidsgraden voor de teller, en 27 vrijheidsgraden voor de noemer. De kans om deze F-waarde te vinden onder de aanname dat H 0 juist is, is kleiner dan.05 (zie: Bijlage B). Opgemerkt zij dat het nu heel eenvoudig is om de populatie (of als dat nodig is de steekproef) schatting van de variantie uit te rekenen. Immers, die is gelijk aan: S 2 = [SS (between) + SS (within)] / [N - 1] = [ ] / 29 = 7.55 In Tabel 12.6 staan de resultaten van de variantie-analyse vermeld, zoals die veelal weergegeven worden. Tabel Resultaten variantie-analyse op de gegevens van Tabel Bron SS df MS F P Between <0.05 Within Totaal Uit Tabel 12.6 blijkt dat de nulhypothese inderdaad verworpen kan worden. Niet alle populatiegemiddelden zijn aan elkaar gelijk, de versie van het huursubsidieformulier is inderdaad van invloed op de prestatie, c.q. het aantal gemaakte fouten. Het lijkt aannemelijk dat met name in Versie C meer fouten gemaakt worden dan bij beide andere versies (zie de gemiddelden in Tabel 12.5, en de verschillende bijdragen aan SS (between)). Voor het verschil in gemiddelde prestaties tussen Versie A en B is dit minder duidelijk. Een t-toets voor het verschil in gemiddelden voor onafhankelijke groepen zou uitkomst kunnen bieden. Overigens is het een gevestigd gebruik de resultaten van een variantieanalyse te presenteren zoals in Tabel 12.6.

14 236 Het twee-factorexperiment In de eerste paragraaf is al een voorbeeld gegeven van een twee-factorexperiment (zie Tabel 12.3), een experiment waarin men de mogelijke invloed kan nagaan van twee factoren én van de combinatie van niveaus van die factoren op een afhankelijke variabele. In de eerste paragraaf is al een globaal beeld gegeven van de effecten die in een twee-factorexperiment geanalyseerd kunnen worden. Dat waren in de eerste plaats de effecten van de beide factoren afzonderlijk, de zogenaamde hoofdeffecten. Er kan natuurlijk een hoofdeffect van factor A en van factor B zijn. Naast deze twee hoofdeffecten is er nog een derde effect dat in een twee-factorexperiment onderscheiden kan worden. Dat is het interactie-effect: het effect van een specifieke combinatie van niveau i van factor A en niveau j van factor B op de subpopulatie die door deze combinatie gekenmerkt wordt (zie ook paragraaf 7 van hoofdstuk 5). Er kunnen nu drie nulhypothesen geformuleerd worden: 1) H0: S 2 α = 0 2) H0: S 2 β = 0 3) H0: S 2 αβ = 0 Deze drie H 0 s geven respectievelijk de afwezigheid van hoofdeffecten van factor A, hoofdeffecten van factor B, en het interactie-effect tussen factor A en B weer. De toetsing van deze drie effecten gebeurt net zoals bij een één-factorexperiment. We delen de totale variantie op in verschillende delen, alleen onderscheiden we nu vier delen, namelijk: een kwadratensom voor het hoofdeffect van factor A (SS (A)), een kwadratensom voor het hoofdeffect van factor B (SS (B)), een kwadratensom voor het interactie-effect van factor A en factor B samen (SS (AB)) en een kwadraten som voor het residu, of de error (SS (error)). Analoog aan het éénfactorexperiment is SS (A) gelijk aan de kwadratensom van de verschillen tussen de gemiddelden van de niveaus van factor A en het algemeen gemiddelde, SS (B) is gelijk aan de kwadratensom de verschillen tussen de gemiddelden van de niveaus van factor B en het algemeen gemiddelde, en SS (error) is gelijk aan de kwadratensom van de individuele scores en het celgemiddelde. SS (AB) voor het interactieeffect is gelijk aan de kwadratensom van de celgemiddelden minus het gemiddelde van het betreffende niveau van factor A minus het betreffende niveau van factor B plus het algemeen gemiddelde. In formulevorm: ( X ij X ) = ( X a X ) + ( X b X ) + ( X X X X ab a b + ) + ( X X ij ab) (12.5) We ontleden de kwadratensom van geobserveerde gemiddelden dus in vier delen:

15 HOOFDSTUK 12: VARIANTIEANALYSE 2 ( X X a ) SS( factor A), met df = (A-1) 2 ( X X b ) SS (factor B), met df = (B 1) 2 ( Xab Xa Xb + X ) SS (interactie ab), met df = (A 1)(B 1) 2 ( Xijr Xab) SS (error), met df = N AB. De laatste term is natuurlijk de (sums of squares van de) variantie in elke combinatie van factor A en B. Het is dus een maat voor de verschillen tussen observaties binnen elke cel. Volledig analoog aan het een-factorexperiment definiëren we de verschillende F-ratio s: F Factor( A) SS( A) df( A) MS( A) = = MS( e) MS( e) df( e) F Factor( A) SS( B) df( B) MS( B) = = (12.6) MS( e) MS( e) df( e) F Factor( A) SS( AB) df( AB) MS( AB) = = MS( e) MS( e) df( e) voor het toetsen van de drie nulhypotheses. Bij alle drie de F-ratio s is dus de vraag: stelt het verschil in gemiddelden iets voor ten opzichte van de verschillen tussen observaties (de verschillen tussen de replicaties in de cellen)? We zullen nu een voorbeeld geven van een twee-factorexperiment. Een onderzoekster wil nagaan of een managementtraining volgens een aantal specifieke nieuw ontwikkelde theoretische principes effectiever is dan een managementtraining volgens de gebruikelijke methode. Zij besluit daartoe de zich aangemelde managers aselect toe te wijzen aan één van de twee trainingsmethoden, en beide groepen een managementtest vóór en aan het einde van de training af te nemen. De verwachting is dat de gemiddelde toename in de experimentele groep groter zal zijn dan die in de gewone groep. Aan deze experimentele opzet kleeft echter een

16 238 bezwaar. De mogelijkheid bestaat namelijk dat de voormeting de aandacht van de managers op bepaalde aspecten van het eigen functioneren richt (zie: Hoofdstuk 5, en dat deze aandacht alleen al verantwoordelijk kan zijn voor een andere invulling van de test bij de nameting. Bovendien bestaat de mogelijkheid dat het optreden van dit effect -- het zogenaamde prestest sensitization effect -- afhankelijk is van wat er tussen voor- en nameting plaats vindt, dus van het soort training dat men heeft ondergaan. Er moeten daarom nog twee groepen worden toegevoegd aan het experiment, zodanig dat een experimentele opzet ontstaat als in Tabel Tabel Een Solomon-vier-groepen-ontwerp. Voormeting Wel Niet Experimenteel Trainingsmethode Gewoon X 11 X 12 X 21 X 22 Deze experimentele opzet staat bekend als het Solomon-vier-groepen-ontwerp. De managers worden aselect aan één van de vier groepen toegewezen, en door de scores op de nameting als afhankelijke variabele te gebruiken kan nu onderzocht worden of de voormeting, al dan niet afhankelijk van het soort training, de scores op de natoets beïnvloedt. In Tabel 12.8 staan de scores op de nameting vermeld. Tabel Trainingsmethode, voormeting en managementskwaliteit. Voormeting Experimenteel Wel 9,9,107, 8 X = 8.6 Niet 5, 4, 7, 3, 5 X = Trainingsmethode Gewoon 6, 8, 8, 8, 5 X = , 7, 6, 4, 7 X = X.1= X 1. =7.8 X 2. =5.3 X = 6.4 X = 6.55 Conform de eerdere notatie wordt de aanwezigheid van de voormeting factor A genoemd, en de trainingsprocedure factor B. Beide factoren hebben twee niveaus, en er zijn vijf replicaties per cel. We zijn in twee vragen geïnteresseerd: 1. beïnvloedt de voormeting de scores op de nameting, en 2. is een invloed van de voormeting voor beide trainingsprocedures hetzelfde. Een antwoord op beide vragen kan gegeven worden door toetsing van de twee variantie-analytische nulhypothesen:

17 HOOFDSTUK 12: VARIANTIEANALYSE en H: S α 2 = 0, H: S αβ 2 = 0 Dat daarbij ook nog na gegaan kan worden of de trainingsvormen tot verschillen in gemiddelde op de nameting leiden (H: S ß 2 = 0) is meegenomen, maar niet essentieel; we zijn tenslotte in eerste instantie geïnteresseerd in een verschil in gemiddelde toename tussen voor- en nameting, en die vraag kan, indien de variantieanalyse tot geruststellende resultaten leidt, op zich met een simpele t-toets voor twee steekproeven worden beantwoord. Om de drie F-ratio s [F (A), F (B) en F (AB)] te kunnen bereken, moeten we eerst de respectievelijke Mean Squares en de Mean Square van de errorterm uitrekenen. Hiervoor moeten we weer eerst de vier Sums of Squares uitrekenen. Laten we dan daar mee beginnen. SS (A) is gedefinieerd als: de variantie tussen niveaus van factor S (de voormeting). Dus: trek voor elke replica in cel i. het algemeen gemiddelde van het celgemiddelde af, kwadrateer dit verschil, en sommeer de gekwadrateerde verschillen. Dit is natuurlijk weer hetzelfde als: bereken het verschil voor elke cel slechts één keer, kwadrateer dit, vermenigvuldig met het aantal replica s in de cel, en sommeer pas daarna. Dit levert: Berekening SS(A) Niveau 1: Wel voormeting 10 *( ) 2 = Niveau 2: Geen voormeting 10 *( ) 2 = SS(Voormeting) Het is natuurlijk geen toeval dat SS (A) uit twee gelijke delen bestaat. Waarom is dat eigenlijk? Hetzelfde doen we voor SS (B), want die is behoudens dat het om andere gemiddelden gaat op dezelfde wijze gedefinieerd als SS (A), te weten: het gekwadrateerde verschil tussen de niveaus van factor B en het algemeen gemiddelden (zie: Vergelijking 12.5). As we dat doen krijgen we Berekening SS(B) Niveau 1: Experimentele training 10 *( ) 2 = 0.23 Niveau 2: Gewone training 10 *( ) 2 = SS(Trainingsmethode) 0.46 Nu voor het interactie-effect tussen de aanwezigheid van de voormeting en de trainingsmethode. We moeten dus SS(AB) uitrekenen. We moeten volgens vergelijking 12.5 van elke replicatie de gemiddelden van de betreffende factor er afhalen

18 240 en het algemene gemiddelde erbij optellen en daarna kwadrateren en optellen (Σ(X ab X a. - X.b + X.. ) 2). Of je deze berekening volgt voor alle replica s in een cel, of dat je het één keer doet en de uitkomst met het aantal replica s vermenigvuldigt, maakt natuurlijk niets uit. Het scheelt alleen wat rekenwerk (en vermindert de kans op rekenfouten). Deze truc levert voor onze gegevens het volgende op: Berekening SS(AB) Niveau 11 5 *( ) 2 = 2.11 Niveau 12 5 *( ) 2 = 2.11 Niveau 21 5 *( ) 2 = 2.11 Niveau 22 5 *( ) 2 = SS (AB) 8.44 Nu nog SS (error), dat wil zeggen: bereken Σ (X ijr X ab ) 2. In woorden: trek van de score van elke replica het celgemiddelde af, kwadrateer dit en sommeer de gekwadrateerde verschillen. Helaas kunnen we hier het rekenwerk niet vereenvoudigen. Dus: Berekening SS(error) Cel 11 (9-8.6) 2 + (9-8.6) (8-8.6) 2 = 5.2 Cel 12 (6-7.0) 2 + (6-7.0) (5-7.0) 2 = 8.0 Cel 21 (5-4.8) 2 + (4-4.8) (5-4.8) 2 = 8.8 Cel 22 (5-5.8) 2 + (4-5.8) (7-5.8) 2 = SS (error) 28.8 Nu moeten we nog een deling uitvoeren om eerst de verschillende Mean Squares te krijgen en uiteindelijk de gewenste F-ratio s. SS df MS F Voormeting / 1.88 = Trainingsmethode / 1.88 = 0.24 Voormeting * Training 8.44 (2-1)(2-1) / 1.88 = 4.69 Error * Als laatste stap zoeken we de overschrijdingskans op in Bijlage C. Dan vinden we dat het hoofdeffect van Voormeting significant is (F = 17.3; df = 1, 16; p <.01). Het hoofdeffect van Trainingsmethode is niet significant (F = 0.24; df = 1, 16; p > 0.25) en het interactie-effect tussen Voormeting en training is wel significant (F = 4.69; df = 1, 16; p <.05). De nulhypothese H: S α 2 = 0 kan verworpen worden: een blik op de gemiddelden in Tabel 12.9 laat zien dat de managers zonder voormeting gemiddeld een lagere score op de nameting halen dan de groep met voormeting. Dat betekent dat er inderdaad sprake is van een pretest sensitization effect. Ook het interactie-effect is significant; de nulhypothese S αβ 2 = 0 moet verworpen worden. Een vergelijking van de celgemiddelden in Tabel 12.9 toont aan dat

19 HOOFDSTUK 12: VARIANTIEANALYSE het effect van de voormeting bij de experimentele groep sterker is geweest dan bij de gewone groep. Dit alles betekent dat in dit experiment niet aangetoond kan worden dat de experimentele vorm op zich effectiever is dan de gebruikelijke trainingsprocedure. Een groot deel van de toename in managerskwaliteit moet worden toegeschreven aan het effect van de voormeting. Overigens moet men nu niet in de verleiding komen om te stellen: dan maar geen voormeting meer. Voormetingen bieden de mogelijkheid om (bij voorbeeld met behulp van covariantie-analyse) rekening te houden met systematische verschillen in basisniveau tussen de groepen proefpersonen, zodat scherpe analyses mogelijk zijn. Het pretest sensitization effect moet door een uitgekiende experimentatie geëlimineerd worden, en het hier beschreven Solomon-vier-groepen-ontwerp biedt de mogelijkheid te controleren of dat gelukt is Het interactie-effect Een interactie-effect van twee factoren kan gezien worden als een indicatie voor de mate waarin de som van de afzonderlijke hoofdeffecten het verschil tussen een subpopulatiegemiddelde µ ij en het populatiegemiddelde µ.. niet verklaart. Naast de (eventuele) invloed van factor A en factor B is er bij een interactie-effect sprake van een gecombineerde invloed van beide factoren. Aan de hand van een voorbeeld uit Hays (1973) zal het belang van een juiste interpretatie van het interactie-effect worden geïllustreerd. In een onderzoek wordt de effectiviteit nagegaan van twee verschillende onderwijsmethoden. De afhankelijke variabele was een relevante prestatietaak, en geslacht van de leerling wordt als tweede onafhankelijke variabele gehanteerd: 50 meisjes en 50 jongens zijn aselect over beide methoden verdeeld. Een variantie-analyse van de resultaten levert een significant interactie-effect en een significant hoofdeffect van de onderwijsmethode op. Het zou in deze situatie bijzonder onverstandig zijn om zonder meer te stellen dat aangetoond is dat de ene onderwijsmethode beter is dan de andere -- het significante interactie-effect duidt er immers op dat het effect van de factor onderwijsmethode niet voor ieder niveau van de factor geslacht hetzelfde is. Een blik op Tabel 12.9 laat zien dat meisjes het beter doen bij onderwijsmethode II, en jongens bij onderwijsmethode I. Tabel Gemiddelde op een prestatietaak. Onderwijsmethode I II Geslacht Meisje X 11 = 55 X 12 = 65 X 1. = 60

20 242 Jongen X 21 = 75 X 22 = 45 X 2. = 60 X.1 = 65 X.2 = 55 X.. = 60 Ook lijkt het alsof met onderwijsmethode I betere resultaten geboekt worden. Het gemiddelde van onderwijsmethode I is immers 65, en dat van onderwijsmethode II 55. Oppervlakkige interpretatie van deze gegevens zou dus leiden tot de conclusie dat Onderwijsmethode I superieur is. Dat is gek, want we weten al dat meisjes het beter doen bij onderwijsmethode II. Dat kan dus niet; onderwijsmethode I kan niet superieur zijn, terwijl meisjes juist bij methode II het goed doen. Meer algemeen: als een interactie-effect significant is, dan kun je de hoofdeffecten niet zinvol interpreteren. Laten we nu veronderstellen dat dit experiment nogmaals uitgevoerd wordt, maar nu de gemiddelden uit Tabel opgeleverd. Tabel Gemiddelde op een prestatietaak. I Onderwijsmethode Geslacht Meisje X 11 = 60 X 12 = 60 X 1. = 60 Jongen X 21 = 60 X 22 = 80 X 2. = 70 II X.1 = 60 X.2 = 70 X.. = 65 Variantie-analyse leidt nu tot twee significante hoofdeffecten en een significant interactie-effect. Dat betekent dat ook nu weer bij de interpretatie van de hoofdeffecten voorzichtigheid geboden is. Een blik op de gemiddelden maakt duidelijk dat het voor meisjes nu niet uitmaakt welke onderwijsmethode ze gevolgd hebben, maar dat jongens veel baat hebben bij methode II. We interpreteren dus het interactie-effect, en laten de hoofdeffecten voor wat ze zijn. In een derde voorbeeld (Tabel 12.11) is sprake van twee significante hoofdeffecten, en geen (significant) interactie-effect.

21 HOOFDSTUK 12: VARIANTIEANALYSE Tabel Gemiddelde op een prestatietaak. Onderwijsmethode I II Geslacht Meisje X 11 = 65 X 12 = 87 X 1. = 76 Jongen X 21 = 55 X 22 = 75 X 2. = 65 X.1 = 60 X.2 = 81 X.. = 70 Uit de gemiddelden blijkt dat jongens het bij beide onderwijsmethoden ongeveer evenveel slechter doen als de meisjes, en dat onderwijsmethode II zowel bij jongens als bij meisjes tot betere prestaties leidt dan methode I. Uit deze voorbeelden blijkt wel hoe belangrijk het is om bij de interpretatie van effecten steeds de steekproefgemiddelden -- ten slotte zuivere schatters voor de populatiegemiddelden -- te betrekken. Het meest inzichtelijk gebeurt dat misschien wel met behulp van een grafische voorstelling, een plaatje dus. Op de horizontale as van een coördinatenstelsel worden de niveaus van één van de factoren afgezet, en op de verticale as de schaalwaarden van de afhankelijke variabele. In het stelsel kunnen nu celgemiddelden gelokaliseerd worden, waarbij die van hetzelfde niveau van de tweede factor met elkaar verbonden worden. In Figuur 12.3 is een en ander voor de gegevens uit de Tabellen (12.)9, (12.)10 en (12.)11 uitgevoerd. Figuur Grafische weergave van de gemiddelden uit de Tabellen 9, 10 en Score 61 Score 70 Score I Onderwijsmethode II I Onderwijsmethode II 50 I Onderwijsmethode II 12.7 Variantieanalyse in SPSS Variantieanalyse is een zoveel gebruikte techniek dat je deze in SPSS op diverse plaatsen tegenkomt. Soms, is variantieanalyse een optie, en soms is het de analysetechniek waar het om draait. Afhankelijk van je vraag, de data en je wensen is het de ene keer handiger de ene en de andere keer handiger de andere module in SPSS te gebruiken. We zullen er hier twee behandelen. Laten we beginnen met de gegevens uit Tabel 12.2.

22 244 Tabel Onderwijsvorm en kwaliteit van schrijfproducten (N.B. Overall gemiddelde is 5.2 Onderwijsvorm Traditioneel Instructie Herschrijf Kwaliteitsoordeel Gemiddelde Standaarddeviatie Als we deze scores in SPSS willen invoeren, dan moeten we drie variabelen definiëren: de respondent, in welke conditie deze respondent zat, en wat zijn of haar score is. In een data-file ziet dat er dan als volgt uit. Respondent 1 zit in conditie 1, en heeft de score 5; respondent 2 zit in conditie 1 en heeft de score 7; respondent 6 zit in conditie 2 en heeft de score 5, etc. Het is dus heel belangrijk dat je ook een variabele invoert waarmee de condities gedefinieerd zijn (ONDERWIJS). Je kunt bij zo n variabele ook VALUE LABELS definiëren. Met deze VALUE LABELS geef je aan: de waarde 1 van de variabele ONDERWIJS betekent TRADITIONEEL, de waarde 2 betekent INSTRUCTIE, en de waarde 3 betekent HERSCHRIJF. In de output komen deze namen dan ook voor de condities te staan, hetgeen interpretatie een stuk versimpelt. Dat doe je als volgt: klik op VARIABLE VIEW (links onder), klik op VALUES (dat is de vijfde kolom), en dan kom je in het volgende schermpje. In dit schermpje typ je een 1 bij VALUE en de naam die hoort bij deze waarde bij VALUE LABEL. Daarna klik je op ADD, en je gaat door met de waarde 2. Als je alle drie de condities gedaan hebt, krijg je iets als in het volgende schermpje. Daarna is een klik op OK en een klik op DATA VIEW voldoende om weer naar het uitgangsscherm terug te keren. In de output worden nu de gegeven namen weergegeven.

23 HOOFDSTUK 12: VARIANTIEANALYSE Nu gaan we de variantieanalyse uitvoeren. Ga via ANALYZE en COMPARE MEANS naar ONE-WAY ANOVA. Dan kom je in het volgende schermpje. In het linkerdeel van het schermpje zijn de variabelen die gedefinieerd zijn in de data-file weergegeven. We moeten nu bij DEPENDENT LIST aangeven wat de afhankelijke variabele is, en bij INDEPENDENT LIST wat de onafhankelijke variabele is. Dus: de variabele SCORE gaat naar DEPENDENT LIST, en de variabele ONDERWIJS gaat naar INDEPENDENT LIST. Nu klikken we op OPTIONS... En, in het schermpje dat dan komt klikken eerst op DESCRIPTIVE en dan op MEANS PLOT. Nu vervolgen we met eerst CONTINUE en dan OK. Waarna spss voor ons een variantie-analyse uitvoert met SCORE als afhankelijke en ONDERWIJS als onafhankelijke variabele. Het resultaat van deze analyse is hieronder weergegeven. Descriptives score 95% Confidence Interval for Std. Std. Mean N Mean Deviation Error Lower Bound Upper Bound Minimum Maximum 1.00 Traditioneel Instructie , Herschrijf Total In het eerste deel van de output geeft SPSS de zogenaamde beschrijvende grootheden weer: het aantal observaties (N), de gemiddelden (Mean), standaarddeviatie etc. Van al deze gegevens zijn natuurlijk de eerste drie (met naam genoemde) grootheden het belangrijkste. We zien dat TRADITIONEEL en HERSCHIJRIJFONDERWIJS dezelfde gemiddelde score hebben. Als we dus een positief effect mogen verwachten dab kan dat alleen van de INSTRUCTIECONDITIE komen. De waarden bij Minimum en Maximum, alsmede het totale aantal observaties zijn nuttig voor een extra controle. We zien dat we 15 proefpersonen zijn. Dat klopt met de gegevens in Tabel We zien ook dat de laagste score 2 en de hoogste score 8 is. Er zijn dus geen vreemde waarden, en we hebben geen reden om de data nog een keer te checken. Het tweede deel van de output, waarin de resultaten van de variantieanalyse weergegeven zijn staat op de volgende pagina.

24 246 ANOVA score Sum of Squares df Mean Square F Sig. Between Groups Within Groups Total In de ANOVA TABLE krijgen we de al bekende tabel van variantieanalyse, met Sums of Squares (SS), Degrees of freedom (df), Mean Squares (MS), F-ratio, en p-value (Sig.). We zien dat de SS tussen condities 1.2 is, met 2 vrijheidsgraden, en de MS is dus (1.2 / 2 =) 0.6. De variantie binnen groepen is de ratio van de SS (within) en het aantal vrijheidsgraden (45.2 / 12 =) De F-ratio is dan (0.6 / 3.77 =) 0.16, met 2 en 12 vrijheidsgraden. De kans om een F-ratio van deze grootte te observeren als H 0 juist is is Er is dus geen enkele reden om aan de juistheid van H 0 te twijfelen, laat staan om H 0 te verwerpen ten gunste van H 1. We concluderen dan ook dat de onderwijsvorm niet van invloed is op de kwaliteitsscore; in alle drie de condities wordt even goed (of even slecht) gepresteerd. Daarna geeft SPSS je nog een plaatje van de drie gemiddelden, met op de x-as de drie condities en op de y-as de scores. Als laatste punt bij deze procedure willen we je wijzen op de POST-HOC COMPARISONS. Dat is natuurlijk in dit voorbeeld omdat de gemiddelde scores in de drie condities niet verschillen (we mogen immers H 0 niet verwerpen). Maar, stel dat het verschil wel significant was geweest, dan hadden we geweten dat de gemiddelde scores in tenminste twee condities van elkaar verschilden, maar waar het verschil precies zit weten we nog niet. En dat willen we nu precies weten. Om een POST-HOC COMPARISON uit te voeren gaan we via ANALYZE, COMPARE MANS naar ONE-WAY ANOVA, daar zien we ook een vakje Post-Hoc. We klikken op het vakje Post-Hoc en krijgen dan het volgende schermpje waar we BONFERRONI en/of SCHEFFE aanvinken. Na CONTINUE en OK levert dat de volgende output extra.

25 HOOFDSTUK 12: VARIANTIEANALYSE Multiple Comparisons Dependent Variable: score 95% Confidence Interval (I) onderwijs (J) onderwijs Mean difference Std. Sig. Lower Upper (I-J) Error Bound Bound 1. Traditioneel 2. Instructie Herschrijf Scheffe 2. Instructie 1. Traditioneel Herschrijf Herschrijf 1. Traditioneel Instructie Traditioneel 2. Instructie Bonfer- 3. Herschrijf roni 2. Instructie 1. Traditioneel Herschrijf Herschrijf 1. Traditioneel Instructie In de eerste regel van de output wordt Traditioneel vergeleken met Instructie. Het gemiddelde verschil tussen deze beide condities is Dit verschil is niet significant (p = 0.88). In de tweede regel worst Traditioneel vergeleken met Herschrijf. Het gemiddelde verschil is precies 0.00, en natuurlijk niet significant. Hetzelfde geldt voor de overige vergelijkingen. Conform onze eerdere conclusie trekken we ook nu de conclusie dat de verschillen tussen condities toe te schrijven zijn aan steekproeffluctuaties. Een tweede methode om een One-way Anova uit te voeren is binnen ANALYZE, COMPARE MEANS en dan MEANS. Definieer eerst de afhankelijke (SCORE) en de onafhankelijke variabele (ONDERWIJS), klik dan op OPTIONS en vink linksonder ANOVA TABLE AND ETA aan. Dan krijg je dezelfde variantieanalytische tabel als we zoeven besproken hebben. Het enig verschil is dat we nu een maat voor de effectgrootte krijgen: eta. Het is natuurlijk altijd goed om ook de effectgrootte in ogenschouw te nemen. Eta-squared geeft aan hoeveel procent van de verschillen in de afhankelijke variabele verklaard worden door (verschillen in de) onafhankelijke variabele. Dat wil zeggen: welk proportie (of welk percentage als je dat makkelijker vindt) van de geobserveerde variantie verklaard wordt door de onafhankelijke variabele. In dit voorbeeld is dat (1.2 / 46.4 =) 0.026, of te wel 2.6%. Dus: 2.6% van de geobserveerde verschillen in kwaliteitscores valt te verklaren met de onafhankelijke variabele onderwijsvorm. Dat is niet veel. In dit voorbeeld is het makkelijk. De relatie tussen onderwijsvorm en kwaliteitscore is niet significant. We hoeven dus eigenlijk niet eens naar Eta en Eta 2 te kijken. Pas als er een significante verschil in gemiddelden is, is het zinvol hiernaar te kijken. Eigenlijk willen we dan dat ook de grootte van de verschillen betekenisvol is.

26 248 Probeer nu zelf eens de volgende output te interpreteren. Het zijn de gegevens uit Tabel 12.5, dus je kan aldaar controleren of je interpretatie correct is. Je kan een eenwegsvariantie-analyse ook uitvoeren via ANALYZE, COMPARE MEANS en dan ONEWAY ANOVA. Vergeet dan niet om bij OPTIONS, om de beschrijvende grootheden (DESCRIPTIVES) te vragen, want anders is de zaak moeilijk interpreteerbaar. Het enige dat je dan niet automatisch krijgt is Eta, en Eta 2. Je krijgt dus geen maat voor de grootte van het effect (als dat er is). Vandaar dat wij een lichte voorkeur hebben voor de procedure via MEANS, maar op zich levert ONEWAY dezelfde resultaten op. Probeer het maar eens. Case Processing Summary Cases Included Excluded Total N Percent N Percent N Percent score * plaats % 0.0% % Report plaats Mean N Std. Deviation 1 Bibliotheek Trans Thuis Total Sum of Squares df Mean Square F Sig. score * plaats Between Groups Within Groups Total Measures of Association Eta Eta Squared score * plaats

27 HOOFDSTUK 12: VARIANTIEANALYSE Tweewegsvariantie-analyse Met behulp van de Oneway Anova, en de procedure in Means (wat natuurlijk ook een Oneway Anova is), kunnen we niet het gecombineerde effect van verschillende onafhankelijke variabelen achterhalen. Dat wil zeggen: het interactie-effect kan niet op significantie getoetst worden. Daarvoor moeten we een andere procedure binnen spss aanroepen. We zullen dit demonstreren aan de hand van de gegevens in Tabel In deze tabel wordt het effect van het type onderwijs uitgesplitst naar sekse van de docent. In de data-file die we moeten maken onderscheiden we vier variabelen: een nummer voor de proefpersoon (leerling), een variabele die de sekse van de docent aangeeft, een variabele die het type onderwijs indiceert, en een variabele voor de score van de leerling. Nadat we deze data-file gemaakt hebben, kunnen we de gegevens analyseren. We gaan via ANALYZE naar GENERAL LINEAR MODEL en kiezen dan UNIVARIATE. En, we komen dan in het volgende schermpje. We geven aan dat onze variabele SCORE de onafhankelijke variabele is, en dat SEKSE_DO en ONDERWIJS de onafhankelijke variabelen zijn. We klikken op OPTIONS, en vinken DESCRIPITIVE STATITSTICS aan, waarna CONTINUE en OK aangeklikt worden. Dit levert ons in een fractie van een seconde de resultaten van de gewenste tweewegsvariantieanalyse op. De output staat op de volgende pagina weergegeven. De beschrijvende grootheden zijn dankzij de VALUE LABELS makkelijk te interpreteren. Between-Subjects Factors Value Label N sekse_do 1 Man 15 2 Vrouw 15 onderwijs 1 Traditioneel 10 2 Instructie 10 3 Herschrijf 10

28 250 We zien dan het gemiddelde van mannelijke docenten 5.27 is, en het gemiddelde van vrouwelijke docenten 5.67 is. En, voor de drie onderwijsvormen varieert het gemiddelde tussen 5.2 en 5.7. Ook zien we dat de gemiddelden per cel behoorlijk variëren. Zo is het gemiddelde van mannelijke docenten die traditioneel lesgeven 4.8, terwijl vrouwen die traditioneel lesgeven een gemiddelde van 5.6 hebben. Bij Instructieonderwijs zijn de mannelijke docenten opeens beter dan de vrouwelijke docenten (5.8 vs. 5.7), die bij Herschrijfonderwijs weer licht in het voordeel zijn. Als we zo naar deze gemiddelden kijken dan zou er wel een interactie-effect kunnen zijn. Of, deze verschillen in de steekproeven aan steekproeftoevalligheden toegerekend kunnen/moeten worden, of dat er meer aan de hand is, moet toetsing uitwijzen. De resultaten van deze toetsing zijn in het tweede deel van de output weergegeven. Descriptive Statistics Dependent Variable:score sekse_do onderwijs Mean Std. Deviation N 1 Man 1 Traditioneel Instructie Herschrijf Total Vrouw 1 Traditioneel Instructie Herschrijf Total Total 1 Traditioneel Instructie Herschrijf Total

29 HOOFDSTUK 12: VARIANTIEANALYSE Dependent Variable:score Tests of Between-Subjects Effects Source Type III Sum of Squares df Mean Square F Sig. Corrected Model a Intercept sekse_do onderwijs sekse_do * onderwijs Error Total Corrected Total a. R Squared =.053 (Adjusted R Squared = -.145) Dan blijkt dat het effect van Sekse van de docent niet significant is (F = 0.41; df= 1, 24; p = 0.53). Hetzelfde geldt voor Onderwijsvorm (F = 0.63; df = 2, 24; p = 0.81) en voor de interactie tussen Sekse van de docent en Onderwijsvorm (F = 0.70; df = 2, 24; p = 0.79). Dus, de gemiddelden van mannelijke en vrouwelijke docenten verschillen niet. Ook de drie onderwijsvormen verschillen niet qua gemiddelden, en ook kan niet aangetoond worden dat mannelijke of vrouwelijke docenten met één van de drie onderwijsvormen beter uit de voeten kan dan docenten van de andere kunne. Voor de rest staat er in de output nog het één en ander wat niet interessant is. Bij INTERCEPT bijvoorbeeld wordt getoetst of het algemeen gemiddelde gelijk is aan 0.0. Dat is, als we bedenken dat de gegevens maximaal op intervalniveau gerepresenteerd zijn, natuurlijk een redelijk onzinnige toetsing. Het totaal is de som van alle Sums of Squaers, ook die van de rare Sums of Squares bij het Intercept. Als we nu willen weten wat de totale kwadratensom is zonder die van het intercept (gewoon de teller in de variantie-formule), dan kijken we naar CORRECETED TOTAL. En, van het Corrected Total zijn 3.87 sums of squares toe te schrijven aan de onafhankelijke variabelen (sekse docent, onderwijsvorm en de interactie tussen beide). Als laatste hebben we SPSS ook een plaatje laten produceren waarin de gemiddelden per conditie geplot zijn (Ga bij het schermpje van Univariate naar Plots, en geef aan dat je onderwijs op de horizontale as wilt, en aparte lijnen voor Sekse_Do, en klik dan op add). Zo n plaatje is met name handig voor de interpretatie van de

30 252 resultaten. Het kan natuurlijk ook zonder, maar met zo n plaatje is het een whistle of a penny. Voordat we nu verder gaan, willen we nog even terug naar het eerste schermpje bij UNIVARIATE. Daar zie je een subschermpje met COVARIATE(S). In veel onderzoek is het onmogelijk om groepen aselect aan condities tie te wijzen. Wat dan vaak gebeurt, is dat de condities achteraf, op statistische wijze gelijk gemaakt worden. Dat wil zeggen: op een (gemeten) variabelen worden de respondenten gelijk gemaakt, en pas daarna wordt er een variantie-analyse uitgevoerd. Zo n variabele waarop respondenten gelijk gemaakt worden, heet een covariaat. In het onderhavige voorbeeld zouden we bijvoorbeeld een intelligentiescore van de leerling als covariaat op kunnen nemen. Het schermpje bij Univariate ziet er dan als volgt uit (zie hiernaast).

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse 10.1 Eenwegs-variantieanalyse: Als we gegevens hebben verzameld van verschillende groepen en we willen nagaan of de populatiegemiddelden van elkaar verscihllen,

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling Kwantitatieve Data Analyse (KDA) Onderzoekspracticum Sessie 2 11 Aanpassingen takenboek! Check studienet om eventuele verbeteringen te downloaden! Huidige versie takenboek: 09 Gjalt-Jorn Peters gjp@ou.nl

Nadere informatie

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren: INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 4 1. Toets met behulp van SPSS de hypothese van Evelien in verband met de baardlengte van metalfans. Ga na of je dezelfde conclusies

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Antwoordvel Versie A

Antwoordvel Versie A Antwoordvel Versie A Interimtoets Toegepaste Biostatistiek 13 december 013 Naam:... Studentnummer:...... Antwoorden: Vraag Antwoord Antwoord Antwoord Vraag Vraag A B C D A B C D A B C D 1 10 19 11 0 3

Nadere informatie

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 1. De onderzoekers van een preventiedienst vermoeden dat werknemers in een bedrijf zonder liften fitter zijn dan werknemers

Nadere informatie

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling week 3: schatten en toetsen: de z-toets week 4: het toetsen van gemiddelden: de t-toets Moore, McCabe, and Craig.

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 ANOVA in SPSS Hugo Quené hugo.quene@let.uu.nl opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 1 vooraf In dit voorbeeld gebruik ik fictieve gegevens, ontleend aan

Nadere informatie

College 7 Tweeweg Variantie-Analyse

College 7 Tweeweg Variantie-Analyse College 7 Tweeweg Variantie-Analyse - Leary: Hoofdstuk 12 (p. 255 t/m p. 262) - MM&C: Hoofdstuk 12 (p. 618 t/m p. 623 ), Hoofdstuk 13 - Aanvullende tekst 9, 10, 11 Jolien Pas ECO 2012-2013 Het Experiment

Nadere informatie

Statistiek 1 Blok 6, Werkgroepopdrachten 11-6-2009

Statistiek 1 Blok 6, Werkgroepopdrachten 11-6-2009 Statistiek 1 Blok 6, Werkgroepopdrachten 11-6-2009 Opdracht 1 Onderstaande tabel bevat metingen aan de opbrengst van rozen bij verschillende mate van stikstofen fosfortoevoer. rozen/snijvak/dag fosfaatniveau

Nadere informatie

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 13. Factor ANOVA De theorie achter factor ANOVA (tussengroep) Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 1. Onafhankelijke

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid 65 56 83 68 64 47 59 63 93 65 75 68 68 51

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid 65 56 83 68 64 47 59 63 93 65 75 68 68 51 INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 7 1. Een onderzoeker wil nagaan of de fitheid van jongeren tussen 14 en 18 jaar (laag, matig, hoog) en het geslacht (M, V) een

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie? Opdracht 13a ------------ Een-factor ANOVA (ANOVA-tabel, Contrasten, Bonferroni) Bij een onderzoek naar de leesvaardigheid bij kinderen in de V.S. werden drie onderwijsmethoden met elkaar vergeleken. Verschillende

Nadere informatie

College 2 Enkelvoudige Lineaire Regressie

College 2 Enkelvoudige Lineaire Regressie College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:

Nadere informatie

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt A. Effect & het onderscheidingsvermogen Effectgrootte (ES) De effectgrootte (effect size) vertelt ons iets over hoe relevant de relatie tussen twee variabelen is in de praktijk. Er zijn twee soorten effectgrootten:

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

College 6 Eenweg Variantie-Analyse

College 6 Eenweg Variantie-Analyse College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld

Nadere informatie

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Oefentoets 1 1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Conditie = experimenteel Conditie = controle Sekse = Vrouw 23 33 Sekse = Man 20 36 Van

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 1. Iemand kiest geblinddoekt 4 paaseitjes uit een mand met oneindig veel paaseitjes. De helft is melkchocolade, de andere

Nadere informatie

toetskeuze schema verschillen in gemiddelden

toetskeuze schema verschillen in gemiddelden toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling week 3: schatten en toetsen: de z-toets week 4: het toetsen van gemiddelden: de t-toets week 5: het toetsen van

Nadere informatie

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA) HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA) DATA STRUKTUUR Afhankelijke variabele: Eén kontinue variabele Onafhankelijke variabele(n): - één discrete variabele: één gecontroleerde factor - twee discrete variabelen:

Nadere informatie

Feedback examen Statistiek II Juni 2011

Feedback examen Statistiek II Juni 2011 Feedback examen Statistiek II Juni 2011 Bij elke vraag is alternatief A correct. 1 De variabele X is Student verdeeld in een bepaalde populatie, met verwachting µ X en variantie σ 2 X. Je trekt steekproeven

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf.

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf. Opdracht 10a ------------ t-procedures voor gekoppelde paren t-procedures voor twee onafhankelijke steekproeven samengestelde t-procedures voor twee onafhankelijke steekproeven Twee groepen van 10 leraren

Nadere informatie

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart

Nadere informatie

Voorbeeld regressie-analyse

Voorbeeld regressie-analyse Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

College 3 Meervoudige Lineaire Regressie

College 3 Meervoudige Lineaire Regressie College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013 'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

Nadere informatie

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN Interim Toegepaste Biostatistiek deel december 2009 Versie A ANTWOORDEN C 2 B C A 5 C 6 B 7 B 8 B 9 D 0 D C 2 A B A 5 C Lever zowel het antwoordformulier als de interim toets in Versie A 2. Dit tentamen

Nadere informatie

Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking

Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking Opdracht 9a ----------- t-procedures voor een enkelvoudige steekproef Voor de meting van de leesvaardigheid van kinderen wordt als toets de Degree of Reading Power (DRP) gebruikt. In een onderzoek onder

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) Avondopleiding. donderdag 6-6-3, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I

SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I Hieronder volgen de SPSS uitvoer en de antwoorden van de opgaven van Stap 7: Oefenen I. Daarnaast wordt bij elke opgave

Nadere informatie

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing Bijlage 3 Statistische toetsing: werkwijze, toetsen, formules, toepassing In dit boek wordt kennis van statistiek en statistische ( hypothese)toetsing in principe bekend verondersteld. Niettemin geven

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

Vergelijken van twee groepen (SPSS)

Vergelijken van twee groepen (SPSS) Vergelijken van twee groepen (SPSS) Vergelijking van gemiddeldes van onafhankelijke steekproeven met gelijke varianties (dataset newspapers) In een onderzoek geven studenten aan hoeveel keer per week ze

Nadere informatie

gemiddelde politieke interesse van hoger opgeleide mensen)

gemiddelde politieke interesse van hoger opgeleide mensen) SPSS-oefening 2: Hypothesetoetsen Opgave Oefening 1 a) Het zijn onafhankelijke steekproeven. De scores voor politieke interesse zijn afkomstig van verschillende mensen aangezien elke persoon slechts in

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

Meervoudige variantieanalyse

Meervoudige variantieanalyse Meervoudige variantieanalyse Inleiding In dit hoofdstuk, dat aansluit op hoofdstuk II-12 (deel2) van het statistiekboek, wordt besproken hoe met SPSS gemiddelden van verschillende groepen met elkaar vergeleken

Nadere informatie

Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen.

Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen. Oplossingen hoofdstuk IX 1. Bestaat er een verband tussen het geslacht en het voorkomen van dyslexie? Uit een aselecte steekproef van 00 leerlingen (waarvan 50% jongens en 50% meisjes) uit het basisonderwijs

Nadere informatie

Beschrijvende statistieken

Beschrijvende statistieken Elske Salemink (Klinische Psychologie) heeft onderzocht of het lezen van verhaaltjes invloed heeft op angst. Studenten werden at random ingedeeld in twee groepen. De ene groep las positieve verhaaltjes

Nadere informatie

Kruis per vraag slechts één vakje aan op het antwoordformulier.

Kruis per vraag slechts één vakje aan op het antwoordformulier. Toets Stroom 1.2 Methoden en Statistiek tul, MLW 7 april 2006 Deze toets bestaat uit 25 vierkeuzevragen. Kruis per vraag slechts één vakje aan op het antwoordformulier. Vraag goed beantwoord dan punt voor

Nadere informatie

Oplossingen hoofdstuk 9

Oplossingen hoofdstuk 9 Oplossingen hoofdstuk 9 1. Bestaat er een verband tussen het geslacht en het voorkomen van dyslexie? Uit een aselecte steekproef van 200 leerlingen (waarvan 50% jongens en 50% meisjes) uit het basisonderwijs

Nadere informatie

Klantonderzoek: statistiek!

Klantonderzoek: statistiek! Klantonderzoek: statistiek! Statistiek bij klantonderzoek Om de resultaten van klantonderzoek juist te interpreteren is het belangrijk de juiste analyses uit te voeren. Vaak worden de mogelijkheden van

Nadere informatie

De data worden ingevoerd in twee variabelen, omdat we te maken hebben met herhaalde metingen:

De data worden ingevoerd in twee variabelen, omdat we te maken hebben met herhaalde metingen: INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 6 1. De 15 leden van een kleine mountainbikeclub vragen zich af in welk mate de omgevingstemperatuur een invloed heeft op hun

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op dinsdag 5-03-2005, 9.00-22.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing

Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C, Chapter 6, Introduction to Inference 6.1 Estimating with Confidence 6.2 Tests of Significance 6.3 Use and Abuse

Nadere informatie

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA 16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden

Nadere informatie

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding.

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding. Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding. Bij Excel denken de meesten niet direct aan een statistisch programma. Toch biedt Excel veel mogelijkheden tot statistische

Nadere informatie

1 Basisbegrippen, W / O voor waar/onwaar

1 Basisbegrippen, W / O voor waar/onwaar Naam - Toetsende Statistiek Rijksuniversiteit Groningen Lente Docent: John Nerbonne Tentamen di. 22 juni om 14 uur tentamenhal Belangrijke instructies 1. Schrijf uw naam & studentnummer hierboven, schrijf

Nadere informatie

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen. Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding.

Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding. Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding. SPSS is een alom gebruikt, gebruiksvriendelijk statistisch programma dat vele analysemogelijkheden kent. Voor HBO en universitaire

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Formuleblad Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Plaats van de median berekenen: Oneven aantal observaties: (n+1)/2 Even aantal observaties: gemiddelde van de

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

Oplossingen hoofdstuk XI

Oplossingen hoofdstuk XI Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij

Nadere informatie

11. Meerdere gemiddelden vergelijken, ANOVA

11. Meerdere gemiddelden vergelijken, ANOVA 11. Meerdere gemiddelden vergelijken, ANOVA Analyse van variantie (ANOVA) wordt gebruikt wanneer er situaties zijn waarbij er meer dan twee condities vergeleken worden. In dit hoofdstuk wordt de onafhankelijke

Nadere informatie

Basishandleiding SPSS

Basishandleiding SPSS Basishandleiding SPSS Elvira Folmer & Marieke ten Voorde SLO, Juli 2008 Deze handleiding is gebaseerd op SPSS 16.0 for Windows Inhoud 1 Het maken van een gegevensbestand in de Variable View... 4 2 Het

Nadere informatie

Extra Opgaven. 3. Van 10 personen meten we 100 keer de hartslag na het sporten. De gemiddelde hartslag van

Extra Opgaven. 3. Van 10 personen meten we 100 keer de hartslag na het sporten. De gemiddelde hartslag van Extra Opgaven 1. Een persoon doet een HIV-test. Helaas is de uitslag positief. De test is echter niet perfect. De persoon vraagt zich af wat de kans is dat hij nu ook echt HIV heeft. Gegeven is: de kans

Nadere informatie

Sheets hoorcollege 1 (over paragraaf 7.1) Uitgewerkte opgaven week 6 Antwoorden uitgewerkte opgaven week 6

Sheets hoorcollege 1 (over paragraaf 7.1) Uitgewerkte opgaven week 6 Antwoorden uitgewerkte opgaven week 6 MATERIALEN BIJ STATISTIEK (1991) JANUARI 010 Sheets hoorcollege 1 (over paragraaf 7.1) Uitgewerkte opgaven week 1 Antwoorden uitgewerkte opgaven week 1 11 15 Power-point sheets hoorcollege (over paragraaf

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

Statistiek ( ) eindtentamen

Statistiek ( ) eindtentamen Statistiek (200300427) eindtentamen studiejaar 2010-11, blok 4; Taalwetenschap, Universiteit Utrecht. woensdag 29 juni 2011, 17:15-19:00u, Educatorium, zaal Gamma. Schrijf je naam en student-nummer op

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Wiskunde B - Tentamen 1

Wiskunde B - Tentamen 1 Wiskunde B - Tentamen Tentamen 57 Wiskunde B voor CiT vrijdag januari 5 van 9. tot. uur Dit tentamen bestaat uit 6 opgaven, formulebladen en tabellen. Vermeld ook uw studentnummer op uw werk en tentamenbriefje.

Nadere informatie

Tabel 13.1. De verdeling van preferenties over vier automerken. Mercedes BMW Porsche Alfa Romeo Totaal

Tabel 13.1. De verdeling van preferenties over vier automerken. Mercedes BMW Porsche Alfa Romeo Totaal 13. NON-PARAMETRISCHE TOETSEN 13.1 Inleiding Wanneer de verzamelde gegevens niet op intervalniveau gemeten zijn, maar op ordinaal of nominaal niveau, of wanneer de verdeling van de scores verre van normaal

Nadere informatie

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN 4. VERGELIJKINGSTOETSEN A. Vergelijken van varianties Men beschouwt twee steekproeven uit normaal verdeelde populaties: X, X,, X n ~ N(µ, σ ) Y, Y,, Y n

Nadere informatie

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn. Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie

Nadere informatie

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018 Statistiek in de alfa en gamma studies Aansluiting wiskunde VWO-WO 16 april 2018 Wie ben ik? Marieke Westeneng Docent bij afdeling Methoden en Statistiek Faculteit Sociale Wetenschappen Universiteit Utrecht

Nadere informatie

Hoofdstuk 3. Het onderzoek van dyslectische leerlingen

Hoofdstuk 3. Het onderzoek van dyslectische leerlingen Hoofdstuk 3. Het onderzoek van dyslectische leerlingen Inleiding In de voorgaande twee hoofdstukken hebben wij de nieuwe woordleestoetsen en van Kleijnen e.a. kritisch onder de loep genomen. Uit ons onderzoek

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets &

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages. MARGES EN SIGNIFICANTIE BIJ STEEKPROEFRESULTATEN. De marges van percentages Metingen via een steekproef leveren een schatting van de werkelijkheid. Het toevalskarakter van de steekproef heeft als consequentie,

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN

TECHNISCHE UNIVERSITEIT EINDHOVEN TECHNISCHE UNIVERSITEIT EINDHOVEN Tentamen Biostatistiek voor BMT (2S390) op 17-11-2003 U mag alleen gebruik maken van een onbeschreven Statistisch Compendium (dikt. nr. 2218) en van een zakrekenmachine.

Nadere informatie

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking Gegevensverwerving en verwerking Staalname - aantal stalen/replicaten - grootte staal - apparatuur Experimentele setup Bibliotheek Statistiek - beschrijvend - variantie-analyse - correlatie - regressie

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

variantie: achtergronden en berekening

variantie: achtergronden en berekening variantie: achtergronden en berekening Hugo Quené opleiding Taalwetenschap Universiteit Utrecht 8 sept 1995 aangepast 8 mei 007 1 berekening variantie Als je de variantie met de hand moet uitrekenen, is

Nadere informatie

Toegepaste Statistiek, Week 6 1

Toegepaste Statistiek, Week 6 1 Toegepaste Statistiek, Week 6 1 Eén ordinale en één nominale variabele Nominale variabele met TWEE categorieën, 1 en 2 Ordinale variabele normaal verdeeld binnen iedere categorie? Variantie in beide categorieën

Nadere informatie

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14 Statistiek met Excel Schoolexamen en Uitbreidingsopdrachten 2 Inhoudsopgave Achtergrondinformatie... 4 Schoolexamen Wiskunde VWO: Statistiek met grote datasets... 5 Uibreidingsopdrachten vwo 5... 6 Schoolexamen

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Inleveren: Uiterlijk 15 februari voor 16.00 in mijn postvakje Afspraken Overleg is toegestaan, maar iedereen levert zijn eigen werk in. Overschrijven

Nadere informatie