STATISTIEK voor Onderzoek. v. X B.J. van Zweeden

Maat: px
Weergave met pagina beginnen:

Download "STATISTIEK voor Onderzoek. v. X B.J. van Zweeden"

Transcriptie

1 STATISTIEK voor Onderzoek v. X B.J. van Zweeden

2 Inhoudsopgave 1.1 Inleiding 1.2. Een onderzoek opzetten Een idee De formulering van een onderzoeksvraag De nulhypothese De wijze waarop met gegevens wordt omgegaan 1.3. Een onderzoeksverslag maken 1.4. Een voorbeeld uit de praktijk Bier en de reactiesnelheid 1.5. Welke testen zijn er zoal? Typen meetniveau's De normale verdeling en de Student-t test Parametervrije toetsen Scheefheid als criterium voor normale verdeling Een overzicht van testen en toetsen 1.6. Overzicht van toetsen met voorbeelden De standaardnormale verdeling Steekproeven Student-t toets De X 2 toets De tekentoets Wilcoxon toets Mann-Whitney toets 2.0 Workaround: hoe ga je nu te werk? 3.0 Basis Statistiek 3.1. Populatie en steekproef 3.2. Het verschil tussen standaardafwijking en standaard fout 3.3. De manier van steekproeftrekking 4.0. Literatuur 2

3 1.1 Inleiding Wie onderzoek doet of gaat doen ontkomt niet aan de verantwoording van de getrokken conclusies. Om naar aanleiding van een onderzoek iets te kunnen concluderen, moet dat kunnen staven met statistiek en statistische testen en toetsen. Daarvoor zijn afspraken gemaakt, afspraken die gaan over de mate van geaccepteerde toleranties en daarmee de mate van significantie. Wij hebben in onze wereld te maken met populaties. Populaties van objecten, personen enzovoort. Dit omvat steeds alles. Alle mensen op de wereld, alle appels die aan appelbomen groeien, alle sterren aan de hemel, alle denkbare metingen die uit te voeren zijn. Al deze populaties hebben een omvang aangeduid met de hoofdletter N. Omdat N meestal onnoemelijk groot is, en onmogelijk om allemaal te meten, moet je je in onderzoek beperken tot een steekproef. Immers alles willen meten is onmogelijk. Deze steekproef moet dan zo betrouwbaar mogelijk bepaald zijn maar toch voldoende afspiegeling van het grote geheel. Doordat veel proeven in de natuurwetenschappen steekproeven zijn, wil je als onderzoeker weten of de kenmerken van deze steekproeven iets zeggen over het grote geheel: de gehele populatie. Het kan dus zijn dat jouw experiment bestaat uit een serie metingen die op te vatten is als een steekproef. Die kan overeenkomen met een geaccepteerde waarde van de populatie of niet. Of de kenmerken van de steekproef afwijken of niet wordt bepaald door het significantieniveau. Dat laatste woord wordt vaak misbruikt als synoniem voor 'opvallend', of 'overtuigend'. Statistische significantie duidt echter op de afwijking van een geaccepteerde grens. Het individuele gewicht van een persoon kan significant afwijken van het gemiddelde van personen met bijvoorbeeld dezelfde lengte en omvang. Een steekproef kan een gemiddelde produceren die significant afwijkt van wat men veronderstelde als gemiddelde geldend voor de gehele populatie. Zo zijn er significantie grenzen van 1%, 5% en 10%. In het algemeen geldt: hoe kritischer (kleiner) het significantieniveau, des te overtuigender is het gevonden en gemeten effect. Wie een grens van 5% kiest, zegt in feite dat de kans dat de H 0 hypothese geaccepteerd blijft 95% is en de kans dat men moet uitwijken naar de alternatieve hypothese 5% is. Wie een grens van 1% hanteert maakt deze scheiding nog extremer. Als dan de test met een p- waarde op bijvoorbeeld 0,007 komt, is er duidelijk iets 'significant' anders en vervalt de H 0 hypothese. Significantie heeft dus te maken met grenzen van acceptatie. In dit document kan je terugvinden welke gangbare toetsen en testen er bestaan, hoe deze uit te voeren en op grond waarvan je een dergelijke keuze moet maken. Allereerst kijken we naar de onderzoeksopzet en een voorbeeld. Daarna via de meetniveaus naar de bijbehorende testen. De bundel gaat verder met verdelingen en geeft via voorbeelden talloze uitwerkingen van diverse tests. Achterin staat in Hoofdstuk 3 nog wat basis-statistiek uitgelegd. Veel plezier! Bart J. van Zweeden 3

4 1.2 Een onderzoek opzetten De opzet van een (serieus bedoeld) onderzoek vraagt om een strakke werkplanning en werkwijze. Er zijn veel varianten van onderzoek. De vormen waar het hier omgaat zijn vormen van natuurwetenschappelijk onderzoek; onderzoek waarbij vanuit een algemene vraagstelling een hypothese wordt geformuleerd en vervolgens via een werkwijze en materiaalbehandeling komt tot resultaten. Die resultaten kunnen slechts worden beoordeeld als van te voren vast staat wat men wenselijk acht en wat niet. Het is nogal vrij makkelijk om pas na het meten en verkrijgen van resultaten dan pas te gaan bepalen hoe je met de data wenst om te gaan. Dit leidt tot onbedoelde verkeerde veronderstellingen (bias) en blindheid voor de werkelijkheid. De opzet van bijvoorbeeld een natuurwetenschappelijk onderzoek heeft deze vorm: Een idee, een verwondering, een (thematische) vraag, een veronderstelling Je hebt als onderzoeker een verschijnsel waargenomen. Iets viel je op en je vraagt je af of dit vaker zo voorkomt, of dit een bepaald patroon volgt. Een voorbeeld: Italiaanse onderzoekers onderzochten de manier waarop postduiven hun weg terug naar huis kunnen vinden. Het is immers opmerkelijk dat deze dieren op zeer grote afstanden (soms meer dan 1000 km) toch hun huis weer weten te vinden. Men verwondert zich, bedenkt een onderzoek dat een aspect van dit fenomeen uitlicht en uittest De formulering van een onderzoeksvraag Naar aanleiding van de initiële verwondering volgt een gerichtere onderzoeksvraag. Welke factoren zijn verantwoordelijk voor of spelen een rol bij het terugvinden van de huislocatie bij op afstand geloste postduiven? Dit zou een prima eerste vraag kunnen zijn. De vraag laat zich verder uitsplitsen in deelvragen die elkaar niet overlappen, maar gezamenlijk een antwoord trachten te vinden op de hoofdvraag. Deelvragen: 1) Welke invloed hebben de weersomstandigheden op een succesvolle thuiskomst bij op afstand geloste postduiven? 2) Welke invloed hebben kenmerken in het landschap (landmarks) op de oriëntatie van op afstand geloste postduiven? Enzovoort. Je ziet ook dat als je meer en meer in detail treed, de vragen scherper worden en steeds meer neigen naar een toetsbare factor. Het mooiste is dat een (deel)onderzoek zo'n deelvraag kan beantwoorden. De voorbeelden hierboven zijn eigenlijk afzonderlijke onderzoeken geweest die in de jaren gehouden zijn De (nul)hypothese en alternatieve hypothese. Veronderstel dat een onderzoeker wil weten of postduiven een duidelijke voorkeur van richting hebben (getuigend van richtingszin) zodra deze dieren worden losgelaten in het vrije veld op weg naar huis. Een nulhypothese zal dan luiden: H o: Er is geen duidelijke voorkeur. De dieren vertrekken in elke denkbare richting. Als Alternatieve hypothese kan dan gelden: H 1: De dieren hebben een 4

5 duidelijke voorkeur hetgeen blijkt uit de gekozen richting die niet meer dan x graden afwijkt van de echte richting De wijze waarop met de gegevens wordt omgegaan: de statistiek en de te hanteren toets-vorm. In dit stadium moet duidelijk worden hoe men met de gegevens wenst om te gaan, welke nabewerkingen er nog nodig zijn en welke toets-vorm het beste past. Uit eerder genoemde onderzoeken hebben onderzoekers gekeken naar de verdwijnrichting die postduiven kiezen zodra zij op gerede afstand van hun hok zijn losgelaten. Hoe meer deze richting overeenstemt met de noodzakelijke richting om thuis te komen, des te meer leken de dieren te 'weten' waar zij moesten zijn. De verdwijnrichting is een numerieke variabele en kan dus bij herhaalde proeven getoetst worden. In deze toets test je de eerder in stap drie geformuleerde hypothesen. Als de resultaten laten zien dat de gekozen richting niet overtuigend afwijkt van een eerder afgesproken tolerantiegrens, dan vervalt de H o-hypothese en hebben de losgelaten duiven blijkbaar een duidelijke voorkeur hetgeen mogelijk kan duiden op een vorm van oriëntatie. Dat laatste wordt niet getest en zal een meer neurologisch onderzoek worden. Je ziet dat als je niet van te voren een dergelijk toets-criterium opstelt, je conclusies afhankelijk worden van wat je aan data vindt ende manier waarop je naar de data gaat kijken. Je speelt dan vals. 1.3 Een onderzoeksverslag maken Bij serieus onderzoek in de natuurwetenschappen hoort een verslagwijze die in het algemeen herkend en erkend is. Veel publicaties op wetenschappelijk niveau kennen vaak een min of meer dezelfde opbouw van verslaggeving. Deze heeft de volgende opbouw: 1. Onderzoektitel. Deze titel maakt in één zin duidelijk waar het onderzoek over gaat. 2. Rijtje namen van de auteurs Meestal zijn er meerdere onderzoekers bij het onderzoek betrokken. Men hanteert de volgorde van namen waaruit blijkt wie de meeste bijdragen heeft geleverd aan het onderzoek; niet alfabetisch dus. 3. Een abstract Bij onderzoeken die gepubliceerd worden is een abstract handig. Een abstract is een bondige samenvatting waar het onderzoek over gaat, wat eruit gekomen is en welke conclusies men trok. Dergelijke abstracts zijn altijd via internet op te vragen; alle onderzoeksgegevens zelf zijn namelijk nog wel eens beschermd; voor inzage moet men dan bijvoorbeeld 36$ betalen. 4. Introductie Hier wordt de aanleiding van het onderzoek beschreven en de context waarin het onderzoek plaatsvindt. Mogelijk is dit onderzoek een vervolg op een eerder onderzoek. 5. Materiaal en Methode Hierin zijn de onderzoekers glashelder en eerlijk over de materialen die gebruikt zijn, gehanteerde werkwijzen en recepten die men volgde. Het idee erachter is dat iedereen die deze werkwijze hanteert en deze materialen op dezelfde manier gebruikt ook tot dezelfde resultaten moet komen. Een dergelijke openheid van zaken is erg van belang voor de voortgang van de wetenschap. 6. Resultaten 5

6 Hierin worden uitsluitend de resultaten vermeld die men middels meting, vaststelling gevonden heeft. Men trekt geen conclusies, geen uitingen van blijdschap over de gevonden gegevens en nimmer boosheid over het feit dat het experiment iets heel anders toont dan men verwacht had. Niets van dat alles: alleen de kale resultaten in tabel en grafiek vorm. 7. Discussie en conclusie Dit is de plaats waarop men de resultaten becommentarieerd. Er zijn verklaringen af te geven waarom de gegevens zo en zo eruit komen. Of waarom de resultaten niet consistent zijn, of waarom gegevens ontbreken. Ook kan het zijn dat de gehanteerde werkwijze toch niet de gevraagde getallen voortbrengt. Dat kan met in dit deel kwijt. Op grond van de discussie en resultaten trekken de onderzoekers jun conclusies. Ook is het doen van zinvolle suggesties voor vervolgonderzoek of een verbeterde proefopzet hier op zijn plaats. Bescheidenheid is hier vaak wel op zijn plaats; Zelden onderzoek je dé waarheid. Je onderzoek maakt hooguit aannemelijk dat jouw gevonden gegevens kunnen duiden op een regelmaat of wetmatigheid. Zie voor een prachtig voorbeeld het wereldberoemde verslag van Watson en Crick die samen in 1953 de structuur van DNA hebben opgehelderd. Dit verslagje telde enkele bladzijden en heeft de wereld drastisch doen veranderen! 8. Literatuur Elke onderzoeker staat op de schouders van voorgangers en zij die eerder met een dergelijk thema zijn bezig geweest. De referentie aan hun werk is dan ook niet meer dan vanzelfsprekend en getuigt van respect. Een literatuurlijst volgt in opzet de zogenaamde APA-regels. Het voert nu te ver om hier uitvoerig op in te gaan. Naast het verslag is het zeer aan te bevelen een logboek bij te houden. Dat is een hulpmiddel bij het systematisch verzamelen en ordenen van de gegevens. Een goed gedocumenteerd logboek/bronnen- en materialenboek is onmisbaar wanneer je de resultaten gaat uitwerken. Neem zoveel mogelijk gegevens op, want ook ogenschijnlijk onbelangrijke details kunnen in een later stadium essentiële informatie blijken te zijn! In het logboek/ bronnen- en materialenboek noteer je alle werkzaamheden: planning onderwerpkeuze vraagstellingen geraadpleegde hulpbronnen en samenvatting van gevonden informatie denkstappen alle resultaten andere aantekeningen. Met name de denkstappen die je deed om ergens te komen, blijken van groot belang. Immers is het doe van (experimenteel) onderzoek ook een kwestie van uitproberen en gevoel krijgen voor wat misschien weer nieuwe inzichten oplevert. Zeker bij tegenslagen, dingen die niet werken, het uitblijven van resultaten, blijkt een logboek zijn grote waarde. 6

7 1.4 Een voorbeeld uit de onderzoekpraktijk Bier en de invloed op de reactiesnelheid Een onderzoeker gefascineerd door het menselijk brein, is geïnteresseerd in de reactiesnelheid van jonge mensen van jaar. Vanuit de literatuur is bekend dat de gemiddelde mens ca. 150 ms nodig heeft om een spontaan losgelaten liniaal die rechtstandig naar beneden valt, op te vangen. Mensen met een tragere reactie snelheid zullen de liniaal nog net vastgrijpen, anderen missen deze geheel. De onderzoeker die dit weet wil weten of de consumptie van 5 biertjes invloed heeft op de reactiesnelheid van deze mensen en test hen eerst nuchter en na de consumptie van 5 biertjes nogmaals. Het idee is duidelijk. De H o hypothese luidt: De reactiesnelheid bij het grijpen van de liniaal is niet beïnvloed door de consumptie van één of meerdere biertjes. De testgrens ligt bij vijf biertjes. Feitelijk verwachten we geen verschillen in de reactiesnelheid voor of na het consumeren van bier. De H 1 hypothese: De reactiesnelheid bij het grijpen van de liniaal is duidelijk vertraagd door de consumptie van vijf of meer biertjes. We denken dat het consumeren van bier invloed heeft op de reactiesnelheid, vergeleken met dezelfde test voor de consumptie. Er is niet gezegd dat deze reactiesnelheid steeds trager moet zijn. Samengevat: H o : u v=0 (er is geen significant verschil) H 1: u x <>0 (er is wel een significant verschil dat niet door toeval wordt verklaard) Materiaal, Methoden en onderzoeksopzet De onderzoeker kiest voor een 15 mensen in de leeftijd van jaar. Deze groep is door loting vastgesteld uit een populatie van leerlingen van een HBO. Deze groep krijgt eerst uitleg over de proef, wordt onderworpen aan de proef door driemaal een poging te doen. Hiervan neemt de onderzoek het gemiddelde van deze drie pogingen. Dit levert dus 15 gemiddelde scores op. Daarna krijgt de groep een twee uur de tijd om vijf biertjes te consumeren en wordt de test herhaald. Er ontstaan dus twee rijen getallen: vóór en ná de consumptie van bier. De onderzoeker besluit om gebruik te maken van de Student-t toets met gepaarde groepen en zal op grond van de uitslag zijn conclusies trekken. Als grens wordt een alfa van 5% gehanteerd. We gaan even voorbij aan hoe men deze snelheid moet meten. Resultaten: Reactiesnelheid voor na

8 Gemiddeld Standaardafw 16, ,48145 T Test 0, Ons criterium ligt bij 5%: Het bovenstaande getal (0,00718) geeft dus de kans weer van 0,71% dat onze verschillen gebaseerd zijn op toeval; Dat wordt erg extreem gevonden, dus we moeten de conclusie trekken dat deze uitkomsten significant verschillen; de verschillen vóór en ná zijn té groot om verklaard te worden door toevallige verstoringen. In dit geval verwerpen we de H 0 hypothese en nemen we de H 1hypothese dat de verschillen vóór en ná bierconsumptie significant zijn. Zou de uitkomst 0,0673 zij, dan ligt deze waarde boven de 5% (0,05). Dat betekent dat we een betrouwbaarheid hebben van minder dan 95%, of een kans van meer dan 5% dat de verschillen door toeval verklaard worden. Dat vinden we teveel; in dat geval houden we de H 0 hypothese aan. 8

9 1.5 Welke testen zijn er zoal en welke moet je nou hebben? Dit is een belangrijke vraag. Om deze goed te beantwoorden kijken we eerst naar het type data waar we mee werken: Typen Meetniveau's Nominaal meetniveau Dit meetniveau verwijst naar categorieën en benamingen. Van getallen is geen sprake. Denk aan politieke partijen waarom mensen stemmen of merken auto's. De categorieën zijn niet te rangschikken en hebben geen onderlinge verhouding die rekenkundig kan worden benaderd. Veel statistische toetsen kan je hier dus niet bij gebruiken. Ordinaal meetniveau Deze schaalverdelingen hebben wel een volgorde. Denk aan een schaal van tevredenheid; mensen maken een keus van zeer ontevreden, via neutraal tot zeer tevreden. De ordening is duidelijk; een nulpunt ontbreekt en je kan ook niet zeggen dat 'zeer tevreden' 2x zo groot is als 'tevreden'. Interval meetniveau Bij dit meetniveau is sprake van getallen. De temperatuur in graden Celsius is zoiets. Sommige indexen zijn op interval niveau. Rationaal meetniveau Het laatste niveau is het meest numeriek en kent een ordening, een nulpunt en kent een onderlinge verhouding: een stengellengte van 10 is twee keer zo lang als die van 5. De meeste statistische testen en toetsen zijn ingericht op interval en rationaal niveau De normale verdeling en de Student-t verdeling Veel numeriek gegevens op rationaal meetniveau volgen de normale verdeling. De normale verdeling betekent dat van elke meetwaarde een grote groep metingen zijn die voor 70% rond het gemiddelde bewegen terwijl de overige 30% symmetrisch is gerangschikt aan de buitenzijde. Dit levert een klokvormige verdeling op: Als voorbeeld nemen we de gewichten van appels die van een appelboom komen. De hele boom produceert appels met een zeker gemiddelde gewicht genaamd. Rond die zal links en rechts een groep appels zijn die een gewicht hebben tussen en. Hierbij is de 9

10 standaardafwijking. Het gebied tussen en beslaat zo'n 68% van de appelgewichten, verdeeld in twee keer 34%. Daarbuiten blijkt tussen de grenzen: en 95% van alle gewichten te zitten. Dus dat betekent dat de buitengebieden 2x 13,5% beslaan. Buiten de 2 gebieden zitten de laatste 2,5% van de metingen. Deze verdeling is niet afhankelijk van de plaats van. Die kan elke denkbare waarde hebben. Het enge dat bepaalt is de plaats van de curve: de positie van het centrum. De slankheid van de curve ligt vast met de waarde van. Hoe groter die is, des te breder en lager de curve: hoe kleiner die is, des te smaller en hoger die curve. 2 2 De op de normale verdeling gebaseerde toetsen gaan er dus vanuit dat de gedane metingen afkomstig zijn uit een 'populatie' van normaal verdeelde metingen. In de praktijk zal met dát eerst moeten aantonen met of een normaal-kwantiel diagram of met de scheefheid van een curve. Beide methoden geven een indicatie of de keuze voor de normale verdeling gerechtvaardigd is. In onze cursussen, lessen en periodes gaan we ervan uit dat de meeste al/niet uit de natuur ontleende gegevens normaal verdeeld zijn. Student-t verdeling. Er is een aanpassing op de normale verdeling gemaakt. De student-t verdeling, welke overigens helaas geen examenstof is op school, volgt in grote lijnen de normale verdeling. Echter maakt de student-verdeling gebruik van steekproeven. De normale verdeling gaat uit van totale populaties. In Wikipedia lezen we: De t-verdeling, ook wel studentverdeling genoemd (naar het pseudoniem "Student" van William Sealy Gosset), is een kansverdeling die is afgeleid van de normale verdeling en verbonden met de verdeling van het geschaalde steekproefgemiddelde van een aselecte steekproef uit een normale verdeling. Het is de verdeling van de toetsingsgrootheid T van de t-toets. Juist in veel wetenschappelijk onderzoek kan men gebruik maken van de student-t verdeling. Dit correspondeert het beste met het feit dat veel proeven feitelijk een aselecte steekproef zijn uit een veel groter geheel. Iemand die 100 appels gaat wegen, heeft een steekproef genomen uit de enorme berg appels die denkbaar is. Ook iemand die 100 stengellengten opmeet, of 20 metingen aan CO2 doet, neemt in feite een steekproef Parametervrije toetsen Zoals eerder gezegd, zullen veel metingen afkomstig zijn uit de normale verdeling. Omdat je altijd met steekproeven te maken hebt, gebruiken de Student-t verdeling. Hierover later uitgebreid meer. Er is nóg een onderscheid t maken: Als niet wordt voldaan aan de eisen voor een normale verdeling (er is een gemiddelde en standaardafwijking bekend en de valt min of meer samen met de mediaan waardoor een symmetrische curve ontstaat), dan spreekt men van een non-parametrische verdeling. In dit geval mag je geen parametrische toets gebruiken en heb je een niet-parametrische toets (parametervrijetoets) nodig Scheefheid als criterium voor de normale verdeling Een meer nauwkeurige methode is het vaststellen van de scheefheid (de afwijking van de normale verdeling). Aan de hand van een simpele voorbeeldsteekproef zullen we de formules die hiervoor nodig zijn verduidelijken. 10

11 Je wilt de gemiddelde leeftijd van studenten onderzoeken. Je hebt hiervoor een steekproef van negen studenten genomen. In de onderstaande tabel zie je de gegevens. nummer leeftijd afwijking t.o.v. gem afw^ som gem d n Men berekent de scheefheid door Scheefheid. 3 ( n 1)( n 2) De waarde van d (afwijking of deviatie) halen we uit de derde kolom. Standaardafwijking hier is 3. Ingevuld met n=9 levert ons dit de waarde 0,12 op. Er is nog een waarde die we nodig hebben: de standaard fout van de scheefheid: 6 nn ( 1) S tan daardfout : Als we deze invullen vinden we de waarde: 0,72. ( n 1)( n 1)( n 3) Door deze op elkaar te delen (0,12/ 0,72) krijgen we de waarde 0,17. Deze waarde vergelijk je met de minimale waarde van z voor een significantieniveau van 5% (α= 0,05) bij een tweezijdige toets, namelijk 1,96. In het voorbeeld is de significantie voor de scheefheid lager dan 1,96, in dit geval hebben we te maken met een normale verdeling en mogen we dus een parametrische toets gebruiken. Is de waarde hoger dan 1,96, dan moet je een parametervrijetoets gebruiken. Ok, best lastig zo. We gaan in onze onderzoeken uit van de normale verdeling en van hooguit twee steekproeven: dat wil zeggen: een serie metingen 'blanco' of zonder de invloed van een factor, en een serie metingen met de factor X. Op die manier blijft het onderzoek hanteerbaar en wordt de statistiek niet overdreven lastig Een overzicht van testen en toetsen. In het overzicht op de volgende pagina kan je kijken welke toets moet worden gebruikt om je conclusies voortkomend uit onderzoek te staven. Er is sprake van de volgende toetsen: 1. T-toets 2. Tekentoets 3. X 2 toets bij nominale gegevens en aantalsverhoudingen 4. Wilcoxon toets (als je twee steekproeven hebt) 5. De Mann-Whitney toets. 11

12 Al deze vijf worden hieronder besproken met voorbeelden. Bron: Praedinius Gymnasium Groningen. 12

13 1.6. Overzicht toetsen en voorbeelden De Standaardnormale verdeling Deze verdeling is de basis van veel meetwaarden die we in het lab zullen doen. Echter hebben we nooit te maken met de gehele populatie maar met een beperkte set meetwaarden die als steekproef is op te vatten. Om toch een idee te geven hoe de normale verdeling werkt de volgende werkwijze. 1. Een normale verdeling ligt vast met en. 2. De standaardnormale verdeling heeft een u van 0 en een sigma van 1. Dit betekent dat waarden tussen -1 en 1 dus 70% van alle waarnemingen beslaan en tussen -2 en 2 dus 95% van alle waarnemingen beslaan. We kijken hier wel naar een totale populatie: alle lengten van jongens van 17 jaar of alle gewichten van appels van appelbomen. Ook alle dikten van spijkers gefabriceerd in een fabriek zijn normaal verdeeld. 3. We gaan uit van bijvoorbeeld de vraag: Hoe groot is de kans dat ik een appelgewicht tegen kom dat kleiner of gelijk is aan 75 gram met een u van 80 gram en een sigma s van 10 gram. Hierbij is x de variabele gewicht. X P(X <= 75) ofwel: z. z is standaard normaal verdeeld Ingevuld: z 0,5 10 De kans op z <= -0,5 kan worden gevonden door de oppervlakte nemen onder de curve, lopend van - oneindig tot -0,5. En dan vinden we met een tabel: 0,3085. Leerlingen op scholen lossen deze vraag rechtstreeks op met de GRM, de functie normalcdf. normalcdf (-10-99, -0,5, 0, 1) = 0,3085 of nog sneller: normalcdf (-10-99, 75, 80, 10) = 0,3085 Deze aanpak wordt herkend door alle HAVO/VWO-A en C leerlingen Steekproeven met de normale verdeling In plaats van de kans te berekenen dat een appel onder of boven een bepaald gewicht is, is het waarschijnlijker dat men niet één appel maar een set appels neemt; een steekproef van - zeg 25 appels uit een grote verzameling. Situatie: Neem aselect (zonder voorkeur) 25 appels uit een grote verzameling appels, bereken het gemiddelde gewicht. De vraag is nu: P(X gem <= 75 gram) Men lost dit op dezelfde manier als hierboven op, alleen wordt in plaats van de standaardafwijking voor losse appels nu de standaardafwijking voor steekproeven gebruikt: Xgem n Oplossing: 99 normalcdf 10, 75, 80, 10 / 25 0,

14 Opm1: Je ziet dat de kans dat een appel van het gemiddelde afwijkt veel groter is dan dat het gemiddelde gewicht van 25 appels afwijkt van het gemiddelde. Opm2: De formule van Xgem is ook de formule van de Standaard Fout. Deze is geënt op n steekproeven met grootte n Student-T-toets Er zijn drie Student-t toetsen die je goed uit elkaar moet houden. 1. Een serie metingen (een steekproef) wordt vergeleken met een algemeen geaccepteerd gemiddelde (mits bekend natuurlijk). 2. Twee series metingen worden onderling vergeleken waarbij de metingen niet gekoppeld zijn. Denk hierbij aan het vergelijk van een serie proeven waarin factor X wordt onderzocht en vergeleken met een serie blancowaarden waarin X ontbreekt. Excel maakt hierbij nog onderscheid in steekproeven afkomstig uit dezelfde populatie en dus de zelfde variantie ( ) of steekproeven uit verschillende populaties. 3. Twee series metingen worden onderling vergeleken waarbij de metingen wel gekoppeld zijn. Hierbij moet je denken aan een vóór - ná situatie. Een groep mensen wordt bemeten/getest en ondergaat daarna een training. Dan wordt weer gemeten en gekeken of de training effect heeft gehad. 2 We zullen de wiskundige achtergrond van de Student-t verdeling achterwege laten en ons beperken hoe je dit doet Een steekproef en één gemiddelde: een voorbeeld: Een serie CO 2waarden wordt vergeleken met een vastgesteld gemiddelde. Een laborant voert een onderzoek uit en test of deze metingen significant verschillen van een vast gemiddelde. Serie CO2 waarden Gemiddelde: 11,7 Met de GRM testen we of deze waarden afwijken van een vastgestelde waarde van De 20 waarden worden in lijst L1 gezet 2. [STAT] (TESTS) -> T-Test. 14

15 3. Input: Data, U 0=13, List: L1 Freq: 1 je wil weten <U 0 want dit gemiddelde ligt duidelijk lager. 4. 'Calculate' geeft een t waarde van -3,213 en een bijbehorende kans van p = 0, Als we de bekende grens van 0,05 aanhouden, betekent dat deze metingen significant afwijken van de vaste waarde 13. Context: Een instituut/fabriek/instelling heeft bepaald dat het CO2-niveau rond de 13 moet zijn. Metingen wijzen nu uit dat we met een gemiddelde van 11,7 er significant onder zitten Twee steekproeven met gekoppelde gegevens Een leerkracht wil weten of zijn 12 studenten er door een korte cursus wiskunde op vooruit zijn gegaan. Allereerst laat hij ze een test maken. Die scores noteert hij. Dan doorlopen de studenten een cursusprogramma, waarna zij opnieuw een test krijgen. Dan worden de scores vergeleken. De gegevens van de score-1-kolom is gekoppeld aan de gegevens van de score-2-kolom. H o: Er is geen verschil. Hier gaan we altijd van uit. H 1: Er is wel verschil (tweezijdige test: mensen kunnen immers ook juist slechter scoren de tweede keer). score 1 score2 Student Gem 60,25 65,25 stdev 14, ,63947 aantal SEM 4, , T.test 0, In de tweede kolom de scores in punten voor de cursus en in de derde kolom de scores na de cursus. Ondanks dat de gemiddelde scores wel beter geworden zijn, vertonen de beide kolommen flink wat ruis; er is een fikse spreiding in beide kolommen (standaardafwijking van 14,03 resp. 11,64 punten). De t-test laat zien dat de uitslag niet significant is; 0,1189 zeg 12%. Bij een grens van 5% is het verschil in beide kolommen niet significant. In dit geval is een gepaarde t-test gebruikt; een voor-na situatie: elke rij correspondeert met één en dezelfde persoon. Conclusie: de H o hypothese blijft bestaan; er is niet overtuigend aangetoond dat de cursus een significante verbetering heeft bewerkstelligd. 15

16 Eigenlijk zag je het al aan de SEM (Standard Error of the Mean) : deze waarden opgeteld/afgetrokken van het gemiddelde overlappen de andere range van gemidddelde en +/- SEM. Opmerking: Excel is niet in staat om een reeks getallen te vergelijken met één opgegeven gemiddelde. Daarnaast kent Excel twee varianten van een T-test met twee onafhankelijke groepen: de groepen zijn ontleend aan dezelfde populatie en hebben dus dezelfde veronderstelde variantie of niet. In EXCEL gebruik je de functie T.TEST (matrix1;matrix2; zijden ; type). Matrix: de reeks getallen van steekproef 1 resp 2, zijden: toets je éénzijdig of tweezijdg, betekent dat je afwijkingen in één richting verwacht of in twee. Type is 1: gepaard, 2: twee groepen afkomstig uit dezelfde populatie 3: twee groepen afkomstig uit verschillende populaties 16

17 1.4.3 Derde voorbeeld: Studenten van twee aparte groepen worden getest Het verschil met de vorige test is dat nu twee (niet noodzakelijk even grote) groepen dezelfde test krijgen. Ook nu: H o: er is geen verschil tussen de groepen, H 1: er is wel een significant verschil. De uitslag: Groep1 Groep Gem 60,25 71,53 14,03 14,34 Aantal SEM 4, , T.test 0, Uit deze tabel blijkt dat groep2 significant beter is dan groep 1. De niet gepaarde t-test laat zien dat de kans dat de verschillen op toeval berusten minder dan 5% is. (0,044756). We kozen hier voor type 2: verschillende groepen studenten, afkomstig uit dezelfde populatie. De H0 hypothese moet dus vervallen: er ís een duidelijk significant verschil. Ook hier zie je dat de gemiddelden van beide groepen niet in elkaars vaarwater zitten, rekening houdend me de SEM van beiden. Je kan dat zien door te kijken of het gemiddelde van kolom 2 in de range past van het gemiddelde kolom-1 +/- de SEM van kolom 1. Dus: 60,25 + 4,05 = 64,29 dit is geen

18 De Tekentoets De tekentoets is in feite een toets die wordt gebruikt om uitsluitend te letten op verschillen in termen van meer of minder. Hoe groot de verschillen zijn, wordt niet meegenomen. Derhalve is de toets geschikt voor ordinale waardenreeksen of steekproeven met getallen die niet uit de normale verdeling komen. De werkwijze is eenvoudig. Een voorbeeld. Een groep van 15 mensen wordt gewogen en hun gewichten genoteerd. Daarna volgen zij een crashdieet waarbij hen gewichtsverlies is beloofd. Na deze week worden zij opnieuw gewogen. De vraag is of het dieet gewerkt heeft: H 0: het werkt niet: er is geen verschil; de verschillen zijn of + of - 50% kans dus. H 1: het werkt wel: er is een significant aantal minnen duidend op gewichtsafname. Gewichten VOOR NA verschil persoon We tellen 9 minnen, vier plussen. De twee nullen (geen verschil) doen niet mee. Dit betekent dat n dus wordt: 13 ipv 15. Het is een rechtszijdige binomiale toets waarbij je stelt: P(aantal minnen >= 9) = 1 - P(aantal minnen <=8) = 1- binomcdf (13, 0,50, 9) = 0,046. Conclusie: het crashdieet werkt, H 0 vervalt. Opm: Wie gewoon de t-toets zou gebruiken (en waarom hier niet), zou zien dat de p-waarde op 0,30 ligt. Totaal niet significant. Reden: de T-toets neemt de getalwaarden mee, de tekentoets totaal niet. Als men echter een proefopzet heeft waarbij niet-numerieke variabelen worden gebruikt, is alleen nog de tekentoets bruikbaar. We zien wel dat dit een verarming is voor de kwaliteit van de toets. 18

19 X 2 toets bij nominale gegevens en aantalsverhoudingen Chi-kwadraat is een toets die erg goed bruikbaar is in tabellen waarin werkelijke gegevens kunnen worden vergeleken met verwachte gegevens. Die gegevens hoeven niet uit een normale verdeling te komen (het zijn er al veel te weinig bijvoorbeeld). Uit de Mendelse genetica kennen we de 9:3:3:1 verhouding. Een onderzoeker test dit met fruitvliegjes en let daarbij op twee kenmerken: scarlet eye en black body (ebony). Het allel scarlet eye is recessief tov red eye en ook ebony is recessief tov het wildtype. OBSERVED scarlet red ebony wild EXPECTED scarlet red ebony wild De matrix Expected komt tot stand door 560 te delen door 16. Die waarde (35) vormt de kleinste groep. De andere twee groepen zijn 3x zo groot. De laatste 9x zo groot. Nu de test. EXCEL: functie CHI.TEST (matrix-observed, matrix-expected) vergelijkt beide tabellen. Uitkomst: p= 0,0398. Conclusie: H 0: er is geen verschil, moet vervallen: er is nl wel een significant verschil en dus is de 9:3:3:1 verhouding hier blijkbaar niet geldig. Wat dan wel? Dat weet niemand. Met de GRM: zet de eerste matrix in lijst L1 en de tweede matrix in lijst L2. functie: [STAT][TESTS] -> X 2 GOF-test (observed=l1, Expected=L2; df = 1); p=0,0398 Als student moest ik dit met de hand uitrekenen. Daarbij had je een X 2 tabel nodig. Dat is verleden tijd gelukkig. We kunnen nu snel checken of de geneticawet van Mendel hier opgaat. 19

20 Wilcoxon toets Ook deze test wordt gebruikt als de gegevens in de steekproef niet normaal verdeeld zijn, maar wel numeriek, of ordinaal van schaal zijn. Een voorbeeld: Om te onderzoeken of een meststof A of B bij planten het beste resultaat geeft, worden een reeks van 11 (n) planten bemest met A en een reeks van 13 (m) planten met meststof B behandeld. Na enkele weken worden de planten gewogen. Gewichten Rang Reeks 1 Reeks 2 Rang , , ,2 15, ,5 16, ,5 16, ,6 17, ,7 17, ,9 17, ,3 18, ,1 18, ,5 19, , , Van beide reeksen worden de gewichten op volgorde gezet en krijgen de getallen een rangnummer. Daarna worden de rangnummers opgeteld per reeks. Als de reeksen mooi in elkaar passen, zou je een 50%-50% verdeling verwachten waarbij de planten om en om even zwaar geworden zijn. Dat is de H 0 hypothese. De kleinste waarde van n (met altijd n <= m) rangnummers is als alle kleinste rangnummers bij kleinste kolom horen. De som hiervan is: 0,5*n*(1 + n e waarde). Bij de som van de eerste 11 rangnummers is 0,5*11*(1 + 11) = 66. Het maximale van 11 van deze 24 rangnummers is dan: 0,5*11*( ) = 209. Dus in het meest extreme geval zal kolom 1 de eerste 11 rangnummers bevatten of juist de grootste 11 rangnummers. 1 Het minimum van de rangnummersom is: Sx 2 n( n 1) 1 1 Het maximale van de rangnummersom is: S n( m 1 n m) n( n 2m 1) x De verwachtingswaarde is echter: E( S ) n( n m 1) ofwel: (Min+max)/2 x 2 1 De standaardafwijking 12 nm( n m 1) (zonder toelichting) De H 0-hypothese is nu dat er geen verschil is tussen de kolommen en dat de som van de rangnummers het gemiddelde is van de meest minimale en de meest maximale: (66+209)/2=

21 In deze situatie uitgerekend: 1 Het minimum van de rangnummersom is: Sx 2 n( n 1) = Het maximale van de rangnummersom is: S n( m 1 n m) n( n 2m 1) =209 x De verwachtingswaarde is echter: E( S ) n( n m 1) =137,5 1 De standaardafwijking 12 nm( n m 1) = 17,26 In deze situatie is Sx 112. (zie tabel) x P(X <= 112) = normalcdf (-10 99, 112, 137.5, 17.26) = 0,069. Niet significant dus. Ofwel: er is geen significant verschil tussen meststoffen A en B. 2 OPM: 1) n en m waren groot genoeg om de normale verdeling te mogen gebruiken. Men hanteert als regel: n>5 en m> 10. 2) Wie continuïteitscorrectie toepast, vindt: normalcdf (-10 99, 112.5, 137.5, 17.26) = 0, ) Indien n en m te klein zijn om van de normale verdeling gebruik te maken, volgt een werkwijze met behulp van een tabel. Hierop gaan we niet verder in. 21

22 De Mann-Whitney toets. De Mann-Whitney toets lijkt sterk op de Wilcoxon toets en vergelijkt ook twee rijen waarnemingen en geeft ze een rangnummer. Ook hier kan bij voldoende grote getallen de normale verdeling gebruikt worden. Deze toets is een toets die nagaat of twee onafhankelijke steekproeven uit dezelfde populatie komen of eenzelfde verdeling hebben. De onderlinge ligging van de gegevens worden vergeleken door te tellen hoeveel van steekproef A een lager rangnummer hebben dan B, of andersom. Dit opgeteld heet de U-waarde, die wordt vergeleken met de U-waarde uit de U-tabel, die je kunt aflezen door middel van de steekproefomvangen. Ligt de gevonden waarde boven die van de tabel, dan wordt de nulhypothese behouden. Ligt de gevonden waarde eronder, dan wordt de nulhypothese verworpen. 22

23 2.0 Workaround: hoe ga je nou te werk: Een voorbeeld. 23

24 3.0 Basis statistiek In dit deel worden een paar basale zaken uitgelegd over de statistiek die we bij onderzoek tegen komen. 3.1 Populatie en steekproef Een populatie omvat feitelijk alles. Een populatie in de statistiek beoogt de gehele verzameling te zijn van objecten, personen, dingen waar het onderzoek mee te maken heeft. Deze populatie kent een omvang die N is. Een populatie heeft ook een gemiddelde, de waarde X. Ook kunnen we de populatieproportie aangeven: dat del van de populatie dat een kenmerk heeft, dat de rest van de populatie mist. Zo kan de populatieproportie van blonde mensen in Nederland 0,65 zijn; 65% van de Nederlanders is dan blijkbaar blond. Aangezien het technisch onmogelijk is om de gehele populatie te onderzoeken, beperken we ons tot steekproeven. Een steekproef moet dan wel representatief zijn en de populatie kunnen vertegenwoordigen. Zolang we dingen onderzoeken die op populatie niveau bekend zijn is het vergelijk van steekproeven met deze populatiewaarden betrekkelijk eenvoudig. Als we zouden weten dat dé gemiddelde appel 80 gram weegt, en we vinden in een steekproef van 20 appels een gemiddelde van slecht 66 gram, dan kunnen we gemakkelijk onderzoeken of deze steekproef significant wel of niet afwijkt van het populatiegemiddelde. Steekproeven worden gekenmerkt door: 1. Steekproefomvang: n 2. Het steekproefgemiddelde x i x Tel alle waarden op en deel ze door het aantal n. n 2 ( xi x) 3. De steekproefstandaardafwijking: s ( n 1) Hierbij vergelijken we elke individuele meting x i met het gemiddelde, kwadrateren het en delen al deze kwadraten door het totale aantal metingen Vrijheidsgraden. Df. (Degrees of freedom) Het aantal vrijheidsgraden is het aantal vrij te kiezen waarden waarmee de set gegevens niet vastligt: A + B + C = 10. Je kan van A, B of C twee waarden invullen; de derde ligt vast omdat bekend is dat hun totaal 10 is. df is hier dus 2. Ander voorbeeld: In dit schema is het aantal M en V 22 en het aantal gele en rode ook 22. Wie nu a invult: stel 8, legt daarmee ook b vast: b=2. Omdat a en b bekend zijn, liggen c en d dus ook vast: c = 0 en d = 12. M V geel a b 10 rood c d Het aantal vrijheidsgraden in een dergelijk schema is dus (aantal rijen -1)(aantal kolommen -1) = (2-1)(2-1) =1. Bij een drie x drie schema is dus het aantal vrijheidsgraden 4. Ga na! De term vrijheidsgraad kom je tegen bij diverse testen en toetsen. 24

25 5. Standaard fout. De standaard fout zegt iets over de mate van spreiding in een kolom getallen. Een voorbeeld van twee rijen getallen: 9,00 12,00 15,00 11,00 10,30 11,45 13,55 13,10 12,10 13,50 12,60 10,40 gem 12,00 12,00 stdev 4,24 1,20 aantal 2 10 SE 3 0, De linkerrij bestaat uit slechts twee getallen: gemiddelde 12, stdev 4,24. De rechterrij uit 10 getallen, zelfde gemiddelde 12 en stdev 0,37. stdev Men neemt voor de standaardfout SE n De betekenis van de standaardfout van het gemiddelde is dat het weergeeft in hoeverre de bij meerdere herhalingen van deze getallenrij er variatie is in het gemiddelde dat er dan ontstaat: nu is het gemiddelde 12, een poging later misschien 11,2 of 13,8 etc. De Standaard Errorof the Mean zoals ie ook heet (SEM) is een maat voor de variatie van gemiddelden die je zou krijgen als je deze getallenrij meerdere keren zou krijgen. De variatie van steekproefgemiddelden dus. Hoe kleiner de standaardfout, des te kleiner de afwijking van dit berekende gemiddelde tov het gemiddelde van de populatie. Daar gaat het tenslotte om bij steekproeven: je wil zo dicht mogelijk bij het echte gemiddelde zitten van de echte populatie Het verschil tussen de standaardafwijking en de standaardfout van het gemiddelde De standaardafwijking kan men gebruiken om te laten zien waar bijvoorbeeld de 95% grenzen zijn van de dataset zelf. In dit voorbeeld: Gemiddelde 12, standaardafwijking 1,20. Dat betekent dat deze set getallen bevat waarvan 95% van de waarden zich bevind tussen 12-2*1,20 en 12+ 2*1,20 ofwel binnen de grenzen: 9,60 tot 14,40. De standaardfout is afgeleid van de standaardafwijking en wordt benaderd door de formule stdev SE. Immers doen we geen 100-en steekproeven waarbij we de variatie zoeken van de n steekproefgemiddelden. Deze formule geeft ons een SE van 0,379. Dat betekent dat áls men het experiment talloze malen zo herhalen, het steekproefgemiddelde met 95% zekerheid ligt tussen de grenzen: 12-2* 0,379 en * 0,379 ofwel: 11,242 en 12,758. Conclusie: Je krijgt een idee van de betrouwbaarheid van het steekproefgemiddelde in hoeverre deze de het populatiegemiddelde benaderd. 25

26 Bij het vergelijken van twee datasets/steekproeven moet men voor de interpretatie het volgende bedenken: Als de breedte van de SEM (Standard Error of the Mean) een overlap vertoond met de andere dataset én deze omsluit ook het gemiddelde van die andere set, dan zijn de sets NIET significant verschillend. Zie bargraph hieronder. Getoond zijn twee gemiddelden (12 en 13,3) met standaardfout 1,23 en 1,47 resp Grafiektitel De T-test voor ongelijke groepen met verschillende variantie geeft de waarde 0,54. Totaal niet significant verschillend. Echter, zodra deze overlap geheel verdwenen is, is het verschil tussen de beide datasets wél significant Grafiektitel In deze bovenstaande figuur is de overlap totaal afwezig: er is significant verschil tussen de beide sets waarvan we hier de gemiddelden zien, nog steeds 12 en 13,3, alleen met heel kleine standaardfouten doordat we de dataset ruim 2x zo groot gemaakt hebben. Dat verkleint de SEM altijd. De T-test geeft een waarde van 0,02. Significant verschillend dus. 26

27 3.3. De manier van steekproeftrekking: onafhankelijk of afhankelijk De onafhankelijkheid van steekproeven houdt in dat de proefpersonen van de verschillende groepen onafhankelijk geselecteerd zijn. De selectie van proefpersonen in de ene steekproef heeft dus geen invloed op de selectie van proefpersonen in de andere steekproef. De proefpersonen zijn volledig willekeurig in een bepaalde groep gekomen en hebben dezelfde kans geselecteerd te worden (dit heet een aselecte steekproef). Je kunt een (redelijk) aselecte steekproef nemen door bijvoorbeeld aparte klassen te nemen. Bij afhankelijke steekproeven houd je het lot in eigen handen. In een onderzoek waarbij bijvoorbeeld twee groepen van respondenten met elkaar worden vergeleken, en in de ene steekproef alleen mannen zitten, en in de andere steekproef alleen de partners van die mannen, dan heb je een afhankelijke steekproef; de selectie van de proefpersonen in de tweede steekproef is immers afhankelijk van de proefpersonen in de eerste steekproef, alleen de partners mogen in de tweede steekproef, en niet random personen. Andere voorbeelden zijn: het afnemen van een enquête bij een aantal personen en na een maand dezelfde mensen dezelfde lijst voorleggen om bijvoorbeeld hun veranderingen te meten(de selectie van de personen in de tweede steekproef is weer afhankelijk van de personen in de eerste steekproef); of het indelen van studenten in twee groepen, namelijk een testgroep en een controlegroep. Als een bepaalde student wordt ingedeeld in de testgroep, wordt een student met zoveel mogelijk dezelfde eigenschappen in de controlegroep gezet. 4.0 Literatuur Bodde H., Koerts A., Thie K., Statistische Toetsen, Een handleiding voor elke leerling die worstelt met het toetsen van zijn gegevens bij zijn PWS. Praesius Gymnasium Groningen. Reichard L.A., e.a. (2009), Getal en Ruimte, deel VWO D4, EPN, Houten, 27

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Statistische toetsen

Statistische toetsen Statistische toetsen Een handleiding voor elke leerling die worstelt met het toetsen van zijn gegevens bij het PWS Hanna Bodde en Annalie Koerts Karla Thie Inhoudsopgave 1. Inleiding 3 2. Criteria voor

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Statistische variabelen. formuleblad

Statistische variabelen. formuleblad Statistische variabelen formuleblad 0. voorkennis Soorten variabelen Discreet of continu Bij kwantitatieve gegevens gaat het om meetbare gegeven, zoals temperatuur, snelheid of gewicht. Bij een discrete

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Lesbrief hypothesetoetsen

Lesbrief hypothesetoetsen Lesbrief hypothesetoetsen 00 "Je gaat het pas zien als je het door hebt" Johan Cruijff Willem van Ravenstein Inhoudsopgave Inhoudsopgave... Hoofdstuk - voorkennis... Hoofdstuk - mens erger je niet... 3

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages. MARGES EN SIGNIFICANTIE BIJ STEEKPROEFRESULTATEN. De marges van percentages Metingen via een steekproef leveren een schatting van de werkelijkheid. Het toevalskarakter van de steekproef heeft als consequentie,

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden

Nadere informatie

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018 Statistiek in de alfa en gamma studies Aansluiting wiskunde VWO-WO 16 april 2018 Wie ben ik? Marieke Westeneng Docent bij afdeling Methoden en Statistiek Faculteit Sociale Wetenschappen Universiteit Utrecht

Nadere informatie

Toegepaste Statistiek, Week 6 1

Toegepaste Statistiek, Week 6 1 Toegepaste Statistiek, Week 6 1 Eén ordinale en één nominale variabele Nominale variabele met TWEE categorieën, 1 en 2 Ordinale variabele normaal verdeeld binnen iedere categorie? Variantie in beide categorieën

Nadere informatie

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing Bijlage 3 Statistische toetsing: werkwijze, toetsen, formules, toepassing In dit boek wordt kennis van statistiek en statistische ( hypothese)toetsing in principe bekend verondersteld. Niettemin geven

Nadere informatie

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK 1 1. INLEIDING Parametrische statistiek: Normale Verdeling Niet-parametrische statistiek: Verdelingsvrij Keuze tussen de twee benaderingen I.

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Toetsen van Hypothesen. Het vaststellen van de hypothese

Toetsen van Hypothesen. Het vaststellen van de hypothese Toetsen van Hypothesen Wisnet-hbo update maart 2008 1. en Het vaststellen van de hypothese De nulhypothese en de Alternatieve hypothese. Het gaat in deze paragraaf puur alleen om de formulering. Er wordt

Nadere informatie

Klantonderzoek: statistiek!

Klantonderzoek: statistiek! Klantonderzoek: statistiek! Statistiek bij klantonderzoek Om de resultaten van klantonderzoek juist te interpreteren is het belangrijk de juiste analyses uit te voeren. Vaak worden de mogelijkheden van

Nadere informatie

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt A. Effect & het onderscheidingsvermogen Effectgrootte (ES) De effectgrootte (effect size) vertelt ons iets over hoe relevant de relatie tussen twee variabelen is in de praktijk. Er zijn twee soorten effectgrootten:

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

DEZE PAGINA NIET vóór 8.30u OMSLAAN! STTISTIEK 1 VERSIE MT15303 1308 1 WGENINGEN UNIVERSITEIT LEERSTOELGROEP MT Tentamen Statistiek 1 (MT-15303) 5 augustus 2013, 8.30-10.30 uur EZE PGIN NIET vóór 8.30u OMSLN! STRT MET INVULLEN VN NM, REGISTRTIENUMMER,

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

15.1 Beslissen op grond van een steekproef [1]

15.1 Beslissen op grond van een steekproef [1] 15.1 Beslissen op grond van een steekproef [1] Voorbeeld 1: Een vulmachine vult flessen met een inhoud van X ml. X is normaal verdeeld met μ = 400 en σ = 4 Er wordt een steekproef genomen van 40 flessen.

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse 10.1 Eenwegs-variantieanalyse: Als we gegevens hebben verzameld van verschillende groepen en we willen nagaan of de populatiegemiddelden van elkaar verscihllen,

Nadere informatie

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Populatie: De gehele groep elementen waarover informatie wordt gewenst. Statistiek I Werkcollege 1 Populatie: De gehele groep elementen waarover informatie wordt gewenst. Steekproef: Gedeelte van de populatie dat feitelijk wordt onderzocht om informatie te vergaren. Eenheden:

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 10 Donderdag 20 Oktober 1 / 1 2 Statistiek Vandaag: Hypothese toetsen 2 / 1 3 / 1 Terzijde NU.nl 19 oktober 2011: Veel Facebookvrienden wijst op grotere hersenen. (http://www.nu.nl/wetenschap/2645008/veel-facebookvrienden-wijst-groterehersenen-.html)

Nadere informatie

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding.

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding. Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding. Bij Excel denken de meesten niet direct aan een statistisch programma. Toch biedt Excel veel mogelijkheden tot statistische

Nadere informatie

11.0 Voorkennis. Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k)

11.0 Voorkennis. Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k) 11.0 Voorkennis Let op: Cumulatieve binomiale verdeling: P(X k) = binomcdf(n,p,k) Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k) Voorbeeld 1: Binomiaal kanseperiment

Nadere informatie

Praktische opdracht Wiskunde A Randomized Response

Praktische opdracht Wiskunde A Randomized Response Praktische opdracht Wiskunde A Randomized Re Praktische-opdracht door een scholier 2550 woorden 10 juni 2003 5,8 26 keer beoordeeld Vak Wiskunde A Inleiding We hebben de opdracht gekregen een Praktische

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 1. Iemand kiest geblinddoekt 4 paaseitjes uit een mand met oneindig veel paaseitjes. De helft is melkchocolade, de andere

Nadere informatie

Korte uitleg van twee veelvoorkomende statistische toetsen Veel wetenschappelijke hypothesen kunnen statistisch worden getoetst. Aan de hand van een

Korte uitleg van twee veelvoorkomende statistische toetsen Veel wetenschappelijke hypothesen kunnen statistisch worden getoetst. Aan de hand van een Korte uitleg van twee veelvoorkomende statistische toetsen Veel wetenschappelijke hypothesen kunnen statistisch worden getoetst. Aan de hand van een statistische toets beslis je of een hypothese waar is.

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 11 Dinsdag 25 Oktober 1 / 27 2 Statistiek Vandaag: Hypothese toetsen Schatten 2 / 27 Schatten 3 / 27 Vragen: liegen 61 Amerikanen werd gevraagd hoeveel % van de tijd

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

Tentamen Wiskunde A CENTRALE COMMISSIE VOORTENTAMEN WISKUNDE. Datum: 19 december Aantal opgaven: 6

Tentamen Wiskunde A CENTRALE COMMISSIE VOORTENTAMEN WISKUNDE. Datum: 19 december Aantal opgaven: 6 CENTRALE COMMISSIE VOORTENTAMEN WISKUNDE Tentamen Wiskunde A Datum: 19 december 2018 Tijd: 13.30 16.30 uur Aantal opgaven: 6 Lees onderstaande aanwijzingen s.v.p. goed door voordat u met het tentamen begint.

Nadere informatie

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Basistechnieken 6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. x 0 2 4 6 p(x) ¼ ¼ ¼ ¼ a. Schrijf alle mogelijke verschillende steekproeven van n =

Nadere informatie

Examen VWO 2015. wiskunde C. tijdvak 2 woensdag 17 juni 13.30-16.30 uur. Bij dit examen hoort een uitwerkbijlage.

Examen VWO 2015. wiskunde C. tijdvak 2 woensdag 17 juni 13.30-16.30 uur. Bij dit examen hoort een uitwerkbijlage. Examen VWO 2015 tijdvak 2 woensdag 17 juni 13.30-16.30 uur wiskunde C Bij dit examen hoort een uitwerkbijlage. Dit examen bestaat uit 22 vragen. Voor dit examen zijn maximaal 79 punten te behalen. Voor

Nadere informatie

Statistiek 2 deel A 30 minuten over statistisch toetsen

Statistiek 2 deel A 30 minuten over statistisch toetsen Statistiek 2 deel A 30 minuten over statistisch toetsen R.J. Baars, MSc Kruytgebouw N710 r.j.baars@uu.nl februari 2014 Opbouw van statistiek Statistiek 1 (periode 2: vandaag) Dit college + zelfstudie +

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

Exact Periode Juist & Precies Testen

Exact Periode Juist & Precies Testen Exact Periode 10.1 Juist & Precies Testen Juist: gemiddeld klopt de uitkomst met wat het moet zijn. Precies: Als we de meting herhalen komt er (bijna) hetzelfde uit. Vijf schietschijven A B C D E A B C

Nadere informatie

Toegepaste Statistiek, Week 3 1

Toegepaste Statistiek, Week 3 1 Toegepaste Statistiek, Week 3 1 In Week 2 hebben we toetsingstheorie besproken mbt een kwantitatieve (ordinale) variabele G, en met name over zijn populatiegemiddelde E(G). Er waren twee gevallen: Er is

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

omschrijven wat je ermee bedoelt. Dat geldt dus ook voor dom en de vraag of je dat met een IQ-test kunt meten. Dan naar een ander aspect van de

omschrijven wat je ermee bedoelt. Dat geldt dus ook voor dom en de vraag of je dat met een IQ-test kunt meten. Dan naar een ander aspect van de Scenario voor het klassengesprek aan het begin van de eerste les van het leerlingonderzoek in het kader van Begrip van bewijs Hieronder staat een beschrijving van het beoogde (hypothetische) verloop van

Nadere informatie

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter. STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters.

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 1. De onderzoekers van een preventiedienst vermoeden dat werknemers in een bedrijf zonder liften fitter zijn dan werknemers

Nadere informatie

Wiskunde A. Voorbereidend Wetenschappelijk Onderwijs Tijdvak 1 Woensdag 17 mei 13.30 16.30 uur

Wiskunde A. Voorbereidend Wetenschappelijk Onderwijs Tijdvak 1 Woensdag 17 mei 13.30 16.30 uur Wiskunde A Examen VWO Voorbereidend Wetenschappelijk Onderwijs Tijdvak 1 Woensdag 17 mei 13.30 16.30 uur 20 00 Als bij een vraag een verklaring, uitleg of berekening vereist is, worden aan het antwoord

Nadere informatie

werkcollege 6 - D&P10: Hypothesis testing using a single sample

werkcollege 6 - D&P10: Hypothesis testing using a single sample cursus huiswerk opgaven Ch.9: 1, 8, 11, 12, 20, 26, 36, 37, 71 werkcollege 6 - D&P10: Hypothesis testing using a single sample Activities 9.3 en 9.4 van schatting naar toetsing vorige bijeenkomst: populatie-kenmerk

Nadere informatie

2 Data en datasets verwerken

2 Data en datasets verwerken Domein Statistiek en kansrekening havo A 2 Data en datasets verwerken 1 Data presenteren 1.4 Oefenen In opdracht van: Commissie Toekomst Wiskunde Onderwijs 1.4 Oefenen Opgave 9 Bekijk de genoemde dataset

Nadere informatie

Begrippenlijst Anders Dit is onderzoek

Begrippenlijst Anders Dit is onderzoek Begrippenlijst Anders Dit is onderzoek Begrippenlijst door F. 1080 woorden 15 april 2016 9,1 2 keer beoordeeld Vak Anders Dit is onderzoek! 2.4 Steekproef Onderzoek met een kleine groep met de bedoeling

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Stoeien met Statistiek

Stoeien met Statistiek Stoeien met Statistiek Havo 4: Statistiek op grote datasets 2 Inhoudsopgave Achtergrondinformatie... 4 Docentenhandleiding... 5 Inleiding voor leerlingen... 6 Opdracht 1... 7 Opdracht 2... 8 Opdracht 3...

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken

Nadere informatie

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Statistiek voor A.I. College 12. Dinsdag 23 Oktober Statistiek voor A.I. College 12 Dinsdag 23 Oktober 1 / 20 2 Deductieve statistiek Orthodoxe statistiek 2 / 20 3 / 20 Jullie - onderzoek Wivine Tijd waarop je opstaat (uu:mm wordt weergeven als uumm). Histogram

Nadere informatie

Hoofdstuk 6 Hypothesen toetsen

Hoofdstuk 6 Hypothesen toetsen Hoofdstuk 6 Hypothesen toetsen ladzijde 144 1a X is aantal autokopers die merk A aanschaffen. X is Bin(100; 0,30) verdeeld. 0,30 3 100 = 30, naar verwachting zullen dus 30 autokopers merk A aanschaffen.

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

ORS. LEK EN LINGE POSTBUS AL CULEMBORG

ORS. LEK EN LINGE POSTBUS AL CULEMBORG ORS. LEK EN LINGE POSTBUS 461 4 AL CULEMBORG Onderstaand rapport is gebaseerd op de afnamegegevens van de groep kandidaten "M6mo6" die uw school na afname van het centraal schriftelijk examen aan Cito

Nadere informatie

Domein A: Vaardigheden

Domein A: Vaardigheden Examenprogramma Wiskunde A havo Het eindexamen bestaat uit het centraal examen en het schoolexamen. Het examenprogramma bestaat uit de volgende domeinen: Domein A Vaardigheden Domein B Algebra en tellen

Nadere informatie

Les 1: Waarschijnlijkheidrekening

Les 1: Waarschijnlijkheidrekening Les 1: Waarschijnlijkheidrekening A Men neemt een steekproef van 1000 appelen. Deze worden ingedeeld volgens gewicht en volgens symptomen van een bepaalde schimmel: geen, mild, gematigd of ernstig. Het

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

1 Basisbegrippen, W / O voor waar/onwaar

1 Basisbegrippen, W / O voor waar/onwaar Naam - Toetsende Statistiek Rijksuniversiteit Groningen Lente Docent: John Nerbonne Tentamen di. 22 juni om 14 uur tentamenhal Belangrijke instructies 1. Schrijf uw naam & studentnummer hierboven, schrijf

Nadere informatie

Kruis per vraag slechts één vakje aan op het antwoordformulier.

Kruis per vraag slechts één vakje aan op het antwoordformulier. Toets Stroom 1.2 Methoden en Statistiek tul, MLW 7 april 2006 Deze toets bestaat uit 25 vierkeuzevragen. Kruis per vraag slechts één vakje aan op het antwoordformulier. Vraag goed beantwoord dan punt voor

Nadere informatie

Statistiek voor A.I.

Statistiek voor A.I. Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 5 oktober 007 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

Examen Statistiek I Januari 2010 Feedback

Examen Statistiek I Januari 2010 Feedback Examen Statistiek I Januari 2010 Feedback Correcte alternatieven worden door een sterretje aangeduid. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Twee derden van de mannen

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN

TECHNISCHE UNIVERSITEIT EINDHOVEN TECHNISCHE UNIVERSITEIT EINDHOVEN Tentamen Biostatistiek voor BMT (2S390) op 17-11-2003 U mag alleen gebruik maken van een onbeschreven Statistisch Compendium (dikt. nr. 2218) en van een zakrekenmachine.

Nadere informatie

Formules Excel Bedrijfsstatistiek

Formules Excel Bedrijfsstatistiek Formules Excel Bedrijfsstatistiek Hoofdstuk 2 Data en hun voorstelling AANTAL.ALS vb: AANTAL.ALS(A1 :B6,H1) Telt hoeveel keer (frequentie) de waarde die in H1 zit in A1:B6 voorkomt. Vooral bedoeld voor

Nadere informatie

Samenvatting Wiskunde A

Samenvatting Wiskunde A Bereken: Bereken algebraisch: Bereken exact: De opgave mag berekend worden met de hand of met de GR. Geef bij GR gebruik de ingevoerde formules en gebruikte opties. Kies op een examen in dit geval voor

Nadere informatie

Inleiding tot de natuurkunde

Inleiding tot de natuurkunde OBC Inleiding tot de Natuurkunde 01-08-2010 W.Tomassen Pagina 1 Hoofdstuk 1 : Hoe haal ik hoge cijfers. 1. Maak van elke paragraaf een samenvatting. (Titels, vet/schuin gedrukte tekst, opsommingen en plaatsjes.)

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht? 2.1.4 Oefenen Opgave 9 Bekijk de genoemde dataset GEGEVENS154LEERLINGEN. a. Hoe lang is het grootste meisje? En de grootste jongen? b. Welke lengtes komen het meeste voor? c. Is het berekenen van gemiddelden

Nadere informatie

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Oefentoets 1 1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Conditie = experimenteel Conditie = controle Sekse = Vrouw 23 33 Sekse = Man 20 36 Van

Nadere informatie