Statistiek Casus Van het rechte pad

Maat: px
Weergave met pagina beginnen:

Download "Statistiek Casus Van het rechte pad"

Transcriptie

1 Statistiek Casus Van het rechte pad Remco van der Hofstad 6 mei 2003 Inhoudsopgave 1 Introductie Soorten afwijkingen Software 3 3 Beschrijvende statistiek Kentallen Boxplot Strooidiagram (Engels: Scatter plot) Normal probability plot en density trace Histogram Software Kansrekening 8 5 Statistische modellering 11 6 Het toetsen op een verwachtingswaarde 12 7 Het vergelijken van steekproeven Toetsen op gelijkheid van verwachtingswaarden Toetsen van gelijkheid van verwachtingswaarden met gelijke varianties Toetsen van gelijkheid van verwachtingswaarden met ongelijke varianties Toetsen op gelijkheid van varianties Toetsen op normaliteit Faculteit Wiskunde en Informatica, TU/e. r.w.v.d.hofstad@tue.nl 1

2 Experiment 1 Experiment 2 1 Experiment 3 0 4,5 5 5, ,5 5 5,5 6 6, ,5 5 5,5 Figuur 1: Drie experimenten. 1 Introductie Bij het verrichten van metingen moeten we ons realiseren dat elke meting behept is met bepaalde onzekerheden of afwijkingen. Deze afwijkingen kunnen velerlei oorzaken hebben zoals afleesonzekerheden, onzekerheden van het apparaat en invloed van de omgevingstemperatuur. In deze notities zullen we aangeven hoe we bij het analyseren en rapporteren van meetgegevens met deze afwijkingen rekening dienen te houden. Door een goede rapportage bereiken we dat onze inspanningen om een experiment te doen resulteren in goede en bruikbare gegevens. Statistische methoden spelen hierbij een belangrijke rol. Naast analyse achteraf van data is het ook belangrijk om vooraf rekening te houden met onzekerheden in metingen. Het is zeer vervelend als achteraf blijkt dat onze metingen te onnauwkeurig zijn om tot gewenste conclusies te komen. Daarom dient een onzekerheidsanalyse een vast onderdeel van een experiment te zijn. Hierbij speelt met name kansrekening een belangrijke rol. 1.1 Soorten afwijkingen Hieronder zijn in een figuur de waarden van metingen weergegeven van een drietal experimenten. Het betreft hier herhaalde metingen. De echte waarde is 5. We zien in experiment 1 dat de waarden redelijk netjes verspreid rond de werkelijke waarde 5 liggen. De gemiddelde waarde ligt niet ver van de echte waarde 5 af. In experiment 2 is ook sprake van een spreiding van de resultaten maar met dit verschil dat het gemiddelde hiervan sterk verschilt van de werkelijke waarde 5. De waarnemingen lijken systematisch naar rechts verschoven te zijn. 2

3 In experiment 3 zien we metingen die hetzelfde gedrag vertonen als in experiment 1, behalve één waarneming rond 4,2 die duidelijk afwijkt van de overige metingen. Om beter over zulke situaties te kunnen praten en daarna onderbouwde kwantitatieve analyses te kunnen uitvoeren, gaan we nu dieper in op verschillende soorten afwijkingen in meetgegevens. We onderscheiden drie soorten afwijkingen: toevallige afwijkingen, systematische afwijkingen en uitschieters. We zullen deze nu stuk voor stuk bespreken. Toevallige of statistische afwijkingen (Engels: indeterminate of random errors). Dit zijn afwijkingen die zowel positief als negatief kunnen zijn. Deze treden op bijvoorbeeld bij het aflezen van meetapparatuur, balans, etc. Ook temperatuursfluctuaties en andere omgevingsinvloeden hebben invloed op de werking van apparatuur. Toevallige afwijkingen zijn dus altijd aanwezig, en we kunnen hiervoor dan ook niet direct corrigeren. Door een meting meerdere malen uit te voeren en dan de gemiddelde uitkomst te nemen, vallen positieve en negatieve toevallige afwijkingen geheel of gedeeltelijk weg. Op deze manier kunnen we het effect van toevallige afwijkingen op een statistische manier verminderen. Systematische afwijkingen (Engels: determinate of systematic errors). Dit zijn afwijkingen die zich grotendeels in één richting manifesteren, of steeds positief of steeds negatief. Een voorbeeld is een pipet van 25,00 ml die na kalibratie 24,90 ml blijkt te zijn. In experiment 2 is ook sprake van een of meer systematische afwijkingen, omdat de meetwaarden allemaal groter (veel) groter zijn dan de werkelijke waarde. In het algemeen kunnen systematische afwijkingen geëlimineerd worden door kalibratie van meetapparatuur. Uitschieters (Engels: outliers). Afwijkingen kunnen ook ontstaan als gevolg van slordigheden, zoals overschrijffouten, rekenfouten, afleesfouten, gebruik van verkeerde hoeveelheden, etc. Deze grove afwijkingen worden uitschieters genoemd. Experiment 3 in Figuur 1 is waarschijnlijk een uitschieter. Uitschieters zij vaak ook toevallige afwijkingen of systematische afwijkingen, of zelfs een combinatie van beiden. Omdat zij een belangrijke rol spelen in de statistische analyse, bespreken we ze toch apart. 2 Software Om het statistische rekenwerk en de toetsen te doen, moeten de studenten het rekenwerk natuurlijk niet handmatig doen. Specifieke software kan helpen bij het doen van toetsen en het berekenen van statistische grootheden als gemiddelden en steekproefvarianties en betrouwbaarheidsgebieden. Dit kan in Matlab door gebruik te maken van het toolbox Statistics. Daarnaast is het pakket StatGraphics een eenvoudig computerprogramma waarin door enig klikken alle boven genoemde procedures gedaan kunnen worden. StatGraphics kan worden verkregen via Outlook Software Standaard Software Mathematische Applicaties Statgraphics. Voor StatGraphics hebben we een aantal van de links weergeven voor toetsen en grafische weergaven. Dezelfde toetsen en grafische weergaven kunnen echter ook gedaan worden via Matlab. Tot slot merken we op dat ook in Excel ook 3

4 een aantal statistische procedures voorhanden zijn via Excel Tools Add-Ins Analysis Toolpak. 3 Beschrijvende statistiek In deze paragraaf gaan we een kwantitatieve onderbouwing geven van de begrippen uit de vorige paragraaf. We gaan er van uit dat we n metingen x 1,..., x n hebben uitgevoerd. De werkelijke waarde is x t. Deze waarde kan bekend zijn vanuit theoretische overwegingen of andere, zeer nauwkeurige experimenten. In de praktijk is deze echter meestal onbekend. We zullen nu eerst een paar kentallen van een steekproef geven. Hierna zullen we ingaan op grafische methoden om een steekproef weer te geven. In StatGraphics kan men de hier besproken kentallen en grafische weergaven van de data vinden via Describe, Numeric Data, One-variable analysis. 3.1 Kentallen In het volgende zullen we de geordende steekproef x 1, x 2,..., x n, waarbij n het aantal observaties is in de steekproef, weergeven als x (1), x (2),..., x (n). Deze geordende observaties x (i) worden de order statistics genoemd. Er geldt dus dat x (1) de kleinste en x (n) de grootste observatie zijn. Het steekproef gemiddelde x is de meest gebruikte indicatie van de echte waarde van het experiment. Deze echte waarde wordt ook wel de lokatie van de steekproef genoemd. Het steekproefgemiddelde is gelijk aan x = x 1 + x x n n i=1 = x i. (1) n n Een andere maat van de lokatie van de steekproef is de steekproef mediaan Med = Med(x 1,..., x n ) die gelijk is aan Med = { x((n+1)/2) als n oneven is, (x (n/2) + x ((n/2)+1) )/2 als n even is. De mediaan is de middelste order statistic als de steekproefgrootte oneven is, en het gemiddelde tussen de twee middelste order statistics als de steekproefgrootte even is. Als de steekproef groot is, dan is de mediaan dichtbij het gemiddelde. Het voordeel van de mediaan is dat deze minder gevoelig is voor uitschieters, die mogelijk komen door typefouten, afleesfouten, storingen en dergelijken. Om de spreiding van de steekproef weer te geven gebruiken we s 2, de steekproefvariantie die gelijk is aan s 2 = n i=1 (x i x) 2 n 1 = 1 ) ((x 1 x) 2 + (x 2 x) (x n x) 2. (3) n 1 De steekproefvariantie is de gemiddelde (kwadratische) afwijking tussen de data en het gemiddelde van de data. De wortel uit de steekproefvariantie, s, heet ook de steekproef standaardafwijking. Tot slot noemen we als alternatieve maat van de spreiding van een steekproef de interkwartielafstand (Engels: Inter Quartile Range) (IQR). Om dit kental te kunnen definiëren, hebben we eerst een ander kental nodig. Het a%-quantiel is een getal zodanig dat a% van de metingen kleiner is. Er is een precieze definitie die de problemen bij kleine aantallen waarnemingen opvangt door interpolatie. Merk op dat het 50%-quantiel niet anders is dan de mediaan. Het 25%-quantiel wordt ook wel 1 ste quartiel genoemd, terwijl het 75%-quantiel het derde quartiel genoemd wordt. In StatGraphics worden 4 (2)

5 salary (Kf) N = 63 trade 56 industry 75 education 56 other sector of employment Figuur 2: Boxplot voor de verdeling van het inkomen van vrouwen over de verschillende sectoren. de namen lower and upper quartile gebruikt. Nu kunnen we ook de naam interkwartielafstand (IQR) begrijpen: IQR = 3 de quartiel 1 ste quartiel. (4) Al de hierboven besproken kentallen kunnen in StatGraphics berekend worden via Describe, Numeric Data, One-variable analysis. In de Tabular Options (gele icoontje) moet dan Summary Statistics worden aangevinkt. Dit geeft een venster met dezelfde naam. Met de rechter muisknop en Pane Options kunnen vervolgens een aantal van de kentallen gekozen worden. 3.2 Boxplot De term boxplot, of ook wel box-and-whiskers plot, is uitgevonden door de Amerikaanse statisticus John Tukey. De boxplot combineert informatie over de mediaan, de spreiding en symmetrie van de data set, alsmede de uitschieters. Het bevat dus op een grafische wijze vele van de bovenstaande kentallen. De boxplot bestaat uit een doos, de box, die loopt tussen de twee kwartielen, en door midden gedeeld wordt door de mediaan. Ligt de mediaan niet in het midden van de doos, dan is dit een aanwijzing dat de data niet symmetrisch verdeeld zijn. Omgekeerd mag men niet meteen concluderen dat de waarnemingen symmetrisch verdeeld zijn als de mediaan in het midden van de doos ligt. Vanuit deze doos worden twee lijnen getrokken (the whiskers) naar grote waarden in de data, waarbij we de extreem grote waarden (de uitschieters of outliers) niet meenemen. Deze twee horizontale lijnen beginnen bij het eerste resp. derde quartiel en de lengte van deze lijnen is 1 1 keer de interquar- 2 tielafstand. Waarnemingen die hierbuiten vallen zijn uitschieters. De boxplot kan gebruikt worden om een data set weer te geven, maar kan ook goed gebruikt Page 1worden om verschillende data sets met elkaar te vergelijken. In de casus kunnen we de boxplot bijvoorbeeld 5

6 sector of employment other salary (Kf) education industry trade age (years) Figuur 3: Strooidiagram voor de relatie tussen inkomen en leeftijd voor vrouwen in de verschillende sectoren. gebruiken om de gemeten hoogteverschillen met de twee verschillende meetmethoden met elkaar te vergelijken op het gemiddelde en de spreiding. In Figuur 2 staat een voorbeeld waarin inkomens van vrouwen werkend in verschillende sectoren worden vergeleken. Het laat duidelijk zien dat vrouwen werkend in de andere sectoren minder verdienen dan de vrouwen die in de industrie en het onderwijs werken. 3.3 Strooidiagram (Engels: Scatter plot) Het strooidiagram is een methode om de afhankelijkheid tussen twee variabelen weer te geven door de twee variabelen als coördinaten in het vlak weer te geven. een voorbeeld is weergegeven in Figuur 3. In dit strooidiagram zien we dat de relatie tussen inkomen en leeftijd ongeveer lineair is voor alle 4 groepen. Het strooidiagram zou in de casus gebruikt kunnen worden als we metingen hebben van hoogteverschillen tussen punten met verschillende tussenafstanden. 3.4 Normal probability plot en density trace Een normal probability plot is een grafische methode om visueel te controleren of een data set uit een normale verdeling komt. Zonder op de precieze methode van het berekenen van een normal probability plot in te gaan, zullen we in deze sectie beschrijven hoe een normal probability plot geïnterpreteerd kan worden. 1 In een normal probability plot staat een referentielijn, en daarnaast een aantal punten Page 1 1 Om precies te zijn wordt in de normal probability plot de inverse verdelingsfunctie van de normale verdeling met dezelfde verwachting en variantie als de data set losgelaten op de empirische verdelingsfunctie. 6

7 die samenhangen met de data punten uit de steekproef. Als de data set uit een normale verdeling zou komen, dan liggen alle weergegeven punten dichtbij de referentielijn. Afwijkingen ten opzichte van de lijn kunnen dus opgevat worden als afwijkingen van de data set ten opzichte van een normale verdeling met vergelijkbare verwachtingswaarde en variantie. De plek waar de punten afwijken ten opzichten van de referentielijn zeggen ook nog iets over wat het verschil is tussen de data set en de normale verdeling, zoals dat er meer of minder grote waarnemingen zijn dan we voor een normale verdeling zouden verwachten. Bijvoorbeeld, als de punten links onder de referentielijn liggen, dan zijn er minder kleine waarnemingen, terwijl als de punten boven de referentielijn liggen dan zijn er meer kleine waarnemingen dan we zouden verwachten als de data set uit een normale verdeling zou komen. Een veelgebruikte methode om data weer te geven is een histogram. In veel gevallen is een histogram echter niet zo geschikt, met name wanneer wij te maken hebben met continue data. Een histogram is een uitstekend middel om discrete data weer te geven. Voor continue data kan men beter een boxplot gebruiken, of, als een meer direct alternatief voor een histogram, een schatter voor de dichtheid als een density trace. Een histogram wordt gemaakt door het bereik van de uitkomsten in een aantal even brede vakken (officiële naam: klassen, Engels: bins) te verdelen en dan te tellen hoeveel waarnemingen in elke klasse vallen. Het nadeel van deze methode is dat de vorm van een histogram sterk afhangt van de gekozen klassenbreedte. Een betere grafische weergave is de zogenaamde density trace (ook wel naive density estimator genoemd), een soort glijdend histogram. M.a.w., bij een density trace is elk punt middelpunt van een klasse; de functiewaarde in dat punt is het aantal punten in die klasse gedeeld door het totaal aantal waarnemingen maal de klassenbreedte. Bij een histogram is er een vast aantal disjuncte klassen, bij een density trace zijn er dus oneindig veel elkaar overlappende klassen. De normal probability plot en de density trace kunnen in de casus gebruikt worden om visueel te inspecteren of de gemeten hoogteverschillen redelijkerwijs uit een normale verdeling kunnen komen. Na een eerste grafische controle (die natuurlijk subjectief is) kan een objectieve controle uitgevoerd worden via een statistische toets zoals de toets van Shapiro-Wilks (zie paragraaf 7.3 hieronder). 3.5 Histogram Een veelgebruikte methode om data weer te geven is een histogram. In deze casus is een histogram echter niet zo geschikt, aangezien wij altijd te maken hebben met continue data. Een histogram is een uitstekend middel om discrete data weer te geven. Voor continue data kan men beter een boxplot gebruiken, of, als een meer direct alternatief voor een histogram, een schatter voor de dichtheid. 3.6 Software Alle boven beschreven grafische methoden kunnen gemaakt worden door statistische software (zie ook paragraaf 2 hierboven). In StatGraphics kunnen we deze krijgen via Describe, Numeric Data, Onevariable analysis. In de Graphical Options (blauwe icoontje) moeten dan de gewenste grafische weergaven gekozen worden. Deze worden dan in verschillende vensters weergegeven. Met de rechter muisknop en Pane Options kunnen vervolgens een aantal van de kentallen gekozen worden. 7

8 Density Trace Normal Probability Plot density 0,3 0,25 0,2 0,15 0,1 0,05 0-3,3-1,3 0,7 2,7 4,7 percentage 99, ,1-3,3-1,3 0,7 2,7 4,7 Figuur 4: Voorbeeld van een density trace en een normal-probability plot. Deze steekproef lijkt normaal verdeeld te zijn, maar heeft zwaardere staarten dan een normale verdeling. 4 Kansrekening We hebben gezien dat toevallige afwijkingen zowel positief als negatief kunnen zijn. Dat wordt namelijk bepaald door het toeval. We zullen ons dus moeten verdiepen in hoe we deze toevalligheden kunnen beschrijven. De wiskundige theorie die zich bezig houdt met toeval heet kansrekening (Engels: probability theory). We hebben enige kennis van deze theorie nodig om kwantitatieve onderbouwingen kunnen te geven van de eerder behandelde begrippen. Laat X de uitkomst van een meting zijn. Een wiskundig model voor toevallige uitkomsten van een meting leggen we vast door de (cumulatieve) verdelingsfunctie van X te geven: F (t) = P (X t). (5) In de kansrekening wordt X een stochast genoemd. Aangezien metingen in de werktuigbouwkunde meestal continu zijn (binnen een bepaald bereik kan elke waarde aangenomen worden), geldt dat P (X = t) = 0 voor elke afzonderlijke waarde t. Dit verklaart bovengenoemde keuze voor de verdelingsfunctie om de uitkomsten van een stochast te beschrijven. In de praktijk is het vaak handig om naast de verdelingsfunctie ook de afgeleide te beschouwen. Deze afgeleide heet de dichtheidsfunctie (afgekort: dichtheid): f(t) = d F (t). (6) dt 8

9 0,4 Density Trace 0,15 Density Trace density 0,3 0,2 0,1 density 0,12 0,09 0,06 0,03 0-2,9-1,9-0,9 0,1 1,1 2,1 3, Figuur 5: Voorbeelden van density traces uit normale data en uit tweekoppige data. Indien men de dichtheid kent, kan de verdelingsfunctie terugvinden door te integreren: F (t) = t f(s)ds. (7) Een grafische interpretatie is dat men kansen kan vinden als oppervlakte onder de dichtheid. Er zijn veel kansverdelingen bekend. Het blijkt echter dat in veel gevallen toevallige afwijkingen met een zogenaamde normale verdeling (ook wel Gaussverdeling genoemd) beschreven kunnen worden. De verklaring hiervoor is dat de som van een groot aantal toevallige afwijkingen zich, ongeacht de verdeling van deze afwijkingen, bijna gedraagt als een toevallige afwijking met een normale verdeling. De precieze wiskundige formulering van dit feit heet Centrale Limietstelling. Een mooie demonstratie van de Centrale Limietstelling is te zien op sml/ma120/samplingapplet.html. De dichtheid van een normale verdeling heeft een bekende klokvorm met als formule f(t) = 1 (t µ)2 e 2σ 2. (8) 2πσ 2 Merk op dat de normale verdeling afhangt van twee parameters. De parameter µ is de verwachting van de verdeling. Dit is een theoretisch gemiddelde waarde. Aangezien de dichtheid van een normale verdeling symmetrisch rond µ is, verwachten we evenveel en even grote waarden groter en kleiner dan µ. De parameter µ wordt om deze reden een locatieparameter genoemd. De parameter σ is een maat voor de spreiding. Om wiskundige redenen is het gebruikelijk σ 2 i.p.v. σ als parameter te beschouwen. Let bij het gebruik van software altijd op de gebruikte conventie om een normale verdeling te specificeren, 9

10 m.a.w. wordt σ 2 of σ gebruikt. Een grote waarde van σ leidt tot een grote kans op uitkomsten die ver weg liggen van µ. Om beter vertrouwd te raken met deze begrippen, zijn de volgende Java applets beschikbaar: marko/statapplets/functionplots.html en naras/jsm/normaldensity/normaldensity.html. Hoe moeten we nu zo n kromme interpreteren? Het totale oppervlak binnen deze kromme is derhalve 1 of 100%. D.w.z. dat elke nieuwe meting valt met een waarschijnlijkheid van 100% in dit gebied. Andere waarden kan men opzoeken in tabellen over de normale verdeling. Hierbij dient men te weten dat de normale verdeling met µ = 0 en σ 2 = 1 de standaard normale verdeling heet. De standaard normale verdeling wordt vaak aangegeven met de letter Z. Als X normaal verdeeld is met parameters µ en σ 2, dan is (X µ)/σ standaard normaal verdeeld. De overgang van X naar (X µ)/σ heet standaardiseren. Een applet die dit illustreert is te vinden op mcclella/java/normal/normz.html. Belangrijke concepten uit de kansrekening zijn de verwachtingswaarde en variantie van een verdeling. De verwachtingswaarde is een soort gemiddelde waarde, en kan voor continue random variabelen berekend worden door E[X] = xf(x)dx. (9) Voor een normale verdeling is de verwachtingswaarde gelijk aan µ. De variantie van een continue random variabele wordt gegeven door Var(X) = E[(X µ) 2 ] = (x µ) 2 f(x)dx. (10) De wortel uit de variantie is de standaardafwijking en is een mate van spreiding van de stochast. De variantie van de normale verdeling is σ 2. Standaardiseren is dus de verwachtingswaarde en variantie op 0 en 1 zetten. We geven tot slot wat rekenregels voor zogenaamde lineaire combinaties van stochasten X i met verwachting µ i en variantie σ 2 i. Een lineaire combinatie is een som a 1 X a n X n. Rekenregel 1: De verwachting van a 1 X a n X n is a 1 µ a n µ n, ofwel E(a 1 X a n X n ) = a 1 E(X 1 ) a n E(X n ). (11) Voor varianties ligt de zaak iets ingewikkelder. Dit komt omdat varianties gedefinieerd zijn in termen van kwadraten. Indien de stochasten X i echter onafhankelijk zijn (d.w.z., de verschillende metingen beïnvloeden elkaar niet), dan geldt er wel een eenvoudige formule. Rekenregel 2 (onafhankelijke stochasten): De variantie van a 1 X a n X n is a 2 1σ a 2 nσ 2 n, ofwel Var(a 1 X a n X n ) = a 2 1Var(X 1 ) a 2 nvar(x n ). (12) Rekenregel 2 is van groot belang voor de statistiek. Immers, het geeft aan dat de variantie van het steekproefgemiddelde gelijk is aan Var( X) = 1 n 2 Var(X 1) n 2 Var(X n) = σ2 n, (13) 10

11 ofwel, de variantie van het steekproefgemiddelde neemt af als 1/n keer de variantie van elk van de metingen. Dit effect wordt ook wel eens het verschil tussen standaardafwijking en standaardafwijking in het gemiddelde genoemd. Het geeft aan waarom het nuttig is om meerdere metingen te doen. Als X i normale verdeling hebben, dan heeft lineaire combinatie dat ook. Komt omdat normale verdeling zelf al limiet is van som van vele effecten. Uit bovenstaande rekenregels volgt dat als X i onafhankelijke normale verdelingen zijn met verwachting µ i en varaintie σ 2 i, dat dan a 1 X a n X n een normale verdeling heeft met verwachting a 1 µ a n µ n en variantie a 2 1σ a 2 nσ 2 n. Voorbeeld: Steekproefgemiddelde heeft normale verdeling met verwachting µ en varaintie σ2 n. Er zijn natuurlijk nog veel meer rekenregels uit de kansrekening, maar aan deze rekenregels zullen we in deze casus voldoende hebben. 5 Statistische modellering In de voorgaande paragraaf is de kansrekening aan bod gekomen. De kansrekening geeft een theoretisch model voor toevallige fenomenen. We kunnen bijvoorbeeld de normale verdeling nemen als statistische model voor de uitkomst van een meting. Het probleem is echter dat dit model niet vastligt, omdat we de parameters in het model niet kennen. Bijvoorbeeld, als we de normale verdeling gebruiken als model voor een meetexperiment, dan weten we meestal niet wat de verwachtingswaarde µ en de variantie σ 2 zijn. De rol van statistiek is onder meer om hier zinnige uitspraken over te doen. We moeten ons dus realiseren dat er in een statistisch model theoretische grootheden zijn die we niet kennen, en ook niet te weten kunnen komen. We kunnen echter wel experimenten doen, en op basis van deze experimenten proberen om deze grootheden te benaderen. In het voorbeeld van de normale verdeling kunnen we de steekproefvariantie s 2 gebruiken om de theoretische variantie σ 2 te benaderen, en het steekproefgemiddelde x om de theoretische verwachtingswaarde µ te benaderen. In deze notities zullen we consequent de griekse letters (zoals µ en σ) gebruiken voor theoretische grootheden, en gewone letters (zoals x en s 2 ) voor de steekproefgrootheden. Het onderscheid tussen deze twee is essentieel in de statistiek. Om iets te kunnen zeggen over de theoretische grootheden µ en σ 2 zullen we statistische methoden gebruiken als het betrouwbaarheidsinterval en de statistische toets. Een betrouwbaarheidsinterval geeft aan hoe ver de steekproefgrootheid van de theoretische grootheid kan afliggen. Het is een toevallig interval waarin de theoretische grootheid met een voorgeschreven kans of betrouwbaarheid ligt. Het betrouwbaarheidsinterval kunnen we berekenen op basis van het statistische model en de steekproef. Een statistische toets kunnen we doen om te bekijken of een afwijking statistisch significant is. Bijvoorbeeld, als we twee metingen hebben gedaan, kunnen we kijken of de twee steekproefgemiddelden significant van elkaar verschillen. Hierbij gaan we uit van een bepaalde hypothese, de nulhypothese, die bijvoorbeeld kan zijn dat de twee verwachtingswaarden gelijk zijn. We onderzoeken dan of dit aannemelijk is ten opzichte van de alternatieve hypothese die bijvoorbeeld zegt dat deze twee verwachtingswaarden van elkaar verschillen. Een toets wordt gedaan op basis van een toetsingsgrootheid die berekend wordt op basis van de steekproef. Om te zien of de afwijking significant is, dienen we te weten wat de verdeling van de toetsingsgrootheid is als de nulhypothese waar is. Hiervoor is kansrekening nodig. In de casus zullen 11

12 jullie alleen toetsen doen waarvoor de verdeling van de toetsingsgrootheid bekend is. Aangezien we te maken hebben met toevallige data, en metingen niet elke keer dezelfde uitkomst geven, is het zo dat we soms grote afwijkingen hebben ten opzichte van wat we zouden verwachten, zelfs al is de nulhypothese waar. We zullen dus een grens moeten stellen aan wat nog wel redelijk is, en wat niet meer. Deze grens wordt gegeven door de significantie, die vaak wordt geschreven als α. Meestal wordt hiervoor 0.05 gebruikt, een enkele keer 0.01 wanneer de gevolgen van het verwerpen van de nulhypothese groot zijn. De nulhypothese wordt dan verworpen als de afwijking zodanig is dat de kans op een dergelijke afwijking onder de nulhypothese (de p-waarde) niet groter dan α is. In het algemeen zijn er 4 mogelijkheden: H 0 verworpen H 0 niet verworpen H 0 waar Type I fout Goede beslissing H 0 niet waar Goede beslissing Type II fout De Type I-fout hebben we meestal in de hand, aangezien de nulhypothese de parameters specificeert. De kans op een Type I fout is α en wordt meestal 5% of 1% genomen. De Type II fout hebben we meestal niet in de hand, omdat als de nulhypothese niet waar is, we niet weten wat de parameters dan wel zijn. De Type II fout wordt groter naarmate de echte parameter dichter bij de waarde in de nulhypothese ligt. In de praktijk kan het zijn dat we een statistisch significant verschil vinden. Zeker als er een groot aantal metingen wordt gedaan, kan dit verschil zeer klein zijn. Misschien is het dus niet technisch significant. Dit laatste kan inhouden dat het verschil geen invloed heeft op werking van het apparaat in kwestie. Alle toetsen die in deze notities besproken worden, kunnen gedaan worden door standaard software te gebruiken (zie paragraaf 2). 6 Het toetsen op een verwachtingswaarde In deze paragraaf zullen we een toetsen beschrijven die een toets doet voor de verwachtingswaarde. In StatGraphics is deze toets te vinden via Describe, One-Variable Analysis. In gele icoontje Hypothesis Test aanvinken. De nulhypothese van deze toets is H 0 : µ = 0, waarbij wordt aangenomen dat de steekproef uit de normale verdeling komt. De alternatieve hypothese is standaard H 1 : µ 0. Via rechtermuisknop op het scherm Hypothesis Test en Pane Options, gekozen worden om de significatie α (standaard 5%) te wijzigen, of de alternatieve hypothese µ < 0 of µ > 0 te kiezen. Ook kan als nulhypothese een andere waarde dan H 0 ; µ = 0 worden gekozen. Deze keuzen zijn afhankelijk van de precieze vraagstelling in het statistische probleem. We bespreken nu in meer detail wat theoretische achtergrond van deze toets. We toetsen de hypothese H 0 : µ = 0 versus H 1 : µ 0. We schatten µ door X. Uit de rekenregels in paragraaf 4 volgt dat X N(µ, σ 2 /n). We schatten σ 2 door de zogenaamde steekproefvariantie ˆσ 2 = s 2 = 1 n 1 12 n (X i X) 2. i=1

13 Het is bekend uit de kansrekening dat de verdeling van T = X µ S n een t-verdeling heeft met n 1 vrijheidsgraden. We verwerpen de nul-hypothese als X S > t α/2(n 1), (14) waarbij α de significantie van de toets is. De Student t-verdeling is een belangrijke verdeling uit de statistiek, waarvan veel bekend is. Daarnaast gebruiken we de notatie t α (n) voor die waarde van t waarvoor de t-verdeling met n vrijheidsgraden groter is dan t met kans α. t α (n) wordt ook een kritieke waarde genoemd. Het (1 α)-betrouwbaarheidsinterval wordt gegeven door ( x t α/2 (n 1) s n, x t 1 α/2 (n 1) s n ), (15) waarbij de kleine letters x en s worden gebruikt voor de waarden van X en S berekend uit de steekproef. Veel andere toetsen uit de statistiek die gaan over het toetsen omtrent verwachtingswaarden, gebruiken dezelfde t-verdeling. We zullen hierna bespreken hoe we twee verwachtingswaarden met elkaar kunnen vergelijken. 7 Het vergelijken van steekproeven In deze paragraaf zullen we een aantal toetsen beschrijven die twee steekproeven met elkaar vergelijken. In StatGraphics zijn deze toetsen te vinden via Compare, Two Samples, Two-Sample Comparison. 7.1 Toetsen op gelijkheid van verwachtingswaarden In deze paragraaf zullen we ons bezighouden met het toetsen of twee verwachtingswaarden aan elkaar gelijk zijn wanneer we te maken hebben met een steekproef uit een normale verdeling (normale data). Daarnaast zullen we formules geven voor het betrouwbaarheidsinterval voor het verschil van twee verwachtingswaarden. Men dient bij Tabular Options (het gele icoontje) de optie Comparisons of Mean aan te vinken. Dit geeft een venster waarin een toets wordt gedaan om de verwachtingswaarden van twee steekproeven met elkaar te vergelijken. Met de rechter muisknop en Pane Options kunnen we vervolgens de significantie instellen (meestal op 5%), en aangeven of we gelijke of ongelijke variantie veronderstellen (Assume Equal Sigmas aanvinken of niet). Ook kan hier gekozen worden om een eenzijdige dan wel een tweezijdige toets te doen. In dit venster staan vervolgens de betrouwbaarheidsintervallen en de uitkomsten van de toetsingsgrootheid en de conclusie van de toets. In de volgende twee paragrafen bespreken we de theoretische achtergronden van deze twee toetsen. 13

14 7.1.1 Toetsen van gelijkheid van verwachtingswaarden met gelijke varianties In deze paragraaf zullen we een toets beschrijven om te toetsen of twee verwachtingwaarden gelijk zijn als we mogen aannemen dat de varianties gelijk zijn. Daarnaast zullen we ook een betrouwbaarheidsinterval voor het verschil van verwachtingswaarden geven. We toetsen de hypothese H 0 : µ 1 = µ 2 versus H 1 : µ 1 µ 2. We kunnen dit herschrijven door H 0 : µ 1 µ 2 = 0. We schatten het verschil door D = Ȳ1 Ȳ2. Uit de rekenregels in paragraaf 4 volgt dat Ȳ1 N(µ 1, σ 2 /n 1 ) en Ȳ2 N(µ 2, σ 2 /n 2 ), waarbij n 1 en n 2 het aantal metingen van Y 1,i en Y 2,i zijn, krijgen we uit rekenregel 1 E(D) = 0 als H 0 waar is, We schatten σ 2 door de zogenaamde gepoolde variantie waarbij S 2 1 en S 2 2 de steekproefvarainties zijn: ˆσ 2 = (n 1 1)S1 2 + (n 2 1)S2 2, n 1 + n 2 2 S 2 1 = 1 n 1 1 n 1 i=1 Het bovenstaande geeft ook een schatting voor Var(D): (Y 1,i Ȳ1) 2. SD 2 = (n 1 1)S1 2 + (n 2 1)S2 2 ( ). n 1 + n 2 2 n 1 n 2 We verwerpen de nul-hypothese van gelijke verwachtingswaarden als D S D > t α/2 (n 1 + n 2 2), (16) waar we gebruiken dat D S D een Student t-verdeling met n 1 + n 2 2 vrijheidsgraden heeft, en waarbij α de significantie van de toets is. De Student t-verdeling is een belangrijke verdeling uit de statistiek, waarvan veel bekend is. Daarnaast gebruiken we de notatie t α (n) voor die waarde van t waarvoor de kans dat een t-verdeling met n vrijheidsgraden groter is dan t met kans α. t α (n) wordt ook een kritieke waarde genoemd. Het (1 α)-betrouwbaarheidsinterval wordt gegeven door (d t α/2 (n 1 + n 2 2)s D, d t 1 α/2 (n 1 + n 2 2)s D ), (17) waarbij de kleine letters d en s D worden gebruikt voor de waarden van D en S D berekend uit de steekproef. 14

15 7.1.2 Toetsen van gelijkheid van verwachtingswaarden met ongelijke varianties In deze sectie zullen we een toets beschrijven om te toetsen of twee verwachtingwaarden gelijk zijn als we niet mogen aannemen dat de varianties gelijk zijn. We benadrukken dat in dit geval de varianties wel gelijk kunnen zijn, maar dat we dit niet bij voorbaat weten. Daarnaast zullen we ook een betrouwbaarheidsinterval voor het verschil van verwachtingswaarden geven. Deze situatie is lastiger, omdat de precieze verdeling van de toetsingsgrootheid onbekend is. We toetsen de hypothese H 0 : µ 1 = µ 2 versus H 1 : µ 1 µ 2. We kunnen dit herschrijven door H 0 : µ 1 µ 2 = 0. We schatten weer het verschil door D = Ȳ1 Ȳ2. Omdat we weten dat Ȳ1 N(µ 1, σ 2 1/n 1 ) en Ȳ2 N(µ 2, σ 2 2/n 2 ), waarbij n 1 en n 2 het aantal metingen van Y 1,i en Y 2,i zijn, krijgen we uit rekenregel 1 weer dat Uit rekenregel 2 volgt dat We schatten Var(D) door E(D) = 0 als H 0 waar is. Var(D) = σ2 1 n 1 + σ2 2 n 2. S 2 D = S2 1 n 1 + S2 2 n 2, waarbij weer S1 2 en S2 2 de steekproefvarianties zijn: S1 2 = 1 n 1 (Y 1,i n 1 1 Ȳ1) 2. We verwerpen de nul-hypothese van gelijke verwachtingswaarden als met ν = i=1 D S D > t α/2 (ν), (18) ( S 2 1 ) n 1 + S2 2 2 n ( ) 2 2 ( ) 2 S1 2/n 1 S2 n 1 + 2/n 2 +1 n (19) waarbij deze waarde naar beneden wordt afgerond indien zij niet geheel is. Hier gebruiken we dat D S D bij benadering een Student t-distribution met ν vrijheidsgraden heeft, en waarbij α de significantie van de toets is. Het (1 α)-betrouwbaarheidsinterval wordt bij benadering gegeven door (d t α/2 (ν)s D, d t 1 α/2 (ν)s D ), (20) waarbij weer de kleine letters d en s D worden gebruikt voor de waarden van D en S D berekend uit de steekproef. 15

16 7.2 Toetsen op gelijkheid van varianties Om dit in StatGraphics te doen, kiezen we weer Compare, Two Samples, Two-Sample Comparison. Men dient bij Tabular Options (het gele icoontje) de optie Comparisons of Standard Deviations aan te vinken. Dit geeft een venster waarin een toets wordt gedaan om de standaardafwijkingen van twee steekproeven met elkaar te vergelijken. Met de rechter muisknop en Pane Options kunnen we vervolgens de significantie instellen (meestal op 5%). Ook kan hier gekozen worden om een eenzijdige dan wel een tweezijdige toets te doen. In dit venster staan vervolgens de betrouwbaarheidsintervallen, de uitkomsten van de toetsingsgrootheid en de conclusie van de toets. We bespreken nu de theorie achter de toetsen of de varianties van twee steekproeven significant van elkaar verschillen als deze steekproeven uit een normale verdeling komen. Dit gaat als volgt. Voor elk van de meetmethoden weten we uit de theorie dat (n 1)S 2 σ 2 χ 2 (n 1), (21) waarbij χ 2 (n 1) een χ 2 -verdeling is met n 1 vrijheidsgraden. Deze verdeling speelt een zeer belangrijke rol bij data uit normale verdelingen. Daarnaast nemen we aan dat de verschillende steekproeven onafhankelijk zijn. Dit geeft dat met S 2 1 = S 2 berekend uit de steekproef 1 en S 2 2 = S 2 berekend uit steekproef 2, F = S2 1 S 2 2 F (n 1 1, n 2 1), (22) waarbij een F -verdeling optreedt als ratio tussen twee onafhankelijke χ 2 -verdelingen. De F -verdeling is essentieel om de varianties van twee steekproeven met elkaar te vergelijken. We willen toetsen of σ 2 1 σ 2 2. Dus, We verwerpen H 0 als H 0 : σ 2 1 = σ 2 1, versus σ 2 1 σ 2 2. (23) F > F α/2 (n 1 1, n 2 1) of F < F 1 α/2 (n 1 1, n 2 1), (24) waarbij α de significantie van de toets is, en F α (n 1 1, n 2 1) de kritieke waarde van de F -verdeling met n 1 1 en n 2 1 vrijheidsgraden. Er geldt dus dat een F -verdeling met n 1 1 en n 2 1 vrijheidsgraden met kans α groter is dan F α (n 1 1, n 2 1). Bovenstaande toets wordt een tweezijdige toets genoemd, omdat we alleen geïnteresseerd zijn in de vraag of σ 2 1 en σ 2 2 significant van elkaar verschillen. We kunnen ook willen weten of σ 2 1 significant groter is dan σ 2 2. We willen dan toetsen of σ 2 1 > σ 2 2. Dus, H 0 : σ 2 1 = σ 2 1, versus σ 2 1 > σ 2 2. (25) We verwerpen H 0 als F > F α (n 1 1, n 2 1). (26) 16

17 7.3 Toetsen op normaliteit In het voorgaande hebben we steeds aangenomen dat de metingen komen uit normale verdelingen. In paragraaf 3.4 hebben we een grafische methode, de normal probability plot, gegeven om dit visueel te inspecteren. In deze sectie zullen we iets zeggen over hoe normaliteit getoetst kan worden. Na een eerste grafische controle zoals beschreven in paragraaf 3.4 (die natuurlijk subjectief is) kan een objectieve controle uitgevoerd worden via een statistische toets. De toets van Shapiro-Wilks is een uitstekende toets. In StatGraphics is deze toets te vinden via Describe, Numeric Data, Outlier Identification. Men dient dat bij Tabular Options (het gele icoontje) de optie Tests for Normality aan te vinken. De overige toetsen zijn niet specifiek bedoeld om normaliteit mee te toetsen en dienen daarom niet gebruikt te worden. In het bijzonder is de tekst van de StatAdvisor in StatGraphics verwarrend. Deze toets werkt als volgt: 1. is de p-waarde kleiner dan of gelijk aan 0.01, dan is de data hoogstwaarschijnlijk niet normaal verdeeld 2. is de p-waarde groter dan 0.01, dan is er geen reden om aan normaliteit van de data te twijfelen. Normaliteit kan bij kleine aantallen waarnemingen verstoord worden door één enkele waarneming. Zo n waarneming is vaak te zien in bovengenoemde weergaven. In de praktijk moet zo n enkele waarneming onderzocht worden en weggelaten als er iets afwijkends geconstateerd wordt. Om objectief te toetsen of één of meerdere waarnemingen uitschieters zijn, kan men de toets van Dixon gebruiken. Dit kan alleen als n = 3,..., 30. Grotere steekproeven kan het programma niet aan. Grubbs toets werkt wel voor elke steekproefgrootte. Het is verstandig om uitschieters uit de data te verwijderen bij verdere analyse. In StatGraphics kan men de toets van Dixon vinden via Describe, Numeric Data, Outlier Identification. Het is belangrijk te beseffen dat deze toets gebaseerd is op de aanname dat de waarnemingen normaal verdeeld zijn (dit kan ook via dit menu door een extra optie aan te vinken bij Tabular Options. De toets van Dixon mag dus pas gebruikt worden, nadat we gecontroleerd hebben dat de data normaal verdeeld is. De toets van Dixon kan gewoon gebruikt worden met een significantie van 5M.a.w., uitkomsten met een p-waarde kleiner dan 0,05 geven aanleiding tot de conclusie dat er één of meerdere uitschieters zijn. Als data niet normaal verdeeld is, dan werkt de hierboven beschreven niet meer. Echter, de t-toets is vrij robuust, wat betekent dat deze toets ook een zinnig antwoord geeft als de data niet precies normaal verdeeld is, maar er niet al te zeer van afwijkt. Dit laatste hangt weer samen met Centrale Limiet Stelling. Een algemene vuistregel is dat als data niet normaal verdeeld is, dat er dan zijn meer metingen nodig zijn. Tot slot merken we op dat er is algemenere statistische theorie is voor andere statistische modellen dan normale, maar dat is teveel om nu op in te gaan. Als we uitgaan van normale data, dan kunnen we ook toetsen of een observatie een uitschieter is. 17

1 Meten en statistiek

1 Meten en statistiek 1 Meten en statistiek Bij het verrichten van metingen moeten we ons realiseren dat elke meting behept is met bepaalde onzekerheden of afwijkingen. Deze afwijkingen kunnen velerlei oorzaken hebben zoals

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek 2DD71: UITWERKINGEN 1. Stroopwafels a De som S van de 12 gewichten is X 1 + X 2 + + X 12. Deze is normaal

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

Statistiek 2 deel A 30 minuten over statistisch toetsen

Statistiek 2 deel A 30 minuten over statistisch toetsen Statistiek 2 deel A 30 minuten over statistisch toetsen R.J. Baars, MSc Kruytgebouw N710 r.j.baars@uu.nl februari 2014 Opbouw van statistiek Statistiek 1 (periode 2: vandaag) Dit college + zelfstudie +

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN 4.1 PARAMETERTOESTEN 1 A. Toetsen van het gemiddelde Beschouw een steekproef X 1, X,, X n van n onafhankelijke N(µ, σ) verdeelde kansveranderlijken Men

Nadere informatie

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling week 3: schatten en toetsen: de z-toets week 4: het toetsen van gemiddelden: de t-toets Moore, McCabe, and Craig.

Nadere informatie

Extra Opgaven. 3. Van 10 personen meten we 100 keer de hartslag na het sporten. De gemiddelde hartslag van

Extra Opgaven. 3. Van 10 personen meten we 100 keer de hartslag na het sporten. De gemiddelde hartslag van Extra Opgaven 1. Een persoon doet een HIV-test. Helaas is de uitslag positief. De test is echter niet perfect. De persoon vraagt zich af wat de kans is dat hij nu ook echt HIV heeft. Gegeven is: de kans

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek DD14) op vrijdag 17 maart 006, 9.00-1.00 uur. UITWERKINGEN 1. Methoden om schatters te vinden a) De aannemelijkheidsfunctie

Nadere informatie

Toegepaste Statistiek, Week 6 1

Toegepaste Statistiek, Week 6 1 Toegepaste Statistiek, Week 6 1 Eén ordinale en één nominale variabele Nominale variabele met TWEE categorieën, 1 en 2 Ordinale variabele normaal verdeeld binnen iedere categorie? Variantie in beide categorieën

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK 1 1. INLEIDING Parametrische statistiek: Normale Verdeling Niet-parametrische statistiek: Verdelingsvrij Keuze tussen de twee benaderingen I.

Nadere informatie

Antwoordvel Versie A

Antwoordvel Versie A Antwoordvel Versie A Interimtoets Toegepaste Biostatistiek 13 december 013 Naam:... Studentnummer:...... Antwoorden: Vraag Antwoord Antwoord Antwoord Vraag Vraag A B C D A B C D A B C D 1 10 19 11 0 3

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages. MARGES EN SIGNIFICANTIE BIJ STEEKPROEFRESULTATEN. De marges van percentages Metingen via een steekproef leveren een schatting van de werkelijkheid. Het toevalskarakter van de steekproef heeft als consequentie,

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet?

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet? Verklarende Statistiek: Toetsen Zat ik nou in dat kritische gebied of niet? Toetsen, Overzicht Nulhypothese - Alternatieve hypothese (voorbeeld: toets voor p = p o in binomiale steekproef) Betrouwbaarheid

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Opgave 1: (zowel 2DM40 als 2S390)

Opgave 1: (zowel 2DM40 als 2S390) TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4 en S39) op donderdag, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 11 Dinsdag 25 Oktober 1 / 27 2 Statistiek Vandaag: Hypothese toetsen Schatten 2 / 27 Schatten 3 / 27 Vragen: liegen 61 Amerikanen werd gevraagd hoeveel % van de tijd

Nadere informatie

introductie toetsen power pauze hypothesen schatten ten slotte introductie toetsen power pauze hypothesen schatten ten slotte

introductie toetsen power pauze hypothesen schatten ten slotte introductie toetsen power pauze hypothesen schatten ten slotte toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling week 3: schatten en toetsen: de z-toets Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 15 Dinsdag 2 November 1 / 16 2 Statistiek Indeling: Filosofie Schatten Centraal Bureau voor Statistiek 2 / 16 Schatten Vb. Het aantal tenen plus vingers in jullie huishoudens:

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen

Nadere informatie

Kruis per vraag slechts één vakje aan op het antwoordformulier.

Kruis per vraag slechts één vakje aan op het antwoordformulier. Toets Stroom 1.2 Methoden en Statistiek tul, MLW 7 april 2006 Deze toets bestaat uit 25 vierkeuzevragen. Kruis per vraag slechts één vakje aan op het antwoordformulier. Vraag goed beantwoord dan punt voor

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur.

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (WS05), vrijdag 9 oktober 010, van 14.00 17.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie

Nadere informatie

Statistiek voor A.I.

Statistiek voor A.I. Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden

Nadere informatie

Statistiek voor A.I. College 10. Donderdag 18 Oktober

Statistiek voor A.I. College 10. Donderdag 18 Oktober Statistiek voor A.I. College 10 Donderdag 18 Oktober 1 / 28 Huffington Post poll verkiezingen VS - 12 Oktober 2012 2 / 28 Gallup poll verkiezingen VS - 15 Oktober 2012 3 / 28 Jullie - onderzoek Kimberly,

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek (2S390) op maandag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek (2S390) op maandag 20-11-2000, 14.00-17.00 uur ƒbij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1 Statistiek II Sessie 1 Verzamelde vragen en feedback Deel 1 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 1 1 Staafdiagram 1. Wat is de steekproefgrootte? Op de horizontale as vinden we de respectievelijke

Nadere informatie

werkcollege 6 - D&P9: Estimation Using a Single Sample

werkcollege 6 - D&P9: Estimation Using a Single Sample cursus 9 mei 2012 werkcollege 6 - D&P9: Estimation Using a Single Sample van frequentie naar dichtheid we bepalen frequenties van meetwaarden plot in histogram delen door totaal aantal meetwaarden > fracties

Nadere informatie

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende

Nadere informatie

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan. Afdeling Wiskunde Volledig tentamen Statistics Deeltentamen 2 Statistics Vrije Universiteit 28 mei 2015 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen: opgaven 1,2,3,4. Cijfer=

Nadere informatie

Formules Excel Bedrijfsstatistiek

Formules Excel Bedrijfsstatistiek Formules Excel Bedrijfsstatistiek Hoofdstuk 2 Data en hun voorstelling AANTAL.ALS vb: AANTAL.ALS(A1 :B6,H1) Telt hoeveel keer (frequentie) de waarde die in H1 zit in A1:B6 voorkomt. Vooral bedoeld voor

Nadere informatie

Lesbrief hypothesetoetsen

Lesbrief hypothesetoetsen Lesbrief hypothesetoetsen 00 "Je gaat het pas zien als je het door hebt" Johan Cruijff Willem van Ravenstein Inhoudsopgave Inhoudsopgave... Hoofdstuk - voorkennis... Hoofdstuk - mens erger je niet... 3

Nadere informatie

toetskeuze schema verschillen in gemiddelden

toetskeuze schema verschillen in gemiddelden toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling week 3: schatten en toetsen: de z-toets week 4: het toetsen van gemiddelden: de t-toets week 5: het toetsen van

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

4 Domein STATISTIEK - versie 1.2

4 Domein STATISTIEK - versie 1.2 USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum

Nadere informatie

Toetsen van Hypothesen. Het vaststellen van de hypothese

Toetsen van Hypothesen. Het vaststellen van de hypothese Toetsen van Hypothesen Wisnet-hbo update maart 2008 1. en Het vaststellen van de hypothese De nulhypothese en de Alternatieve hypothese. Het gaat in deze paragraaf puur alleen om de formulering. Er wordt

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Statistische variabelen. formuleblad

Statistische variabelen. formuleblad Statistische variabelen formuleblad 0. voorkennis Soorten variabelen Discreet of continu Bij kwantitatieve gegevens gaat het om meetbare gegeven, zoals temperatuur, snelheid of gewicht. Bij een discrete

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5 1. De onderzoekers van een preventiedienst vermoeden dat werknemers in een bedrijf zonder liften fitter zijn dan werknemers

Nadere informatie

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter. STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek I voor B (2S410) op , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek I voor B (2S410) op , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek I voor B (S40) op 0-0-0, 4.00 7.00 uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine, een

Nadere informatie

Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements

Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements Sietske Tacoma, Susanne Tak, Henk Hietbrink en Wouter van Joolingen Inleiding Het doel van dit project is om een aantal vrij

Nadere informatie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord

Nadere informatie

11.0 Voorkennis. Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k)

11.0 Voorkennis. Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k) 11.0 Voorkennis Let op: Cumulatieve binomiale verdeling: P(X k) = binomcdf(n,p,k) Wanneer je met binomcdf werkt, werk je dus altijd met een kans van de vorm P(X k) Voorbeeld 1: Binomiaal kanseperiment

Nadere informatie

7.1 Toets voor het gemiddelde van een normale verdeling

7.1 Toets voor het gemiddelde van een normale verdeling Hoofdstuk 7 Toetsen van hypothesen Toetsen van hypothesen is, o.a. in de medische en chemische wereld, een veel gebruikte statistische techniek. Het wordt vaak gebruikt om een gevestigde norm eventueel

Nadere informatie

Vertaling van enkele termen uit de kansrekening en statistiek alternative hypothesis alternatieve hypothese approximate methods benaderende methoden asymptotic variance asymptotische variantie asymptotically

Nadere informatie

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00

Tentamen Statistische methoden MST-STM 8 april 2010, 9:00 12:00 Tentamen Statistische methoden MST-STM 8 april 2, 9: 2: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop inleveren alstublieft.

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN

TECHNISCHE UNIVERSITEIT EINDHOVEN TECHNISCHE UNIVERSITEIT EINDHOVEN Tentamen Biostatistiek voor BMT (2S390) op 17-11-2003 U mag alleen gebruik maken van een onbeschreven Statistisch Compendium (dikt. nr. 2218) en van een zakrekenmachine.

Nadere informatie

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Statistiek voor A.I. College 12. Dinsdag 23 Oktober Statistiek voor A.I. College 12 Dinsdag 23 Oktober 1 / 20 2 Deductieve statistiek Orthodoxe statistiek 2 / 20 3 / 20 Jullie - onderzoek Wivine Tijd waarop je opstaat (uu:mm wordt weergeven als uumm). Histogram

Nadere informatie

Toetsen van hypothesen

Toetsen van hypothesen Les 4 Toetsen van hypothesen We hebben tot nu toe enigszins algemeen naar grootheden van populaties gekeken en bediscussieerd hoe we deze grootheden uit steekproeven kunnen schatten. Vaak hebben we echter

Nadere informatie

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf.

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf. Opdracht 10a ------------ t-procedures voor gekoppelde paren t-procedures voor twee onafhankelijke steekproeven samengestelde t-procedures voor twee onafhankelijke steekproeven Twee groepen van 10 leraren

Nadere informatie

Tentamen Kansrekening en statistiek wi2105in 25 juni 2007, uur

Tentamen Kansrekening en statistiek wi2105in 25 juni 2007, uur Tentamen Kansrekening en statistiek wi205in 25 juni 2007, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6 1. Iemand kiest geblinddoekt 4 paaseitjes uit een mand met oneindig veel paaseitjes. De helft is melkchocolade, de andere

Nadere informatie

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28 Inhoud Woord vooraf 13 Hoofdstuk 1. Inductieve statistiek in onderzoek 17 1.1 Wat is de bedoeling van statistiek? 18 1.2 De empirische cyclus 19 1.3 Het probleem van de inductieve statistiek 20 1.4 Statistische

Nadere informatie

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets &

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (WS4), woensdag 3 juni, van 9.. uur. Dit is een tentamen met gesloten boek. De uitwerkingen van de

Nadere informatie

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31 Tentamen Statistische methoden 45STAMEY april, 9: : Studienummers: Vult u alstublieft op het MC formulier uw Delftse studienummer in; en op het open vragen formulier graag beide, naar volgend voorbeeld:

Nadere informatie