Statistiek in de Praktijk - samenvatting

Maat: px
Weergave met pagina beginnen:

Download "Statistiek in de Praktijk - samenvatting"

Transcriptie

1 Statistiek in de Praktijk - samenvatting Wim Muskee 11 maart 2005 Vrij naar het boek van Moore & McCabe

2 Inhoudsopgave 1 kijken naar gegevens - verdelingen weergeven van verdelingen met grafieken verdeling kwalitatief: verdeling kwantitatief: verdelingen beschrijven normale verdelingen dichtheidskrommen normale verdelingen kijken naar gegevens - relaties spreidingsdiagrammen correlatie kleinste-kwadraten methode gebruik en beperkingen van regressie en correlatie relaties tussen kwalitatieve variabelen oorzaak en gevolg vergaren van gegevens 14 4 kansrekening - de studie van het toeval toeval kansmodellen stochastische variabelen verwachting en variantie van stochastische variabelen de wetten van de kansrekening van kans naar inferentie - aantallen en fracties aantallen en fracties steekproefgemiddelden inleiding tot inferentie schatten met betrouwbaarheid significatietoetsen gebruik en misbruik van toetsen inferentie voor verdelingen inferentie voor de verwachting van een populatie inferentie voor twee verwachtingen inferentie voor populatiespreiding inferentie voor telgegevens inferentie voor een enkele fractie vergelijken van twee fracties inferentie voor kruistabellen kruistabellen formules en modellen inferentie voor regressie enkelvoudige lineaire regressie details één-factor variantie-analyse ANOVA procedure voorbeeld

3 12 sheets div.doc 40 3

4 1 kijken naar gegevens - verdelingen inleiding Individuen zijn objecten die beschreven worden door een gegevensverzameling. Een variabele is een eigenschap van een individu. Een variabele kan verschillende gegevens uitdrukken voor verschillende individuen. Een kwalitatieve variabele plaatst het individu in een of meer categoriën. Een kwantitatieve variabele geeft een bepaalde hoeveelheid aan over een individu. Dit is een numerieke waarde. De verdeling van een variabele geeft aan welke waarde aangenomen wordt en hoe vaak deze waarden aangenomen worden. Een database met studentengegevens. De individuen zijn de studenten. De variabelen zijn bijvoorbeeld geslacht, geboortedatum en woonplaats. Geslacht en woonplaats zijn kwalitatieve variabelen en geboortedatum een kwantitatieve. In een database zijn rijen simpelgezegd de individuen en de kolommen zijn de variabelen. Bij een statistisch onderzoek zijn de volgende belangrijk om te stellen: 1. Waarom? Welk doel dienen de gegevens? Kunnen we de juiste conclusies trekken uit de gegevens die we hebben? 2. Wie? Welke individuen worden door de gegevens beschreven? 3. Wat? Hoeveel variabelen bevatten de gegevens? Wat is de definitie van die variabelen? 1.1 weergeven van verdelingen met grafieken Verkenning van gegevens (de belangrijkste kenmerken vinden) wordt exploratieve data-analyse genoemd. Er zijn twee basisstrategieën: Eerst elke variabele apart, vervolgens de verbanden tussen de variabelen. Eerst diagrammen, vervolgens numerieke aspecten verdeling kwalitatief: De verdeling van een kwalitatieve variabele kan goed met staaf- of taartdiagrammen. Taartdiagrammen laten de relatie tot het geheel goed zien verdeling kwantitatief: Kennis van het meetinstrument is belangrijk om erachter te komen wat de definitie van de gemeten variabele is. Vertellen de gemeten variabelen wat je wil weten? Soms is een relatief aantal gebeurtenissen, in relatie met de context, betekenisvoller dan een optelsom van het aantal gebeurtenissen. Het variatiepatroon van een variabele wordt zijn verdeling genoemd. De verdeling van een kwantitatieve variabele legt de numerieke waarden van de variabelen vast en het aantal keren dat de waarde voorkomt. Verdelingen kunnen naast numeriek ook op een aantal grafische manieren weergegeven worden: 4

5 stamdiagram: Het maken van een stamdiagram is geen doel op zich. Het moet helpen de gegevens beter te begrijpen en het hoeft niet wiskundig correct te zijn. Het moet de vorm van de verdeling weergeven. De stam is het voorste getal en de bladeren het tweede getal in het cijfer. Aan één stam kunnen meerdere bladeren zitten. Ook kunnen stammen verdeeld worden om de bladeren beter te spreiden. Door een rug-aan-rug stamdiagram te maken, kun je twee verdelingen vergelijken. Verdelingsonderzoek gaat als volgt: Kijk in het diagram naar het globale patroon en naar opvallende afwijkingen in het patroon. Je kunt de globale vorm van een verdeling beschrijven door zijn vorm, centrum en spreiding. Een belangrijk type afwijking is een uitschieter, een individuele waarde die buiten het patroon valt. Mediaan is de (centrum)waarde waarbij de helft van de andere waarden hoger is en de andere helft lager. De spreiding is het bereik tussen de hoogste en de laagste waarden. Een verdeling met één top wordt unimodaal genoemd. De vorm kan symmetrisch zijn of symmetrisch scheef. Scheef, als er meer waarden aan één kant van het centrum liggen. histogram: Vele aspecten van een stamdiagram gelden ook voor het histogram. Het verschil is dat waar het stamdiagram bij de indeling afhankelijk is van het getalsysteem, je dit bij een histogram zelf kunt bepalen. Vanwege het feit dat de vorm altijd afhankelijk is van de indeling hoeft deze niet exact symmetrisch te zijn. De indeling moet zo gekozen worden dat de vorm duidelijk wordt. Door relatieve frequenties te nemen in plaats van de frequenties ontstaat dezelfde vorm, echter wel vergelijkbaar met andere gelijksoortige tellingen. Histogrammen worden gebruikt waar er meer gegevens zijn in de verdeling. tijdreeksgrafieken: Deze grafieken laten de metingen zien in relatie tot de tijd. Dit kan de de meetvolgorde zijn of in relatie tot de absolute tijd. Strict genomen zijn tijdreeksen metingen van een variabele in regelmatig, opeenvolgende tijdvakken. Een patroon in een tijdreeks dat zich steeds herhaalt op bekende regelmatige tijdsintervallen wordt een seizoensvariatie genoemd. Hoeft niet over seizoenen te gaan, kan ook dagelijks of maandelijks zijn. Een trend in een tijdreeks is een aanhoudende lange termijn stijging of daling. Een indexcijfer stelt de gemiddelde waarde van een bepaalde periode op 100 procent. De rest van de metingen wordt weergegeven in relatie tot dat cijfer. Een seizoenscorrectie is een bijstelling van de gemeten waarden in relatie tot de seizoensvariatie. 1.2 verdelingen beschrijven Een korte beschrijving van een verdeling moet bestaan uit zijn vorm en cijfers die zijn centrum en spreiding beschrijven. Let wel, de cijfers die we vergaren uit de waarden zijn geen antwoord, louter hulpmiddelen om de situatie beter te beschrijven. 5

6 het gemiddelde: Is een maat voor het centrum. Om het gemiddelde van alle waarnemingen te vinden moeten alle waarnemingen bij elkaar op worden geteld en gedeeld door het aantal waarnemingen. x = x 1 + x x n n x = 1 n xi Aangezien het gemiddelde sterk gevoelig is voor uitschieters in de waarnemingen is het geen resistente maat van het centrum. de mediaan: De volgende formule geeft de positie van de mediaan (M p ) in een geordende lijst. Als het aantal waarnemingen oneven is, is de mediaan een waarneming, als het aantal even is, dan is de mediaan het gemiddelde van de twee getallen direct naast de positie van de mediaan. M p = n meten van de verdeling: de kwartielen: De maat van het centrum geeft niet voldoende informatie over de verdeling, de maat van de spreiding is ook nodig. De eenvoudigste nuttige beschrijving van een verdeling bestaat zowel uit een centrummaat als een spreidingsmaat. De spreiding of variabiliteit van een verdeling kan worden aangeduid door verschillende percentielen te geven. Het p-de percentiel van een verdeling is de waarde, zodaning dat p procenten van de waarneming lager is of eraan gelijk is. De mediaan is de 50 ste percentiel. Gangbare percentielen zijn kwartielen (Q), de eerste als 25 ste percentiel en de derde als 75 ste. Wanneer M bepaald is, is Q 1 de mediaan van alle waarden links van M en Q 3 de mediaan er rechts van. Een eenvoudige maat voor de spreiding is de afstand tussen de kwartielen die het gebied aangeeft waarbinnen zich de helft van de data bevindt. Deze afstand wordt de interkwartielafstand (IKA) genoemd. IKA = Q 3 Q 1 Een waarneming is een verdachte uitschieter als deze tenminste 1.5 x IKA boven Q 3 of onder Q 1 ligt. de vijf-getallen-samenvatting en de boxplots: De vijf-getallen-samenvatting bestaat uit Q 1, Q 2, Q 3 en de grootste en kleinste individuele waarneming. Een boxplot is een grafiek van de vijf-getallen-samenvatting, waarbij verdachte uitschieters individueel worden weergegeven. Q 1 tot en met Q 3 worden weergegeven door een rechthoek, door de lijn van Q 2 gescheiden. Waarnemingen die meer dan 1.5 IKA buiten de centrale rechthoek vallen worden afzonderlijk afgebeeld. Twee buiten de rechthoek lopende lijnen strekken zich uit tot aan de kleinste en grootste waarneming die geen uitschieters zijn. Volgens de whiskers methode gaat dit van 5% tot 95% van alle waarnemingen. verdelingen vergelijken: Boxplots kunnen het beste worden gebruikt om verschillende verdelingen met elkaar te vergelijken terwijl stamdiagrammen en histogrammen beter iets kunnen vertellen over een enkele verdeling, zeker als bijbehorende numerieke gegevens worden verstrekt. 6

7 meten van de spreiding: de standaardafwijking: De standaardafwijking meet de spreiding door te kijken hoe ver de waarnemingen van hun gemiddelde zijn verwijderd. De variantie s 2 is het gemiddelde van het kwadraat van de afwijkingen van de waarnemingen van hun gemiddelde. De standaardafwijking is s. s 2 = (x 1 x) 2 + (x 2 x) (x n x) 2 n 1 s 2 = 1 (xi x) 2 n 1 1 s = (xi x) n 1 2 Aangezien er altijd begonnen wordt met 1 waarneming van de n waarnemingen, kunnen de rest van de waarnemingen, n 1 vrij variëren ten opzichte van de eerste. Het getal n 1 noemt men het aantal vrijheidsgraden van de variantie of van de standaardafwijking. s meet de spreiding rondom het gemiddelde en dient alleen gebruikt te worden wanneer het gemiddelde als centrummaat is gekozen. Alleen als er geen spreiding is, is s = 0. Dit gebeurt als alle waarnemingen dezelfde waarde hebben. Anders is s > 0. Als de waarnemingen meer verspreid zijn rond hun gemiddelde wordt s groter. s is net als x, niet resistent. Enkele uitschieters kunnen s erg groot maken. het kiezen van centrum en spreidingsmaten: De vijf-getallen-samenvatting is over het algemeen geschikter dan het gemiddelde en de standaardafwijking voor het gebruik van een scheve verdeling of een verdeling met sterke uitschieters. Gebruik x en s alleen voor redelijk symmetrische verdelingen zonder uitschieters. Een grafiek is het beste middel om een algemeen beeld te krijgen van een verdeling. Numerieke centrum- en spreidingsmaten geven bepaalde kenmerken weer van een verdeling maar beschrijven niet de hele vorm. de meeteenheid veranderen: De verandering van een meeteenheid is een lineaire transformatie van de metingen. Elke lineaire transformatie verloopt volgens de volgende formule: x new = a + bx Lineaire transformaties hebben geen effect op de vorm van de verdeling. Door met b te vermeningvuldigen worden centrum- en spreidingsmaten met b vermenigvuldigd. Door optellen van a worden de centrummaten veranderd maar de spreidingsmaten niet. Het verschil bijvoorbeeld tussen Q 1 en Q 3 veranderd niet evenals de standaardafwijking. 1.3 normale verdelingen Om te beginnen de basisstappen voor het analyseren van een kwantitatieve variabele met daaraan toegevoegd een nieuwe vierde stap. De kromme is een wiskundig model, een geïdealiseerde beschrijving van de verdeling. 1. Maak een grafische voorstelling van de gegevens. 2. Kijk naar het patroon en naar afwijkingen. 3. Bereken een numerieke samenvatting door spreiding en centrum te berekenen. 4. Is het patroon regelmatig genoeg, dan is deze te beschrijven door een gladde kromme. 7

8 1.3.1 dichtheidskrommen Anders dan een grafische voorstelling van de daadwerkelijke waarnemingen, is een dichtheidskromme een model van de waarnemingen. Het globale patroon van de verdeling wordt beschreven, niet de uitschieters. De oppervlakte onder de kromme en onder een willekeurig interval is de relatieve frequentie van alle waarnemingen die binnen dat interval vallen. Een dichtheidskromme is een kromme... die zich altijd op of boven de horizontale as bevindt, en waarvan de oppervlakte eronder gelijk is aan 1. De mediaan van een dichtheidskromme is het punt dat de oppervlakte onder de kromme in twee gelijke stukken verdeeld. De verwachting van de dichtheidskromme is het gemiddelde normale verdelingen feitelijke waarneming dichtheidskromme x µ s σ Normale verdelingen zijn symmetrische, ééntoppige, klokvormige dichtheidskrommen. De exacte dichtheidskromme voor een specifiek normale verdeling wordt vastgelegd door zijn verwachting µ en zijn standaardafwijking σ. De punten waar de kromme van richting veranderd liggen op afstand σ aan weerszijden van µ. De normale dichtheidskrommen worden door een speciale formule gespecificeerd. 1 σ 1 2π e 2( x µ σ ) 2 Er zijn drie redenen voor het belang van normale verdelingen. 1. Het zijn goede modellen voor sommige verdelingen van werkelijke data, vooral in grote hoeveelheden. 2. Het zijn goede benaderingen van de uitkomsten van vele soorten toevallige uitkomsten. 3. Vele statische inferentie procedures, gebaseerd op normale verdelingen, werken goed voor ruwweg symmetrische verdelingen. De beslissing om een door een normaal model te beschrijven kan bepalend zijn voor de verdere stappen in de analyse van de data. Verschillende berekening berusten op de modelkeuze en zo n keuze moet zorgvuldig gemaakt worden. de regel: geldt dat ongeveer: In de normale verdeling met verwachting µ en standaardafwijking σ 68% van de waarnemingen binnen afstand σ van verwachting µ ligt. 95% van de waarnemingen binnen afstand 2σ van verwachting µ ligt. 99.7% van de waarnemingen binnen afstand 3σ van verwachting µ ligt. standaardisering: In feite zijn alle normale verdelingen identiek als de metingen worden vericht met σ als eenheid van grootte en µ als het centrum. Het omzetten naar deze eenheden wordt standaardisering genoemd en kan met de volgende formule. Als x een waarneming is uit de verdeling, dan zegt z hoeveel standaardafwijkingen x van µ verwijderd is en in welke richting. z = x µ σ Standaardisering is een lineaire transformatie die de gegevens in de standaard schaal van z-scores omzet. 8

9 standaard normale verdeling: Het standaardiseren van een variabele die een willekeurige normale verdeling heeft, geeft een nieuwe variabele die een standaardnormale verdeling heeft. De standaardnormale verdeling is de normale verdeling N(0,1) met verwachting 0 en standaardafwijking 1. Als een variabele X een normale verdeling N(µ,σ) heeft, dan heeft variabele Z de standaardnormale verdeling: Z = Z µ σ Uit een normale verdeling N(166.4, 6.4) voor lengtes van jonge vrouwen komt een vrouw met de lengte 176 cm voor. Haar gestandaardiseerde lengte is: = 1.5. Ze zit 1.5 standaardafwijkingen boven de verwachting. Wanneer we dit gegeven opzoeken in tabel A 1, vinden we Oftewel, ongeveer 93.3% van alle jonge vrouwen is kleiner dan of net zo groot als haar. We kunnen relatieve frequenties voor elke willekeurige normale verdeling bepalen, door standaardisatie toe te passen en tabel A te gebruiken. normaal-kwantiel-diagram: Als een stamdiagram of histogram ruwweg symmetrisch en unimodaal lijkt, passen we het normaal-kwantiel-diagram 2 toe. Hieronder het grondbeginsel van de opzet ervan. 1. Rangschik de waarnemingen van klein naar groot en zet achter elke waarneming de percentiel. 2. Bepaal de z-scores voor elke percentiel. Bijvoorbeeld voor de 5%. 3. Zet elke waarneming x uit tegen z. Als de gegevensverdeling dicht bij de standaardnormale ligt, zullen de getekende punten dicht bij de 45-gradenlijn van x = z liggen. Als de gegevensverdeling dicht bij een willekeurige normale verdeling ligt, zullen de getekende punten dicht bij een rechte lijn liggen. Uitschieters verschijnen als punten die ver verwijderd zijn van het globale patroon van de figuur. 2 normal possible plots op z n Engels 9

10 2 kijken naar gegevens - relaties inleiding samenhang: Twee variabelen gemeten bij dezelfde individuen hangen samen als sommige waarden van één variabele vaker voorkomen bij bepaalde waarden van de tweede variabele dan met andere waarden van de tweede variabele. Wanneer men de relatie tussen twee variabelen onderzoekt zijn de volgende vragen belangrijk: Welke individuen worden door de data beschreven? Welke variabelen zijn er en hoe zijn ze gemeten? Welke variabelen zijn kwantitatief en welke kwalitatief? Is het de bedoeling eenvoudig de aard van het verband te ontdekken of hoopt men te kunnen aantonen dat een van de variabelen de veranderingen in de ander kan verklaren? Een te verklaren variabele meet de uitkomst van een onderzoek. Een verklarende variabele poogt de waargenomen uitkomsten te verklaren. De te verklarende variabele wordt ook wel afhankelijke variabele genoemd omdat deze afhangt van de verklarende variabele. De verklarende wordt vervolgens de onafhankelijke variabele genoemd. De hoeveelheid alcohol heeft invloed op de lichaamstemperatuur. Bij een onderzoek hiernaar wordt de hoeveelheid alcohol verhoogd en de temperatuur gemeten. De temperatuur is de te verklaren variabele en de hoeveelheid alcohol de verklarende variabele. 2.1 spreidingsdiagrammen Een spreidingsdiagram toont het verband aan tussen twee kwantitatieve variabelen gemeten bij dezelfde individuen. De waarden van de ene variabele verschijnen op de horizontale as en de waarden van de andere variabele op de verticale as. Elk individu in de gegevens verschijnt als het punt in de diagram dat is bepaald door de waarden van beide variabelen voor dat individu. Teken de verklarende variabele op de x-as en de te verklarende variabele op de y-as. interpretatie: Kijk in elke grafische voorstelling naar het algemene patroon en naar de afwijkingen in dat patroon. Het globale patroon van een spreidingsdiagram kan beschreven worden door de vorm, richting en sterkte van de relatie. De sterkte van een relatie wordt bepaald door hoe dicht de punten in een spreidingsdiagram bij een simpele vorm als een stijgende of dalende lijn liggen. Een bepaald type vorm is een geclusterde vorm. Bepaalde groepen (clusters) met elk eigen richting en sterkte. Tussen twee variabelen bestaat positieve samenhang als de waarden boven het gemiddelde van de ene variabele de neiging vertonen samen te gaan met de waarden boven het gemiddelde van de andere variabele, terwijl de waarden onder het gemiddelde op soortgelijke wijze de neiging hebben om samen te gaan. In de diagram van is positief dus van linksonder naar rechtsboven. De vorm van de relatie kan lineair zijn. Wanneer er meerdere clusters zijn is het handig ze afzonderlijk te bekijken. Uitschieters zijn univariaat niet te vinden maar bivariaat wel. De uitschieters zijn alleen te vinden wanneer men de individuen voor twee variabelen meet. 10

11 kwalitatief verklarende variabelen: Deze kunnen evengoed in een diagram geplaatst worden voor vergelijking met een kwantitatieve te verklaren variabele. Voor de representatie kan gebruik gemaakt worden van boxplots. 2.2 correlatie De correlatie meet de richting en sterkte van de lineaire relatie tussen twee kwantitatieve variabelen. De twee kwantitatieve variabelen zijn x en y. Correlatie r is het gemiddelde van de gestandaardiseerde producten van de variabelen. r = 1 n 1 ( ) ( ) x x y y s x r = 1 Zx Z y n 1 Geen onderscheid tussen de te verklaren variabele en de verklarende variabele. Variabelen dienen kwantitatief te zijn. Correlatie r heeft geen meeteenheid, het komt voor uit gestandaardiseerde waarden zonder eenheid, wel grootheid. Een positieve r wijst op een positieve samenhang en een negatieve r op een negatieve samenhang. De correlatie ligt tussen -1 en 1. Naarmate r dichter bij -1 of 1 ligt, is de lineariteit van het verband sterker. Correlatie meet slechts de sterkte van een lineaire relatie tussen twee variabelen. Correlatie is niet resistent. Bovendien is het geven van alleen de correlatie niet afdoende voor een volledige beschrijving van de gegevens. 2.3 kleinste-kwadraten methode Net zoals we één variabele numeriek willen samenvatten met bijvoorbeeld een mediaan en een vijf-getal-samenvatting willen we ook een relatie tussen twee variabelen simpel numeriek kunnen samenvatten. Een rechte lijn die de afhankelijkheid van een variabele (y) van een andere (x) beschrijft wordt een regressielijn genoemd. Vaak gebruiken we een regressielijn om de waarde van y voor een waarde x te voorspellen. Regressie vereist, in tegenstelling tot correlatie, een verklarende en een te verklaren variabele. van data naar lijn: Van verschillende waarnemingen kan een grafische voorstelling gemaakt worden waardoor in sommige gevallen een rechte lijn is te trekken. Deze lijn is een model te beschrijven door de volgende formule waarbij x de verklarende variabele is en y de te verklaren variabele. b is de helling en a het startpunt voor x = 0. y = a + bx Er zijn voorspelling te doen op basis van de formule. Echter de waarde die we toekennen aan de voorspelling is afhankelijk van de spreiding van de gegevens ten op zichte van de regressielijn. Is de spreiding groot dan wordt de voorspelling minder betrouwbaar. Voorspellingen doen op basis van de regressielijn wordt extrapolatie genoemd. s y 11

12 de methode: Om de voorspellingen op basis van de regressielijn zo betrouwbaar mogelijk te maken, moet de regressielijn de punten zo dicht mogelijk benaderen. We zoeken de lijn die zo dicht mogelijk langs de punten in verticale richting loopt, immers de fouten die we maken drukken zich uit in y, de te verklaren variabele. Het doel is nu om de afstanden tussen de regressielijn en alle punten zo klein mogelijk te maken. Een methode hiervoor is de kleinste kwadraten methode. De kleinste regressielijn van y over x is de lijn waarvoor de som van de kwadraten van de verticale afstanden van de gegevenspunten tot de lijn, zo klein mogelijk is. Wanneer a + bx de voorspellende waarde voor y aangeeft dan zal die waarde afgetrokken moeten worden van de echt waargenomen y om de fout te vinden. Wanneer we die fouten kwadrateren en optellen vinden we de volgende formule. (yi a bx i ) 2 De volgende formules leiden tot de correcte waarden voor a en b voor de vergelijking van de kleinste kwadratenlijn. De vergelijking voor b zegt dat langs de regressielijn een verandering van één standaardafwijking in x overeenstemt met een verandering van r standaardafwijkingen in y. Denk eraan dat de standaardafwijking iets vertelt over de gemiddelde afwijking van de waarnemingen van het gemiddelde voor één variabele. De te verklaren variabele staat als teller in de breuk en r geeft de sterkte en de richting van de relatie aan. Voorts gaat de kleinste kwadraten regressielijn altijd door het punt (x, y). Als x en y gestandaardiseerde variabelen zijn, loopt de regressielijn door de oorsprong en is helling b gelijk aan r. b = r s y s x a = y bx Het kwadraat van correlatie, r 2, is die fractie van de variatie in de y-waarden die verklaard worden door de kleinste-kwadratenregressie van y op x. Bij een bepaalde x is er een bepaalde spreiding aan y-waarden en een voorspelde y. Over alle waarnemingen is een standaardafwijking berekend en aan de hand daarvan de correlatie r. Stel r = en dus r 2 = 0.849, dan betekent dat 85% van de variatie in de te verklaren variabele verklaard worden door de x- variabele. De voorspellingen die gedaan worden op basis van de regressielijn met een lage r 2 zullen onbetrouwbaarder zijn. r 2 is fractie verklaarde variatie. Een deel van de variatie in y wordt veroorzaakt door x. Twee bronnen van variatie: x en het residu. Spreiding van ŷ is kleiner dan y. r 2 schrijft een percentage van de variatie toe aan x met de formule variantieŷ variantiey. De rest van het percentage wordt verklaard door het residu en is dus het deel onverklaarde variantie. 2.4 gebruik en beperkingen van regressie en correlatie residuen: Nog even voor de duidelijkheid: Een regressielijn is een wiskundig model voor het algemene patroon van een lineaire relatie tussen een verklarende en een te verklaren variabele. De kleinste-kwadraten methode berekent de som van het kwadraat van de afstand tussen de waargenomen waarde en de voorspelde waarde van de te verklaren variabele. Het residu is de afstand voor een meting tussen de de waargenomen waarde en de voorspelde waarde van de te verklaren variabele. residu = y ŷ Voor elk datapunt kan het residu apart beschreven worden, naast de som van het kwadraat van alle residuen. Het gemiddelde van de residuen gebruikt in de kleinste-kwadraten methode is gelijk aan 0. De residuen kunnen vervolgens uitgezet worden in een residuendiagram. Hiermee kunnen we de aanpassingen van een regressielijn beter beoordelen. Als de regressielijn het algemene patroon van de gegevens weergeeft mag in het residudiagram geen patroon zichtbaar zijn. Is er wel een patroon te zien dan is regressielijn minder betrouwbaar om voorspellingen mee te doen. Een gebogen residupatroon duidt op een kromlijnig en niet 12

13 lineair verband, een waaiervormig patroon naar rechts duidt op een dalende betrouwbaarheid naarmate de waarde van de verklarende variabele stijgt. verborgen variabelen: Een verborgen variabele is een variabele die een belangrijke invloed heeft op de relaties tussen variabelen in een onderzoek, maar niet is opgenomen in de verzameling van de bestudeerde variabelen. Een nuttige methode om verborgen variabelen te ontdekken is om zowel de te verklaren variabele alsook de regressieresiduen uit te zetten tegen de tijdsvolgorde van de waarnemingen, als die volgorde beschikbaar is. uitschieters en invloedrijke waarnemingen: Een uitschieter in de context van regressie is een punt dat in vericale richting ver verwijderd ligt van de aangepaste lijn en daarom een groot residu oplevert. Toch heeft een uitschieter in horizontale richting ook veel invloed op de richting van de regressielijn vanwege de niet-resistentie. Zo n uitschieter heet een invloedrijke waarneming. De zekerste manier om te bepalen of een punt invloedrijk is, is om de regressielijn te tekenen met en zonder die waarneming. wees alert: correlatie meet alleen de mate van lineaire associatie. Als het globale patroon van de relatie niet lineair is, heeft het geen zin de relatie lineair te tekenen. extrapolatie kan onbetrouwbaar zijn. Correlaties en kleinste-kwadratenregressies zijn niet resistent. Verborgen variabelen kunnen gegevens van regressie of correlatie misleiden. Zet residuen altijd uit tegen de tijd en tegen andere vaiabelen die de relatie tussen x en y kunnen beïnvloeden. Een samenhang tussen verklarende variabele en een te verklaren variabele betekent nog geen oorzaak-gevolg relatie. Correlaties die gebaseerd zijn op gemiddelden zijn over het algemeen hoger dan correlaties tussen dezelfde variabelen gebaseerd op data van individuen. Voor succesvol voorspellen is een oorzakelijke relatie niet vereist. Als zowel x als y afgeleiden zijn van dezelfde onderliggende niet-gemeten variabelen, is het misschien mogelijk om y uit x te voorspellen, zelfs als x niet een directe invloed heeft op y. Wanneer de gegevens niet de maximale informatie bevattten spreken we van een beperkt bereik. Beperkt bereik zal alleen een probleem vormen wanneer de uitkomsten afwijkingen vertonen ten opzichte van gegevens met een minder beperkt bereik. 2.5 relaties tussen kwalitatieve variabelen Relaties tussen kwalitatieve variabelen worden beschreven door uit de gegeven aantallen de bijbehorende percentages te berekenen. Percentages zijn gemakkelijker te vergelijken dan aantallen. Twee kwalitatieve variabelen worden in een kruistabel genoteerd. Een variabele in de rijen en de andere in de kolommen geordend van laag naar hoog. De verdeling van een variabele alleen, dus niet in relatie tot de andere variabele, heet een marginale verdeling. De verdeling van een categorie van een variabele in relatie tot de andere variabele heet een voorwaardelijke verdeling. 13

14 opleiding leeftijd geen middelbare school middelbare school jr hbo of uni jr hbo of uni totaal In de percentagetabel wordt beschreven wat het opleidingsniveau is van elke leeftijdsgroep, niet hoe elke leeftijdsgroep binnen opleiding is verdeeld. Daarom is de horizontale optelling geen 100%. Om de gegevens te vergelijken voor elke rij, is een staafdiagram vaak afdoende. Voor de absolute waarden boeit het niet. Het verschil tussen horizontaal en verticaal of zelfs diagonaal (totaal). In de tabel hierboven is verticaal gepercenteerd. percenteren. paradox van simpson: De paradox van Simpson betreft de omkering van de richting van een samenhang wanneer data uit verscheidene groepen gecombineerd worden tot een enkele groep. De verborgen variabelen in de paradox van Simpson zijn kwalitatief, ze delen de individuen op in groepen. De paradox van Simpson is een extreme vorm van het feit dat de waargenomen samenhang misleidend kan zijn als er verborgen variabelen zijn. Drie kwalitatieve variabelen worden in een driedimensionale tabel met elkaar vergeleken. Dit is een kruistabel waarbinnen onderscheid wordt gemaakt in nog een variabele. In essentie één tweedimensionale kruistabel voor elke categorie van de derde variabele. 2.6 oorzaak en gevolg Het feit dat twee variabelen samenhangend zijn tot elkaar betekent nog niet automatisch dat de veranderingen bij de ene, veranderingen bij de ander teweegbrengen. Ik vermeld een aantal soorten samenhang: a: Een rechtstreekse oorzaak-gevolg samenhang tussen x en y. b: Er is een gemeenschappelijke afhankelijkheid van x en y door verborgen variabele z. c: Er is een verstrengeling als zowel de verklarende variabele x als de verborgen variabele z invloed hebben op de te verklaren variabele y, echter kunnen we de invloed van x niet onderscheiden van die van z. De beste methode om de exacte relatie tussen variabelen vast te stellen is door middel van een experiment waarin de effecten van alle variabelen gecontroleerd kunnen worden. 3 vergaren van gegevens Een belangrijke methode om informatie te vergaren is de Enkelvoudige Aselecte Steekproef (EAS). steekproef; greep uit een bepaalde populatie 14

15 aselect; elk element van de greep is willekeurig gekozen, het enige verschil mag worden veroorzaakt door toeval enkelvoudig; één tegelijk en geen tweetallen 15

16 4 kansrekening - de studie van het toeval 4.1 toeval Een toevalsverschijnsel is een verschijnsel waarbij individuele uitkomsten onzeker zijn, maar er niettemin bij een groot aantal herhaling een regelmatige verdeling van uitkomsten bestaat. De kans op een willekeurige uitkomst van een toevalsverschijnsel is de fractie keren dat de uitkomst voorkomt in een lange reeks herhalingen. Dat wil zeggen, de fractie is een relatieve frequentie op de lange termijn. 4.2 kansmodellen Kansmodellen worden gedefinieerd aan de hand van twee onderdelen: een lijst van mogelijke uitkomsten een kans voor elke uitkomst definities en regels: De uitkomstenruimte S van een toevalsverschijnsel is de verzameling van alle mogelijke uitkomsten. Een gebeurtenis is een verzameling uitkomsten van een toevalsverschijnsel; ofwel een deelverzameling van een uitkomstenruimte. Een Venn-diagram is een figuur dat de uitkomstenruimte als een rechthoek weergeeft en de gebeurtenissen als oppervlaktes binnen dat diagram. De kans op een gebeurtenis A is: P (A) = aantal uitkomsten in A aantal uitkomsten in S Er zijn 5 regels over een kansberekeningsmodel. De gegevens komen voort uit de gedachte dat kans wordt omschreven als het aantal herhalingen waarbinnen een gebeurtenis plaatsvindt. 1. De kans P (A) op een gebeurtenis a voldoet aan 0 P (A) 1; Elke kans is een getal tussen 0 en Als S de uitkomstenruimte is in een kansmodel dan is P (S) = 1. Alle mogelijke uitkomsten moeten samen een kans van 1 hebben. 3. Als A een gebeurtenis is, dan heet de gebeurtenis dat A niet optreed het complement van A, genoteerd als A c. De complementregel stelt dat P (A c ) = 1 P (A). De kans dat een gebeurtenis niet plaatsvindt is 1 minus de kans dat de gebeurtenis wel voorkomt. 4. Twee gebeurtenissen A en B zijn disjunct als zij geen gezamelijke uitkomsten hebben en daardoor nooit tegelijk kunnen optreden. Wanneer dat zo is dan geldt de optelregel voor disjuncte gebeurtenissen: P (A of B) = P (A) + P (B). Wanneer twee gebeurtenissen geen gelijke uitkomsten hebben, dan is de kans dat het een of het ander voortkomt de som van hun individuele kansen. 5. De gebeurtenissen A en B zijn onafhankelijk als de wetenschap dat A gebeurt niet de kans verandert dat B gebeurt. De productregel voor onafhankelijke gebeurtenissen luidt: P (A en B) = P (A) P (B). 16

17 4.3 stochastische variabelen Een stochastische variabele is een variabele waarvan de waarde een numerieke uitkomst is van een toevalsverschijnsel. Een stochastische variabele heeft een verwachting en een variantie. In deze paragraaf leren we kansen toe te kennen aan gebeurtenissen aan de hand van een stochastische variabele. discrete stochastische variabele: Een discrete stochastische variabele X neemt een eindig aantal waarden aan, noem die x 1, x 2,, x k. Een kansmodel voor X wordt gegeven door aan deze uitkomsten kansen p i toe te kennen. P (X = x i ) = p i Hierbij moeten de kansen p i voldoen aan regels 1 en 2 van het kansberekeningsmodel. De kans P (X in A) op een willekeurige gebeurtenis wordt gevonden door sommatie van de kansen p i van de uitkomsten x i waaruit de gebeurtenis A is samengesteld. Van alle kansen kan een kanshistogram getekend worden. Alle gebeurtenissen komen op de x-as waarna op y-as de kansen uitgezet worden. Een kanshistogram is daarmee een histogram van relatieve frequenties bij een zeer groot aantal pogingen. continue stochastische variabelen: Bij een continue stochastische variabele kan X elke waarde in het interval aannemen en is deze niet beperkt tot een eindig aantal. We gebruiken nu een andere manier om kansen aan gebeurtenissen toe te kennen, niet door het aantal gebeurtenissen met het aantal mogelijke gebeurtenissen te vergelijken maar als oppervlaktes onder de kromme. De totale uitkomstenruimte heeft kans 1 en is de volledige oppervlakte onder de dichtheidskromme. Elke dichtheidskromme beschrijft de kansverdeling van de een of andere continue stochastische variabele. Omdat de oppervlakte boven elke individuele gebeurtenis 0 is, is de kans daarop bij continue kansverdeling ook 0. Normale verdelingen zijn kansverdelingen. Als X de N(µ, σ) verdeling heeft, dan heeft de gestandaardiseerde variabele de standaardnormale verdeling N(0, 1). Z = X µ σ 4.4 verwachting en variantie van stochastische variabelen De kansrekening is de wiskundige taal die het regelmatig gedrag op lange termijn van toevalsverschijnselen beschrijft. De kansverdeling van een stochastische variabele is een geïdealiseerde verdeling van relatieve frequenties. Als X een discrete stochastische variabele is, die de waarden x 1, x 2,, x k aanneemt met de kansen p 1, p 2,, p k dan wordt de verwachting van X gevonden door elke uitkomst te vermenigvuldigen met zijn kans en alle uitkomsten te sommeren: µ X = x 1 p 1 + x 2 p x k p k = x i p i Dit is een soort rekenkundig gemiddelde maar een gewogen gemiddelde van een stochastische variabele, vandaar de µ X. We gooien met de dobbelsteen en bij 6 ontvang je 12 euro en bij niet 6 geef je 3 euro weg. De verwachte winst op de lange termijn bereken je als volgt. uitkomst (x i ) 6 (12) niet 6 (-3) kans (p i ) = = 3 6 = 0, Op lange termijn is de verwachting voor elke worp dat je 0.50 ct verliest. Ga maar na dat je na 6 keer gooien 3 euro verliest. Dat is 0.50 ct per worp. 17

18 grote aantallen: Neem een willekeurig aantal onafhankelijke waarnemingen van een populatie met een eindige verwachting µ. Bepaal hoe nauwkeurig de schatting van µ moet worden. Naarmate het aantal getrokken waarnemingen toeneemt, zal het gemiddelde x van de waargenomen waarden uiteindelijk het gemiddelde µ van de populatie zo dicht naderen als men van tevoren heeft vastgelegd en zo dichtbij blijven. De voorspellingen die je kunt doen is afhankelijk van de variantie van de variabele. hoe meer je meet, des te meer naderen de meetwaarden de rekenkundige verwachting verwachtingsregels: Als X en Y stochastische variabelen zijn en a en b constanten dan geldt: µ a+bx = a + bµ X µ X+Y = µ X + µ Y De eerste regel geeft de mogelijkheid voor een lineaire transformatie voor de verwachting aan. De tweede regel zegt dat als we stochastische variabelen bij elkaar optellen, we dat met de verwachtingen ook mogen doen. Als het ware twee lootjes tegelijk kopen en dan de gezamelijke verwachting te lezen. variantie van een stochastische variabele: Als X een discrete stochastische variabele is, die de waarden x 1, x 2,, x k aanneemt met de kansen p 1, p 2,, p k dan wordt de variantie van X gegeven door: σx 2 = (x 1 µ X ) 2 p 1 + (x 2 µ X ) 2 p (x k µ X ) 2 p k = (x i µ X ) 2 p i De standaardafwijking σ X is vervolgens de wortel uit de variantie. Bij formule van variantie 1 vermenigvuldig je met p, de kans. Normaliter zou je met n 1 vermenigvuldigen maar dit is een gewogen gemiddelde, de kans. variantieregels: dan geldt: Als X en Y onafhankelijke stochastische variabelen zijn en a en b constanten σ 2 a+bx = b 2 σ 2 X σ 2 X+Y = σ 2 X + σ 2 Y σ 2 X Y = σ 2 X + σ 2 Y De eerste regel geeft het effect van de lineaire transformatie weer. Op de variantie heeft a geen invloed. De tweede regels zeggen dat de variantie altijd groter wordt, ook als je ze van elkaar af haalt. In feite is de variantie namelijk een onzekerheid, deze wordt niet kleiner als je twee onzekerheden van elkaar afhaalt. 18

19 Tom en Henk spelen golf. Beide spelers scoren gevarieerd. Tom speelt beter maar minder constant: Tom s score X: µ X = 110 σ X = 10 Henk s score Y : µ Y = 100 σ X = 8 Wanneer ze onafhankelijk van elkaar een ronde spelen kunnen we de regels van verwachtingen en varianties toepassen. Het verschil in scores na de eerste ronde heeft de verwachting: µ X Y = µ X µ Y = = 10 De variantie van het verschil in scores is: σ 2 X Y = σ 2 X + σ 2 Y = = 164 De standaardafwijking volgt uit de variantie: σ X Y = 164 = 12, 8 Dit houdt in dat ook al is de verwachting voor Henk 10 punten lager dan Tom, door de standaardafwijking van 12,8 heeft hij wel kans om te winnen. 4.5 de wetten van de kansrekening 1. 0 P (A) 1 2. P (S) = 1 3. P (A c ) = 1 P (A) 4. P (A of B) = P (A + B) 5. P (A en B) = P (A) P (B) De vereniging van een willekeurige verzameling gebeurtenissen is de gebeurtenis dat er tenminste één uit de verzameling optreed. De algemene optelregel voor een vereniging van twee gebeurtenissen A en B is: P (A of B) = P (A) + P (B) P (A en B) productregel: P (A en B) = P (A) P (B A) P (B A) = P (A en B) P (A) Als twee gebeurtenissen beiden plaatsvinden moet er eerst 1 gebeurtenis plaatsvinden, P (A), en vervolgens, gegeven dat de eerste plaats heeft gehad. de tweede moet plaatshebben, P (B A). 19

20 Karel de pokeraar speelt poker en ziet in een spel 11 kaarten, waaronder de kaarten in zijn hand. Van die 11 zijn er 4 ruiten. Aangezien er 13 ruiten in het spel zijn, zijn er nog 9 in het spel. Er zijn nog = 41 kaarten in het spel. Karel heeft 2 ruiten nodig. P (eerste kaart ruiten) = 9 41 De voorwaardelijke kans op nog een ruiten hangt af van de eerste kaart die getrokken wordt, voor de geldigheid moet die eerste kaart een ruiten zijn. Hieruit volgt: De productregel zegt nu: P (tweede kaart ruiten eerste kaart ruiten) = 8 40 P (beide kaarten ruiten) = = 0, De doorsnede van een willekeurige verzameling gebeurtenissen is de gebeurtenis dat alle gebeurtenissen optreden. boomdiagrammen: Boomdiagrammen zijn nuttig bij het weergeven van berekeningen die uit verscheidene stappen bestaan, de verschillende stappen na de eerste stap zijn dan voorwaardelijke kansen. regel van Bayes: Als A en B willekeurige gebeurtenissen zijn met een kans die noch gelijk is aan 1, noch aan 0 dan geldt: P (A B) = P (B A)P (A) P (B A)P (A) + P (B A c )P (A c ) onafhankelijke gebeurtenissen: hebben, zijn onafhankelijk als: Twee gebeurtenissen A en B die beide een positieve kans P (B A) = P (B) 20

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Populatie: De gehele groep elementen waarover informatie wordt gewenst. Statistiek I Werkcollege 1 Populatie: De gehele groep elementen waarover informatie wordt gewenst. Steekproef: Gedeelte van de populatie dat feitelijk wordt onderzocht om informatie te vergaren. Eenheden:

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek DD14) op vrijdag 17 maart 006, 9.00-1.00 uur. UITWERKINGEN 1. Methoden om schatters te vinden a) De aannemelijkheidsfunctie

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Basistechnieken 6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling. x 0 2 4 6 p(x) ¼ ¼ ¼ ¼ a. Schrijf alle mogelijke verschillende steekproeven van n =

Nadere informatie

Medische Statistiek Kansrekening

Medische Statistiek Kansrekening Medische Statistiek Kansrekening Medisch statistiek- kansrekening Hoorcollege 1 Uitkomstenruimte vaststellen Ook wel S of E. Bij dobbelsteen: E= {1,2,3,4,5,6} Een eindige uitkomstenreeks Bij het gooien

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

A. Week 1: Introductie in de statistiek.

A. Week 1: Introductie in de statistiek. A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Examen Statistiek I Januari 2010 Feedback

Examen Statistiek I Januari 2010 Feedback Examen Statistiek I Januari 2010 Feedback Correcte alternatieven worden door een sterretje aangeduid. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Twee derden van de mannen

Nadere informatie

Overzicht statistiek 5N4p

Overzicht statistiek 5N4p Overzicht statistiek 5N4p EEB2 GGHM2012 Inhoud 1 Frequenties, absoluut en relatief... 3 1.1 Frequentietabel... 3 1.2 Absolute en relatieve frequentie... 3 1.3 Cumulatieve frequentie... 4 2 Centrum en spreiding...

Nadere informatie

Sheets K&S voor INF HC 10: Hoofdstuk 12

Sheets K&S voor INF HC 10: Hoofdstuk 12 Sheets K&S voor INF HC 1: Hoofdstuk 12 Statistiek Deel 1: Schatten (hfdst. 1) Deel 2: Betrouwbaarheidsintervallen (11) Deel 3: Toetsen van hypothesen (12) Betrouwbaarheidsintervallen (H11) en toetsen (H12)

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

Checklist Wiskunde A HAVO 4 2014-2015 HML

Checklist Wiskunde A HAVO 4 2014-2015 HML Checklist Wiskunde A HAVO 4 2014-2015 HML 1 Hoofdstuk 1 Ik weet hoe je met procenten moet rekenen: procenten en breuken, percentage berekenen, toename en afname in procenten, rekenen met groeifactoren.

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

Samenvattingen 5HAVO Wiskunde A.

Samenvattingen 5HAVO Wiskunde A. Samenvattingen 5HAVO Wiskunde A. Boek 1 H7, Boek 2 H7&8 Martin@CH.TUdelft.NL Boek 2: H7. Verbanden (Recht) Evenredig Verband ( 1) Omgekeerd Evenredig Verband ( 1) Hyperbolisch Verband ( 2) Machtsverband

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen.... 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken de rekenregel breuk Ik kan

Nadere informatie

4 Domein STATISTIEK - versie 1.2

4 Domein STATISTIEK - versie 1.2 USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur.

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (WS05), vrijdag 9 oktober 010, van 14.00 17.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Samenvatting Wiskunde A

Samenvatting Wiskunde A Bereken: Bereken algebraisch: Bereken exact: De opgave mag berekend worden met de hand of met de GR. Geef bij GR gebruik de ingevoerde formules en gebruikte opties. Kies op een examen in dit geval voor

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Inleveren: Uiterlijk 15 februari voor 16.00 in mijn postvakje Afspraken Overleg is toegestaan, maar iedereen levert zijn eigen werk in. Overschrijven

Nadere informatie

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

DEZE PAGINA NIET vóór 8.30u OMSLAAN! STTISTIEK 1 VERSIE MT15303 1308 1 WGENINGEN UNIVERSITEIT LEERSTOELGROEP MT Tentamen Statistiek 1 (MT-15303) 5 augustus 2013, 8.30-10.30 uur EZE PGIN NIET vóór 8.30u OMSLN! STRT MET INVULLEN VN NM, REGISTRTIENUMMER,

Nadere informatie

Onderzoek. B-cluster BBB-OND2B.2

Onderzoek. B-cluster BBB-OND2B.2 Onderzoek B-cluster BBB-OND2B.2 Succes met leren Leuk dat je onze bundels hebt gedownload. Met deze bundels hopen we dat het leren een stuk makkelijker wordt. We proberen de beste samenvattingen voor jou

Nadere informatie

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for

Nadere informatie

Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing

Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing Toetsende Statistiek Week 3. Statistische Betrouwbaarheid & Significantie Toetsing M, M & C, Chapter 6, Introduction to Inference 6.1 Estimating with Confidence 6.2 Tests of Significance 6.3 Use and Abuse

Nadere informatie

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter 5: Sampling Distributions 5.1: The

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden

Nadere informatie

Onderzoeksmethodiek LE: 2

Onderzoeksmethodiek LE: 2 Onderzoeksmethodiek LE: 2 3 Parameters en grootheden 3.1 Parameters Wat is een parameter? Een karakteristieke grootheid van een populatie Gem. gewicht van een 34-jarige man 3.2 Steekproefgrootheden Wat

Nadere informatie

Beschrijvend statistiek

Beschrijvend statistiek 1 Beschrijvend statistiek 1. In een school werd het intelligentiequotiënt gemeten van de leerlingen van het zesde jaar (zie tabel). De getallen werden afgerond tot op de eenheid. De berekeningen mogen

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 16 Donderdag 4 November 1 / 25 2 Statistiek Indeling: Schatten Correlatie 2 / 25 Schatten 3 / 25 Schatters: maximum likelihood schatters Def. Zij Ω de verzameling van

Nadere informatie

Uitwerkingen Mei 2012. Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Uitwerkingen Mei 2012. Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Uitwerkingen Mei 2012 Eindexamen VWO Wiskunde C Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek I Tjing Opgave 1. Het aantal hoofdstukken in de I Tjing correspondeert met het totale aantal

Nadere informatie

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet?

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet? Verklarende Statistiek: Toetsen Zat ik nou in dat kritische gebied of niet? Toetsen, Overzicht Nulhypothese - Alternatieve hypothese (voorbeeld: toets voor p = p o in binomiale steekproef) Betrouwbaarheid

Nadere informatie

Statistiek: Herhaling en aanvulling

Statistiek: Herhaling en aanvulling Statistiek: Herhaling en aanvulling 11 mei 2009 1 Algemeen Statistiek is de wetenschap die beschrijft hoe we gegevens kunnen verzamelen, verwerken en analyseren om een beter inzicht te krijgen in de aard,

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2WS4, dinsdag 17 juni 28, van 9. 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Statistiek voor A.I. College 12. Dinsdag 23 Oktober Statistiek voor A.I. College 12 Dinsdag 23 Oktober 1 / 20 2 Deductieve statistiek Orthodoxe statistiek 2 / 20 3 / 20 Jullie - onderzoek Wivine Tijd waarop je opstaat (uu:mm wordt weergeven als uumm). Histogram

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Uitwerkingen Mei 2012 Eindexamen VWO Wiskunde A Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Schroefas Opgave 1. In de figuur trekken we een lijn tussen 2600 tpm op de linkerschaal en

Nadere informatie

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK 1 1. INLEIDING Parametrische statistiek: Normale Verdeling Niet-parametrische statistiek: Verdelingsvrij Keuze tussen de twee benaderingen I.

Nadere informatie

introductie kansen pauze meer kansen random variabelen transformaties ten slotte

introductie kansen pauze meer kansen random variabelen transformaties ten slotte toetsende statistiek week 1: kansen en random variabelen Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter 4: Probability: The Study of Randomness 4.1: Randomness 4.2: Probability

Nadere informatie

7.1 Toets voor het gemiddelde van een normale verdeling

7.1 Toets voor het gemiddelde van een normale verdeling Hoofdstuk 7 Toetsen van hypothesen Toetsen van hypothesen is, o.a. in de medische en chemische wereld, een veel gebruikte statistische techniek. Het wordt vaak gebruikt om een gevestigde norm eventueel

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

Referentieniveaus uitgelegd. 1S - rekenen Vaardigheden referentieniveau 1S rekenen. 1F - rekenen Vaardigheden referentieniveau 1F rekenen

Referentieniveaus uitgelegd. 1S - rekenen Vaardigheden referentieniveau 1S rekenen. 1F - rekenen Vaardigheden referentieniveau 1F rekenen Referentieniveaus uitgelegd De beschrijvingen zijn gebaseerd op het Referentiekader taal en rekenen'. In 'Referentieniveaus uitgelegd' zijn de niveaus voor de verschillende sectoren goed zichtbaar. Door

Nadere informatie

Les 1: Waarschijnlijkheidrekening

Les 1: Waarschijnlijkheidrekening Les 1: Waarschijnlijkheidrekening A Men neemt een steekproef van 1000 appelen. Deze worden ingedeeld volgens gewicht en volgens symptomen van een bepaalde schimmel: geen, mild, gematigd of ernstig. Het

Nadere informatie

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 2 : Grafische beschrijving van data Marnix Van Daele Marnix.VanDaele@UGent.be Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Grafische beschrijving van data p. 1/35 Soorten meetwaarden

Nadere informatie

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. 3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625. Absolute verandering = Aantal 2004 Aantal 1994 = 1625 3070 = -1445 Relatieve verandering = Nieuw Oud Aantal

Nadere informatie

Toetsen van Hypothesen. Het vaststellen van de hypothese

Toetsen van Hypothesen. Het vaststellen van de hypothese Toetsen van Hypothesen Wisnet-hbo update maart 2008 1. en Het vaststellen van de hypothese De nulhypothese en de Alternatieve hypothese. Het gaat in deze paragraaf puur alleen om de formulering. Er wordt

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

WISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE A HAVO VAKINFORMATIE STAATSEAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

TIP 10: ANALYSE VAN DE CIJFERS

TIP 10: ANALYSE VAN DE CIJFERS TOETSTIP 10 oktober 2011 Bepaling wat en waarom je wilt meten Toetsopzet Materiaal Betrouw- baarheid Beoordeling Interpretatie resultaten TIP 10: ANALYSE VAN DE CIJFERS Wie les geeft, botst automatisch

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie

Nadere informatie

WISKUNDE D VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE D VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE D VWO VAKINFORMATIE STAATSEAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Oefentoets 1 1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Conditie = experimenteel Conditie = controle Sekse = Vrouw 23 33 Sekse = Man 20 36 Van

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

Statistiek: Stam-bladdiagram en boxplot 6/12/2013. dr. Brenda Casteleyn

Statistiek: Stam-bladdiagram en boxplot 6/12/2013. dr. Brenda Casteleyn Statistiek: Stam-bladdiagram en boxplot 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Stam-bladdiagram en boxplot zijn methoden om visueel een verdeling voor te stellen.

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT

Nadere informatie

Hoofdstuk 13. De omvang van een steekproef bepalen

Hoofdstuk 13. De omvang van een steekproef bepalen Hoofdstuk 13 De omvang van een steekproef bepalen Steekproefnauwkeurigheid Steekproefnauwkeurigheid: verwijst naar hoe dicht een steekproefgrootheid (bijvoorbeeld het gemiddelde van de antwoorden op een

Nadere informatie

Formules Excel Bedrijfsstatistiek

Formules Excel Bedrijfsstatistiek Formules Excel Bedrijfsstatistiek Hoofdstuk 2 Data en hun voorstelling AANTAL.ALS vb: AANTAL.ALS(A1 :B6,H1) Telt hoeveel keer (frequentie) de waarde die in H1 zit in A1:B6 voorkomt. Vooral bedoeld voor

Nadere informatie

Sterrenkunde Praktikum 1 Fouten en fitten

Sterrenkunde Praktikum 1 Fouten en fitten Sterrenkunde Praktikum 1 Fouten en fitten Paul van der Werf 12 februari 2008 1 Inleiding In de sterrenkunde werken we vaak met zwakke signalen, of met grote hoeveelheden metingen van verschillende nauwkeurigheid.

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages. MARGES EN SIGNIFICANTIE BIJ STEEKPROEFRESULTATEN. De marges van percentages Metingen via een steekproef leveren een schatting van de werkelijkheid. Het toevalskarakter van de steekproef heeft als consequentie,

Nadere informatie

Klantonderzoek: statistiek!

Klantonderzoek: statistiek! Klantonderzoek: statistiek! Statistiek bij klantonderzoek Om de resultaten van klantonderzoek juist te interpreteren is het belangrijk de juiste analyses uit te voeren. Vaak worden de mogelijkheden van

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 13 Dinsdag 26 Oktober 1 / 24 2 Statistiek Indeling: Hypothese toetsen Filosofie 2 / 24 Hypothese toetsen 3 / 24 Hypothese toetsen: toepassingen Vb. Een medicijn wordt

Nadere informatie

Betrouwbaarheid van een steekproefresultaat m.b.t. de hele populatie

Betrouwbaarheid van een steekproefresultaat m.b.t. de hele populatie Betrouwbaarheid van een steekproefresultaat m.b.t. de hele populatie Verschillende steekproeven uit eenzelfde populatie leveren verschillende (steekproef) resultaten op. Dit onvermijdelijke verschijnsel

Nadere informatie

Kwantitatieve methoden. Samenvatting met verwijzing naar Excel functies

Kwantitatieve methoden. Samenvatting met verwijzing naar Excel functies Kwantitatieve methoden Samenvatting met verwijzing naar Excel functies I. Inleiding Statistiek is een gebied in de wiskunde dat zich bezighoudt met het samenvatten, beschrijven en analyseren van (grote

Nadere informatie

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE DEEL 3 INDUCTIEVE STATISTIEK INHOUD H 10: INLEIDING TOT DE INDUCTIEVE STATISTIEK H 11: PUNTSCHATTING 11.1 ALGEMEEN 11.1.1 Definities 11.1.2 Eigenschappen 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE 11.3

Nadere informatie

Tussendoelen in MathPlus

Tussendoelen in MathPlus MALMBERG UITGEVERIJ B.V. Tussendoelen in MathPlus Versie 1 Inhoud Tussendoelen onderbouw in MathPlus... 2 Tabel tussendoelen... 2 1HVG... 7 Domein Rekenen... 7 Domein Meten en tekenen... 9 Domein Grafieken

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek 2DD71: UITWERKINGEN 1. Stroopwafels a De som S van de 12 gewichten is X 1 + X 2 + + X 12. Deze is normaal

Nadere informatie

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Statistiek voor A.I. College 2. Donderdag 13 September 2012 Statistiek voor A.I. College 2 Donderdag 13 September 2012 1 / 42 1 Beschrijvende statistiek 2 / 42 Extrapolatie 3 / 42 Verkiezingen 2012 4 / 42 Verkiezingen 2012 5 / 42 1 Beschrijvende statistiek Vandaag:

Nadere informatie

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Examen Kansrekening en Wiskundige Statistiek: oplossingen Examen Kansrekening en Wiskundige Statistiek: oplossingen S. Vansteelandt Academiejaar 006-007 1. Een team van onderzoekers wil nagaan of een bepaald geneesmiddel Triptan meer effectief is dan aspirine

Nadere informatie

SPSS. Statistiek : SPSS

SPSS. Statistiek : SPSS SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik

Nadere informatie

Statistiek basisbegrippen

Statistiek basisbegrippen MARKETING / 07B HBO Marketing / Marketing management Raymond Reinhardt 3R Business Development raymond.reinhardt@3r-bdc.com 3R 1 M Statistiek: wetenschap die gericht is op waarnemen, bestuderen en analyseren

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

Bijlage bij Eindverslag van de Nomenclatuurcommissie Wiskunde september 2007

Bijlage bij Eindverslag van de Nomenclatuurcommissie Wiskunde september 2007 Bijlage bij Eindverslag van de Nomenclatuurcommissie Wiskunde september 2007 zie havo vwo aantonen 1 aanzicht absolute waarde afgeleide (functie) notatie met accent: bijvoorbeeld f'(x), f' notatie met

Nadere informatie

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit College 7 Regressie-analyse en Variantie verklaren Inleiding M&T 2012 2013 Hemmo Smit Neem mee naar tentamen Geslepen potlood + gum Collegekaart (alternatief: rijbewijs, ID-kaart, paspoort) (Grafische)

Nadere informatie

Lesbrief hypothesetoetsen

Lesbrief hypothesetoetsen Lesbrief hypothesetoetsen 00 "Je gaat het pas zien als je het door hebt" Johan Cruijff Willem van Ravenstein Inhoudsopgave Inhoudsopgave... Hoofdstuk - voorkennis... Hoofdstuk - mens erger je niet... 3

Nadere informatie

Onderneming en omgeving - Economisch gereedschap

Onderneming en omgeving - Economisch gereedschap Onderneming en omgeving - Economisch gereedschap 1 Rekenen met procenten, basispunten en procentpunten... 1 2 Werken met indexcijfers... 3 3 Grafieken maken en lezen... 5 4a Tweedegraads functie: de parabool...

Nadere informatie

EXAMEN : Basisbegrippen statistiek. Examen 16 januari 2015

EXAMEN : Basisbegrippen statistiek. Examen 16 januari 2015 EXAMEN : Basisbegrippen statistiek Examen 16 januari 2015 Oplossingen 1 Vraag 1 a) Leg in max. 3 lijnen uit wat een dichtheidsfunctie is en illustreer met 3 duidelijk verschillende voorbeelden. Een (kans)

Nadere informatie

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA) HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA) DATA STRUKTUUR Afhankelijke variabele: Eén kontinue variabele Onafhankelijke variabele(n): - één discrete variabele: één gecontroleerde factor - twee discrete variabelen:

Nadere informatie

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur Kansrekening en statistiek WI05IN deel I 4 november 0, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad wordt uitgereikt. Meerkeuzevragen Toelichting:

Nadere informatie

Examenprogramma wiskunde A vwo

Examenprogramma wiskunde A vwo Examenprogramma wiskunde A vwo Het eindexamen Het eindexamen bestaat uit het centraal examen en het schoolexamen. Het examenprogramma bestaat uit de volgende domeinen: Domein A Vaardigheden Domein Bg Functies

Nadere informatie

begin van document Eindtermen havo wiskunde A (CE) gekoppeld aan delen en hoofdstukken uit Moderne wiskunde 9e editie

begin van document Eindtermen havo wiskunde A (CE) gekoppeld aan delen en hoofdstukken uit Moderne wiskunde 9e editie begin van document Eindtermen havo wiskunde A (CE) gekoppeld aan delen en hoofdstukken uit Moderne wiskunde 9e editie Domein Subdomein in CE moet in SE A A1: Informatievaardigheden X X Vaardigheden A2:

Nadere informatie

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter. STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters.

Nadere informatie

begin van document Eindtermen vwo wiskunde A (CE) gekoppeld aan delen en hoofdstukken uit Moderne wiskunde 9e editie

begin van document Eindtermen vwo wiskunde A (CE) gekoppeld aan delen en hoofdstukken uit Moderne wiskunde 9e editie begin van document Eindtermen vwo wiskunde A (CE) gekoppeld aan delen en hoofdstukken uit Moderne wiskunde 9e editie Domein Subdomein in CE moet in SE mag in SE A Vaardigheden A1: Informatievaardigheden

Nadere informatie