Toegepaste Statistiek

Maat: px
Weergave met pagina beginnen:

Download "Toegepaste Statistiek"

Transcriptie

1 Faculteit Ingenieurswetenschappen - Wetenschappen Toegepaste Statistiek Prof. dr. ir. Gerd Vandersteen 8 mei 8

2 Inhoudsopgave Inhoudsopgave Lijst van figuren Lijst van tabellen Inleiding: kansrekening versus statistiek 8. Wat is kansrekening? Wat is statistiek? Doelstelling van deze cursus Kansrekening en combinatoriek 3. Inleiding Toevalsverschijnsel De axiomatische definitie van de kans Voorwaardelijke kans Onafhankelijke gebeurtenissen Regel van Bayes Telprincipes en combinatoriek Fundamenteel telprincipe (productregel) Variaties Permutaties Herhalingspermutaties (anagrammen) Combinaties Beschrijvende statistiek 6 3. Inleiding Presentatie van de ruwe gegevens Histogram De empirische verdelingsfunctie Kentallen van ligging: gemiddelde, mediaan, kwartielen en modus Kentallen van schaal Stochastische variabelen en hun kansverdeling Stochastische variabele Verdelingsfunctie Inleiding en definitie Eigenschappen van een verdelingsfunctie Discrete en continue verdelingsfuncties Transformaties van een continue stochastische variabele. 4

3 INHOUDSOPGAVE Affiene (=lineaire) transformatie Continue transformatie met enkelvoudige wortels voor y = g(x) Continue transformatie met meervoudige wortels voor y = g(x) Kansvectoren en onafhankelijke stochastische variabelen Meerdimensionale stochastische variabelen Tweedimensionale verdelingsfuncties Tweedimensionale kansdichtheidsfunctie Marginale verdeling en kansdichtheid Onafhankelijke stochastische variabelen Som van onafhankelijke stochastische variabelen Som van of meer onafhankelijke stochastische variabelen 56 6 Kentallen van locatie, schaal en vorm Kentallen van locatie Verwachtingswaarde of rekenkundig gemiddelde E {X} Eigenschappen van de verwachtingswaarde De mediaan De modus Kentallen van schaal Definities Eigenschappen Kentallen van vorm Inleiding en definitie De scheefheid (skewness) De kurtosis Covariantie en correlatiecoëfficiënt 7 7. De covariantiematrix Interpretatie en gebruik van de covariantie matrix De correlatiecoëfficiënt Discrete verdelingen Inleiding De binomiale, hypergeometrische en geometrische verdeling Inleiding Een Bernoulli experiment De binomiaal verdeling De hypergeometrische verdeling De geometrische verdeling De Poisson verdeling Poisson incidentenstroom Continue verdelingen De uniforme verdeling De normale verdeling Eigenschappen van de normaal verdeling N (µ, σ) De centrale limietstelling

4 INHOUDSOPGAVE 9.4 Opstellen van betrouwbaarheidsintervallen Het opstellen en gebruiken van betrouwbaarheidsintervallen in praktische situaties Studie van het steekproefgemiddelde Studie van de steekproefvariantie De chi-kwadraat (χ ) verdeling Toepassing χ n verdeling voor algemene normale verdelingen Studie van de steekproefvariantie Betrouwbaarheidsinterval voor Sn Studie van Xn µ S n/ n Student-t verdeling Betrouwbaarheidsintervallen De exponentiële verdeling De Gamma-verdeling De F m,n -verdeling Hypothese toetsen 3. Inleiding Hypothese- en significantietest: de basisideeën Formuleren van de hypothesen Hypothesetoetsen Methodologie Specifieke toetsen De z-toets H :µ = µ met σ gekend De χ -toets: H : σ = σ De t-toets: H :µ = µ De t-toets voor het vergelijken van gemiddelden Oplossing voor σ = σ = σ adhv Student-t verdeelde toetsingsgrootheid Benaderde oplossing voor n, m De F-toets voor onafhankelijke steekproeven: H : σ = σ 36.4 Fouten in hypothesetoetsen Schatten van modellen 38. Introductie Eigenschappen van een schatter Bias of verschuiving ( zuiver ) Consistentie Efficiëntie Kostfunctieinterpretatie Toepassing op schatting lineair verband Simulatievoorbeeld Studie asymptotisch gedrag De kleinste kwadraten schatter De errors-in-variables schatter Het simpel gemiddelde Variantie van de schatters Kostfunctie interpretatie van de schatters Kleinste kwadratenproblemen

5 INHOUDSOPGAVE Bibliografie 55 4

6 Lijst van figuren 3. Histogram van de score van de studenten De empirische verdelingsfunctie voor de score van de studenten op het tentamen chemie De empirische verdelingsfunctie van een eerlijke dobbelsteen bekomen met een Monte-Carlo simulatie met n = realisaties De empirische verdelingsfunctie met de mediaan en de kwartielen De empirische verdelingsfunctie met de mediaan en de kwartielen Het histogram met de modus van de steekproef De empirische verdelingsfunctie met het steekproefgemiddelde x en de grenzen x S n en x + S n De verdelingsfunctie van een dobbelsteen Staafdiagram (links) en de bijhorende verdelingsfunctie (rechts) Voorbeeld van een continue verdeling: de normaal verdeling Affiene transformatie van de kansdichtheidsfunctie f X (x) naar f Y (ax + b) Kubische transformatie met enkelvoudige wortels van de kansdichtheidsfunctie f X (x) naar f Y (x 3 ) Kwadratische transformatie met dubbele wortels van de kansdichtheidsfunctie f X (x) naar f Y (x ) dimensionale kansdichtheidsfunctie f Z (x, y) (Normaal verdeling) dimensionale verdelingsfunctie F Z (x, y) (Normaal verdeling) Voorbeeld van onafhankelijke stochastische grootheden Voorbeeld van lineair afhankelijke stochastische grootheden Voorbeeld van niet-lineair afhankelijke stochastische grootheden De integratiegrenzen voor het oppervlak u + v Weergeven van de individuele termen in de convolutie voor de som van (eerlijke) worpen van een dobbelsteen De finale kansverdeling voor de som van (eerlijke) worpen van een dobbelsteen De kansdichtheidsfuncties van de som van of meerdere uniforme distributies en de (asymptotische) normaal verdeling Mediaan van een (symmetrische) normaal verdeling N (.) weergegeven op f X (x) en F X (x)

7 LIJST VAN FIGUREN 6. Mediaan van een (asymmetrische) χ -verdeling met vrijheidsgraden (χ ()) weergegeven op f X (x) en F X (x) Modus van een (symmetrische) normaal verdeling N (.) weergegeven op f X (x) en F X (x) Modus van een (asymmetrische) χ -verdeling met vrijheidsgraden (χ ()) weergegeven op f X (x) en F X (x) Stochastische variabelen met verschillende correlaties Binomiaal verdeling voor n = (gegenereerd via de Matlab instructie binopdf) Voorbeeld van hypergeometrische verdeling H (4, 4p, ) (donker), evenals de binomiaal verdeling B (, p) (lichte kleur) Voorbeeld van hypergeometrische verdeling H (, p, ) (donker), evenals de binomiaal verdeling B (, p) (lichte kleur) Voorbeeld van geometrische verdeling Voorbeeld van een Poisson kansdichtheidsfunctie: λt =.,, Vergelijking van kansdichtheidsfunctie voor binomiaal, Poisson en normaal verdeling De kansdichtheidsfunctie en de verdeling van de uniforme verdeling in het interval (, ) De kansdichtheidsfunctie en de verdeling van de standaardnormale verdeling N (, ) De kansdichtheidsfuncties van de som van of meerdere uniforme distributies en de (asymptotische) normale verdeling Voorbeeld van 95% betrouwbaarheidsinterval voor N (, ) Betrouwbaarheidsinterval met betrouwbaarheid α voor standaardnormale verdeling De kansdichtheidsfunctie van X n voor n =,,, voor een standaardnormaal verdeling X i N (, ) De χ n kansdichtheidsfunctie voor n =, 4, 8, 6, 3, evenals de asymptotische N (3, 8) verdeling Voorbeeld van 95% betrouwbaarheidsinterval voor χ Grenzen van het 95% betrouwbaarheidsinterval voor S n/σ in functie van het aantal metingen n. De figuur bovenaan toont de χ n n verdeling die overeenstemt met n =. De figuur onderaan toont hoe de grenzen (volgens de n-wet) naar elkaar toe convergeren Kansverdelingsfunctie van de t n verdeling voor n =, 8, 3, en de asymptotisch normaal verdeling N (, ) Voorbeeld van 95% betrouwbaarheidsinterval voor t De kansdichtheidsfunctie van de exponentiële verdeling voor verschillende λ De kansdichtheidsfunctie van de exponentiële en de geometrisch verdelingsfunctie Illustratie van de aanvaardingsgebieden van de tweezijdige toets (boven) en de eenzijdige toetsen voor de z-toets voor α = 5%.. 9 6

8 LIJST VAN FIGUREN. Illustratie van de aanvaardingsgebieden van de tweezijdige toets (boven) en de eenzijdige toetsen voor de χ -toets met α = 5%. 3. De resultaten van de verschillende voorgestelde schatters in functie van het aantal observaties n De kansdichtheidsfunctie van de verschillende schatters voor n =,, De standaardafwijking van de verschillende schatters in functie van het aantal observaties n

9 Hoofdstuk Inleiding: kansrekening versus statistiek In dit hoofdstuk belichten we heel bondig de twee onderwerpen van deze cursus: kansrekening enerzijds, statistiek anderzijds. Vervolgens bespreken we de doelstellingen van deze cursus.. Wat is kansrekening? Kansrekening (ook gekend onder waarschijnlijkheidsrekening) is een wiskundige discipline waarbij men een abstract kanstheoretisch model opstelt om onder meer kansen te berekenen en te bestuderen. Hierbij vertrekt men van een aantal basis axioma s waaruit men via deductie conclusies afleidt. Voorbeelden Wat is de kans om te gooien met een eerlijke dobbelsteen? De kans van iedere mogelijke uitkomst (,,,,, ) is even waarschijnlijk. Dit zullen we later aangeven door een We zullen later spreken van een uniforme kansverdeling. Wat is de kans om te gooien als voordien gegooid werd (met een eerlijke dobbelstenen)? Dit is dus de kansen om te gooien met de ene dobbelsteen onder voorwaarde dat de worp daarvoor is. Er is dus sprake van een kans met een voorwaarde (later ingevoerd als voorwaardelijke kans). Gezien het hier om eerlijke dobbelstenen gaat zal het resultaat van de eerste worp Deductie (Van Dale): redenering waarbij men uitgaande van het meer algemene besluit tot het bijzondere (afgeleide waarheid) 8

10 HOOFDSTUK. INLEIDING: KANSREKENING VERSUS STATISTIEK niet afhangen van de tweede worp. We zullen daarom later spreken van onafhankelijke gebeurtenissen. Wat is de kans om met een paar eerlijke dobbelstenen? We eten dat de volgorde ( of ) onbelangrijk is als we met een paar dobbelstenen gooien. We bestuderen dus de kans dat het volgende zich voordoet: ( en ) of ( en ). Dit gaan we aanpakken door rekenregels op te stellen van begrippen uit de verzamelingenleer (unie, doorsnede, complement,...). Wat is de kans om keer te gooien na 5 pogingen met een eerlijke dobbelsteen? Gezien we steeds de dobbelsteen terugnemen en terug op een onafhankelijke wijze gooien beïnvloed de ene poging de daaropvolgende niet. Gezien de verzameling van mogelijk uitkomsten niet wijzigt zullen we spreken van een trekking met teruglegging. Wat is de kans om examenvragen en te trekken uit 6 vooropgestelde vragen? Na het trekken van de eerste vraag is die niet meer beschikbaar als uitkomst. We zullen dan spreken over een trekking zonder teruglegging. Wat is de kans om bij een herexamens dezelfde vraag te trekken? Dit hangt af of het gaat om een onafhankelijk herexamen, of wordt bijvoorbeeld de vraag uit het voorgaande niet meer gesteld (of juist wel)? Dit is opnieuw een kans die bepaald wordt door een voorwaarde (een voorwaardelijke kans dus). Wat is de slaagkans van een student berekend aan de hand van de resultaten van de ijkingsproeven? Uit het verleden kennen we de resultaten van de ijkingsproef voor geslaagde en niet geslaagde studenten. We zijn nu geintresseerd in de omgekeerde vraagstelling: wat is het slaagkans voor een student met een geven resultaat op de ijkingsproef. Hiervoor zal de regel van Bayes afgeleid worden. Voorbeelden uit de praktijk Genetica: Wat is de kans dat een persoon blauwe ogen heeft indien de ouders beiden blauwe ogen hebben? Yield van productielijn: Wat is de kans op falen van een systeem (bijvoorbeeld de processor van je PC) indien je de kans tot falen van iedere 9

11 HOOFDSTUK. INLEIDING: KANSREKENING VERSUS STATISTIEK component kent (bijvoorbeeld de kans op het falen van een transistor door een productiefout)? Detectoren: Wat is de kans dat de detectoren een (nieuw) fysisch fenomeen detecteren (bijvoorbeeld de Large Hadron Collider in het CERN) indien 4 van de 5 detectoren (elk met een zekere kans) het fenomeen opmeten?= Klantentevredenheid: Wat is de kans dat in een lot van geproduceerde systemen er zeker 997 goede bij zijn, als de kans op een faling van product.% is?. Wat is statistiek? Statistiek is de wetenschap van de gegevens. Hierbij worden kanstheoretische modelen gebruikt om deze gegevens (= waarnemingen, meetingen) te verwerken. Statistiek wordt gebruikt in de hele waaier van gegevensverwerking, gaande van het het verzamelen, het klassificeren en samenvatten, het analyseren en interpreteren van de data. Voorbeelden Kanstheoretisch model eerlijke dobbelsteen onafhankelijk en uniform verdeeld P ( ) = P ( ) = P ( ) = P ( ) = P ( ) = P ( ) = /6 Verzamelen van data: bijvoorbeeld worpen met een eerlijke dobbelsteen geeft 4 keer Iedere worp een willekeurige realisatie onzekerheid op de meeting! Voor deze steekproef: P ( ) = 4 / Wat is de onzekerheid op deze steekproef? Hoe daalt de onzekerheid ( n-regel)? Meer worpen nodig om eerlijkheid dobbelsteen aan te tonen? Klassificeren en samenvatten van de gegevens van de eerlijke dobbelsteen

12 HOOFDSTUK. INLEIDING: KANSREKENING VERSUS STATISTIEK Hoe parameters kansverdeling bepalen zoals bv het gemiddelde? Merk op dat iedere iedere afgeleide parameter/functie opnieuw een stochastisch karakter heeft! Gebruik van beschrijvende statistiek Wat is de kansverdeling voor een eerlijke dobbelsteen? Di is in dit geval een standaard uniforme discrete verdeling. Analyseren en interpreteren van de gegevens van de eerlijke dobbelsteen Hoe kan men bepalen of een dobbelsteen eerlijk is? Testen van de hypothese van een uitspraak al dan niet waar is hypothese testen. Deze uitspraak wordt steeds gedaan voor een gespecificeerde (on)zekerheid, bijvoorbeeld met 9% kans is het een eerlijke dobbelsteen. Statistiek bij examens Hoe kunnen we nagaan of opeenvolgende examens onafhankelijk zijn? De examentijd wordt gereduceerd van uur naar 5 minuten. Hoeveel neemt de onzekerheid toe op de punten? ( n regel) Hoe kunnen we bepalen of twee professoren even streng zijn bij de quotering van de examens? Hoeveel studenten moeten ze gezamenlijk ondervragen om deze vraag (met een gevraagde kans) te beantwoorden? Voorbeelden uit de praktijk Yield van productielijn: Hoe kan je de verdeling van de performantie bepalen als je de statistiek van alle sub-systemen kent? Het bepalen van die verdeling maakt gebruik van de propagatie van statistische eigenschappen doorheen functies. Hoeveel metingen moeten uitgevoerd worden opdat de toevallige fouten op de gemiddelde waarde kleiner dan % zouden zijn? Wat is de kwaliteit van een communicatieverbinding? Kan ik uit een beperkt aantal metingen de verbinding karakteriseren en vervolgens voorspellen wat de kans is dat een pakket foutief doorgestuurd wordt? (Monte-Carlo analyse) Hoe lang moet een databuffer / wachtrij zijn om data pakketten / klanten met een gegeven kans te verliezen? Wat is de gemiddelde hoeveelheid data / vertraging / klanten in de wachtrij?

13 HOOFDSTUK. INLEIDING: KANSREKENING VERSUS STATISTIEK Zijn de geconstateerde leukemiegevallen in de dorpen rond een industrieterrein te wijten aan toevallige (overal voorkomende) oorzaken, of is er daar sprake van een statistisch significant groter risico op deze ziekte? Met welke kans kan je zeggen dat dit het geval is, en met welke kans kan je je vergissen?.3 Doelstelling van deze cursus De statistische analyse vereist een grondige kennis van de kansrekening. Betrouwbaarheidsintervallen, hypothesetoetsen, vergelijkingstoetsen, onafhankelijkheidstoetsen, enz. kunnen niet bepaald worden zonder beroep te doen op het begrip waarschijnlijkheid of kans. In deze cursus worden beide aspecten (kansrekening en statistiek) bestudeerd. In een eerste deel worden voornamelijk de theoretische modellen opgesteld (waarschijnlijkheidsleer). In het tweede deel gaan we na hoe we deze modellen kunnen combineren met waarnemingen en daaruit de kans van een gegeven gebeurtenis kunnen bepalen.

14 Hoofdstuk Kansrekening en combinatoriek In dit hoofdstuk beschouwen we kansrekening om zo toevalsverschijnselen te beschrijven. Hiertoe wordt eerst een kansmodel ingevoerd, en vervolgens worden de individuele componenten ervan in meer detail bestudeerd. De volgende begrippen worden geïntroduceerd: toevalsverschijnsel, kansmodel, uitkomstenruimte, kans: axiomatische definitie en basiseigenschappen, voorwaardelijke kans, (on)afhankelijke gebeurtenissen, regel van Bayes.. Inleiding Dat sommige dingen toevallig zijn is een waargenomen feit. De uitkomst van het opgooien van een muntstuk, het tijdsinterval tussen de emissies van deeltjes door een radioactieve bron, het geslacht van een baby, de uitslag bij herhaalde metingen zijn allemaal onvoorspelbaar. Voor veel van deze gebeurtenissen hebben we een intuïtief begrip van kans: We weten dat de kans om een of te gooien met een dobbelsteen kleiner is dan de kans om een,, te gooien. 3

15 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Als we in een wagen stappen gaan we ervan uit dat de kans op een ongeluk aanvaardbaar klein is. Met een oogopslag beslissen we of er een grote kans op regen is, en of we al dan niet een paraplu meenemen. Deze intuïtieve kanservaring moet echter geformaliseerd worden alvorens ze als basisbegrip gebruikt kan worden in een wiskundige theorie. Hiertoe moeten we een kansruimte (Ω, A, P) invoeren. Een kansmodel voor een toevalsverschijnsel bestaat uit een kansruimte (Ω, A, P) met een uitkomstenruimte die de mogelijke uitkomsten bevat, Ω, een collectie van alle mogelijke gebeurtenissen, A, een kansfunctie die aan elke gebeurtenis A A een getal P (A) [, ] als kans toekent.. Toevalsverschijnsel Definitie..: Toevalsverschijnsel We noemen een verschijnsel een toevalsverschijnsel als de individuele uitkomsten onzeker zijn, maar dat er niettemin een regelmatige verdeling van de uitkomsten bestaat bij een groot aantal herhalingen. Bijvoorbeeld: als we een dobbelsteen eenmaal opgooien kunnen we niet voorspellen wat het resultaat zal zijn. Als we echter 6 maal een eerlijke dobbelsteen gooien, dan zal er ongeveer maal een gegooied worden. Ondanks het feit dat we de individuele uitslagen niet kunnen voorspellen, kunnen we heel wat zeggen over het gedrag van een groot aantal experimenten. Een toevalsverschijnsel wordt omschreven door zijn mogelijke uitkomsten. Definitie..: Uitkomstenruimte (Ω) De uitkomstenruimte Ω is de verzameling van uitkomsten of elementaire gebeurtenissen (steekproefruimte of uitkomstenruimte genoemd). We zijn niet altijd geïnteresseerd in dergelijke elementaire gebeurtenissen. Dikwijls willen we meer complexe situaties bestuderen. Daarin worden een aantal elementaire gebeurtenissen samengevoegd. Definitie..3: Gebeurtenis (A) Een gebeurtenis A is een deelverzameling van Ω waarvan de kans bestudeerd wordt (A Ω). 4

16 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Vervolgens voeren we de collectie van alle mogelijke gebeurtenissen in: Axioma..: Collectie van alle mogelijke gebeurtenissen (A). en Ω zijn gebeurtenissen: A en Ω A. Als A een gebeurtenis is, dan is ook zijn complement een gebeurtenis: A A A c = Ω \ A A, (.) 3. A en B gebeurtenissen, dan zijn A B en A B ook gebeurtenissen A, B A A B A (.) A B A (.3) Voorbeeld..: Bij het werpen met een dobbelsteen is de uitkomstruimte Ω = {,,,,, }. Een gebeurtenis A is bijvoorbeeld het gooien van een, dan is A = { }. Gebeurtenis B is bijvoorbeeld een even worp B = {,, }..3 De axiomatische definitie van de kans Om het toevalsverschijnsel volledig te karakteriseren moeten we niet enkel alle mogelijke uitkomsten kennen (de uitkomstenruimte Ω), maar ook de kans op elk van deze uitkomsten. Definitie.3.: Voor iedere gebeurtenis A bestaat er een kans(functie) P (A) die de kans geeft op het realiseren van deze gebeurtenis. Voorbeeld: Voor een eerlijke dobbelsteen geeft ons intuïtief kansbegrip aan dat P (A = { }) = /6. In deze cursus definiëren we het kansbegrip met behulp van 3 axioma s. Al de andere eigenschappen worden hieruit afgeleid. Kansfunctie P van A Axioma.3.: Een kans is begrepen tussen (gebeurtenis gebeurt nooit) en (gebeurtenis gebeurt altijd): P (A) voor alle A A 5

17 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Axioma.3.: De ledige verzameling heeft kans : P ( ) = De volledige uitkomstenruimte heeft kans : P (Ω) = Axioma.3.3: A, B A en A B = P (A B) = P (A) + P (B) Merk op dat A B = betekent dat de gebeurtenissen A en B niet gelijktijdig kunnen plaatsgrijpen. Voorbeeld.3.: Bij een worp met een dobbelsteen is de verzameling uitkomsten Ω = {,,,,, } en de kans op een elementaire gebeurtenis wordt gelijk gesteld aan /6. Dat kunnen we met behulp van Axioma s terugvinden. P (Ω) = P (,,,,, ) = P ( ) + P ( ) + P ( ) + P ( ) + P ( ) + P ( ) = 6 P ( ) = Opmerking: Als Ω oneindig veel elementen bevat dienen de bovenvermelde axioma s uitgebreid te worden. Dit kan zonder veel problemen voor aftelbare verzamelingen (bv. de verzameling der natuurlijke getallen), maar dient met de nodige omzichtigheid te gebeuren voor continue verzamelingen (bv. de verzameling der reële getallen). Uit de bovenvermelde axioma s volgen de volgende eigenschappen: Eigenschap.3.: Complementregel P (A) + P (A c ) = P (Ω) = en P (A B) + P (A B c ) = P (A) Dit volgt rechtstreeks uit de definities van A, A c, Ω en de axioma s. De laatste betrekking volgt uit het feit dat A = A (B B c ) = (A B) (A B c ) en dat (A B) (A B c ) = gezien B B c =. Eigenschap.3.: Somregel P (A B) = P (A) + P (B) P (A B) Dit volgt rechtstreeks uit de relatie dat A B opgebouwd kan worden uit 3 niet gelijktijdig plaatsgrijpende gebeurtenissen: A B c, A c B, en A B. 6

18 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Gebruikmakende van de axioma s en de complementregel bekomen we dan P (A B) = P (A B c ) + P (A B) + P (A B) + P (A c B) P (A B) = P (A) + P (B) P (A B) Eigenschappen die nuttig kunnen zijn uit de verzamelingenleer. Eigenschap.3.3: De Morgan (A B) c = (A c B c ) (A B) = (A c B c ) c (A B) c = (A c B c ) (A B) = (A c B c ) c (A\B) = (A B c ) Voorbeeld.3.: Neem als uitkomstenruimte Ω de ruimte van de reële getallen Ω =R. Beschouw de gebeurtenis dat een getal X voldoet aan a < X b. Gebruikmakende van De Morgan, (A B) = (A c B c ) c, kan de kans voor deze gebeurtenis geschreven worden als P (a < X X b) = P (a X X > b) Gebruikmakende van de som regel en het feit dat P (A B) = met gebeurtenis A: a X en gebeurtenis B: X > b indien a < b bekomen we P (a < X X b) = (P (a X) + P (X > b)) Gebruikmakende van de complement regel wordt Bijgevolg bekomen we P (X > b) = P (X b) P (a < X b) = P (X b) P (X a) Deze uitdrukking heeft het grote voordeel dat ze nu beschreven wordt aan de hand van de cumulatieve verdelingsfunctie F X (a) = P (X a) dewelke later in 7

19 HOOFDSTUK. KANSREKENING EN COMBINATORIEK de cursus ingevoerd zal worden..4 Voorwaardelijke kans Onderstel dat men de kans analyseert dat een laatstejaars humaniora leerling kiest voor de opleiding burgerlijk ingenieur. groep leerlingen zal deze kans verschillend zijn:. Alle leerlingen die afstuderen in het middelbaar. Afhankelijk van de beschouwde. Alle leerlingen die afstuderen in het middelbaar en minstens 6 uur wiskunde kregen per week. 3. Alle meisjes die afstuderen in het middelbaar. 4. Alle jongens die afstuderen in het middelbaar. Een dergelijke voorkennis wordt binnen de kansrekening geformaliseerd met het begrip voorwaardelijke kans. Hierin gaat men na wat de kans is op gebeurtenis A, indien men weet dat gebeurtenis B zich heeft voorgedaan. Dit wordt voorgesteld door en wordt voorgesteld door P (A B) en leest men als: de kans op A onder voorwaarde B. Deze voorwaardelijk kans kan als volgt uitgedrukt worden P (A B) = P (A B). (.4) P (B) Een redenering is dat om zowel aan A als aan B te voldoen P (A B), we eerst er voor zorgen dat gebeurtenis B zich voltrek (P (B)) en vervolgens de gebeurtenis A te beschouwen (wetende dat B zich al voltrokken geeft: P (A B)). Bijgevolg is P (A B) = P (A B) P (B) = P (B A) P (A) Het gebruik van voorwaardelijke kansen laat toe om heel complexe problemen op te splitsen in een serie van (meer) eenvoudige problemen. Voorbeeld.4.: We werpen met twee dobbelstenen. Wat is de kans op een even aantal ogen als één van beide dobbelstenen een toont? Oplossing 8

20 HOOFDSTUK. KANSREKENING EN COMBINATORIEK. Het totaal aantal mogelijk uitslagen bij het gooien van dobbelstenen is 6 6 = 36. Definieer de volgende gebeurtenissen A: een even aantal ogen B: minstens één van de dobbelstenen toont een.. De kans op A: De kans voor een even aantal ogen is gelijk aan een oneven aantal ogen: P (A) = =. 3. De kans op B? Dus P (B) = 36. P (één van beide dobbelstenen toont een ) = ({ }),,,,, P,,,, 4. Wat is de kans op gebeurtenis A B? P (A B) = P ({,,,, }) = Hieruit volgt onmiddellijk de volgende voorwaardelijke waarschijnlijkheden P (A B) = P (A B) P (B) = 5/36 /36 = 5.5 Onafhankelijke gebeurtenissen In het vorige voorbeeld hebben we gezien dat het antwoord op de vraag Wat is de kans op een even worp afhangt van het feit dat men vooraf weet dat van beide dobbelstenen een vertoont. De kans op gebeurtenis A hangt dus af van de gebeurtenis B. Indien dit niet het geval is spreekt men van onafhankelijke gebeurtenissen. Dus, indien P (A B) = P (A B) P (B) = P (A) (dit is de eis die we stellen), (.5) dan hebben we onmiddellijk als resultaat: P (A B) = P (A) P (B). Dit zullen we als formele definitie gebruiken. Definitie.5.: Onafhankelijke gebeurtenissen A en B zijn onafhankelijk P (A B) = P (A) P (B). Deze definitie kan uitgebreid worden tot N gebeurtenissen. 9

21 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Definitie.5.: Onafhankelijke gebeurtenissen De gebeurtenissen A, A,..., A N zijn onafhankelijk indien geldt dat P (A i A i A i3... A in ) = P (A i ) (.6) voor elke mogelijke keuze van de indices i j onder {,..., N} (alle i j verschillend!). Een gevolg is de volgende eigenschap: Eigenschap.5.: Productregel Indien de gebeurtenissen A, A,..., A N onafhankelijk zijn, dan heeft men: P (A A A N ) = P (A ) P (A )... P (A N ) (.7) Indien men kan stellen dat gebeurtenissen onafhankelijk zijn kan men het oplossen van het probleem sterk vereenvoudigen omdat men een ingewikkeld probleem opsplitst in een set van vereenvoudigde problemen. Voorbeeld.5.: Repeaters trans-atlantische telefoonkabel Beschouw een trans-atlantische telefoonkabel die bv. repeaters bevat op regelmatige afstanden om het signaal te herstellen en te versterken. De lijn werkt slechts indien geen enkel van deze repeaters defect is. Stel dat de kans op een defect over een periode van jaar. is, wat is dan de kans dat deze lijn zonder defect werkt gedurende jaar? Om het antwoord te berekenen is het eenvoudiger om de complementaire gebeurtenissen te beschouwen: de kans voor repeater om correct te werken gedurende jaar is.999. Indien we onderstellen dat de defecten bij de verschillende repeaters los van elkaar voorkomen (onafhankelijke gebeurtenissen) kunnen we (.7) gebruiken: P (geen defect op de lijn) = P (alle repeaters werken) (.8) = (P ( repeater werkt)) (.9) Dit resulteert in de volgende betrouwbaarheid als functie van de kans op een defect: zoals gegeven in Tabel. Dit toont duidelijk dat voor complexe systemen met een groot aantal individuele componenten men extreem hoge betrouwbaarheidseisen moet stellen aan elke individuele component opdat het geheel betrouwbaar zou zijn.

22 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Tabel.: Kans op een correct werkende transmissielijn. kans defect repeater kans correcte repeater kans correcte lijn [Aantal fouten op een hard disk] Voorbeeld.5.: De specificatie van een hard disk geeft weer hoeveel leesfouten er (statistisch gezien) te verwachten zijn: bijvoorbeeld leesfout per 4 bits P (bit error) = 4. Voor een 8TB hard disk (die dus N = 64 bits bevat) kunnen we nu de kans op een foutloze hard disk afschatten indien we kunnen onderstellen dat de fouten onafhankelijk zijn: P (foutloze HD) = P (alle bits correct) = (P (bit correct)) N = ( P (bit error)) N N P (bit error) =.36 Voorbeeld.5.3: Yield enkele transistor in een microcoprocessor De yield bij de productie microprocessoren wordt gedefingeerd als de kans op een werkende processor. De yield moet bijgevolg gemaximaliseerd worden. Indien een processor N = 9 transistoren telt (bijvoorbeeld een Intel i7 processor) en indien de gewenste yield 9% is, dan kan men de vraag stellen wat de kans is op een fout in transistor indien we onderstellen dat alle fouten onafhankelijke zijn. De vraag is dus: wat is de yield van transistor = P (fout in transistor)? P (foutloze micro processor) = P (alle transistoren correct) = (P (transistor correct)) N = ( P (fout in transistor)) N N P (fout in transistor) =.9 P (fout in transistor) =

23 HOOFDSTUK. KANSREKENING EN COMBINATORIEK.6 Regel van Bayes In sommige gevallen wenst men de voorwaardelijke kansen om te draaien, met andere woorden, kunnen we P (A B) berekenen vanaf P (B A)? Het antwoord op deze vraag wordt gegeven door de regel van Bayes. Definitie.6.: Regel van Bayes P (A B) = P (B A) P (A) P (B) (.) Dit resultaat volg onmiddellijk vanuit de gelijkheden: P (A B) = P (A B) P (B) en P (B A) = P (B A) P (A) Het is nu ook nog mogelijk om P (B) uit te drukken aan de hand van de (beschikbare) voorwaardelijke kansen P (B A) en P (B A c ). P (B) = P (B Ω) = P (B (A A c )) = P ((B A) (B A c )) = P (B A) + P (B A c ) = P (B A) P (A) + P (B A c ) P (A c ) Substitutie in (.) resulteert uiteindelijk in het volgende resultaat: P (A B) = Voorbeeld.6.: Bevolkingsonderzoek P (B A) P (A) P (B A) P (A) + P (B A c ) P (A c ). (.) Met de toenemende mogelijkheden van de medische diagnose-technieken keert herhaaldelijk de discussie terug of het houden van een globaal bevolkingsonderzoek, bv. naar baarmoederhalskanker, naar seropositiviteit,..., nuttig, kosteneffectief en/of sociaal aanvaardbaar is. Beschouw een test naar een infectie met de volgende betrouwbaarheid: P (positieve test geïnfecteerd) =.999: dit is de een correcte test P (positieve test niet geïnfecteerd) =.: dit is een vals alarm Indien men weet uit voorafgaande screenings dat.% van de bevolking geïnfecteerd is, kan men zich de vraag stellen welk percentage van de positieve testen te wijten is aan een vals alarm, m.a.w. hoeveel mensen gaat men nodeloos ongerust maken t.o.v. het aantal juiste diagnoses?

24 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Antwoord:. Definieer: gebeurtenis A: niet geïnfecteerd, gebeurtenis B: positieve test. Dan wordt P (B A c ) =.999 P (B A) =. P (A c ) =. P (A) = P (A c ). De kans dat men niet geïnfecteerd is (A), terwijl er toch een positieve test is (B): P (B A) P (A) P (A B) = P (B A) P (A) + P (B A c ) P (A c ) P (B A) ( P (A c )) = P (B A) ( P (A c )) + P (B A c ) P (A c ). (.) =. (.) Ook de kans op een positieve test kan bepaald worden: P (B) = P (B A) P (A) + P (B A c ) P (A c ) =. (.) Besluit: het merendeel van de positieve testen bij een volledige screening van de bevolking is dus een vals alarm. Voorbeeld.6.: Bevolkingsonderzoek (vervolg) Wat is de kans dat men geïnfecteerd is terwijl de test negatief is (de ziekte wordt niet gedetecteerd)? Bepaal P (A c B c )? Antwoord: P (A c B c P (B c A c ) P (A c ) ) = P (B c A) P (A) + P (B c A c ) P (A c ) ( P (B A c )) P (A c ) = ( P (B A))( P (A c )) + ( P (B A c )) P (A c ) (.999). = (.) (.) + (.999). 6 3

25 HOOFDSTUK. KANSREKENING EN COMBINATORIEK.7 Telprincipes en combinatoriek.7. Fundamenteel telprincipe (productregel) Als een eerste procedure op n verschillende manieren kan worden uitgevoerd, en vervolgens een tweede procedure op n verschillende manieren en vervolgens een derde procedure op n 3 verschillende manieren, enzovoort, dan is het aantal manieren dat de procedures kunnen uitgevoerd worden in bovenstaande volgorde n n n 3... Voorbeeld.7.: Een eerste boekenkast bevat m boeken, een tweede boekenkast bevat n boeken. Op hoeveel verschillende manieren kan je boek uit elke kast kiezen? Voorbeeld.7.: Op hoeveel verschillende manieren kan je een nummerplaat maken die bestaat uit 3 letters gevolgd door 3 cijfers?.7. Variaties Het aantal manieren om m objecten uit in totaal n verschillende objecten te rangschikken (d.w.z. de volgorde van het resultaat is belangrijk) is V n m = n! (n m)! Voorbeeld.7.3: Hoeveel pincodes bestaande uit 4 verschillende cijfers kan je maken?.7.3 Permutaties Speciaal geval van variaties met m = n. Het aantal manieren om alle n verschillende objecten te rangschikken is V n n = n! = n (n )... Voorbeeld.7.4: Op hoeveel verschillende manieren kan een kaartspel geschud worden?.7.4 Herhalingspermutaties (anagrammen) Het aantal manieren om n niet allemaal verschillende objecten, bestaande uit een groepje p identieke objecten plus een groepje q identieke objecten plus..., 4

26 HOOFDSTUK. KANSREKENING EN COMBINATORIEK te rangschikken is Merk op: p + q r = n. Voorbeeld.7.5: P n p,q,...,r = n! p!q!... r! In hoeveel volgordes kan je 6 ballen, bestaande uit rode, 3 groene en blauwe, leggen?.7.5 Combinaties Het aantal manieren om m objecten uit in totaal n objecten te selecteren (d.w.z. de volgorde van het resultaat is onbelangrijk) is Merk op: Cm n = Cn m n = ( ) n n m Voorbeeld.7.6: C n m = V n m m! = n! m!(n m)! = ( ) n m Op hoeveel manieren kan je werkgroepjes van personen vormen in een klas met 7 leerlingen? 5

27 Hoofdstuk 3 Beschrijvende statistiek In dit hoofdstuk gaan we bestuderen hoe we een grote hoeveelheid ruwe gegevens (data) kunnen herschikken om een betere toegang te krijgen tot de informatie die erin vervat zit. Vervolgens gaan we een aantal belangrijke grootheden introduceren (kentallen) die de verdeling van de data samenbalt in een paar getallen. De volgende begrippen worden geïntroduceerd: Steekproef, ruwe gegevens, histogram, indeling in klassen, klassenbreedte, empirische verdelingsfunctie, gemiddelde, mediaan, modus, empirische variantie, standaardafwijking, mediane absolute afwijking. 3. Inleiding In de beschrijvende statistiek moet men in heel wat gevallen grote hoeveelheden ruwe data verwerken. Deze data kunnen het resultaat zijn van een steekproef (een test op een beperkte deelgroep die men als representatief beschouwt voor de ganse groep), of ze kunnen bekomen zijn door de gegevens van een welomschreven groep te verzamelen (b.v. de resultaten van de studenten in de eerste bachelor IR voor het tentamen scheikunde). Omdat dergelijke grote hoeveelheden getallen weinig overzichtelijk zijn willen we ze enerzijds beter presenteren door ze te ordenen en de resultaten grafisch voor te stellen (bv. het histogram), anderzijds kunnen we een aantal belangrijke karakteristieken van deze getallen samenballen in een beperkt aantal kentallen zoals hun gemiddelde of mediaan en hun spreiding. 6

28 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK In een allereerste stap moeten we eerst echter de begrippen ganse groep en beperkte deelgroep preciseren. Definitie 3..: Populatie De populatie is de gehele groep (objecten/personen) waarover informatie gewenst wordt. Definitie 3..: Steekproef Een steekproef is een gedeelte van de populatie waarvan informatie verzameld wordt. Merk op dat de populatie gedefinieerd wordt in termen van ons verlangen naar kennis. Als we conclusies willen trekken over alle studenten aan de universiteiten in België, dan is die groep onze populatie. De steekproef is het gedeelte studenten dat werd ondervraagd, en waaruit we conclusies trekken over het geheel. Het is duidelijk dat een steekproef voorzichtig moet worden uitgevoerd. Een slecht ontworpen steekproefprocedé kan misleidende resultaten geven: bv. men selecteert systematisch enkel de goede studenten. Meestal is men niet geïnteresseerd in de individuele metingen, maar wenst men enkel een aantal globale karakteristieken eruit te destilleren: bv. welke quotering komt het meeste voor? Daartoe is het wenselijk om de ruwe gegevens op een meer verfijnde manier voor te stellen. Dit wordt in Sectie 3. uiteengezet aan de hand van een voorbeeld. 3. Presentatie van de ruwe gegevens In Tabel 3. worden de resultaten gegeven van 45 studenten op het tentamen scheikunde. 7

29 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK Tabel 3.: Quotering van 45 studenten voor het tentamen scheikunde, niet gesorteerd. Erg veel informatie geeft zo n tabel van ruwe gegevens niet. Het is uit deze tabel moeilijk af te lezen wat de meestvoorkomende quotering is, waar de uitersten liggen,... Dezelfde gegevens maar nu gesorteerd op grootte zoals in Tabel 3. geven veel meer informatie. We zien onmiddellijk dat alle metingen in het interval [3., 8.5] liggen. De waarden rond 3 tot 5 komen het meeste voor Tabel 3.: Quotering van 45 studenten voor het tentamen scheikunde, gesorteerd. Voor een nog beter overzicht is het beter de gegevens in een aantal klassen (meestal 5 tot 3) in te delen. Hiertoe kiezen we een klassenbreedte, bv., we verdelen het relevante interval in halfopen deelintervallen van deze lengte, 8

30 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK bv. [3., 4.[, enz., en we tellen de frequenties (dit is het aantal keren dat een meting in een bepaald deelinterval valt). De ruwe gegevens werden op deze wijze verwerkt in Tabel 3.3. Het is duidelijk dat deze voorstelling toelaat om de verdeling van de resultaten veel sneller af te lezen. Tabel 3.3: Voorstelling van de resultaten, opgedeeld in klassen. Klasse Ondergrens ( ) Bovengrens (<) Frequentie Percentage Histogram In plaats van gebruik te maken van tabellen, kan de klassenindeling grafisch worden weergeven in een histogram. Op ieder deelinterval richten we een rechthoek op waarvan de oppervlakte evenredig is met de frequentie van de betreffende klasse. In Figuur 3. wordt het histogram getekend voor verschillende klassenbreedtes. Hieruit blijkt duidelijk dat de vorm van het histogram sterk afhangt van de keuze van de klassenbreedte. In de praktijk dient men het aantal klassen te kiezen in functie van het aantal metingen: hoe meer metingen, hoe kleiner men de klassenbreedte kan kiezen om een beter beeld te bekomen van de verdeling van de metingen. Indien men te weinig metingen heeft voor een gegeven aantal klassen wordt het beeld sterk verstoord door toevallige fluctuaties. 9

31 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK klassebreedte klassebreedte Figuur 3.: Histogram van de score van de studenten. Opgepast: de Matlab -definitie verschilt van deze gebuikt in de cursus (Matlab specificeert de centra van de klassen). 3.4 De empirische verdelingsfunctie Definitie 3.4.: Empirische verdelingsfunctie De empirische verdelingsfunctie F n (x) voor n metingen is F n (x) = # {x i x} n (3.) Een grafische voorstelling van deze functie laat de gebruiker onmiddellijk zien hoe zijn gegevens verdeeld zijn (hoeveel kleine waarden, hoeveel extreem grote waarden,...). In combinatie met het histogram levert dit opnieuw heel wat inzicht. De empirische verdelingsfunctie zal later worden aangevuld met de theoretische verdeling (zie Sectie 4.). In Figuur 3. is de empirische verdelingsfunctie getoond voor de data in Tabel 3.. Deze functie is een trapfunctie die in de punten x i een sprong maakt. Voor continue grootheden (bv. het gewicht van maand oude varkens; de dagelijkse neerslag gemeten op het kmi; de netspanning van het Belgische elektriciteitsnet) gaat deze verdelingsfunctie naar een continue functie convergeren. 3

32 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK P(x X) P(X5 x) Empirische verdelingsfunctie X Figuur 3.: De empirische verdelingsfunctie voor de score van de studenten op het tentamen chemie. Het opstellen van een dergelijke empirische verdelingsfunctie gebeurt veelal met een zogenaamde Monte-Carlosimulatie. Deze simulatietechniek stelt de empirische verdelingsfunktie op via groot aantal (n ) simulaties vanuit random (start)condities om zo het hele gebied van mogelijke uitkomsten te bepalen. Als voorbeeld beschouwen we in Figuur 3.3 de empirische verdeling van een eerlijke dobbelsteen bekomen met een Monte-Carlosimulatie met n = realisaties. Deze stochastiek van de bekomen resultaten komen op zich overeen met onafhankelijke trekkingen met teruglegging. We zullen deze verdeling later onder de loepe nemen onder de benaming Binomiaalverdeling x Figuur 3.3: De empirische verdelingsfunctie van een eerlijke dobbelsteen bekomen met een Monte-Carlo simulatie met n = realisaties. 3

33 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK 3.5 Kentallen van ligging: gemiddelde, mediaan, kwartielen en modus Soms willen we de gegevens nog sterker samenvatten dan in een histogram of een empirische verdelingsfunctie. Hiervoor gebruikt men meestal kentallen: één voor de ligging en één voor de spreiding. Het gemiddelde, mediaan en modus zijn veelgebruikte kengetallen voor de ligging; voor de schaal (de spreiding) worden de standaard afwijking en soms de mediane absolute afwijking gebruikt. Definitie 3.5.: Gemiddelde Het gemiddelde (steekproefgemiddelde) van de gegevens {x i }, i =,..., n is x = n Definitie 3.5.: Mediaan n x i. (3.) Beschouw de gesorteerde gegevens {x x... x n }. De mediaan is de middelste waarneming als n oneven is, en het gemiddelde van de twee middelste waarnemingen indien n even is: i= med = x n+ als n oneven, en med = x n + x n + als n even. (3.3) Definitie 3.5.3: Kwartiel Het eerste kwartiel Q is de mediaan van de waarnemingen kleiner dan de globale mediaan. Het derde kwartiel Q 3 is de mediaan van de waarnemingen groter dan de globale mediaan. Figuur 3.4 toont de positie van de mediaan en de kwartielen op de empirische verdelingsfunctie. Merk op dat P (x med) (per definitie) gelijk is aan.5. Deze kwartielen worden onder meer ook gebruikt voor de zogenaamde box plot dewelke, naast de mediaan en de kwartielen, ook de maximale waarden en eventuele uitschieters aangeeft. 3

34 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK verdelingsfunctie mediaan Q Q3 Kwartielen en mediaan P(x X) X Figuur 3.4: De empirische verdelingsfunctie met de mediaan en de kwartielen. Kwartielen en mediaan Boxplot X P(x X) Figuur 3.5: De empirische verdelingsfunctie met de mediaan en de kwartielen. Definitie 3.5.4: Modus De modus van een steekproef is de meest voorkomende waarneming. Figuur 3.6 toont de positie van de modus op het histogram. Merk op dat de modus niet eenduidig hoeft te zijn: verschillende waarnemingen kunnen evenveel voorkomen. 33

35 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK histogram modus histogram & modus X Figuur 3.6: Het histogram met de modus van de steekproef. In het voorbeeld is het gemiddelde x =.55, de mediaan med =, de modus is 3.5. Conclusie Het gemiddelde is eenvoudig te berekenen en heeft een aantal handige wiskundige eigenschappen zoals lineariteit. Dit wil concreet zeggen dat het gemiddelde van z i = ax i + by i gelijk is aan z = ax + by (voor a en b constant). Het gemiddelde is echter zeer gevoelig voor uitschieters. De mediaan daarentegen is het meest robuust, maar de gegevens moet wel eerst gesorteerd worden. 3.6 Kentallen van schaal Naast de ligging is het belangrijk om te weten hoever de metingen van deze ligging kunnen afwijken, met andere woorden, hoe sterk zijn de metingen gegroepeerd. Hiertoe gebruiken we de standaardafwijking en soms ook de mediane absolute afwijking. Definitie 3.6.: Standaardafwijking S n, variantie S n S n = S n met S n = n n i= (x i x). Figuur 3.7 toont de positie van het steekproefgemiddelde x en de grenzen van x S n en x+s n op de empirische verdelingsfunctie. Merk op dat het merendeel van de kansmassa ligt in het gebied van [x S n, x + S n ] met in dit voorbeeld S n = 3.5. Merk verder op dat P (x x) niet noodzakelijk overeenkomt met een kans van.5. 34

36 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK verdelingsfunctie gem gem. std gem.+std Gemiddelde+/ standaardafwijking P(x X) X Figuur 3.7: De empirische verdelingsfunctie met het steekproefgemiddelde x en de grenzen x S n en x + S n. Definitie 3.6.: Mean absolute deviation n n x i x, i =,..., n. i= Definitie 3.6.3: Mediane absolute deviation mediaan { x i med }, i =,..., n. 35

37 Hoofdstuk 4 Stochastische variabelen en hun kansverdeling In dit hoofdstuk gaan we een toevalsverschijnsel beschrijven door een variabele. Vervolgens gaan we het gedrag van die variabele beschrijven aan de hand van haar verdelingsfunctie. De volgende begrippen worden ingevoerd: stochastische variabele (discreet/continu) kansverdelingsfunctie en kansdichtheidsfunctie transformatie van variabelen 4. Stochastische variabele De uitkomstenruimten Ω bestaat niet noodzakelijk uit getallen. Men kan aan elk element van de steekproefruimte Ω echter wel een (reele) getalwaarde X toekennen: het aantal keren munt bij het opwerpen van een muntstuk, het (totaal) aantal ogen bij het werpen met dobbelstenen, de winst bij het kansspel, het lengte van personen in een bevolkingsonderzoek. Deze zogenaamde stochastische variabele X (ook kansvariabele genaamd) hecht dus een numerieke uitkomst aan een toevalsverschijnsel. De waarde van de stochastische variabele X varieert dus op een niet voorspelbare wijze varieert. 36

38 HOOFDSTUK 4. STOCHASTISCHE VARIABELEN EN HUN KANSVERDELING Bij een toenemend aantal experimenten zal het gemiddeld gedrag echter wel voorspelbaar gezien we toevalsverschijnselen beschouwen. Definitie 4..: Stochastische variabele De reële functie X van uitkomstenruimten Ω naar R is een stochastische variabele (of stochastiek of toevalsveranderlijke ) als deze afbeelding (Ω R) compatibel is met de structuur van de collectie van alle mogelijke gebeurtenissen A. Dit wil zeggen dat: voor ieder reëel getal x, kan een gebeurtenis gedefigneerd worden waar voor een uitkomst ω Ω geldt dat {ω Ω X(ω) x} A Ω De kansen op deze stochastische variabele worden dan gewoon defigneerd als de kans op deze gebeurtenis: P (X x) = P ({ω Ω X(ω) x}) Meestal interesseren we ons meer voor de getalwaarde X(ω) dan voor de elementen zelf ω van de onderliggende verzameling Ω. Vandaar dat we de verdeling wensen te kennen van de tochastische variabele. 4. Verdelingsfunctie 4.. Inleiding en definitie Een van de middelen om een stochastische variabele te beschrijven is de verdelingsfunctie die aangeeft hoe de kansmassa verdeeld is. Definitie 4..: Verdelingsfunctie Als X een stochastisch variabele is, dan heet de functie F X, met F X (x) = P (X x) (4.) de verdelingsfunctie van X (ook wel cumulatieve verdelingsfunctie genaamd, of in het Engels: cumulative distribution function of cdf). Merk op dat deze functie discreet of continue kan zijn. Voorbeeld 4..: F X voor een eerlijke dobbelsteen Ω = {,,,,, } (4.) = { oog, ogen,..., 6 ogen}, (4.3) 37

Toegepaste Statistiek

Toegepaste Statistiek Faculteit Ingenieurswetenschappen - Wetenschappen Toegepaste Statistiek Prof. dr. ir. Gerd Vandersteen June 7, 16 Inhoudsopgave Inhoudsopgave 1 Lijst van figuren.............................. 3 Lijst vab

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Hoofdstuk 3 : Numerieke beschrijving van data Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Numerieke beschrijving van data p 1/31 Beschrijvende

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

Medische Statistiek Kansrekening

Medische Statistiek Kansrekening Medische Statistiek Kansrekening Medisch statistiek- kansrekening Hoorcollege 1 Uitkomstenruimte vaststellen Ook wel S of E. Bij dobbelsteen: E= {1,2,3,4,5,6} Een eindige uitkomstenreeks Bij het gooien

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2WS4, dinsdag 17 juni 28, van 9. 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

4 Domein STATISTIEK - versie 1.2

4 Domein STATISTIEK - versie 1.2 USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

1. Statistiek gebruiken 1

1. Statistiek gebruiken 1 Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen

Nadere informatie

Statistiek: Herhaling en aanvulling

Statistiek: Herhaling en aanvulling Statistiek: Herhaling en aanvulling 11 mei 2009 1 Algemeen Statistiek is de wetenschap die beschrijft hoe we gegevens kunnen verzamelen, verwerken en analyseren om een beter inzicht te krijgen in de aard,

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1) Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie

Nadere informatie

Les 2 / 3: Meetschalen en Parameters

Les 2 / 3: Meetschalen en Parameters Les 2 / 3: Meetschalen en Parameters I Theorie: A. Algemeen : V is de verzameling van alle mogelijke uitkomsten van een toevallig experiment. Een veranderlijke of stochastiek is een afbeelding G die aan

Nadere informatie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord

Nadere informatie

Vertaling van enkele termen uit de kansrekening en statistiek alternative hypothesis alternatieve hypothese approximate methods benaderende methoden asymptotic variance asymptotische variantie asymptotically

Nadere informatie

9.0 Voorkennis. Bij samengestelde kansexperimenten maak je gebruik van de productregel.

9.0 Voorkennis. Bij samengestelde kansexperimenten maak je gebruik van de productregel. 9.0 Voorkennis Bij samengestelde kansexperimenten maak je gebruik van de productregel. Productregel: Voor de gebeurtenis G 1 bij het ene kansexperiment en de gebeurtenis G 2 bij het andere kansexperiment

Nadere informatie

Statistiek voor A.I. College 6. Donderdag 27 September

Statistiek voor A.I. College 6. Donderdag 27 September Statistiek voor A.I. College 6 Donderdag 27 September 1 / 1 2 Deductieve statistiek Kansrekening 2 / 1 Vraag: Afghanistan In het leger wordt uit een groep van 6 vrouwelijke en 14 mannelijke soldaten een

Nadere informatie

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99 Inhoud 1 Inleiding tot de beschrijvende statistiek 13 1.1 Een eerste verkenning 14 1.2 Frequentieverdelingen 22 1.3 Grafische voorstellingen 30 1.4 Diverse diagrammen 35 1.5 Stamdiagram, histogram en frequentiepolygoon

Nadere informatie

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions cursus 4 mei 2012 werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions Huiswerk P&D, opgaven Chapter 6: 9, 19, 25, 33 P&D, opgaven Appendix A: 1, 9 doen

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 15 Dinsdag 2 November 1 / 16 2 Statistiek Indeling: Filosofie Schatten Centraal Bureau voor Statistiek 2 / 16 Schatten Vb. Het aantal tenen plus vingers in jullie huishoudens:

Nadere informatie

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan. Afdeling Wiskunde Volledig tentamen Statistics Deeltentamen 2 Statistics Vrije Universiteit 28 mei 2015 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen: opgaven 1,2,3,4. Cijfer=

Nadere informatie

Hoofdstuk 6 Discrete distributies

Hoofdstuk 6 Discrete distributies Hoofdstuk 6 Discrete distributies Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Discrete distributies p 1/33 Discrete distributies binomiale verdeling

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 6 oktober 009 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Examenprogramma wiskunde D vwo

Examenprogramma wiskunde D vwo Examenprogramma wiskunde D vwo Het eindexamen Het eindexamen bestaat uit het schoolexamen. Het examenprogramma bestaat uit de volgende domeinen: Domein A Vaardigheden Domein B Kansrekening en statistiek

Nadere informatie

Empirische kansen = op ervaring gegrond; bereken je door relatieve frequenties te gebruiken. Wet van de grote aantallen.

Empirische kansen = op ervaring gegrond; bereken je door relatieve frequenties te gebruiken. Wet van de grote aantallen. Samenvatting Kansen Definitie van Laplace : P(G) = aantal _ gunstige _ uitkomsten aantal _ mogelijke _ uitkomsten Voorbeeld : Vb kans op 4 gooien met dobbelsteen: Aantal gunstige uitkomsten = 1 ( namelijk

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

Examenprogramma wiskunde A vwo

Examenprogramma wiskunde A vwo Examenprogramma wiskunde A vwo Het eindexamen Het eindexamen bestaat uit het centraal examen en het schoolexamen. Het examenprogramma bestaat uit de volgende domeinen: Domein A Vaardigheden Domein Bg Functies

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 5 oktober 007 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

Hoofdstuk 4 Kansen. 4.1 Randomheid

Hoofdstuk 4 Kansen. 4.1 Randomheid Hoofdstuk 4 Kansen 4.1 Randomheid Herhalingen en kansen Als je een munt opgooit (of zelfs als je een SRS trekt) kunnen de resultaten van tevoren voorspeld worden, omdat de uitkomsten zullen variëren wanneer

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Voorbeeld 1. Statistiek voor Informatica Hoofdstuk 3: Stochastische Variabelen en Verdelingen. Voorbeeld 2A. Voorbeeld 1 (vervolg)

Voorbeeld 1. Statistiek voor Informatica Hoofdstuk 3: Stochastische Variabelen en Verdelingen. Voorbeeld 2A. Voorbeeld 1 (vervolg) Voorbeeld Statistiek voor Informatica Hoofdstuk 3: Stochastische Variabelen en Verdelingen Cursusjaar 2009 Peter de Waal Departement Informatica In een eperiment gooien we 4 maal met een zuivere munt.

Nadere informatie

Statistiek voor A.I. College 10. Dinsdag 16 Oktober

Statistiek voor A.I. College 10. Dinsdag 16 Oktober Statistiek voor A.I. College 10 Dinsdag 16 Oktober 1 / 30 Jullie - onderzoek Geert-Jan, Joris, Brechje Horizontaal: lengte Verticaal: lengte tussen topjes middelvingers met gestrekte armen. DIII 170 175

Nadere informatie

Formules Excel Bedrijfsstatistiek

Formules Excel Bedrijfsstatistiek Formules Excel Bedrijfsstatistiek Hoofdstuk 2 Data en hun voorstelling AANTAL.ALS vb: AANTAL.ALS(A1 :B6,H1) Telt hoeveel keer (frequentie) de waarde die in H1 zit in A1:B6 voorkomt. Vooral bedoeld voor

Nadere informatie

WISKUNDE D VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE D VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE D VWO VAKINFORMATIE STAATSEAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1 Statistiek II Sessie 1 Verzamelde vragen en feedback Deel 1 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 1 1 Staafdiagram 1. Wat is de steekproefgrootte? Op de horizontale as vinden we de respectievelijke

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Voorbeelden van gebruik van 5 VUSTAT-apps

Voorbeelden van gebruik van 5 VUSTAT-apps Voorbeelden van gebruik van 5 VUSTAT-apps Piet van Blokland Begrijpen van statistiek door simulaties en visualisaties Hoe kun je deze apps gebruiken bij het statistiek onderwijs? De apps van VUSTAT zijn

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

Les 1: Waarschijnlijkheidrekening

Les 1: Waarschijnlijkheidrekening Les 1: Waarschijnlijkheidrekening A Men neemt een steekproef van 1000 appelen. Deze worden ingedeeld volgens gewicht en volgens symptomen van een bepaalde schimmel: geen, mild, gematigd of ernstig. Het

Nadere informatie

Statistiek, gegevens en een kritische houding

Statistiek, gegevens en een kritische houding Statistiek Hoofdstuk 1. Statistiek, gegevens en een kritische houding 1.1. Statistiek 1.2. De wetenschap statistiek de wetenschap van gegevens verzamelen evalueren (classificeren, samenvatten, organiseren,

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

36, P (5) = 4 36, P (12) = 1

36, P (5) = 4 36, P (12) = 1 Les 2 Kansverdelingen We hebben in het begin gesteld dat we de kans voor een zekere gunstige uitkomst berekenen als het aantal gunstige uitkomsten gedeelt door het totale aantal mogelijke uitkomsten. Maar

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur.

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (WS05), vrijdag 9 oktober 010, van 14.00 17.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

college 4: Kansrekening

college 4: Kansrekening college 4: Kansrekening Deelgebied van de statistiek Doel: Kansen berekenen voor het waarnemen van bepaalde uitkomsten Kansrekening 1. Volgordeproblemen Permutaties Variaties Combinaties 2. Kans 3. Voorwaardelijke

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

Toetsen van Hypothesen. Het vaststellen van de hypothese

Toetsen van Hypothesen. Het vaststellen van de hypothese Toetsen van Hypothesen Wisnet-hbo update maart 2008 1. en Het vaststellen van de hypothese De nulhypothese en de Alternatieve hypothese. Het gaat in deze paragraaf puur alleen om de formulering. Er wordt

Nadere informatie

Onderzoeksmethodiek LE: 2

Onderzoeksmethodiek LE: 2 Onderzoeksmethodiek LE: 2 3 Parameters en grootheden 3.1 Parameters Wat is een parameter? Een karakteristieke grootheid van een populatie Gem. gewicht van een 34-jarige man 3.2 Steekproefgrootheden Wat

Nadere informatie

Hoofdstuk 8: Het Toetsen van Hypothesen (Extra Oefeningen)

Hoofdstuk 8: Het Toetsen van Hypothesen (Extra Oefeningen) Hoofdstuk 8: Het Toetsen van Hypothesen (Extra Oefeningen) 8.16. Men wenst H 0 : p 0.2 te testen tegenover H 1 : p 0.4 voor een binomiale distributie met n 10. Bepaal α en β als de testfunctie gegeven

Nadere informatie

Economie en maatschappij(a/b)

Economie en maatschappij(a/b) Natuur en gezondheid(a/b) Economie en maatschappij(a/b) Cultuur en maatschappij(a/c) http://profielkeuze.qompas.nl/ Economische studies Talen Recht Gedrag en maatschappij http://www.connectcollege.nl/download/decanaat/vwo%20doorstroomeisen%20universiteit.pdf

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte toetsende statistiek week 1: kansen en random variabelen week 2: de steekproevenverdeling Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter 5: Sampling Distributions 5.1: The

Nadere informatie

Inleiding Kansrekening en Statistiek

Inleiding Kansrekening en Statistiek Inleiding Kansrekening en Statistiek Inleiding Kansrekening en Statistiek S.J. de Lange VSSD 4 VSSD Eerste druk 1989 Tweede druk 1991-2007 Uitgegeven door de VSSD Poortlandplein 6, 2628 BM Delft, The Netherlands

Nadere informatie

1. De wereld van de kansmodellen.

1. De wereld van de kansmodellen. STATISTIEK 3 DE GRAAD.. De wereld van de kansmodellen... Kansmodellen X kansmodel Discreet model Continu model Kansverdeling Vaas Staafdiagram Dichtheidsfunctie f(x) GraJiek van f Definitie: Een kansmodel

Nadere informatie

Statistiek voor A.I.

Statistiek voor A.I. Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het

Nadere informatie

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Examen Kansrekening en Wiskundige Statistiek: oplossingen Examen Kansrekening en Wiskundige Statistiek: oplossingen S. Vansteelandt Academiejaar 006-007 1. Een team van onderzoekers wil nagaan of een bepaald geneesmiddel Triptan meer effectief is dan aspirine

Nadere informatie

CVO PANTA RHEI - Schoonmeersstraat 26 9000 GENT 09 335 22 22. Soorten stochastische variabelen (discrete versus continue)

CVO PANTA RHEI - Schoonmeersstraat 26 9000 GENT 09 335 22 22. Soorten stochastische variabelen (discrete versus continue) identificatie opleiding Marketing modulenaam Statistiek code module A12 goedkeuring door aantal lestijden 80 studiepunten datum goedkeuring structuurschema / volgtijdelijkheid link: inhoud link leerplan:

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements

Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements Sietske Tacoma, Susanne Tak, Henk Hietbrink en Wouter van Joolingen Inleiding Het doel van dit project is om een aantal vrij

Nadere informatie

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2 INHOUDSOPGAVE Leswijzer...3 Beschrijvende Statistiek...3 Kansberekening...3 Inductieve statistiek, inferentiele statistiek...3 Hoofdstuk...3. Drie deelgebieden...3. Frequentieverdeling....3. Frequentieverdeling....4.5

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Populatie: De gehele groep elementen waarover informatie wordt gewenst. Statistiek I Werkcollege 1 Populatie: De gehele groep elementen waarover informatie wordt gewenst. Steekproef: Gedeelte van de populatie dat feitelijk wordt onderzocht om informatie te vergaren. Eenheden:

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 11 Dinsdag 25 Oktober 1 / 27 2 Statistiek Vandaag: Hypothese toetsen Schatten 2 / 27 Schatten 3 / 27 Vragen: liegen 61 Amerikanen werd gevraagd hoeveel % van de tijd

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 3 Dinsdag 21 September 1 / 21 1 Kansrekening Indeling: Uniforme verdelingen Cumulatieve distributiefuncties 2 / 21 Vragen: lengte Een lineaal wordt op een willekeurig

Nadere informatie

Voorbeeld 1: kansverdeling discrete stochast discrete kansverdeling

Voorbeeld 1: kansverdeling discrete stochast discrete kansverdeling 12.0 Voorkennis Voorbeeld 1: Yvette pakt vier knikkers uit een vaas waar er 20 inzitten. 9 van de knikkers zijn rood en 11 van de knikkers zijn blauw. X = het aantal rode knikkers dat Yvette pakt. Er zijn

Nadere informatie

Schatten en simuleren

Schatten en simuleren Les 5 Schatten en simuleren 5.1 Maximum likelihood schatting Tot nu toe hebben we meestal naar voorbeelden gekeken waar we van een kansverdeling zijn uitgegaan en dan voorspellingen hebben gemaakt. In

Nadere informatie

HOOFDSTUK I - INLEIDENDE BEGRIPPEN

HOOFDSTUK I - INLEIDENDE BEGRIPPEN HOOFDSTUK I - INLEIDENDE BEGRIPPEN 1.2 Kansveranderlijken en verdelingen 1 Veranderlijken Beschouw een toevallig experiment met uitkomstenverzameling V (eindig of oneindig), de verzameling van alle gebeurtenissen

Nadere informatie

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN. Continue Verdelingen 1 A. De uniforme (of rechthoekige) verdeling Kansdichtheid en cumulatieve frequentiefunctie Voor x < a f(x) = 0 F(x) = 0 Voor a x

Nadere informatie

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter. STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters.

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Afdeling Wiskunde Volledig tentamen Algemene Statistiek Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen:

Nadere informatie

Statistiek voor A.I. College 4. Donderdag 20 September 2012

Statistiek voor A.I. College 4. Donderdag 20 September 2012 Statistiek voor A.I. College 4 Donderdag 20 September 2012 1 / 30 2 Deductieve statistiek Kansrekening 2 / 30 Cycle 3 / 30 Context 4 / 30 2 Deductieve statistiek Vandaag: Eigenschappen kansen Oneindige

Nadere informatie

introductie kansen pauze meer kansen random variabelen transformaties ten slotte

introductie kansen pauze meer kansen random variabelen transformaties ten slotte toetsende statistiek week 1: kansen en random variabelen Moore, McCabe, and Craig. Introduction to the Practice of Statistics Chapter 4: Probability: The Study of Randomness 4.1: Randomness 4.2: Probability

Nadere informatie

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur Kansrekening en statistiek WI05IN deel I 4 november 0, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad wordt uitgereikt. Meerkeuzevragen Toelichting:

Nadere informatie

14.1 Kansberekeningen [1]

14.1 Kansberekeningen [1] 14.1 Kansberekeningen [1] Herhaling kansberekeningen: Somregel: Als de gebeurtenissen G 1 en G 2 geen gemeenschappelijke uitkomsten hebben geldt: P(G 1 of G 2 ) = P(G 1 ) + P(G 2 ) B.v. P(3 of 4 gooien

Nadere informatie

SOCIALE STATISTIEK (deel 2)

SOCIALE STATISTIEK (deel 2) SOCIALE STATISTIEK (deel 2) D. Vanpaemel KU Leuven D. Vanpaemel (KU Leuven) SOCIALE STATISTIEK (deel 2) 1 / 57 Hoofdstuk 5: Schatters en hun verdeling 5.1 Steekproefgemiddelde als toevalsvariabele D. Vanpaemel

Nadere informatie

11.1 Kansberekeningen [1]

11.1 Kansberekeningen [1] 11.1 Kansberekeningen [1] Kansdefinitie van Laplace: P(gebeurtenis) = Aantal gunstige uitkomsten/aantal mogelijke uitkomsten Voorbeeld 1: Wat is de kans om minstens 16 te gooien, als je met 3 dobbelstenen

Nadere informatie

Beschrijvend statistiek

Beschrijvend statistiek 1 Beschrijvend statistiek 1. In een school werd het intelligentiequotiënt gemeten van de leerlingen van het zesde jaar (zie tabel). De getallen werden afgerond tot op de eenheid. De berekeningen mogen

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na

Nadere informatie

Statistiek voor A.I. College 3. Dinsdag 18 September 2012

Statistiek voor A.I. College 3. Dinsdag 18 September 2012 Statistiek voor A.I. College 3 Dinsdag 18 September 2012 1 / 45 2 Deductieve statistiek Kansrekening 2 / 45 Uitkomstenruimte 3 / 45 Vragen: voorspellen Een charlatan zegt te kunnen voorspellen of een ongeboren

Nadere informatie