Toegepaste Statistiek

Transcriptie

1 Faculteit Ingenieurswetenschappen - Wetenschappen Toegepaste Statistiek Prof. dr. ir. Gerd Vandersteen 8 mei 8

2 Inhoudsopgave Inhoudsopgave Lijst van figuren Lijst van tabellen Inleiding: kansrekening versus statistiek 8. Wat is kansrekening? Wat is statistiek? Doelstelling van deze cursus Kansrekening en combinatoriek 3. Inleiding Toevalsverschijnsel De axiomatische definitie van de kans Voorwaardelijke kans Onafhankelijke gebeurtenissen Regel van Bayes Telprincipes en combinatoriek Fundamenteel telprincipe (productregel) Variaties Permutaties Herhalingspermutaties (anagrammen) Combinaties Beschrijvende statistiek 6 3. Inleiding Presentatie van de ruwe gegevens Histogram De empirische verdelingsfunctie Kentallen van ligging: gemiddelde, mediaan, kwartielen en modus Kentallen van schaal Stochastische variabelen en hun kansverdeling Stochastische variabele Verdelingsfunctie Inleiding en definitie Eigenschappen van een verdelingsfunctie Discrete en continue verdelingsfuncties Transformaties van een continue stochastische variabele. 4

3 INHOUDSOPGAVE Affiene (=lineaire) transformatie Continue transformatie met enkelvoudige wortels voor y = g(x) Continue transformatie met meervoudige wortels voor y = g(x) Kansvectoren en onafhankelijke stochastische variabelen Meerdimensionale stochastische variabelen Tweedimensionale verdelingsfuncties Tweedimensionale kansdichtheidsfunctie Marginale verdeling en kansdichtheid Onafhankelijke stochastische variabelen Som van onafhankelijke stochastische variabelen Som van of meer onafhankelijke stochastische variabelen 56 6 Kentallen van locatie, schaal en vorm Kentallen van locatie Verwachtingswaarde of rekenkundig gemiddelde E {X} Eigenschappen van de verwachtingswaarde De mediaan De modus Kentallen van schaal Definities Eigenschappen Kentallen van vorm Inleiding en definitie De scheefheid (skewness) De kurtosis Covariantie en correlatiecoëfficiënt 7 7. De covariantiematrix Interpretatie en gebruik van de covariantie matrix De correlatiecoëfficiënt Discrete verdelingen Inleiding De binomiale, hypergeometrische en geometrische verdeling Inleiding Een Bernoulli experiment De binomiaal verdeling De hypergeometrische verdeling De geometrische verdeling De Poisson verdeling Poisson incidentenstroom Continue verdelingen De uniforme verdeling De normale verdeling Eigenschappen van de normaal verdeling N (µ, σ) De centrale limietstelling

4 INHOUDSOPGAVE 9.4 Opstellen van betrouwbaarheidsintervallen Het opstellen en gebruiken van betrouwbaarheidsintervallen in praktische situaties Studie van het steekproefgemiddelde Studie van de steekproefvariantie De chi-kwadraat (χ ) verdeling Toepassing χ n verdeling voor algemene normale verdelingen Studie van de steekproefvariantie Betrouwbaarheidsinterval voor Sn Studie van Xn µ S n/ n Student-t verdeling Betrouwbaarheidsintervallen De exponentiële verdeling De Gamma-verdeling De F m,n -verdeling Hypothese toetsen 3. Inleiding Hypothese- en significantietest: de basisideeën Formuleren van de hypothesen Hypothesetoetsen Methodologie Specifieke toetsen De z-toets H :µ = µ met σ gekend De χ -toets: H : σ = σ De t-toets: H :µ = µ De t-toets voor het vergelijken van gemiddelden Oplossing voor σ = σ = σ adhv Student-t verdeelde toetsingsgrootheid Benaderde oplossing voor n, m De F-toets voor onafhankelijke steekproeven: H : σ = σ 36.4 Fouten in hypothesetoetsen Schatten van modellen 38. Introductie Eigenschappen van een schatter Bias of verschuiving ( zuiver ) Consistentie Efficiëntie Kostfunctieinterpretatie Toepassing op schatting lineair verband Simulatievoorbeeld Studie asymptotisch gedrag De kleinste kwadraten schatter De errors-in-variables schatter Het simpel gemiddelde Variantie van de schatters Kostfunctie interpretatie van de schatters Kleinste kwadratenproblemen

5 INHOUDSOPGAVE Bibliografie 55 4

6 Lĳst van figuren 3. Histogram van de score van de studenten De empirische verdelingsfunctie voor de score van de studenten op het tentamen chemie De empirische verdelingsfunctie van een eerlijke dobbelsteen bekomen met een Monte-Carlo simulatie met n = realisaties De empirische verdelingsfunctie met de mediaan en de kwartielen De empirische verdelingsfunctie met de mediaan en de kwartielen Het histogram met de modus van de steekproef De empirische verdelingsfunctie met het steekproefgemiddelde x en de grenzen x S n en x + S n De verdelingsfunctie van een dobbelsteen Staafdiagram (links) en de bijhorende verdelingsfunctie (rechts) Voorbeeld van een continue verdeling: de normaal verdeling Affiene transformatie van de kansdichtheidsfunctie f X (x) naar f Y (ax + b) Kubische transformatie met enkelvoudige wortels van de kansdichtheidsfunctie f X (x) naar f Y (x 3 ) Kwadratische transformatie met dubbele wortels van de kansdichtheidsfunctie f X (x) naar f Y (x ) dimensionale kansdichtheidsfunctie f Z (x, y) (Normaal verdeling) dimensionale verdelingsfunctie F Z (x, y) (Normaal verdeling) Voorbeeld van onafhankelijke stochastische grootheden Voorbeeld van lineair afhankelijke stochastische grootheden Voorbeeld van niet-lineair afhankelijke stochastische grootheden De integratiegrenzen voor het oppervlak u + v Weergeven van de individuele termen in de convolutie voor de som van (eerlijke) worpen van een dobbelsteen De finale kansverdeling voor de som van (eerlijke) worpen van een dobbelsteen De kansdichtheidsfuncties van de som van of meerdere uniforme distributies en de (asymptotische) normaal verdeling Mediaan van een (symmetrische) normaal verdeling N (.) weergegeven op f X (x) en F X (x)

7 LĲST VAN FIGUREN 6. Mediaan van een (asymmetrische) χ -verdeling met vrijheidsgraden (χ ()) weergegeven op f X (x) en F X (x) Modus van een (symmetrische) normaal verdeling N (.) weergegeven op f X (x) en F X (x) Modus van een (asymmetrische) χ -verdeling met vrijheidsgraden (χ ()) weergegeven op f X (x) en F X (x) Stochastische variabelen met verschillende correlaties Binomiaal verdeling voor n = (gegenereerd via de Matlab instructie binopdf) Voorbeeld van hypergeometrische verdeling H (4, 4p, ) (donker), evenals de binomiaal verdeling B (, p) (lichte kleur) Voorbeeld van hypergeometrische verdeling H (, p, ) (donker), evenals de binomiaal verdeling B (, p) (lichte kleur) Voorbeeld van geometrische verdeling Voorbeeld van een Poisson kansdichtheidsfunctie: λt =.,, Vergelijking van kansdichtheidsfunctie voor binomiaal, Poisson en normaal verdeling De kansdichtheidsfunctie en de verdeling van de uniforme verdeling in het interval (, ) De kansdichtheidsfunctie en de verdeling van de standaardnormale verdeling N (, ) De kansdichtheidsfuncties van de som van of meerdere uniforme distributies en de (asymptotische) normale verdeling Voorbeeld van 95% betrouwbaarheidsinterval voor N (, ) Betrouwbaarheidsinterval met betrouwbaarheid α voor standaardnormale verdeling De kansdichtheidsfunctie van X n voor n =,,, voor een standaardnormaal verdeling X i N (, ) De χ n kansdichtheidsfunctie voor n =, 4, 8, 6, 3, evenals de asymptotische N (3, 8) verdeling Voorbeeld van 95% betrouwbaarheidsinterval voor χ Grenzen van het 95% betrouwbaarheidsinterval voor S n/σ in functie van het aantal metingen n. De figuur bovenaan toont de χ n n verdeling die overeenstemt met n =. De figuur onderaan toont hoe de grenzen (volgens de n-wet) naar elkaar toe convergeren Kansverdelingsfunctie van de t n verdeling voor n =, 8, 3, en de asymptotisch normaal verdeling N (, ) Voorbeeld van 95% betrouwbaarheidsinterval voor t De kansdichtheidsfunctie van de exponentiële verdeling voor verschillende λ De kansdichtheidsfunctie van de exponentiële en de geometrisch verdelingsfunctie Illustratie van de aanvaardingsgebieden van de tweezijdige toets (boven) en de eenzijdige toetsen voor de z-toets voor α = 5%.. 9 6

8 LĲST VAN FIGUREN. Illustratie van de aanvaardingsgebieden van de tweezijdige toets (boven) en de eenzijdige toetsen voor de χ -toets met α = 5%. 3. De resultaten van de verschillende voorgestelde schatters in functie van het aantal observaties n De kansdichtheidsfunctie van de verschillende schatters voor n =,, De standaardafwijking van de verschillende schatters in functie van het aantal observaties n

9 Hoofdstuk Inleiding: kansrekening versus statistiek In dit hoofdstuk belichten we heel bondig de twee onderwerpen van deze cursus: kansrekening enerzijds, statistiek anderzijds. Vervolgens bespreken we de doelstellingen van deze cursus.. Wat is kansrekening? Kansrekening (ook gekend onder waarschijnlijkheidsrekening) is een wiskundige discipline waarbij men een abstract kanstheoretisch model opstelt om onder meer kansen te berekenen en te bestuderen. Hierbij vertrekt men van een aantal basis axioma s waaruit men via deductie conclusies afleidt. Voorbeelden Wat is de kans om te gooien met een eerlijke dobbelsteen? De kans van iedere mogelijke uitkomst (,,,,, ) is even waarschijnlijk. Dit zullen we later aangeven door een We zullen later spreken van een uniforme kansverdeling. Wat is de kans om te gooien als voordien gegooid werd (met een eerlijke dobbelstenen)? Dit is dus de kansen om te gooien met de ene dobbelsteen onder voorwaarde dat de worp daarvoor is. Er is dus sprake van een kans met een voorwaarde (later ingevoerd als voorwaardelijke kans). Gezien het hier om eerlijke dobbelstenen gaat zal het resultaat van de eerste worp Deductie (Van Dale): redenering waarbij men uitgaande van het meer algemene besluit tot het bijzondere (afgeleide waarheid) 8

10 HOOFDSTUK. INLEIDING: KANSREKENING VERSUS STATISTIEK niet afhangen van de tweede worp. We zullen daarom later spreken van onafhankelijke gebeurtenissen. Wat is de kans om met een paar eerlijke dobbelstenen? We eten dat de volgorde ( of ) onbelangrijk is als we met een paar dobbelstenen gooien. We bestuderen dus de kans dat het volgende zich voordoet: ( en ) of ( en ). Dit gaan we aanpakken door rekenregels op te stellen van begrippen uit de verzamelingenleer (unie, doorsnede, complement,...). Wat is de kans om keer te gooien na 5 pogingen met een eerlijke dobbelsteen? Gezien we steeds de dobbelsteen terugnemen en terug op een onafhankelijke wijze gooien beïnvloed de ene poging de daaropvolgende niet. Gezien de verzameling van mogelijk uitkomsten niet wijzigt zullen we spreken van een trekking met teruglegging. Wat is de kans om examenvragen en te trekken uit 6 vooropgestelde vragen? Na het trekken van de eerste vraag is die niet meer beschikbaar als uitkomst. We zullen dan spreken over een trekking zonder teruglegging. Wat is de kans om bij een herexamens dezelfde vraag te trekken? Dit hangt af of het gaat om een onafhankelijk herexamen, of wordt bijvoorbeeld de vraag uit het voorgaande niet meer gesteld (of juist wel)? Dit is opnieuw een kans die bepaald wordt door een voorwaarde (een voorwaardelijke kans dus). Wat is de slaagkans van een student berekend aan de hand van de resultaten van de ijkingsproeven? Uit het verleden kennen we de resultaten van de ijkingsproef voor geslaagde en niet geslaagde studenten. We zijn nu geintresseerd in de omgekeerde vraagstelling: wat is het slaagkans voor een student met een geven resultaat op de ijkingsproef. Hiervoor zal de regel van Bayes afgeleid worden. Voorbeelden uit de praktijk Genetica: Wat is de kans dat een persoon blauwe ogen heeft indien de ouders beiden blauwe ogen hebben? Yield van productielijn: Wat is de kans op falen van een systeem (bijvoorbeeld de processor van je PC) indien je de kans tot falen van iedere 9

11 HOOFDSTUK. INLEIDING: KANSREKENING VERSUS STATISTIEK component kent (bijvoorbeeld de kans op het falen van een transistor door een productiefout)? Detectoren: Wat is de kans dat de detectoren een (nieuw) fysisch fenomeen detecteren (bijvoorbeeld de Large Hadron Collider in het CERN) indien 4 van de 5 detectoren (elk met een zekere kans) het fenomeen opmeten?= Klantentevredenheid: Wat is de kans dat in een lot van geproduceerde systemen er zeker 997 goede bij zijn, als de kans op een faling van product.% is?. Wat is statistiek? Statistiek is de wetenschap van de gegevens. Hierbij worden kanstheoretische modelen gebruikt om deze gegevens (= waarnemingen, meetingen) te verwerken. Statistiek wordt gebruikt in de hele waaier van gegevensverwerking, gaande van het het verzamelen, het klassificeren en samenvatten, het analyseren en interpreteren van de data. Voorbeelden Kanstheoretisch model eerlijke dobbelsteen onafhankelijk en uniform verdeeld P ( ) = P ( ) = P ( ) = P ( ) = P ( ) = P ( ) = /6 Verzamelen van data: bijvoorbeeld worpen met een eerlijke dobbelsteen geeft 4 keer Iedere worp een willekeurige realisatie onzekerheid op de meeting! Voor deze steekproef: P ( ) = 4 / Wat is de onzekerheid op deze steekproef? Hoe daalt de onzekerheid ( n-regel)? Meer worpen nodig om eerlijkheid dobbelsteen aan te tonen? Klassificeren en samenvatten van de gegevens van de eerlijke dobbelsteen

12 HOOFDSTUK. INLEIDING: KANSREKENING VERSUS STATISTIEK Hoe parameters kansverdeling bepalen zoals bv het gemiddelde? Merk op dat iedere iedere afgeleide parameter/functie opnieuw een stochastisch karakter heeft! Gebruik van beschrijvende statistiek Wat is de kansverdeling voor een eerlijke dobbelsteen? Di is in dit geval een standaard uniforme discrete verdeling. Analyseren en interpreteren van de gegevens van de eerlijke dobbelsteen Hoe kan men bepalen of een dobbelsteen eerlijk is? Testen van de hypothese van een uitspraak al dan niet waar is hypothese testen. Deze uitspraak wordt steeds gedaan voor een gespecificeerde (on)zekerheid, bijvoorbeeld met 9% kans is het een eerlijke dobbelsteen. Statistiek bij examens Hoe kunnen we nagaan of opeenvolgende examens onafhankelijk zijn? De examentijd wordt gereduceerd van uur naar 5 minuten. Hoeveel neemt de onzekerheid toe op de punten? ( n regel) Hoe kunnen we bepalen of twee professoren even streng zijn bij de quotering van de examens? Hoeveel studenten moeten ze gezamenlijk ondervragen om deze vraag (met een gevraagde kans) te beantwoorden? Voorbeelden uit de praktijk Yield van productielijn: Hoe kan je de verdeling van de performantie bepalen als je de statistiek van alle sub-systemen kent? Het bepalen van die verdeling maakt gebruik van de propagatie van statistische eigenschappen doorheen functies. Hoeveel metingen moeten uitgevoerd worden opdat de toevallige fouten op de gemiddelde waarde kleiner dan % zouden zijn? Wat is de kwaliteit van een communicatieverbinding? Kan ik uit een beperkt aantal metingen de verbinding karakteriseren en vervolgens voorspellen wat de kans is dat een pakket foutief doorgestuurd wordt? (Monte-Carlo analyse) Hoe lang moet een databuffer / wachtrij zijn om data pakketten / klanten met een gegeven kans te verliezen? Wat is de gemiddelde hoeveelheid data / vertraging / klanten in de wachtrij?

13 HOOFDSTUK. INLEIDING: KANSREKENING VERSUS STATISTIEK Zijn de geconstateerde leukemiegevallen in de dorpen rond een industrieterrein te wijten aan toevallige (overal voorkomende) oorzaken, of is er daar sprake van een statistisch significant groter risico op deze ziekte? Met welke kans kan je zeggen dat dit het geval is, en met welke kans kan je je vergissen?.3 Doelstelling van deze cursus De statistische analyse vereist een grondige kennis van de kansrekening. Betrouwbaarheidsintervallen, hypothesetoetsen, vergelijkingstoetsen, onafhankelijkheidstoetsen, enz. kunnen niet bepaald worden zonder beroep te doen op het begrip waarschijnlijkheid of kans. In deze cursus worden beide aspecten (kansrekening en statistiek) bestudeerd. In een eerste deel worden voornamelijk de theoretische modellen opgesteld (waarschijnlijkheidsleer). In het tweede deel gaan we na hoe we deze modellen kunnen combineren met waarnemingen en daaruit de kans van een gegeven gebeurtenis kunnen bepalen.

14 Hoofdstuk Kansrekening en combinatoriek In dit hoofdstuk beschouwen we kansrekening om zo toevalsverschijnselen te beschrijven. Hiertoe wordt eerst een kansmodel ingevoerd, en vervolgens worden de individuele componenten ervan in meer detail bestudeerd. De volgende begrippen worden geïntroduceerd: toevalsverschijnsel, kansmodel, uitkomstenruimte, kans: axiomatische definitie en basiseigenschappen, voorwaardelijke kans, (on)afhankelijke gebeurtenissen, regel van Bayes.. Inleiding Dat sommige dingen toevallig zijn is een waargenomen feit. De uitkomst van het opgooien van een muntstuk, het tijdsinterval tussen de emissies van deeltjes door een radioactieve bron, het geslacht van een baby, de uitslag bij herhaalde metingen zijn allemaal onvoorspelbaar. Voor veel van deze gebeurtenissen hebben we een intuïtief begrip van kans: We weten dat de kans om een of te gooien met een dobbelsteen kleiner is dan de kans om een,, te gooien. 3

15 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Als we in een wagen stappen gaan we ervan uit dat de kans op een ongeluk aanvaardbaar klein is. Met een oogopslag beslissen we of er een grote kans op regen is, en of we al dan niet een paraplu meenemen. Deze intuïtieve kanservaring moet echter geformaliseerd worden alvorens ze als basisbegrip gebruikt kan worden in een wiskundige theorie. Hiertoe moeten we een kansruimte (Ω, A, P) invoeren. Een kansmodel voor een toevalsverschijnsel bestaat uit een kansruimte (Ω, A, P) met een uitkomstenruimte die de mogelijke uitkomsten bevat, Ω, een collectie van alle mogelijke gebeurtenissen, A, een kansfunctie die aan elke gebeurtenis A A een getal P (A) [, ] als kans toekent.. Toevalsverschijnsel Definitie..: Toevalsverschijnsel We noemen een verschijnsel een toevalsverschijnsel als de individuele uitkomsten onzeker zijn, maar dat er niettemin een regelmatige verdeling van de uitkomsten bestaat bij een groot aantal herhalingen. Bijvoorbeeld: als we een dobbelsteen eenmaal opgooien kunnen we niet voorspellen wat het resultaat zal zijn. Als we echter 6 maal een eerlijke dobbelsteen gooien, dan zal er ongeveer maal een gegooied worden. Ondanks het feit dat we de individuele uitslagen niet kunnen voorspellen, kunnen we heel wat zeggen over het gedrag van een groot aantal experimenten. Een toevalsverschijnsel wordt omschreven door zijn mogelijke uitkomsten. Definitie..: Uitkomstenruimte (Ω) De uitkomstenruimte Ω is de verzameling van uitkomsten of elementaire gebeurtenissen (steekproefruimte of uitkomstenruimte genoemd). We zijn niet altijd geïnteresseerd in dergelijke elementaire gebeurtenissen. Dikwijls willen we meer complexe situaties bestuderen. Daarin worden een aantal elementaire gebeurtenissen samengevoegd. Definitie..3: Gebeurtenis (A) Een gebeurtenis A is een deelverzameling van Ω waarvan de kans bestudeerd wordt (A Ω). 4

16 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Vervolgens voeren we de collectie van alle mogelijke gebeurtenissen in: Axioma..: Collectie van alle mogelijke gebeurtenissen (A). en Ω zijn gebeurtenissen: A en Ω A. Als A een gebeurtenis is, dan is ook zijn complement een gebeurtenis: A A A c = Ω \ A A, (.) 3. A en B gebeurtenissen, dan zijn A B en A B ook gebeurtenissen A, B A A B A (.) A B A (.3) Voorbeeld..: Bij het werpen met een dobbelsteen is de uitkomstruimte Ω = {,,,,, }. Een gebeurtenis A is bijvoorbeeld het gooien van een, dan is A = { }. Gebeurtenis B is bijvoorbeeld een even worp B = {,, }..3 De axiomatische definitie van de kans Om het toevalsverschijnsel volledig te karakteriseren moeten we niet enkel alle mogelijke uitkomsten kennen (de uitkomstenruimte Ω), maar ook de kans op elk van deze uitkomsten. Definitie.3.: Voor iedere gebeurtenis A bestaat er een kans(functie) P (A) die de kans geeft op het realiseren van deze gebeurtenis. Voorbeeld: Voor een eerlijke dobbelsteen geeft ons intuïtief kansbegrip aan dat P (A = { }) = /6. In deze cursus definiëren we het kansbegrip met behulp van 3 axioma s. Al de andere eigenschappen worden hieruit afgeleid. Kansfunctie P van A Axioma.3.: Een kans is begrepen tussen (gebeurtenis gebeurt nooit) en (gebeurtenis gebeurt altijd): P (A) voor alle A A 5

17 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Axioma.3.: De ledige verzameling heeft kans : P ( ) = De volledige uitkomstenruimte heeft kans : P (Ω) = Axioma.3.3: A, B A en A B = P (A B) = P (A) + P (B) Merk op dat A B = betekent dat de gebeurtenissen A en B niet gelijktijdig kunnen plaatsgrijpen. Voorbeeld.3.: Bij een worp met een dobbelsteen is de verzameling uitkomsten Ω = {,,,,, } en de kans op een elementaire gebeurtenis wordt gelijk gesteld aan /6. Dat kunnen we met behulp van Axioma s terugvinden. P (Ω) = P (,,,,, ) = P ( ) + P ( ) + P ( ) + P ( ) + P ( ) + P ( ) = 6 P ( ) = Opmerking: Als Ω oneindig veel elementen bevat dienen de bovenvermelde axioma s uitgebreid te worden. Dit kan zonder veel problemen voor aftelbare verzamelingen (bv. de verzameling der natuurlijke getallen), maar dient met de nodige omzichtigheid te gebeuren voor continue verzamelingen (bv. de verzameling der reële getallen). Uit de bovenvermelde axioma s volgen de volgende eigenschappen: Eigenschap.3.: Complementregel P (A) + P (A c ) = P (Ω) = en P (A B) + P (A B c ) = P (A) Dit volgt rechtstreeks uit de definities van A, A c, Ω en de axioma s. De laatste betrekking volgt uit het feit dat A = A (B B c ) = (A B) (A B c ) en dat (A B) (A B c ) = gezien B B c =. Eigenschap.3.: Somregel P (A B) = P (A) + P (B) P (A B) Dit volgt rechtstreeks uit de relatie dat A B opgebouwd kan worden uit 3 niet gelijktijdig plaatsgrijpende gebeurtenissen: A B c, A c B, en A B. 6

18 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Gebruikmakende van de axioma s en de complementregel bekomen we dan P (A B) = P (A B c ) + P (A B) + P (A B) + P (A c B) P (A B) = P (A) + P (B) P (A B) Eigenschappen die nuttig kunnen zijn uit de verzamelingenleer. Eigenschap.3.3: De Morgan (A B) c = (A c B c ) (A B) = (A c B c ) c (A B) c = (A c B c ) (A B) = (A c B c ) c (A\B) = (A B c ) Voorbeeld.3.: Neem als uitkomstenruimte Ω de ruimte van de reële getallen Ω =R. Beschouw de gebeurtenis dat een getal X voldoet aan a < X b. Gebruikmakende van De Morgan, (A B) = (A c B c ) c, kan de kans voor deze gebeurtenis geschreven worden als P (a < X X b) = P (a X X > b) Gebruikmakende van de som regel en het feit dat P (A B) = met gebeurtenis A: a X en gebeurtenis B: X > b indien a < b bekomen we P (a < X X b) = (P (a X) + P (X > b)) Gebruikmakende van de complement regel wordt Bijgevolg bekomen we P (X > b) = P (X b) P (a < X b) = P (X b) P (X a) Deze uitdrukking heeft het grote voordeel dat ze nu beschreven wordt aan de hand van de cumulatieve verdelingsfunctie F X (a) = P (X a) dewelke later in 7

19 HOOFDSTUK. KANSREKENING EN COMBINATORIEK de cursus ingevoerd zal worden..4 Voorwaardelijke kans Onderstel dat men de kans analyseert dat een laatstejaars humaniora leerling kiest voor de opleiding burgerlijk ingenieur. groep leerlingen zal deze kans verschillend zijn:. Alle leerlingen die afstuderen in het middelbaar. Afhankelijk van de beschouwde. Alle leerlingen die afstuderen in het middelbaar en minstens 6 uur wiskunde kregen per week. 3. Alle meisjes die afstuderen in het middelbaar. 4. Alle jongens die afstuderen in het middelbaar. Een dergelijke voorkennis wordt binnen de kansrekening geformaliseerd met het begrip voorwaardelijke kans. Hierin gaat men na wat de kans is op gebeurtenis A, indien men weet dat gebeurtenis B zich heeft voorgedaan. Dit wordt voorgesteld door en wordt voorgesteld door P (A B) en leest men als: de kans op A onder voorwaarde B. Deze voorwaardelijk kans kan als volgt uitgedrukt worden P (A B) = P (A B). (.4) P (B) Een redenering is dat om zowel aan A als aan B te voldoen P (A B), we eerst er voor zorgen dat gebeurtenis B zich voltrek (P (B)) en vervolgens de gebeurtenis A te beschouwen (wetende dat B zich al voltrokken geeft: P (A B)). Bijgevolg is P (A B) = P (A B) P (B) = P (B A) P (A) Het gebruik van voorwaardelijke kansen laat toe om heel complexe problemen op te splitsen in een serie van (meer) eenvoudige problemen. Voorbeeld.4.: We werpen met twee dobbelstenen. Wat is de kans op een even aantal ogen als één van beide dobbelstenen een toont? Oplossing 8

20 HOOFDSTUK. KANSREKENING EN COMBINATORIEK. Het totaal aantal mogelijk uitslagen bij het gooien van dobbelstenen is 6 6 = 36. Definieer de volgende gebeurtenissen A: een even aantal ogen B: minstens één van de dobbelstenen toont een.. De kans op A: De kans voor een even aantal ogen is gelijk aan een oneven aantal ogen: P (A) = =. 3. De kans op B? Dus P (B) = 36. P (één van beide dobbelstenen toont een ) = ({ }),,,,, P,,,, 4. Wat is de kans op gebeurtenis A B? P (A B) = P ({,,,, }) = Hieruit volgt onmiddellijk de volgende voorwaardelijke waarschijnlijkheden P (A B) = P (A B) P (B) = 5/36 /36 = 5.5 Onafhankelijke gebeurtenissen In het vorige voorbeeld hebben we gezien dat het antwoord op de vraag Wat is de kans op een even worp afhangt van het feit dat men vooraf weet dat van beide dobbelstenen een vertoont. De kans op gebeurtenis A hangt dus af van de gebeurtenis B. Indien dit niet het geval is spreekt men van onafhankelijke gebeurtenissen. Dus, indien P (A B) = P (A B) P (B) = P (A) (dit is de eis die we stellen), (.5) dan hebben we onmiddellijk als resultaat: P (A B) = P (A) P (B). Dit zullen we als formele definitie gebruiken. Definitie.5.: Onafhankelijke gebeurtenissen A en B zijn onafhankelijk P (A B) = P (A) P (B). Deze definitie kan uitgebreid worden tot N gebeurtenissen. 9

21 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Definitie.5.: Onafhankelijke gebeurtenissen De gebeurtenissen A, A,..., A N zijn onafhankelijk indien geldt dat P (A i A i A i3... A in ) = P (A i ) (.6) voor elke mogelijke keuze van de indices i j onder {,..., N} (alle i j verschillend!). Een gevolg is de volgende eigenschap: Eigenschap.5.: Productregel Indien de gebeurtenissen A, A,..., A N onafhankelijk zijn, dan heeft men: P (A A A N ) = P (A ) P (A )... P (A N ) (.7) Indien men kan stellen dat gebeurtenissen onafhankelijk zijn kan men het oplossen van het probleem sterk vereenvoudigen omdat men een ingewikkeld probleem opsplitst in een set van vereenvoudigde problemen. Voorbeeld.5.: Repeaters trans-atlantische telefoonkabel Beschouw een trans-atlantische telefoonkabel die bv. repeaters bevat op regelmatige afstanden om het signaal te herstellen en te versterken. De lijn werkt slechts indien geen enkel van deze repeaters defect is. Stel dat de kans op een defect over een periode van jaar. is, wat is dan de kans dat deze lijn zonder defect werkt gedurende jaar? Om het antwoord te berekenen is het eenvoudiger om de complementaire gebeurtenissen te beschouwen: de kans voor repeater om correct te werken gedurende jaar is.999. Indien we onderstellen dat de defecten bij de verschillende repeaters los van elkaar voorkomen (onafhankelijke gebeurtenissen) kunnen we (.7) gebruiken: P (geen defect op de lijn) = P (alle repeaters werken) (.8) = (P ( repeater werkt)) (.9) Dit resulteert in de volgende betrouwbaarheid als functie van de kans op een defect: zoals gegeven in Tabel. Dit toont duidelijk dat voor complexe systemen met een groot aantal individuele componenten men extreem hoge betrouwbaarheidseisen moet stellen aan elke individuele component opdat het geheel betrouwbaar zou zijn.

22 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Tabel.: Kans op een correct werkende transmissielijn. kans defect repeater kans correcte repeater kans correcte lijn [Aantal fouten op een hard disk] Voorbeeld.5.: De specificatie van een hard disk geeft weer hoeveel leesfouten er (statistisch gezien) te verwachten zijn: bijvoorbeeld leesfout per 4 bits P (bit error) = 4. Voor een 8TB hard disk (die dus N = 64 bits bevat) kunnen we nu de kans op een foutloze hard disk afschatten indien we kunnen onderstellen dat de fouten onafhankelijk zijn: P (foutloze HD) = P (alle bits correct) = (P (bit correct)) N = ( P (bit error)) N N P (bit error) =.36 Voorbeeld.5.3: Yield enkele transistor in een microcoprocessor De yield bij de productie microprocessoren wordt gedefingeerd als de kans op een werkende processor. De yield moet bijgevolg gemaximaliseerd worden. Indien een processor N = 9 transistoren telt (bijvoorbeeld een Intel i7 processor) en indien de gewenste yield 9% is, dan kan men de vraag stellen wat de kans is op een fout in transistor indien we onderstellen dat alle fouten onafhankelijke zijn. De vraag is dus: wat is de yield van transistor = P (fout in transistor)? P (foutloze micro processor) = P (alle transistoren correct) = (P (transistor correct)) N = ( P (fout in transistor)) N N P (fout in transistor) =.9 P (fout in transistor) =

23 HOOFDSTUK. KANSREKENING EN COMBINATORIEK.6 Regel van Bayes In sommige gevallen wenst men de voorwaardelijke kansen om te draaien, met andere woorden, kunnen we P (A B) berekenen vanaf P (B A)? Het antwoord op deze vraag wordt gegeven door de regel van Bayes. Definitie.6.: Regel van Bayes P (A B) = P (B A) P (A) P (B) (.) Dit resultaat volg onmiddellijk vanuit de gelijkheden: P (A B) = P (A B) P (B) en P (B A) = P (B A) P (A) Het is nu ook nog mogelijk om P (B) uit te drukken aan de hand van de (beschikbare) voorwaardelijke kansen P (B A) en P (B A c ). P (B) = P (B Ω) = P (B (A A c )) = P ((B A) (B A c )) = P (B A) + P (B A c ) = P (B A) P (A) + P (B A c ) P (A c ) Substitutie in (.) resulteert uiteindelijk in het volgende resultaat: P (A B) = Voorbeeld.6.: Bevolkingsonderzoek P (B A) P (A) P (B A) P (A) + P (B A c ) P (A c ). (.) Met de toenemende mogelijkheden van de medische diagnose-technieken keert herhaaldelijk de discussie terug of het houden van een globaal bevolkingsonderzoek, bv. naar baarmoederhalskanker, naar seropositiviteit,..., nuttig, kosteneffectief en/of sociaal aanvaardbaar is. Beschouw een test naar een infectie met de volgende betrouwbaarheid: P (positieve test geïnfecteerd) =.999: dit is de een correcte test P (positieve test niet geïnfecteerd) =.: dit is een vals alarm Indien men weet uit voorafgaande screenings dat.% van de bevolking geïnfecteerd is, kan men zich de vraag stellen welk percentage van de positieve testen te wijten is aan een vals alarm, m.a.w. hoeveel mensen gaat men nodeloos ongerust maken t.o.v. het aantal juiste diagnoses?

24 HOOFDSTUK. KANSREKENING EN COMBINATORIEK Antwoord:. Definieer: gebeurtenis A: niet geïnfecteerd, gebeurtenis B: positieve test. Dan wordt P (B A c ) =.999 P (B A) =. P (A c ) =. P (A) = P (A c ). De kans dat men niet geïnfecteerd is (A), terwijl er toch een positieve test is (B): P (B A) P (A) P (A B) = P (B A) P (A) + P (B A c ) P (A c ) P (B A) ( P (A c )) = P (B A) ( P (A c )) + P (B A c ) P (A c ). (.) =. (.) Ook de kans op een positieve test kan bepaald worden: P (B) = P (B A) P (A) + P (B A c ) P (A c ) =. (.) Besluit: het merendeel van de positieve testen bij een volledige screening van de bevolking is dus een vals alarm. Voorbeeld.6.: Bevolkingsonderzoek (vervolg) Wat is de kans dat men geïnfecteerd is terwijl de test negatief is (de ziekte wordt niet gedetecteerd)? Bepaal P (A c B c )? Antwoord: P (A c B c P (B c A c ) P (A c ) ) = P (B c A) P (A) + P (B c A c ) P (A c ) ( P (B A c )) P (A c ) = ( P (B A))( P (A c )) + ( P (B A c )) P (A c ) (.999). = (.) (.) + (.999). 6 3

25 HOOFDSTUK. KANSREKENING EN COMBINATORIEK.7 Telprincipes en combinatoriek.7. Fundamenteel telprincipe (productregel) Als een eerste procedure op n verschillende manieren kan worden uitgevoerd, en vervolgens een tweede procedure op n verschillende manieren en vervolgens een derde procedure op n 3 verschillende manieren, enzovoort, dan is het aantal manieren dat de procedures kunnen uitgevoerd worden in bovenstaande volgorde n n n 3... Voorbeeld.7.: Een eerste boekenkast bevat m boeken, een tweede boekenkast bevat n boeken. Op hoeveel verschillende manieren kan je boek uit elke kast kiezen? Voorbeeld.7.: Op hoeveel verschillende manieren kan je een nummerplaat maken die bestaat uit 3 letters gevolgd door 3 cijfers?.7. Variaties Het aantal manieren om m objecten uit in totaal n verschillende objecten te rangschikken (d.w.z. de volgorde van het resultaat is belangrijk) is V n m = n! (n m)! Voorbeeld.7.3: Hoeveel pincodes bestaande uit 4 verschillende cijfers kan je maken?.7.3 Permutaties Speciaal geval van variaties met m = n. Het aantal manieren om alle n verschillende objecten te rangschikken is V n n = n! = n (n )... Voorbeeld.7.4: Op hoeveel verschillende manieren kan een kaartspel geschud worden?.7.4 Herhalingspermutaties (anagrammen) Het aantal manieren om n niet allemaal verschillende objecten, bestaande uit een groepje p identieke objecten plus een groepje q identieke objecten plus..., 4

26 HOOFDSTUK. KANSREKENING EN COMBINATORIEK te rangschikken is Merk op: p + q r = n. Voorbeeld.7.5: P n p,q,...,r = n! p!q!... r! In hoeveel volgordes kan je 6 ballen, bestaande uit rode, 3 groene en blauwe, leggen?.7.5 Combinaties Het aantal manieren om m objecten uit in totaal n objecten te selecteren (d.w.z. de volgorde van het resultaat is onbelangrijk) is Merk op: Cm n = Cn m n = ( ) n n m Voorbeeld.7.6: C n m = V n m m! = n! m!(n m)! = ( ) n m Op hoeveel manieren kan je werkgroepjes van personen vormen in een klas met 7 leerlingen? 5

27 Hoofdstuk 3 Beschrijvende statistiek In dit hoofdstuk gaan we bestuderen hoe we een grote hoeveelheid ruwe gegevens (data) kunnen herschikken om een betere toegang te krijgen tot de informatie die erin vervat zit. Vervolgens gaan we een aantal belangrijke grootheden introduceren (kentallen) die de verdeling van de data samenbalt in een paar getallen. De volgende begrippen worden geïntroduceerd: Steekproef, ruwe gegevens, histogram, indeling in klassen, klassenbreedte, empirische verdelingsfunctie, gemiddelde, mediaan, modus, empirische variantie, standaardafwijking, mediane absolute afwijking. 3. Inleiding In de beschrijvende statistiek moet men in heel wat gevallen grote hoeveelheden ruwe data verwerken. Deze data kunnen het resultaat zijn van een steekproef (een test op een beperkte deelgroep die men als representatief beschouwt voor de ganse groep), of ze kunnen bekomen zijn door de gegevens van een welomschreven groep te verzamelen (b.v. de resultaten van de studenten in de eerste bachelor IR voor het tentamen scheikunde). Omdat dergelijke grote hoeveelheden getallen weinig overzichtelijk zijn willen we ze enerzijds beter presenteren door ze te ordenen en de resultaten grafisch voor te stellen (bv. het histogram), anderzijds kunnen we een aantal belangrijke karakteristieken van deze getallen samenballen in een beperkt aantal kentallen zoals hun gemiddelde of mediaan en hun spreiding. 6

28 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK In een allereerste stap moeten we eerst echter de begrippen ganse groep en beperkte deelgroep preciseren. Definitie 3..: Populatie De populatie is de gehele groep (objecten/personen) waarover informatie gewenst wordt. Definitie 3..: Steekproef Een steekproef is een gedeelte van de populatie waarvan informatie verzameld wordt. Merk op dat de populatie gedefinieerd wordt in termen van ons verlangen naar kennis. Als we conclusies willen trekken over alle studenten aan de universiteiten in België, dan is die groep onze populatie. De steekproef is het gedeelte studenten dat werd ondervraagd, en waaruit we conclusies trekken over het geheel. Het is duidelijk dat een steekproef voorzichtig moet worden uitgevoerd. Een slecht ontworpen steekproefprocedé kan misleidende resultaten geven: bv. men selecteert systematisch enkel de goede studenten. Meestal is men niet geïnteresseerd in de individuele metingen, maar wenst men enkel een aantal globale karakteristieken eruit te destilleren: bv. welke quotering komt het meeste voor? Daartoe is het wenselijk om de ruwe gegevens op een meer verfijnde manier voor te stellen. Dit wordt in Sectie 3. uiteengezet aan de hand van een voorbeeld. 3. Presentatie van de ruwe gegevens In Tabel 3. worden de resultaten gegeven van 45 studenten op het tentamen scheikunde. 7

29 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK Tabel 3.: Quotering van 45 studenten voor het tentamen scheikunde, niet gesorteerd. Erg veel informatie geeft zo n tabel van ruwe gegevens niet. Het is uit deze tabel moeilijk af te lezen wat de meestvoorkomende quotering is, waar de uitersten liggen,... Dezelfde gegevens maar nu gesorteerd op grootte zoals in Tabel 3. geven veel meer informatie. We zien onmiddellijk dat alle metingen in het interval [3., 8.5] liggen. De waarden rond 3 tot 5 komen het meeste voor Tabel 3.: Quotering van 45 studenten voor het tentamen scheikunde, gesorteerd. Voor een nog beter overzicht is het beter de gegevens in een aantal klassen (meestal 5 tot 3) in te delen. Hiertoe kiezen we een klassenbreedte, bv., we verdelen het relevante interval in halfopen deelintervallen van deze lengte, 8

30 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK bv. [3., 4.[, enz., en we tellen de frequenties (dit is het aantal keren dat een meting in een bepaald deelinterval valt). De ruwe gegevens werden op deze wijze verwerkt in Tabel 3.3. Het is duidelijk dat deze voorstelling toelaat om de verdeling van de resultaten veel sneller af te lezen. Tabel 3.3: Voorstelling van de resultaten, opgedeeld in klassen. Klasse Ondergrens ( ) Bovengrens (<) Frequentie Percentage Histogram In plaats van gebruik te maken van tabellen, kan de klassenindeling grafisch worden weergeven in een histogram. Op ieder deelinterval richten we een rechthoek op waarvan de oppervlakte evenredig is met de frequentie van de betreffende klasse. In Figuur 3. wordt het histogram getekend voor verschillende klassenbreedtes. Hieruit blijkt duidelijk dat de vorm van het histogram sterk afhangt van de keuze van de klassenbreedte. In de praktijk dient men het aantal klassen te kiezen in functie van het aantal metingen: hoe meer metingen, hoe kleiner men de klassenbreedte kan kiezen om een beter beeld te bekomen van de verdeling van de metingen. Indien men te weinig metingen heeft voor een gegeven aantal klassen wordt het beeld sterk verstoord door toevallige fluctuaties. 9

31 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK klassebreedte klassebreedte Figuur 3.: Histogram van de score van de studenten. Opgepast: de Matlab -definitie verschilt van deze gebuikt in de cursus (Matlab specificeert de centra van de klassen). 3.4 De empirische verdelingsfunctie Definitie 3.4.: Empirische verdelingsfunctie De empirische verdelingsfunctie F n (x) voor n metingen is F n (x) = # {x i x} n (3.) Een grafische voorstelling van deze functie laat de gebruiker onmiddellijk zien hoe zijn gegevens verdeeld zijn (hoeveel kleine waarden, hoeveel extreem grote waarden,...). In combinatie met het histogram levert dit opnieuw heel wat inzicht. De empirische verdelingsfunctie zal later worden aangevuld met de theoretische verdeling (zie Sectie 4.). In Figuur 3. is de empirische verdelingsfunctie getoond voor de data in Tabel 3.. Deze functie is een trapfunctie die in de punten x i een sprong maakt. Voor continue grootheden (bv. het gewicht van maand oude varkens; de dagelijkse neerslag gemeten op het kmi; de netspanning van het Belgische elektriciteitsnet) gaat deze verdelingsfunctie naar een continue functie convergeren. 3

32 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK P(x X) P(X5 x) Empirische verdelingsfunctie X Figuur 3.: De empirische verdelingsfunctie voor de score van de studenten op het tentamen chemie. Het opstellen van een dergelijke empirische verdelingsfunctie gebeurt veelal met een zogenaamde Monte-Carlosimulatie. Deze simulatietechniek stelt de empirische verdelingsfunktie op via groot aantal (n ) simulaties vanuit random (start)condities om zo het hele gebied van mogelijke uitkomsten te bepalen. Als voorbeeld beschouwen we in Figuur 3.3 de empirische verdeling van een eerlijke dobbelsteen bekomen met een Monte-Carlosimulatie met n = realisaties. Deze stochastiek van de bekomen resultaten komen op zich overeen met onafhankelijke trekkingen met teruglegging. We zullen deze verdeling later onder de loepe nemen onder de benaming Binomiaalverdeling x Figuur 3.3: De empirische verdelingsfunctie van een eerlijke dobbelsteen bekomen met een Monte-Carlo simulatie met n = realisaties. 3

33 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK 3.5 Kentallen van ligging: gemiddelde, mediaan, kwartielen en modus Soms willen we de gegevens nog sterker samenvatten dan in een histogram of een empirische verdelingsfunctie. Hiervoor gebruikt men meestal kentallen: één voor de ligging en één voor de spreiding. Het gemiddelde, mediaan en modus zijn veelgebruikte kengetallen voor de ligging; voor de schaal (de spreiding) worden de standaard afwijking en soms de mediane absolute afwijking gebruikt. Definitie 3.5.: Gemiddelde Het gemiddelde (steekproefgemiddelde) van de gegevens {x i }, i =,..., n is x = n Definitie 3.5.: Mediaan n x i. (3.) Beschouw de gesorteerde gegevens {x x... x n }. De mediaan is de middelste waarneming als n oneven is, en het gemiddelde van de twee middelste waarnemingen indien n even is: i= med = x n+ als n oneven, en med = x n + x n + als n even. (3.3) Definitie 3.5.3: Kwartiel Het eerste kwartiel Q is de mediaan van de waarnemingen kleiner dan de globale mediaan. Het derde kwartiel Q 3 is de mediaan van de waarnemingen groter dan de globale mediaan. Figuur 3.4 toont de positie van de mediaan en de kwartielen op de empirische verdelingsfunctie. Merk op dat P (x med) (per definitie) gelijk is aan.5. Deze kwartielen worden onder meer ook gebruikt voor de zogenaamde box plot dewelke, naast de mediaan en de kwartielen, ook de maximale waarden en eventuele uitschieters aangeeft. 3

34 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK verdelingsfunctie mediaan Q Q3 Kwartielen en mediaan P(x X) X Figuur 3.4: De empirische verdelingsfunctie met de mediaan en de kwartielen. Kwartielen en mediaan Boxplot X P(x X) Figuur 3.5: De empirische verdelingsfunctie met de mediaan en de kwartielen. Definitie 3.5.4: Modus De modus van een steekproef is de meest voorkomende waarneming. Figuur 3.6 toont de positie van de modus op het histogram. Merk op dat de modus niet eenduidig hoeft te zijn: verschillende waarnemingen kunnen evenveel voorkomen. 33

35 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK histogram modus histogram & modus X Figuur 3.6: Het histogram met de modus van de steekproef. In het voorbeeld is het gemiddelde x =.55, de mediaan med =, de modus is 3.5. Conclusie Het gemiddelde is eenvoudig te berekenen en heeft een aantal handige wiskundige eigenschappen zoals lineariteit. Dit wil concreet zeggen dat het gemiddelde van z i = ax i + by i gelijk is aan z = ax + by (voor a en b constant). Het gemiddelde is echter zeer gevoelig voor uitschieters. De mediaan daarentegen is het meest robuust, maar de gegevens moet wel eerst gesorteerd worden. 3.6 Kentallen van schaal Naast de ligging is het belangrijk om te weten hoever de metingen van deze ligging kunnen afwijken, met andere woorden, hoe sterk zijn de metingen gegroepeerd. Hiertoe gebruiken we de standaardafwijking en soms ook de mediane absolute afwijking. Definitie 3.6.: Standaardafwijking S n, variantie S n S n = S n met S n = n n i= (x i x). Figuur 3.7 toont de positie van het steekproefgemiddelde x en de grenzen van x S n en x+s n op de empirische verdelingsfunctie. Merk op dat het merendeel van de kansmassa ligt in het gebied van [x S n, x + S n ] met in dit voorbeeld S n = 3.5. Merk verder op dat P (x x) niet noodzakelijk overeenkomt met een kans van.5. 34

36 HOOFDSTUK 3. BESCHRIJVENDE STATISTIEK verdelingsfunctie gem gem. std gem.+std Gemiddelde+/ standaardafwijking P(x X) X Figuur 3.7: De empirische verdelingsfunctie met het steekproefgemiddelde x en de grenzen x S n en x + S n. Definitie 3.6.: Mean absolute deviation n n x i x, i =,..., n. i= Definitie 3.6.3: Mediane absolute deviation mediaan { x i med }, i =,..., n. 35

37 Hoofdstuk 4 Stochastische variabelen en hun kansverdeling In dit hoofdstuk gaan we een toevalsverschijnsel beschrijven door een variabele. Vervolgens gaan we het gedrag van die variabele beschrijven aan de hand van haar verdelingsfunctie. De volgende begrippen worden ingevoerd: stochastische variabele (discreet/continu) kansverdelingsfunctie en kansdichtheidsfunctie transformatie van variabelen 4. Stochastische variabele De uitkomstenruimten Ω bestaat niet noodzakelijk uit getallen. Men kan aan elk element van de steekproefruimte Ω echter wel een (reele) getalwaarde X toekennen: het aantal keren munt bij het opwerpen van een muntstuk, het (totaal) aantal ogen bij het werpen met dobbelstenen, de winst bij het kansspel, het lengte van personen in een bevolkingsonderzoek. Deze zogenaamde stochastische variabele X (ook kansvariabele genaamd) hecht dus een numerieke uitkomst aan een toevalsverschijnsel. De waarde van de stochastische variabele X varieert dus op een niet voorspelbare wijze varieert. 36

38 HOOFDSTUK 4. STOCHASTISCHE VARIABELEN EN HUN KANSVERDELING Bij een toenemend aantal experimenten zal het gemiddeld gedrag echter wel voorspelbaar gezien we toevalsverschijnselen beschouwen. Definitie 4..: Stochastische variabele De reële functie X van uitkomstenruimten Ω naar R is een stochastische variabele (of stochastiek of toevalsveranderlijke ) als deze afbeelding (Ω R) compatibel is met de structuur van de collectie van alle mogelijke gebeurtenissen A. Dit wil zeggen dat: voor ieder reëel getal x, kan een gebeurtenis gedefigneerd worden waar voor een uitkomst ω Ω geldt dat {ω Ω X(ω) x} A Ω De kansen op deze stochastische variabele worden dan gewoon defigneerd als de kans op deze gebeurtenis: P (X x) = P ({ω Ω X(ω) x}) Meestal interesseren we ons meer voor de getalwaarde X(ω) dan voor de elementen zelf ω van de onderliggende verzameling Ω. Vandaar dat we de verdeling wensen te kennen van de tochastische variabele. 4. Verdelingsfunctie 4.. Inleiding en definitie Een van de middelen om een stochastische variabele te beschrijven is de verdelingsfunctie die aangeeft hoe de kansmassa verdeeld is. Definitie 4..: Verdelingsfunctie Als X een stochastisch variabele is, dan heet de functie F X, met F X (x) = P (X x) (4.) de verdelingsfunctie van X (ook wel cumulatieve verdelingsfunctie genaamd, of in het Engels: cumulative distribution function of cdf). Merk op dat deze functie discreet of continue kan zijn. Voorbeeld 4..: F X voor een eerlijke dobbelsteen Ω = {,,,,, } (4.) = { oog, ogen,..., 6 ogen}, (4.3) 37

Nog meer weergeven