Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017
Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De wetenschapsstatistiek... 3 Statistische toepassingen in bedrijven... 3 Basiselementen van de statistiek... 3 Soorten gegevens... 3 Hoofdstuk 2: Beschrijven van gegevensverzamelingen... 4 Gegevens beschrijven... 4 Beschrijven met grafische methode... 4 Frequentietabel... 4 Histogram... 5 Sommatienotatie... 5 Beschrijving van het centrum... 5 Gemiddelde... 5 Mediaan... 5 Modus... 6 Beschrijving van de spreiding... 6 Bereik... 6 Steekproefvariantie... 6 Deviatiescore... 7 Standaardafwijking/ standaarddeviatie... 7 Betekenis van de standaardafwijking... 7 Hoeveel wijkt een waarneming af van de overige waarnemingen?... 8 Percentiel... 8 Maten van spreiding... 8 Kwartielen... 8 Interkwartielafstand... 8 Box-plots... 9 Maten van relatieve afwijking... 9 Z-score... 9 Samenvattende tabel... 9 1 V. V e r e l s t
Uitschieters opsporen... 10 Uitschieters... 10 Boxplots... 10 Z-scores... 10 Misleidende grafieken... 10 Hoofdstuk 3: Kansrekening... 11 Gebeurtenissen, uitkomstenruimten en kansen... 11 Verenigingen en doorsneden:... 12 Vereniging... 12 Doorsnede... 12 Complementaire gebeurtenissen... 12 De somregel en disjuncte gebeurtenissen... 12 Disjuncte gebeurtenissen... 12 Voorwaardelijke kans... 12 Productregel en onafhankelijke gebeurtenissen... 13 Productregel... 13 Kansboom... 13 Onafhankelijke gebeurtenissen... 13 Hoofdstuk 4: Discrete kansverdelingen... 14 Discrete stochastische variabelen... 14 Synthesematen van een stochastische variabele... 14 Discrete kansverdelingen: Binomiale verdeling... 15 Kenmerken... 15 Binomiaal kanshistogram:... 16 Eigenschappen... 17 Gebruik van de tabel Cumulatieve kansen... 17 Hoofdstuk 5: continue kansverdeling... 18 Soorten kansverdeling... 18 De normale verdeling... 18 Standaardnormale verdeling... 18 Het benaderen van een binomiale verdeling door een normale verdeling... 19 Hoofdstuk 6: Verdelingen van steekproefgrootheden... 20 Inleiding... 20 De verdeling van de steekproefgrootheid... 20 De centrale limietstelling... 20 2 V. V e r e l s t
Hoofdstuk 1: Statistiek, gegevens en statistisch denken De wetenschapsstatistiek Statistiek is de wetenschap van gegevens. Zij omvat het verzamelen, classificeren, samenvatten, organiseren, Statistische toepassingen in bedrijven Beschrijvende statistiek Verklarende statistiek Omschrijving - Voor verbanden te ontdekken - Voor schatten, nemen van beslissingen en het voorspellen Elementen -De populatie (of steekproef) -Een of meer variabele -Tabellen, grafieken, -Vermelding van de patronen die in de samenvatting naar voren komen -De populatie -Een of meer variabele -De steekproef -De conclusie over de populatie -Een betrouwbarheidsmaat voor de conclusie Basiselementen van de statistiek - Experimentele eenheid - Populatie - Variabele census - Steekproef - Statistische conclusie - Betrouwbaarheidsmaat Soorten gegevens Kwalitatief Nominaal Opsommen waarden, benoemen Man/vrouw Abonnee, geen abonnee Ordinaal Ordenen waarden Eens/oneens Goud/zilver/brons Intervalvariabele Verschillen interpreteerbaar, 13:00,14:00, gelijke intervallen Kwantitatief Ratiovariabele Verhoudingen, met absoluut nulpunt Kwantitatief is op een natuurlijk voorkomende numerieke schaal IQ, Temperatuur Leeftijd, inkomen, punten examen 3 V. V e r e l s t
Hoofdstuk 2: Beschrijven van gegevensverzamelingen Gegevens beschrijven Beschrijvende maten: - Frequentie: hoeveel meetwaarden er voorkomen in een bepaalde klasse - Relatieve frequentie: π‘ππ‘πππ ππππ‘ππ π€ππππππ - Percentage: πππππ‘πππ£π πππππ’πππ‘ππ π₯ 100 πΉππππ’πππ‘ππ Soorten grafische voorstellingen - - Kwalitatieve gegevens o Cirkeldiagram o Staafdiagram Kwantitatieve gegevens o Frequentietabel o Histogram Beschrijven met grafische methode Frequentietabel frequentie van de waarden die voorkomen in een bepaalde klasse, bijvoorbeeld voor een histogram Klasse 1-5 6-9 9-13 13-17 17-21 21-25 Frequentie 5 11 21 23 8 4 4 V.Verelst
Histogram Sommatienotatie n i=1 Xi Beschrijving van het centrum Gemiddelde Het gemiddelde van een verzameling kwantitatieve gegevens is de som van de meetresultaten gedeeld door het aantal gegevens. Steekproefgemiddelde x = n i=1 Xi n Mediaan Het middelste getal indien de getallen in opklimmende of dalende waarden genoteerd zijn 5 V. V e r e l s t
Modus Is de vaakst voorkomende waarde in een gegevensverzameling Beschrijving van de spreiding Bereik De grootste meetwaarde min de kleinste meetwaarde Steekproefvariantie Steekproefvariantie: s 2 = n i=1(xi x )2 n 1 Hoe groter de variantie hoe meer de afzonderlijke waarden verschillen, en hoe meer ze van het gemiddelde scharen Men deelt door n-1 ipv n omdat ze meer rond x gaan scharen dan rond μ. Dit wordt gecompenseerd door -1 te doen in de noemer Regel van Tsjebysjev: Geldt enkel voor gegevens die niet heuvelvormig verdeeld zijn Het percentage van de waarnemingen die binnen k standaardafwijkingen van het gemiddelde vallen zijn ten minste 100. (1 1 k 2) Van de gegevens. K % 1 0% 2 75% 3 88,9% 6 V. V e r e l s t
Deviatiescore (x 1 x ) + (x 2 x ) + + (x i x ) = 0 Bewijs: (x i x ) + (x i x ) + + (x i x ) = (x 1 + x 2 + + x n ) (x + x + + x ) = (n. x ) (n. x ) = 0 Standaardafwijking/ standaarddeviatie positieve wortel van de steekproefvariantie s = s 2 Symbolen: S 2 = variantie van de steekproef S=standaardafwijking van de steekproef σ 2 = variantie van de populatie σ=standaardafwijking van de populatie Betekenis van de standaardafwijking Interval Procentueel aantal waarden Z-waarden binnen het interval (μ σ, μ + σ) 68% -1 en 1 (μ 2σ, μ + 2σ) 95% -2 en 2 (μ 3σ, μ + 3σ) 99,7% -3 en 3 Indien de gegevens heuvelvormig verdeeld zijn. 7 V. V e r e l s t
Hoeveel wijkt een waarneming af van de overige waarnemingen? Percentiel p% valt onder het P e percentiel, en (100-p)% erboven valt 0,90 0,10 Maten van spreiding Kwartielen Het eerste kwartiel Q 1 is het 25 ste percentiel van de gegevensverzameling Interkwartielafstand KA= Q3-Q1 8 V. V e r e l s t
Box-plots Maten van relatieve afwijking Z-score De z-score van een meetwaarde is de afstand tussen die waarde en het gemiddelde, uitgedrukt in aantal standaardafwijkingen. X μ Z = σ Populatie x x Z = s Steekproef Samenvattende tabel Waarnemingen afkomstig uit Maatstaf De hele populatie Een steekproef Rekenkundig gemiddelde Variantie μ = x i N σ 2 = (x i μ) 2 N x = x i n s 2 = (x i x ) 2 n 1 Standaardafwijking σ = σ 2 s = s 2 Mate van relatieve afwijking X μ X X z = z-score z = σ s 9 V. V e r e l s t
Uitschieters opsporen Uitschieters Wat zijn uitschieters? Onjuiste meetwaarden zeldzame gebeurtenissen Boxplots Tussen de binnenste en de buitenste omheining kunnen er uitschieters voorkomen buiten de buitenste omheining zijn het bijna zeker altijd uitschieters Z-scores Misleidende grafieken - Schaalmanipulatie 10 V. V e r e l s t
Hoofdstuk 3: Kansrekening Gebeurtenissen, uitkomstenruimten en kansen Experiment: Een handeling of proces waarbij de uitkomst niet zekerheid kan worden voorspeld. Een enkelvoudige gebeurtenis: De meest fundamentele uitkomst van een experiment. Uitkomstenruimte: Is de verzameling van alle uitkomsten van een experiment. (= S) Gebeurtenis: Een verzameling uitkomsten. Gebruik hoofdletter. Kansregels: De kansen van alle uitkomsten moeten liggen tussen 0 & 1. De kansen van alle uitkomsten in een uitkomstenruimte moeten opgeteld gelijk zijn aan 1. Stappen voor het berekenen van de kans: Definieer het experiment Lijst van alle mogelijke uitkomsten opstellen Men kent kansen toe aan de uitkomsten Bepaal welke uitkomsten die met de desbetreffende gebeurtenis overeenkomen Tel de kansen op Combinatieregel: ( N n ) = N! n! (N n)! Met N = elementen in populatie n = hoeveel men er selecteert Wet van grote aantallen: Kansdefinitie van Laplace: 1 P(uitkomst) = aantal uitkomsten P(X) = lim (n x n + n ) Waarbij: { n X = het aantal keer dat de uitkomst x optreedt n = aantal herhalingen van het experiment 11 V. V e r e l s t
Verenigingen en doorsneden: Vereniging van twee gebeurtenissen A en B is de gebeurtenis als de beide gevallen optreden A B = als A of B of beide Doorsnede van twee gebeurtenissen is als de gebeurtenis tegelijk optreden. De uitkomsten behoren zowel tot de verzameling A als B A B = A en B Complementaire gebeurtenissen het complement van een gebeurtenis A is de kans dat de gebeurtenis A niet optreedt. Het optellen van complementaire gebeurtenissen P(A) + P(A C ) = 1 De somregel en disjuncte gebeurtenissen Somregel voor kansen P(A B) = P(A) + P(B) P(A B) Disjuncte gebeurtenissen Als A B niet bestaat, dus als er geen gemeenschappelijke uitkomsten heeft Kans op de vereniging van twee disjuncte gebeurtenissen: P(A B) = P(A) + P(B) Voorwaardelijke kans Voorwaardelijke kans P(A B) = P(A B) P(B) met P(B) 0 12 V. V e r e l s t
Productregel en onafhankelijke gebeurtenissen Productregel P(A B) = P(A)P(B A) Kansboom P(A B) = P(B)P(A B) Onafhankelijke gebeurtenissen Ze zijn onafhankelijk indien P(A B) = P(A) of P(B A) = P(B) De kans op de doorsnede van twee onafhankelijke gebeurtenissen: P(A B) = P(A)P(B) P(B A) P(B A) = P(A) hieruit volgt: P(B A) = Regel van Bayes: = P(A B) P(A B) + P(A B C ) P(A B)P(B) P(A B)P(B) + P(A B C )P(B C ) 13 V. V e r e l s t
Hoofdstuk 4: Discrete kansverdelingen Stochastische variabelen Variabele die numerieke waarden aanneemt bij de toevallige uitkomsten van een experiment Hangt af van het toeval Bij elke uitkomst wordt één en slechts één waarde aangenomen Discrete stochastische variabelen Continue stochastische variabelen. Definitie Kunnen slecht een eindig aantal waarden Kunnen een oneindig aantal waarden aannemen. Bv: aantal ogen van een aannemen dobbelsteen, # verkopen per week Telbaar 1. P(x) 0 voor alle waarden van x 2. p(x) = 1 x Eigenschappen van kansverdelingen Discrete stochastische variabelen Synthesematen van een discrete stochastische variabele Verwachtingswaarde Is het gewogen gemiddelde van de mogelijke waarden van de variabele μ = E(x) = x p(x) Variantie Standaardafwijking Is het gewogen gemiddelde van de gekwadrateerde afwijkingen t.o.v. de verwachtingswaarde σ 2 = E[(x μ) 2 ] = (x μ) 2 p(x) x Is de positieve vierkantswortel van de variantie σ = (x μ) 2 x p(x) Synthesematen van een stochastische variabele Regel van Tsjebysjev Empirische regel Geldt voor: Elke kansverdeling Heuvelvormige en symmetrische kansverdelingen P(μ σ < x < μ + σ) 0 0,68 P(μ 2σ < x < μ + 2σ) 3/4 =75% 0,95 P(μ 3σ < x < μ + 3σ) 8/9 =88.9% 0,997 14 V. V e r e l s t
Discrete kansverdelingen: Binomiale verdeling Variabele die numerieke waarden aanneemt bij de toevallige uitkomsten van een experiment Bij elke uitkomst wordt één en slechts één waarde aangenomen Kenmerken Binomiaal experiment: - Maar 2 uitkomsten: succes of geen succes - Rij van n identieke deelexperimenten (=Trial) - Elke trial heeft twee uitkomsten: S (succes) en M (mislukking) - De kans op S, en dus ook op M, is dezelfde bij elke trial - De trials zijn onafhankelijk van elkaar Het aantal successen van een binomiaal experiment noemt men een binomiale stochastische variabele Opmerking: een experiment dat niet binomiaal is is bijvoorbeeld aselect iemand kiezen uit een groep mensen zonder terugzetting. Dit is omdat het niet onafhankelijk is en omdat de kans elke keer verandert. Dit is altijd behalve als n<5% van N Binomiale verdeling p(k) = ( n k ) (pk )(1 p) n k Met: k = kans op succes n k = kans op mislukking ( n k ) = n! k! (n k)! Verwachtingswaarde: μ = np Variantie: σ 2 = n. p. q q = (1 p) Standaardafwijking: σ = npq 15 V. V e r e l s t
Binomiaal kanshistogram: 16 V. V e r e l s t
Eigenschappen Eigenschappen van een binomiale verdeling Verwachtingswaarde Variantie n μ = x p(x) = np x=1 n σ 2 = (x np) 2 p(x) = n p(1 p) x=1 Standaardafwijking σ = n p(1 p) Gebruik van de tabel Cumulatieve kansen Bijvoorbeeld als x binomiaal verdeeld is met n=5 en p=0,40 dan is p(x 4) 0,990 17 V. V e r e l s t
Hoofdstuk 5: continue kansverdeling Soorten kansverdeling Discrete kansverdeling Continue kansverdeling Kansdichtheidsfunctie f(x) Eigenschappen + f(x)dx = 1 P(a x b) = f(x)dx a P(a x b) = P(a < x < b) = P(a < x b) = P(a x < b) b De normale verdeling Kansdichtheidsfunctie f(x) f(x) = 1 σ 2π e 1 2 (x μ σ ) met x ε]. + [ Standaardnormale verdeling f(z) = 1 1 2π e 2 z2 met x ε]. + [ μ = 0 σ = 1 z = x μ σ is het aantal standaardafwijkingen tussen x en μ 18 V. V e r e l s t
Zijn gegevens afkomstig uit een normale verdeling? - Maak een histogram en kijk of deze symmetrisch is - Intervallen berekenen: o x ± s 68% van de gegevens o x ± 2s 95% van de gegevens o x ± 3s 100% van de gegevens - Normaliteitsplot: o Kijken of de punten ongeveer allemaal op een rechte lijn liggen o Het benaderen van een binomiale verdeling door een normale verdeling 1. Stel de waarde van n en p vast 2. Bereken het interval μ ± 3σ = np ± 3 npq a. Met q = (1 p) b. Moet [0, n] 3. Druk de binomiale kans uit in de vorm P(x a) of P(x b) P(x a) 4. De continuïteitscorrectie is (a + 0,5) dus (a + 0,5) μ z = σ 5. Schets de benaderde nominale verdeling en maak gebruik van de tabel om de bijhorende kansen te berekenen. 19 V. V e r e l s t
Inleiding Hoofdstuk 6: Verdelingen van steekproefgrootheden Populatie Kansverdeling Conclusies over de parameter Parameter Onderdeel van de populatie waarde onbekend Steekproefgrootheid Samenvatting Steekproef De verdeling van de steekproefgrootheid De steekproefgrootheid heeft een kansverdeling: de uitkomst van een steekproef is namelijk niet zeker en hangt van het toeval af. De steekproefverdeling van een steekproefgrootheid die voor een steekproef van n metingen wordt berekend, is de kansverdeling van deze steekproefgrootheid De centrale limietstelling Wordt een steekproef genomen uit een populatie met een normale verdeling, dan zal de kansverdeling van x een normale verdeling zijn. 20 V. V e r e l s t
Eigenschappen: - μ x = E(x) = μ - Standaardafwijking: σ x = σ n De standaardafwijking van de populatie waaruit de steekproef genomen wordt Vierkantswortel uit de grootte van de steekproef De centrale limietstelling Indien een aselecte steekproef met n waarnemingen die uit een willekeurige populatie worden genomen met verwachtingswaarde µ en standaardafwijking σ, als n groot genoeg is zal de kansverdeling van x een normale verdeling hebben. Hoe groter de steekproef, des te beter de benadering van de kansverdeling van x μ x = μ σ x = σ n Indien n tov van N meer dan 5% bedraagt, moet men voor σ x nog eens vermenigvuldigen met (N n) (N 1) 21 V. V e r e l s t