STATISTIEK I Samenvatting

STATISTIEK I Samenvatting Academiejaar 2013-2014 Prof. T. MARCHANT Juno KOEKELKOREN 1BA PSYCH Statistiek 1: 2013-2014 1

1BA PSYCH Statistiek 1: 2013-2014 2

DEEL 0 INTODUCTIE INHOUD H 1: INLEIDING 1.1 DE GRAFISCHE VOORSTELLING VAN DATA D.M.V. EEN HISTOGRAM 1.2 DE VERALGEMENING VAN OBSERVATIES VAN EEN STEEKPROEF NAAR EEN POPULATIE 1.3 IS MELK GEVAARLIJK VOOR DE GEZONDHEID? 1.4 CONCLUSIE 1BA PSYCH Statistiek 1: 2013-2014 3

HOOFDSTUK 1: INLEIDING 1.1 DE GRAFISCHE VOORSTELING VAN DATA D.M.V. EEN HISTOGRAM Grafische voorstellingen goed overzicht Histogram: " Werkelijkheidsgetrouw gelijke categorieën: " willekeur "#$ "# "#"# = "#$%#&'(# "##$%# "#$##%&'()*+# "#$%&'($ "#$$%&'%%()% DEF.: Beschrijvende statistiek is een verzameling van technieken om data synthetisch voor te stellen of samen te vatten. Vb.: gemiddelden, percentielen, variantie, cirkeldiagram (pie charts) 1.2 DE VERALGEMENING VAN OBSERVATIES VAN EEN STEEKPROEF NAAR EEN POPULATIE DEF.: Inductieve (verlagemenende) statistiek wordt gebruikt om observaties van een steekproef te veralgemenen naar de populatie met een bekend risico. Inductieve statistiek bevat ook technieken om dit risico te verkleinen. Indien men in één of meerdere experimenten de steekproef observeert en op basis hiervan conclusies trekt op het niveau van de populatie, zonder hierbij gebruik te maken van de inductieve statistiek, kent men het risico om een fout te maken niet en kan men dit risico ook niet verkleinen. Voorbeeld: Een nieuwe leermethode zorgt voor betere resultaten in een klas, op een school Kan je op basis hiervan deze leermethode verplicht maken in heel Vlaanderen? 1.3 IS MELK GEVAARLIJK VOOR DE GEZONDHEID? DEF.: Kansrekening is een gebied van de wiskunde dat het redeneren met kansen bestudeert. Kansrekening zorgt voor het vermijden of ontdekken van foutieve redeneringen en is noodzakelijk om de inductieve statistiek te begrijpen. Voorbeeld: (melk # softdrugs) 90% van de heroïneverslaafden hebben eerst melk gedronken. de proportie van melkdrinkers die later heroïneverslaafden worden de proportie van niet- melkdrinkers die later heroïneverslaafden worden 1.4 CONCLUSIE Statistiek is moeilijk te vermijden. Zonder statistiek kunt u niet veel doen of is het risico op zware fouten groot. 1BA PSYCH Statistiek 1: 2013-2014 4

DEEL 1 BESCHRIJVENDE STATISTIEK INHOUD H 2: BASISBEGRIPPEN 2.1 POPULATIE EN STEEKPROEF 2.2 VARIABELE H 3: BUDGET VOOR BOEKEN 3.1 ORDENINGSTECHNIEKEN 3.1.1 Frequentieverdeling 3.1.2 Gegroepeerde frequentieverdeling 3.1.3 Relatieve frequentieverdeling 3.2 REDUCTIETECHNIEKEN 3.2.1 Modus 3.2.2 Modale klasse 3.2.3 Mediaan 3.2.4 (Rekenkundig) gemiddelde 3.2.5 Variatiebreedte 3.2.6 Gemiddelde (absolute) afwijking 3.2.7 Variantie 3.3 CONCLUSIE H 4: PAS OP VOOR WIELRENNERS - MEETTHEORIE 4.1 SCHAALFAMILIES 4.2 VERSCHILLENDE MEETNIVEAUS 4.2.1 Absolute schaal 4.2.2 Ratioschaal 4.2.3 Intervalschaal 4.2.4 Ordinale schaal 4.2.5 Nominale schaal 4.3 CONCLUSIE 1BA PSYCH Statistiek 1: 2013-2014 5

H 5: ORDENINGSTECHNIEKEN 5.1 INTERMEZZO: AFRONDING 5.2 FREQUENTIEVERDELING 5.2.1 Gegroepeerde frequentieverdeling 5.2.2 Cumulatieve frequentieverdeling 5.2.3 Cumulatieve gegroepeerde frequentiverdeling 5.2.4 Relatieve frequentieverdeling 5.3 GRAFISCHE VOORSTELLING 5.3.1 Niet- cummulatieve frequenties 5.3.2 Cummulatieve frequenties H 6: REDUCTIETECHNIEKEN 6.1 INTERMEZZO: VECTOREN 6.2 MATEN VAN CENTRALE TENDENTIE 6.2.1 Het rekenkundig gemiddelde 6.2.2 De mediaan 6.2.3 De modus 6.2.4 Welke maat van centrale tendentie gebruiken? 6.3 MATEN VAN SPREIDING 6.3.1 De variantie 6.3.2 De interkwartiel afstand 6.3.3 De variatiebreedte 6.3.4 De spreidingsmaat d H 7: BIVARIATE STATISTIEK 7.1 INLEIDING 7.2 BIVARIATE STATISTIEK IN BEELD 7.2.1 De bivariate frequentieverdeling 7.2.2 Het spreidingsdiagram (scatter plot) 7.2.3 Marginale versus bivariate frequentieverdeling 7.3 ASSOCIATIETECHNIEKEN 7.3.1 De eerste stappen 7.3.2 De covariantie 7.3.3 De correlatiecoëfficiënt van Pearson 7.3.4 De regressielijn 7.3.5 Kendall s τ associatiemaat 7.3.6 De rangcorrelatiecoëfficiënt van Spearman: r 7.4 CONCLUSIE 1BA PSYCH Statistiek 1: 2013-2014 6

HOOFDSTUK 2: BASISBEGRIPPEN 2.1 POPULATIE EN STEEKPROEF DEF.: De populatie is de gehele groep objecten of personen waarover informatie wordt gewenst. Elementen of individuen zijn de individuele leden van de populatie. Een steekproef is een gedeelte van de populatie dat feitelijk wordt onderzocht om informatie te vergaren. 2.2 DE VERALGEMENING VAN OBSERVATIES VAN EEN STEEKPROEF NAAR EEN POPULATIE DEF.: Een variabele is een eigenschap die bij de elemeneten van de populatie of van de steekproef varieërt. EIGN.: NUMERIEK / NIET- NUMERIEK De mogelijke waarden van een numerieke variabele zijn getallen. Vb.: IQ, loon ( ), geslacht (0/1) De mogelijke waarden van een niet- numerieke variabele zijn verschillend van getallen. Vb.: haarkleur, sociabiliteit, geslacht (man/vrouw), loon (hoog/laag) EIGN.: KWANTITATIEF / KWALITATIEF Intrensieke eigenschap Kwantitatieve variabelen zijn variabelen die een kwantiteit of een hoeveelheid voorstellen. Vb.: loon, reactietijd, polsslag Kwalitatieve variabelen zijn variabelen die een kwaliteit of eigenschap voorstellen. Vb.: haarkleur, sociabiliteit, geslacht EIGN.: CONTINU / DISCREET Continue variabelen zijn variabelen die continu variëren. Dit betekent dat tussen elke twee willekeurige waarden van deze variabelen een derde waarde ligt. Vb.: leeftijd (11 jaar, 4 maanden, 5 dagen, 13 uren ), IQ Discrete variabelen zijn variabelen die niet continu zijn. Vb.: aantal broers of zussen, opleidingsniveau, loon (slechts tot 100 ste van centen) 1BA PSYCH Statistiek 1: 2013-2014 7

HOOFDSTUK 3: BUDGET VOOR BOEKEN 3.1 ORDENINGSTECHNIEKEN 1. FREQUENTIEVERDELING DEF.: Een frequentieverdeling is een tabel met de verschillende geobserveerde waarden van de variabele en, voor elke waarde, het aantal keer dat de waarde geobserveerd werd ((absolute) frequentie). Grafische voorstelling: LIJNDIAGRAM EIGN.: In een lijndiagram is er een lijn voor elke geobserveerde waarde en de hoogte van de lijn geeft de frequentie weer voor die waarde. 2. GEGROEPEERDE FREQUENTIEVERDELING DEF.: Een gegroepeerde frequentieverdeling is een tabel met de verschillende geobserveerde waarden van de variabele gegroepeerd in klassen van gelijke breedte en, voor elke klasse, het aantal keer dat de waarden in de klasse geobserveerd werden ((absolute) frequentie). Grafische voorstelling: HISTOGRAM EIGN.: - De breedte van de rechthoek is gelijk aan de breedte van de klasse. - De oppervlakte van de rechthoek is gelijk aan de frequentie van de klasse. - De hoogte (lengte) van de rechthoek is gelijk aan het quotiënt van de frequentie van de klasse en breedte van de klasse of de oppervlakte van de rechthoek en de breedte van de rechthoek ( ""#$%& ). "#$$%&'%%()% 3. RELATIEVE FREQUENTIEVERDELING DEF.: De relatieve frequentie van een geobserveerde waarde van de variabele of van een klasse van de variabele is de proportie. Deze wordt berekend door het quotiënt van de absolute frequentie (het aantal waarnemingen van de geobserveerde waarde/de klasse van de variabele) en het totaal aantal waarnemingen: "#. "#$. ". # ""#$%&'$(%$. DEF.: Een relatieve frequentieverdeling is een tabel met de verschillende geobserveerde waarden van de variabele en, voor elke waarde, de proportie (relatieve frequentie). DEF.: Een gegroepeerde relatieve frequentieverdeling is een tabel met de verschillende geobserveerde waarden van de variabele gegroepeerd in klassen van gelijke breedte en, voor elke klasse, de proportie (relatieve frequentie). Grafische voorstelling: HISTOGRAM VAN DE RELATIEVE FREQUENTIE 1BA PSYCH Statistiek 1: 2013-2014 8

3.2 REDUCTIETECHNIEKEN DEF.: Een reductietechniek is een techniek die een verdeling tot één getal reduceert. MATEN VAN CENTRALE TENDENTIE 1. MODUS DEF.: De modus is de onafhankelijke variabele met de grootste frequentie (grootste afhankelijke variabele). EIGN.: De modus is zeer gevoelig aan kleine frequentie veranderingen. $ de modus is gebaseerd op de frequentste waarde en houdt geen rekening met de rest van de verdeling. 2. MODALE KLASSE DEF.: De modale klasse is de klasse met de grootste frequentie (grootste afhankelijke variabele). EIGN.: De modale klasse is minder gevoelig aan kleine frequentie veranderingen dan de modus, doordat de klassen verscheidene waarden bevatten. $ de modale klasse is gebaseerd op de verschillende waarden, maar niet op de hele verdeling. EIGN.: De modale klasse is een goede maat van centrale tendentie bij min of meer symmetrische verdelingen, maar niet bij sterk asymmetrische verdelingen. 3. MEDIAAN DEF.: De mediaan (md) is de waarde van de variabele waarvoor geldt dat het aantal observaties kleiner dan md gelijk is aan het aantal observaties groter dan md. 1BA PSYCH Statistiek 1: 2013-2014 9

4. (REKENKUNDIG) GEMIDDELDE BEGRIPPEN X, Y Variabelen x, y Waarde van de variabele X of Y bij het i- de element van de steekproef n (), n () Steekproefgrootte x, y Steekproef DEF.: Het rekenkundig gemiddelde (x) van de variabele X in de steekproef x is gelijk aan het quotiënt van de som van alle waarde van de variabele X en de steekproefgrootte n. x = 1 n n i1 x i = x 1 + x 2 + + x n n EIGN.: Het gemiddelde is een maat die altijd min of meer in het centrum van de verdeling ligt. SPREIDINGSMATEN 5. VARIATIEBREEDTE DEF.: De variatiebreedte (v) of range van de variabele X is het verschil (of afstand) tussen de grootste geobserveerde waarde en de kleinste geobserveerde waarde. M.a.w. de variatiebreedte is gelijk aan de totale spreiding van de verdeling. v X = max n i1 x i min n i1 x i EIGN.: De variatiebreedte is gevoelig voor outliners. 6. GEMIDDELDE (ABSOLUTE) AFWIJKING DEF.: De afwijking is het verschil tussen degeobserveerde waarde en het gemiddelde: x x. GEMIDDELDE VAN DE AFWIJKINGEN: x x $ EIGN.: Het gemiddelde afwijking tussen de observaties en het rekenkundig gemiddelde is altijd nul. (compensatie- effect) $ de negatieve waarden compenserend de positieve waarden * Oplossing: negative waarden positief $ absolute waarden: gemiddelde absolute afwijking $ kwadrateren: variantie 1BA PSYCH Statistiek 1: 2013-2014 10

BEWIJS 1 n = 1 n = 1 n x x x x = x 1 n 1 n x x x Getallen distributiviteit x = n = x 1 n (x + x + + x ) = x 1 (n. x) n = x x = 0 DEF.: De gemiddelde absolute afwijking (ga ) is het gemiddelde van de absolute waarde van het verschil tussen degeobserveerde waarde en het gemiddelde. ga X = 1 n n i1 x i x EIGN.: - Hoe groter de gemiddelde absolute afwijking, hoe groter de spreiding. - De gemiddelde absolute afwijking is nul, als alle elementen dezelfde waarde hebben. 7. VARIANTIE DEF.: De variantie (s ) is het gemiddelde van het kwadraat van het verschil tussen de geobserveerde waarde en het gemiddelde. s = 1 n x x EIGN.: - De variantie is moeilijk interpreteerbaar. - De variantie is (momenteel) enkel nuttig om de spreiding van twee frequentieverdelingen te vergelijken. $ één enkele variantie is dus (momenteel) niet bruikbaar. 1BA PSYCH Statistiek 1: 2013-2014 11

3.3 CONCLUSIE Op basis van bovenstaande ordeningstechnieken en reductietechnieken kunnen we eigenschappen van ferquentieverdelingen observeren zonder interpretaties te doen. Deze eigenschappen zijn objectief voor zover iedereen dezelfde observaties kan herhalen en niemand kan bewijzen dat ze verkeerd zijn. Op basis van deze vaststellingen kunnen we de data proberen te interpreteren. Deze interpretatis zijn subjectief. Interpretaties tonen ons nieuwe onderzoeksrichtingen en helpen ons verder te gaan. 1BA PSYCH Statistiek 1: 2013-2014 12

Juno KOEKELKOREN HOOFDSTUK 4: PAS OP DE WIELRENNERS - MEETTHEORIE DEF.: Meten is het toekennen van getallen aan een object om een empirische eigenschap te representeren. 4.1 SCHAALFAMILIES EIGN.: Voor elke karakteristiek die we willen weten is er een familie van mogelijke schalen. (Enkel vanaf ratio schaal) Vb.: lengte: mm, cm, m, km, foot, yard, mile, zeemijl DEF.: Een zinvolle bewering is een bewering waarvan de waarheidswaarde dezelfde blijft met alle schalen uit de geassocieerde familie. EIGN.: Als we kunnen bewijzen dat een bewering zinvol is voor iedereen, met onverschillig welke schaal uit de schaalfamilie, dan is de bewering zinvol. Voorbeeld bewijs 1 Bewering: 𝑥 𝑥 = 𝑥 𝑥 Gegeven: ratioschaal metingen persoon 1 = 𝑥, 𝑥, 𝑥, 𝑥 Stel: metingen persoon 2 = 𝑥, 𝑥, 𝑥, 𝑥 Verband: 𝑥 = 𝑎𝑥 cte a = wijziging van meeteenheid binnen de ratioschaal Bewijs: 𝑎𝑥 𝑎𝑥 = 𝑎𝑥 𝑎𝑥 𝑎 𝑥 𝑥 = 𝑎(𝑥 𝑥 ) 𝑥 𝑥 = 𝑥 𝑥 Besluit: De waarheidswaarde v/d bewering is onafhankelijk v/d meetschaal. De bewering is zinvol. Voorbeeld bewijs 2 Bewering: 𝑥 𝑥 = 𝑥 𝑥 Gegeven: intervalschaal metingen persoon 1 = 𝑥, 𝑥, 𝑥, 𝑥 Stel: metingen persoon 2 = 𝑥, 𝑥, 𝑥, 𝑥 Verband: 𝑥 = 𝑎𝑥 + 𝑏 cte a = wijziging van meeteenheid binnen de intervalschaal cte b = wijziging van oorsprong binnen de intervalschaal Bewijs: (𝑎𝑥 + 𝑏) (𝑎𝑥 + 𝑏) = (𝑎𝑥 + 𝑏) (𝑎𝑥 + 𝑏) 𝑎𝑥 + 𝑏 𝑎𝑥 𝑏 = 𝑎𝑥 + 𝑏 𝑎𝑥 𝑏 𝑎𝑥 𝑎𝑥 = 𝑎𝑥 𝑎𝑥 𝑎 𝑥 𝑥 = 𝑎(𝑥 𝑥 ) 𝑥 𝑥 = 𝑥 𝑥 Besluit: De waarheidswaarde v/d bewering is onafhankelijk v/d meetschaal. De bewering is zinvol. 1BA PSYCH Statistiek 1: 2013-2014 13

4.2 VERSCHILLENDE MEETNIVEAUS 1. ABSOLUTE SCHAAL (HOOGSTE MEETNIVEAU) DEF.: Variabelen worden op een absolute schaal gemeten wanneer: - er geen andere schaal mogelijk is ( hoogste meetniveau) - de meenteenheid en de oorsprong schaal vast zijn Getallen die we bekomen door te tellen zijn op een absolute schaal. EIGN.: Zinvolle/zinloze beweringen: Vb. Zinvolle beweringen: alle Vb. Zinloze beweringen: / 2. RATIOSCHAAL (TWEEDE HOOGSTE MEETNIVEAU) DEF.: Variabelen worden op een ratio schaal gemeten wanneer: - de enige mogelijke wijziging een meeteeinheidverandering is - de oorsprong schaal- vast zijn - alle schalen van de familie verbonden zijn d.m.v. een vermenigvuldiging met een constante EIGN.: Zinvolle/zinloze beweringen: Vb. Zinvolle beweringen: x = 2y; x y; x = 1,5y Vb. Zinloze beweringen: x = 2; x y 1; x = y + 3 3. INTERVALSCHAAL (DERDE HOOGSTE MEETNIVEAU) DEF.: Variabelen worden op een intervalschaal gemeten wanneer: - de enige mogelijke wijzigingen een meeteeinheid- en een oorsprongsverandering zijn - alle schalen van de familie verbonden zijn d.m.v. een vermenigvuldiging met een constante en een toevoeging van een constante EIGN.: Zinvolle/zinloze beweringen: Vb. Zinvolle beweringen: Vb. Zinloze beweringen: x y = 2 z w ; x y z w; x < y x = 2y; md = 3md ; x = 0,5y + alle zinloze beweringen met ratioschalen 1BA PSYCH Statistiek 1: 2013-2014 14

4. ORDINALE SCHAAL DEF.: Variabelen worden op een ordinale schaal gemeten wanneer: - alle wijzigingen, die de volgorde behoeden, mogelijk zijn. EIGN.: Zinvolle/zinloze beweringen: Vb. Zinvolle beweringen: x > y; md md ; mo < mo ; min (x, x ) min (y, y ) Vb. Zinloze beweringen: x y = 2 z w ; x < y; s s + alle zinloze beweringen met intervalschalen " Riskante wiskundige bewering: Het optellen en vermenigvuldigen van ordinale getallen leidt meestal tot zinloze beweringen. 5. NOMINALE SCHAAL DEF.: Variabelen worden op een nominale schaal gemeten wanneer: - alle wijzigingen, die de identiteit behoeden, mogelijk zijn. EIGN.: - De waarden van de variabelen hebben nu geen numerieke betekenis meer. - De volgorde van de getallen heeft nu geen betekenis meer. EIGN.: Zinvolle/zinloze beweringen: Vb. Zinvolle beweringen: f = 5f ; f + f = f + f ; mo = mo $ o.b.v. frequenties Vb. Zinloze beweringen: x > y; md < md ; min (x, x ) min(y, y ) + alle zinloze beweringen met ordinale schalen 4.3 CONCLUSIE Een bewering is zinloos als ze afhankelijk is van willekeurige keuzes. Dit is het geval wanneer een andere persoon, die andere keuzes maakt, het tegenovergestelde kan beweren. Om te weten of een bewering zinvol is, moeten we nakijken of de bewering correct is met elke willekeurige schaal uit de familie van de mogelijke schalen. 1BA PSYCH Statistiek 1: 2013-2014 15

Juno KOEKELKOREN ABSOLUUT MEETNIVEAU RATIO MEETNIVEAU Variabelen Kwantitatief Meeteenheid Vast Oorsprong Vast Vast Alle 𝑥 = 2𝑦 𝑥 𝑦 𝑥 = 1,5𝑦 Zinvolle beweringen Zinloze beweringen Voorbeelden / Aantal INTERVAL MEETNIVEAU Kwantiatief Kwantitatief Veranderlijk Veranderlijk d.m.v. vermenigvuldiging 𝑥 = 2 𝑥 𝑦 1 𝑥 = 𝑦 + 3 Lengte Massa Tijd " interval ORDINAAL MEETNIVEAU NOMINAAL MEETNIVEAU Kwalitatief Kwalitatief Volgorde Identiteit numerieke betekenis volgorde d.m.v. vermenigvuldiging Veranderlijk d.m.v. optelling 𝑥 𝑦 = 2 𝑧 𝑤 𝑥 𝑦 𝑧 𝑤 𝑥 < 𝑦 𝑥 = 2𝑦 𝑚𝑑 = 3𝑚𝑑 𝑥 = 0,5𝑦 + alle zinloze beweringen op ratioschaal Temperatuur Tijd " tijdzones " alle wijzigingen zolang volgorde niet wijzigt 𝑥 > 𝑦 𝑚𝑑 𝑚𝑑 𝑚𝑜 < 𝑚𝑜 min (𝑥, 𝑥 ) min (𝑦, 𝑦 ) 𝑥 𝑦 = 2 𝑧 𝑤 𝑥 < 𝑦 𝑠 𝑠 + alle zinloze beweringen op intervalschaal Het optellen en vermenigvuldigen van ordinale getallen leidt m eestal tot zinloze beweringen Likertschaal Wedstrijduitslagen e e e (1, 2, 3 ) " Frequenties: - vergelijken - toevoegen 𝑓 = 5𝑓 𝑓 + 𝑓 = 𝑓 + 𝑓 𝑚𝑜 = 𝑚𝑜 " o.b.v. frequenties 𝑥 > 𝑦 𝑚𝑑 < 𝑚𝑑 min (𝑥, 𝑥 ) 𝑚𝑖𝑛(𝑦, 𝑦 ) + alle zinloze beweringen op ordinale schaal Haarkleur Geslacht 1BA PSYCH Statistiek 1: 2013-2014 16

HOOFDSTUK 5: ORDENINGSTECHNIEKEN 5.1 INTERMEZZO: AFRONDING Afronding is relevant voor onderzoek, voor zover er te meten valt. Eindresultaat met een REDELIJKE nauwkeurigheid: IQ: geen cijfer na de komma geen exact meetinstrument kan variëren o.i.v. de situatie Reactietijden (met elektronisch geactiveerde chronometer) - in seconden: 3 cijfers na de komma - in miliseconden: geen cijfers na de komma Duur v/e taak - in seconden: geen cijfers na de komma Leeftijd in jaren - van volwassenen: geen cijfers na de komma - van baby: 1 tot 2 cijfers na de komma Maandelijks loon in - Westerse landen: 1 cijfer vòòr de komma ( 2016 2020) - Ontwikkelingslanden: 1 cijfer na de komma Berekeningen met één of twee aanvullende cijfers: 1 = (0,71 + 0,29) = 0,71 + 2. 0,71. 0,29 + 0,29 = 1 0,50 + 0,41 + 0,08 = 0,99" 1BA PSYCH Statistiek 1: 2013-2014 17

5.2 FREQUENTIEVERDELINGEN DEF.: De frequentieverdeling van X is een tabel met twee kolommen (of twee rijen). In de eerste kolom vind je de waarden van X in een steekproef en, in de tweede kolom, de overeenkomende frequenties. 1. GEGROEPEERDE FREQUENTIEVERDELING DEF.: De gegroepeerde frequentieverdeling van X is een tabel met twee kolommen (of twee rijen). In de eerste kolom vind je de klassen van X en, in de tweede kolom de overeenkomende frequenties. DEF.: De frequentie f is het aantal elementen in de steekproef met een waarde in de klasse i. DEF.: Klassen zijn verzamelingen (groepen) van waarden van de variabele. p is het totaal aantal klassen. k, k, k,, k zullen de klassen 1, 2, 3,, p voorstellen. EIGN.: In geval van minstens ordinaal niveau zullen de klassen intervallen zijn. EIGN.: Elke waarde mag slechts tot één klasse behoren. EIGN.: Elke klasse wordt gedefinieerd door een boven- en benedengrens. - Bovengrens van de klasse k : u ( upper ) - Benedengrens van de klasse k : l ( lower ) Vuistregel voor het indelen van klassen: o Indien mogelijk: - tussen de 8 en de 20 klassen - klassen met gelijke breedt - klassen met makkelijk behandelbare grenzen o Indien nodig: - uiterste klasse voor outlines breedte breedte andere klassen 2. CUMULATIEVE FREQUENTIEVERDELING DEF.: De cumulatieve frequentie van x (F(x)) is het aantal elementen in een steekproef die de waarde x of een kleinere waarden hebben. DEF.: De cumulatieve frequentieverdeling van X is een tabel met twee kolommen (of twee rijen). In de eerste kolom vind je de waarden van de variabele X en, in de tweede kolom de overeenkomstige cumulatieve frequenties. 1BA PSYCH Statistiek 1: 2013-2014 18

3. CUMULATIEVE GEGROEPEERDE FREQUENTIEVERDELING DEF.: De cumulatieve gegroepeerde frequentieverdeling van X is een tabel met twee kolommen (of twee rijen). In de eerste kolom vind je de klassen van X en, in de tweede kolom de overeenkomende cumulatieve frequenties van de bovengrenzen. EIGN.: De cumulatieve frequentie van de klasse k is de cummulatieve frequentie van de bovengrens van die klasse: F(u ). CHOCOPASTA- HYPOTHESE Indien we de cumulatieve frequentie moeten berekenen van een punt in een klasse, veronderstellen we dat de bijbehorende frequentie gelijkmatig verdeeld zijn over de hele klasse. Voorbeeld: F 5,5 = 2 + 5. = 4,5 F 6 = 2 + 5. = 5,75 F 5 = 2 + 5. = 3,25 F 7 = 7 + 4. = 8 4. RELATIEVE FREQUENTIEVERDELING DEF.: Een frequentie is een natuurlijk getal. Het representeert het aantal elementen in een steekproef die een bepaalde eigenschap bezitten. DEF.: Een relatieve frequentie is een rationaal getal tussen 0 en 1. Het is de proportie van de elementen in een steekproef die een bepaalde eigenschap bezitten. EIGN.: De relatieve frequenties worden ook vaak in procenten uitgedrukt. EIGN.: Er zijn verschillende soorten relatieve frequenties: Gewone relatieve frequentie de frequentie v/e waarde van X gedeeld door n. Gegroepeerde relatieve frequentie waar f de frequentie v/d klasse k is. Cumulatieve relatieve frequentie () waar F(x) de cumulatieve frequentie van x is. DEF.: Een relatieve frequentieverdeling is een tabel met twee kolommen (of twee rijen). In de eerste kolom vind je de waarden van de variabele of de klasse. In de tweede kolom vind je de overeenkomende relatieve frequenties, al dan niet gegroepeerd en al dan niet cumulatief. 1BA PSYCH Statistiek 1: 2013-2014 19

5.3 GRAFISCHE VOORSTELLINGEN 1. NIET CUMULATIEVE FREQUENTIES LIJNDIAGRAM # Gebruik: niet- gegroepeerde frequentieverdelingen (absoluut/relatief) # Voorbeeld: STAAFDIAGRAM OF KOLOMDIAGRAM (BARCHART) # Gebruik: frequentieverdelingen (gegroepeerd/niet- gegroepeerd) # Meetniveau: ordinaal, nominaal of absoluut # X- as: verschillende waarden of klassen van de variabele afstand tussen elke opeenvolgende waarde/klasse is gelijk afstand tussen de waarde: geen betekenis (nominaal/ordinaal) breedte van rechthoeken is gelijk # Y- as: rechthoek hoogte rechthoek = overeenkomstige frequentie # Voorbeeld: CIRKELDIAGRAM (PIECHART) # Gebruik: relatieve frequentieverdeling (gegroepeerd/niet- gegroepeerd) # Meetniveau: nominaal # Voorbeeld: HISTOGRAM # Gebruik: gegroepeerde frequentieverdeling (absoluut/relatief) # X- as: waarde van de variabele # continu (rechthoeken raken elkaar) # Y- as: rechthoek als alle klasse dezelfde breedte # hoogte rechthoek = ab./rel. freq. als niet alle klasse dezelfde breedte # hoogte = "./"#."#$. "#$$%&'%%()% # Voorbeeld: 1BA PSYCH Statistiek 1: 2013-2014 20

Juno KOEKELKOREN 2. CUMULATIEVE FREQUENTIES HISTOGRAM # Gebruik: gegroepeerde data # X- as: klassen # (bijna) continu # Y- as: rechthoek hoogte rechthoek = cumulatieve (rel.) frequentie # Voorbeeld: CUMULATIEVE FREQUENTIECURVE 𝐹(𝑥) is een functie # voor elke 𝑥 tussen + en is 𝐹 (𝑥) een getal tussen 0 en 𝑛. # cum. freq. kan voorgesteld worden door een curve # data gegroepeerd / niet- gegroepeerd # grafiek verschillend uiterlijk NIET- GEGROEPEERDE DATA # 𝐹 𝑥 = 0, 𝑥 0 # de grafiek 𝐹 𝑥 linkse kant v 0 = horizontale lijn # 𝐹 𝑥 = 3, 𝑥: 4 𝑥 < 5 Vb.: 𝐹 4,1 = 3; 𝐹 4,5 = 3; 𝐹 4,0000001 = 3; 𝐹 4,9999999 = 3 # Voor elk punt 𝑥 is 𝐹 (𝑥) gelijk aan het aantal elementen kleiner dan of gelijk aan 𝑥. De waarde 𝑥 moet niet noodzakelijk een mogelijke waarde zijn. # Verloop: trapsgewijs # Voorbeeld: GEGROEPEERDE DATA # Binnen de klasse is de cumulatieve frequentiecurve een lijn die door de punten (𝑙, 𝐹 𝑙 ) en (𝑢, 𝐹 𝑢 ) gaat. # Verloop: lijn door punten # polygoon of veelhoek # Voorbeeld: 1BA PSYCH LIJNDIAGRAM EN KOLOMDIAGRAM # NIET met 𝐹 𝑥 # " Lijndiagram: tussen de mogelijke waarden, functie = 0 𝐹 𝑥 # " Staaf- /kolomdiagram: tussen kolommen: hoogte = 0 𝐹 𝑥 Statistiek 1: 2013-2014 21

HOOFDSTUK 6: REDUCTIETECHNIEKEN 6.1 INTERMEZZO: VECTOREN ALGEMEEN - Observatie van variabele X in een steekproef met grootte n # data, waarden v/d variabele - Data: eerste waarde = x, tweede waarde = x laatste waarde = x - Vector x duidt de data aan. - Vector x is n- dimensioneel, omdat hij n coördinaten bezit. - Vectoren worden steeds aangeduidt door vetgedrukte symbolen. - Kolomvector (x): x x x - Rijvector (x ): (x, x,, x ) - Transponeren = kolomvector # rijvector - Getransponeerde vector van x is x # x = x - x = (x, x,, x ) - Een scalair is (in tegenstelling tot een vector) een gewoon getal en geen reeks van getallen. SCALAIR PRODUCT VAN TWEE VECTOREN - DEF.: Als a en b twee k- dimensionele vectoren zijn, dan wordt het scalair product a b gedefiniëerd door: b a b b = (a, a a ) b = a b + a b + + a b = a b " Het scalaire product a b wordt alleen gedefinieerd in het geval dat a en b kolomvectoren zijn en dat ze dezelfde dimensie hebben - EIGN.: Het scalaire product is een getal en geen vector. 1BA PSYCH Statistiek 1: 2013-2014 22

Juno KOEKELKOREN SOM VAN TWEE VECTOREN - DEF.: Als 𝒂 en 𝒃 twee 𝑘 - dimensionele vectoren zijn, dan wordt de sommen 𝒂 + 𝒃 en 𝒂 + 𝒃 gedefiniëerd door: 𝑎 + 𝑏 𝑎 + 𝑏 𝒂 + 𝒃 = 𝑎 + 𝑏 𝒂 + 𝒃 = (𝒂 + 𝒃) = (𝑎 + 𝑏, 𝑎 + 𝑏 𝑎 + 𝑏 ) - EIGN.: EIGN.: De som van twee vectoren is nog steeds een vector. 𝒂 𝒃 = 𝒂 + 𝒃 = 𝒂 + 1 𝒃 SCALAIRE VERMENIGVULDIGING - DEF.: Laat 𝒂 een kolomvector zijn. Laat 𝑏 een scalair (een getal) zijn. De scalaire vermenigvuldiging 𝑏𝒂 wordt als volgt gedefinieerd: 𝑏𝑎 𝑏𝑎 𝑏𝒂 = 𝑏𝑎 De scalaire vermenigvuldiging 𝑏 𝒂 wordt als volgt gedefinieerd: 𝑏𝒂 = (𝑏𝑎, 𝑏𝑎 𝑏𝑎 ) EIGN.: Het resultaat van een scalaire vermenigvuldiging is nog steeds een vector. DE VECTOR 1 - DEF.: Het symbool 𝟏 of 𝟏 representeert een vector waarvan allecomponenten 1 zijn. - EIGN.: De dimentie van de vector 𝟏 of 𝟏 is altijd in functie van de context. - EIGN.: 𝟏𝑻𝒌 𝟏𝒌 = 1, 1,, 1 1 1 1 = 1.1 + 1.1 + 1.1 = 𝑘 𝑘 - maal 1BA PSYCH Statistiek 1: 2013-2014 23

6.2 MATEN VAN CENTRALE TENDENTIE 1. HET REKENKUNDIG GEMIDDELDE x = x = 1 x = f MEETNIVEAU # interval-, ratio- en absolute schalen GEVOELIGHEID AAN OUTLINERS # gevoelig 2. DE MEDIAAN DEF.: De mediaan (md) is de waarde van de variabele waarvoor geldt dat het aantal observaties kleiner dan md gelijk is aan het aantal observaties groter dan md. De mediaan van een frequentieverdeling van de variabele X is de waarde md waarvoor geldt dat: - niet meer dan de helft v/d elementen kleiner dan md zijn EN - niet meer dan de helft v/d elementen groter dan md zijn. Indien verschillende waarden aan deze voorwaarden voldoen dan is: - de mediaan gelijk aan het gemiddelde v/d verschilldende waarden. interval-, ratio en absolute schaal - de mediaan niet gedefinieerd. ordinale- en nominale schaal De mediaan (md) is de getal waarvoor geldt dat de relatieve cumulatieve frequentie gelijk is aan ½: F md = of " =. MEETNIVEAU # ordinale-, interval-, ratio- en absolute schalen # md is gebaseerd op volgorde en er wordt geen optelling van waarden v/d variabele uitgevoerd GEVOELIGHEID AAN OUTLINERS # niet gevoelig # md houdt rekening met het aantal waarden, niet met de grootte ervan 1BA PSYCH Statistiek 1: 2013-2014 24

3. DE MODUS DEF.: De modus (mo) of modale klasse is de waarde of de klasse met de grootste frequentie. EIGN.: Als twee niet opeenvolgende waarden of klassen (bijna) dezelfde frequentie hebben en die frequenties groter zijn dan de andere, dan zal men spreken van verschillende modi. Een frequentieverdeling met één modi is unimodaal. Een frequentieverdeling met twee modi is bimodaal. MEETNIVEAU # nominale-, ordinale-, interval-, ratio- en absolute schalen # alle schalen # mo is onafhankelijk van x, x,, x ; enkel afhankelijk v/d frequenties GEVOELIGHEID AAN OUTLINERS # niet gevoelig # mo houdt enkel rekening met de frequenties outliners # zeer lage frequenties 4. WELKE MAAT VAN CENTRALE TENDENTIE MOET IK GEBRUIKEN? Bepaal het meetniveau v/d variabele. Gevoeligheid aan outliners: problematisch of niet? Maat van centrale tendentie afhankelijk van: data of frequentie? 1BA PSYCH Statistiek 1: 2013-2014 25

6.3 MATEN VAN SPREIDING 1. DE VARIANTIE Variantie, voor een variabele X s = x x = x x1 (x x1) Standaarddeviantie s = s = x x MEETNIVEAU # interval-, ratio- en absolute schalen GEVOELIGHEID AAN OUTLINERS # gevoelig # outliner: gemiddelde = groot verschil # kwadraat = zeer groot 2. DE INTERKWARTIELE AFSTAND PERCENTIELEN ( spreidingsmaat) DEF.: Voor gegroepeerde data en voor alle gehele getallen k tussen 0 en 100, is het percentiel k het getal P waarvoor geldt dat: ( ) =. "" M.a.w. het percentiel k is de waarde P van de variabele waarvoor geldt dat k procenten van de observaties kleiner zijn dan P. EIGN.: Eerste kwartiel = P " (Tweede) kwartiel = P " = md Derde kwartiel = P " EIGN.: Percentielen zijn geen spreidingsmaten, maar worden gebruikt bij de definitie v/d interkwartielafstand. DE INTERKWARTIELE AFSTAND (= spreidingsmaat) DEF.: De interkwartiele afstand Q is gelijk aan P " P " MEETNIVEAU # interval-, ratio- en absolute schalen # ordinale schaal: interkwartiel interval P ", P " GEVOELIGHEID AAN OUTLINERS # niet gevoelig enkel afhankelijk v/h centrale deel v/d cumulatieve frequentie ( outliners) 1BA PSYCH Statistiek 1: 2013-2014 26

3. DE VARIATIEBREEDTE DEF.: De variatiebreedte (v) is gelijk aan max x min x voor niet- gegeroepeerde data u l voor gegroepeerde data. M.a.w. de varatiebreedte is de afstand tussen de grootste en de kleinste waarden. MEETNIVEAU # interval-, ratio- en absolute schalen GEVOELIGHEID AAN OUTLINERS # zeer gevoelig 4. DE SPREIDINGSMAAT d DEF.: De spreidingsmaat d wordt gedefinieerd door d = 1 f " n 1 1 p EIGN.: Indien f " = n dan zijn alle observaties gelijk aan elkaar of vallen ze in dezelfde klasse. De spreiding is dus minimaal, en d = 0. d = 1 f " n 1 1 p = 1 n n 1 1 = 0 1 1 = 0 p p Indien f " = dan zijn alle observaties verschillend van elkaar of vallen ze allemaal in verschillende klassen. De spreiding is dus maximaal, en d = 1. d = 1 f n " p n 1 1 = 1 1 1 n p 1 1 = 1 1 = 1 p p p MEETNIVEAU # nominale-, ordinale-, interval-, ratio- en absolute schalen # alle schalen # nooit gebruik van waarden, enkel van frequenties # frequenties = absolute schaal GEVOELIGHEID AAN OUTLINERS # niet gevoelig 1BA PSYCH Statistiek 1: 2013-2014 27

HOOFDSTUK 7: BIVARIATE STATISTIEK 7.1 INLEIDING Onderzoek naar verscheidene variabelen: twee variabelen # bivariate statistiek 7.2 BIVARIATE STATISTIEK IN BEELD 5. DE BIVARIATE FREQUENTIEVERDELING DEF.: Een marginale frequentieverdelig is de frequentieverdeling van één variabele. analyse: grafische voorstellingen + reductietechnieken DEF.: Een bivariate frequentieverdeling is een reeks waarden van een variabele X, een reeks waarden van d evariabele Y samen met de overeenkomende frequenties. * De frequenties vormen nu niet meer een vector maar een tabel (of een matrix). EIGN.: De som op een rij is gelijk aan de marginale frequentie van de X- waarde x. De som op een kolom is gelijk aan de marginale frequentie van de Y- waarde y. 6. HET SPREIDINGSDIAGRAM (SCATTER PLOT) DEF.: Een spreidingsdiagram is een grafische voorstelling van een bivariate frequentieverdeling. De horizontale as komt overeen met de variabele X en de verticale as met de variabele Y. Voor elke cel van de bivariate frequentieverdeling die niet nul is (dat is voor elk paar (x, y) dat geobserveerd werd), tekenen we een put met coördinaten (x, y). De grootte van het punt is in verhouding tot de frequentie van het paar (x, y). EIGN.: De punten op een spreidingsdiagram zijn niet willekeurig. Er is een trend, een tendentie. De twee variabelen zijn dus gecorreleerd. Indien er geen trend of tendentie bestaat in een spreidingsdiagram, dan zijn de twee variabelen niet- gecorreleerd. 7. MARGINALE VERSUS BIVARIATE FREQUENTIEVERDELING Elke marginale frequentieverdeling beschrijft de steekproef langs één en enkel één dimensie. Om twee dimensies te analyseren moeten we de bivariate frequentieverdeling gebruiken. 1BA PSYCH Statistiek 1: 2013-2014 28

7.3 ASSOCIATIETECHNIEKEN 1. DE EERSTE STAPPEN DEF.: Associatietechnieken zijn technieken om het verband tussen twee variabelen te meten. Verband tussen variabelen meten o.b.v. de gemiddelden: - (x x)(y y) > 0 en groot positieve correlatie - (x x)(y y) < 0 en groot negatieve correlatie - (x x)(y y) 0 geen correlatie " Verbanden zijn afhankelijk van de steekproefgrootte. 2. DE COVARIANTIE DEF.: De covariantie (cov " ) wordt gedefinieerd door cov " = 1 n (x x)(y y) EIGN.: - De covariantie is onafhankelijk van de steekproefgrootte omdat de formule gedeeld wordt door n. - De covariantie is afhankelijk van de varianties van beide variabelen. - De covariantie is afhankelijk van de meeteenheid van de variabelen. - De covariantie is een maat voor lineaire verbanden. EIGN.: - Meetniveau: ten minste van interval niveau (niet met ordinale en nominale variabelen) - Outliners: gevoelig - Vectornotatie: cov " = (x x1) (y y1) 3. DE CORRELATIECOËFFICIËNT VAN PEARSON DEF.: De correlatiecoëfficiënt (r " ) wordt gedefinieerd door het getal r " = cor " s s Interpretatie - Richting van de correlatie: r > 0 positieve (stijgende) correlatie r < 0 negatieve (dalende) correlatie - Sterkte van de correlatie: r = +1 grootst mogelijke positieve correlatie r = 1 grootst mogelijke negatieve correlatie - r = 0 ongecorreleerde data EIGN.: - De correlatie is onafhankelijk van de meeteenheid. - De correlatiecoëfficiënt is een maat voor lineaire verbanden. - Meetniveau: ten minste van interval niveau (niet met ordinale en nominale variabelen) 1BA PSYCH Statistiek 1: 2013-2014 29

Juno KOEKELKOREN 4. DE REGRESSIELIJN DEF.: - De regressielijn meet de helling van de trend. De vergelijking van de regressielijn is de vergelijking van de rechte die de som van de kwadraten van de afwijkingen minimaliseert. - De regressiecoëfficiënt van de regressielijn van Y op X is gelijk aan 𝑏 = 𝑟". - De regressiecoëfficiënt van de regressielijn van X op Y is gelijk aan 𝑏 =. " De regressielijn van Y op X GEG.: 𝑌 = 𝑏 + 𝑏 𝑋 (𝑥, 𝑦 ) - - OPL.: 𝑦 𝑏 + 𝑏 𝑥 𝑏 = 𝑟" Om de best passende rechte te vinden gaan we de som v/d kwadraten v/d afwijkingen minimaliseren. - 𝑏 = 𝑦 𝑟" 𝑌 = 𝑏 + 𝑏 𝑋 𝑌 = 𝑦 𝑟" 𝑥 = 𝑦 𝑏 𝑥 𝑥 + 𝑟" 𝑋 ANTW.: Regressielijn van Y op X 𝒀 = 𝒚 𝒓𝑿𝒀 𝑺𝒀 𝑺𝑿 Vergelijking v/e rechte Geobserveerde waarde in het assenstelsel 𝒙 + 𝒓𝑿𝒀 𝑺𝒀 𝑺𝑿 𝑿 Regressiecoëfficiënt van Y op X 𝒃𝟏 = 𝒓𝑿𝒀 𝑺𝒀 𝑺𝑿 De regressielijn van X op Y ANTW.: Regressielijn van X op Y 𝒀 = 𝒚 𝟏 𝑺𝒀 𝒓𝑿𝒀 𝑺𝑿 𝒙 + 𝟏 𝑺𝒀 𝒓𝑿𝒀 𝑺𝑿 𝑿 Regressiecoëfficiënt van Y op X 𝒃𝟏 = 1BA PSYCH EIGN.: 𝟏 𝑺𝒀 𝒓𝑿𝒀 𝑺𝑿 - Het toestandsteken van 𝑏 is gelijk aan het toestandsteken van 𝑟" 𝑏 > 0 stijgende rechte 𝑏 < 0 dalende rechte - Wanneer 𝑟" = 1, dan zijn de regressielijn van Y op X en van X op Y identiek. - Meetniveau: ten minste van interval niveau (niet met ordinale en nominale variabelen) Statistiek 1: 2013-2014 30

5. KENDALL S τ ASSOCIATIEMAAT DEF.: - Kendall s τ associatiemaat geeft de maten van monotoon verband tussen twee variabelen weer. - Een verband is monotoon als de richting (stijgend of dalend) van het verband nooit verandert. De kromme die de tendentie van de puntenwolk representeert is dus een monotone kromme. Berekening - Paargewijze vergelijking: Score paar 1 < score paar 2 +1 Score paar 1 > score paar 2 1 - Producten: Positief product +1 +1 of 1 1 variabelen evolueren in dezelfde richting stijgend verband Negatief product +1 1 of 1 +1 variabelen evolueren in tegenovergestelde richting dalend verband - Kendall s τ: het gemiddelde van de producten Kendall s τ = Interpretatie - Kendall s τ = +1 perfect stijgend monotoon verband - Kendall s τ = 1 perfect dalend monotoon verband - Kendall s τ 0 geen monotoon verband ( geen verband) EIGN.: - Meetniveau: ten minste van ordinaal niveau (niet met nominale variabelen) "# "#$%&'() # "#$% 6. DE RANGCORRELATIECOËFFICIËNT VAN SPEARMAN: r DEF.: - Rangcorrelatiecoëfficiënt van Spearman r meet eveneens het monotoon verband tussen variabelen. Hij gaat na in welke mate de rangordeningen van de elementen van een steekproef naar twee variabelen overeenstemmen. Interpretatie - r = +1 perfect stijgend monotoon verband - r = 1 perfect dalend monotoon verband - r 0 geen monotoon verband ( geen verband) 1BA PSYCH Statistiek 1: 2013-2014 31

7.4 CONCLUSIE Verschillende soorten verbanden tussen variabelen: - Lineair Correlatiecoëfficiënt " niet met ordinale en nominale variabelen Regressielijn - Curvilineair: monotoon of niet monotoon Kendall s τ Rangcorrelatiecoëfficiënt van Spearman r " niet met nominale variabelen Het gebruik van een spreidingsdiagram is steeds wenselijk. Zo kan bv. de correlatiecoëfficiënt van 4 verschillende diagrammen gelijk zijn, toch zijn de spreidingsdiagrammen verschillend Het feit dat twee variabelen gecorreleerd zijn, betekent niet dat er een oorzakelijk verband bestaat tussen beide variabelen. 1BA PSYCH Statistiek 1: 2013-2014 32