Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data

Maat: px
Weergave met pagina beginnen:

Download "Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data"

Transcriptie

1 Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data An Carbonez Leuven Statistics Research Centre Katholieke Universiteit Leuven

2 Voorstelling van de case, mogelijke onderzoeksvragen 1 Voorstelling van de case Soorten variabelen Overzicht van enkele statistische technieken Univariate Analyse Modellen met een responsvariabele Plaats juiste techniek bij elk van de onderzoeksvragen Statistische software Betalende statistische software statistische software die gratis is Microsoft Excel heeft ook statistische tool Voor en nadelen van de verschillende software (eigen interpretatie)... 12

3 1 Voorstelling van de case Stap 1: Invullen Enquête zomerschool, 8-10 september Ik kom van o West-Vlaanderen o Oost-Vlaanderen o Vlaams Brabant o Limburg o Antwerpen o Andere provincie 2. Leeftijd (in jaren) 3. Je bent jarig in o Lente o Zomer o Herfst o Winter 4. Transport om naar de zomerschool te komen (slechts 1 transportmiddel aanduiden) o Auto o Fiets o Bus o Trein o Te Voet 5.Schoenmaat. 6. Lengte (uitgedrukt in cm). 7. Aantal minuten dat je nodig hebt om van je woonplaats naar deze bijeenkomst te komen(in min uitdrukken) :. 8. Geslacht o vrouw o man 9. Haarkleur o bruin o blond o zwart o rood 10. Kleur van je ogen o bruin o blauw o grijs o groen 11. Gemiddeld aantal pintjes dat je drinkt per week : Gemiddeld budget dat je per maand spendeert aan kledij (in euro). :....

4 Stap 2: Opstellen van codeboek Hoofdstuk 1 : Voorstelling van de case 1.3

5 Stap 3: Invoeren van de gegevens: Data: student.xls Stap 4: Herformuleren (in statistische termen) van de onderzoeksvragen Mogelijke onderzoeksvragen: - Is het zo dat vrouwen gemiddeld gezien, meer budget uitgeven aan kledij dan mannen? - Is het zo dat mannen gemiddeld gezien, meer pintjes drinken dan vrouwen? - Bestaat er een lineaire relatie tussen het kledingsbudget en de variabelen leeftijd en lengte? - Is er een associatie (verband ) tussen kleur van haar en kleur van ogen van een persoon? Hoofdstuk 1 : Voorstelling van de case 1.4

6 2 Soorten variabelen Categorische variabelen : de waarden zijn categorieën. Nominale variabelen : kwalitatief en niet-geordend. Vb.: Geslacht (M, V) Kleur haar, kleur ogen,.. Provincie (...) Seizoen waarin je jarig bent Ordinale variabelen : kwalitatief en geordend. Vb.: Examenresultaat (niet geslaagd, voldoening, onderscheiding, ) Maat kleding (S, M, L, XL, XXL) Arbeid (laag geschoold, medium, hoog geschoold) Continue variabelen : Lengte Budget kleding Leeftijd Opmerking: Men kan continue variabelen (leeftijd) ook categoriseren (leeftijdsklassen : <20, 21-40, 41-60, >60). Op die manier kunnen ze verwerkt worden als ordinale variabelen. Hoofdstuk 1 : Voorstelling van de case 1.5

7 3 Overzicht van enkele statistische technieken 3.1 Univariate Analyse Beschrijvende statistiek : Variabele Beschrijvende grootheden Visualisatie Continu Gemiddelde Mediaan Variantie standaarddeviatie Histogram Box plot Scatterplot( voor relatie tussen 2 continue variabelen) Categorische Modus Staafjesdiagram Frequentietabel Verklarende statistiek : Hypothese testen : vergelijken van gemiddelden (eventueel opstellen van een betrouwbaarheidsinterval). (i) Voorbeeld van één-steekproef probleem: H 0 : µ = 165 vs H 1 : µ > 165 met µ de gemiddelde lengte van een vrouw die deelneemt aan de zomerschool. =0.10 (ii) Voorbeeld van twee-steekproef probleem: H 0 : µ 1 = µ 2 vs H 1 : µ 1 < µ 2 met µ 1 de gemiddelde lengte van een vrouw en µ 2 de gemiddelde lengte van een man die deelneemt aan de zomerschool. =0.10 Hoofdstuk 1 : Voorstelling van de case 1.6

8 Toepassingen van hypothese testen t-tests voor een of twee gemiddelden (normale populaties of grote steekproeven) 1 groep t-test voor 1 gemiddelde Wilcoxon teken-rangtest voor symmetrische verdeling rond m0 (is dus test voor gemiddelde m0 als de populatie symmetrisch is ) Tekentest voor mediaan m0 ( = binomiale test voor proportie met 2 gepaarde groepen (X,Y) Gepaarde t-test (t-test voor gelijk gemiddelde bij gepaarde data = t-test voor gemiddelde 0 op verschil D = Y X) 2 onafhankelijke groepen t-test voor gelijk gemiddelde in 2 onafhankelijke groepen bij gelijke varianties (F-test e.a. voor gelijke varianties; gelijke var. bij H0 is voldoende) bij ongelijke varianties Niet-parametrische tests voor een Chikwadraattests (e.a.) voor een locatie, vb. mediaan,... celverdeling (continue data, ordinale data) (categorische data, ook gegroepeerde continue data; Cochran voorwaarde) Chikwadraattest voor een univariate celverdeling score >m0 is ½) Wilcoxon teken-rangtest bij gepaarde data (als verschil symmetrische verdeling heeft onder H0) Tekentest voor gelijke locatie bij gepaarde data Mann-Whitney U-test (Wilcoxon rang-somtest) voor gelijke verdeling in twee onafhankelijke groepen Chikwadraattest voor onafhankelijkheid in een kruistabel (r c tabel) Fisher exacte test voor onafhankelijkheid in een 2 2 tabel Chikwadraattest voor homogeniteit van 2 (of meer) verdelingen bij onafhankelijke groepen (= test voor onafhankelijkheid in kruistabel Variabele Groepindicator ) Fisher exacte test Hoofdstuk 1 : Voorstelling van de case 1.7

9 3.2 Modellen met een responsvariabele Verklarende variabelen Responsvariabele Methode Continu Continu Regressie Categorisch Continu ANOVA Continu Dummy (ordinale ) Logistieke regressie Categorisch Categorisch Categorische data-analyse Voorbeelden: Regressie Cholesterol = a+ b 1 * leeftijd + b 2 * gewicht Anova Invloed van rokersgedrag (niet-rokers, ex-rokers, rokers) op cholesterol. Logistieke regressie Krijgen van een lening (ja of neen) in functie van (inkomen, leeftijd, ) Categorische data analyse Verband tussen inkomensniveau (laag, gemiddeld of hoog inkomen) en tevredenheid op het werk (helemaal niet tevr, niet tevr, gematigd tevr, tevr, zeer tevreden). Hoofdstuk 1 : Voorstelling van de case 1.8

10 3.3. Plaats juiste techniek bij elk van de onderzoeksvragen Mogelijke onderzoeksvragen: a) Is het zo dat vrouwen gemiddeld meer budget uitgeven aan kledij dan mannen? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek: b) Is het zo dat mannen gemiddelde meer pintjes drinken dan vrouwen? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek: c) Bestaat er een relatie tussen het kledingbudget en de variabelen leeftijd en lengte? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek: d) Is er een associatie (verband ) tussen kleur van haar en kleur van ogen van een persoon? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek: Hoofdstuk 1 : Voorstelling van de case 1.9

11 4 Statistische software 4.1. Betalende statistische software SAS, SPSS, Statistica, statistische software die gratis is R, meer informatie Microsoft Excel heeft ook statistische tool Activeer de Data Analysis tool in Excel: File >Excel options > Add ins > Go Check Analysis Toolpak and Analysis Toolpak VBA Je kunt steeds nagaan of de Data Analysis tool goed werd geactiveerd: Go to the Data > Data Analysis Hoofdstuk 1 : Voorstelling van de case 1.10

12 Hoofdstuk 1 : Voorstelling van de case 1.11

13 4.4. Voor en nadelen van de verschillende software (eigen interpretatie) UNIVARIATE statistiek Beschrijvende statistiek Variabele Beschrijvende grootheden Continu Gemiddelde Mediaan Variantie standaarddeviatie Visualisatie Software software Histogram, scatterplot sterk Minder sterk SAS, SPSS, Statistica, R, Excel Continu Box plot SAS, SPSS, Statistica, R, Excel Categorische Modus Frequentietabel, kruistabel Staafjesdiagram SAS, SPSS, Statistica, R, Excel Hoofdstuk 1 : Voorstelling van de case 1.12

14 Verklarende statistiek Hypothese testen Variabele Eén steekproef Twee steekproeven Continu One sample t-test Two-sample t-test Niet-parametrische alternatieven Nietparametrische alternatieven Software software sterk Minder sterk SAS, SPSS, Excel (nagaan Statistica, R, onderstellingen van Excel normaliteit) SAS, SPSS, Excel (niet mogelijk) Statistica, R Hoofdstuk 1 : Voorstelling van de case 1.13

15 Opstellen van modellen Verklarende variabelen Responsvariabele Methode Software software sterk Minder sterk Continu Continu Regressie SAS, SPSS, Statistica, R, Excel (eenvoudige regressie kan wel) Categorisch Continu ANOVA SAS, SPSS, Statistica, R, Excel (eenvoudige ANOVA kan wel ) Continu Dummy Logistieke regressie SAS, SPSS, Statistica, R, Excel (niet mogelijk) Categorisch Categorisch Categorische dataanalyse SAS, SPSS, R, Excel (zwak), Statistica (weinig mogelijkheden) Hoofdstuk 1 : Voorstelling van de case 1.14

16 Hoofdstuk 1 : Voorstelling van de case 1.15

17 Uitwerken van enkele onderzoeksvragen 1 Is het zo dat vrouwen gemiddeld meer budget uitgeven aan kledij dan mannen? Formulering van de onderzoeksvraag Formulering van de hypothese: Uitvoeren in Excel We vragen ons af in welke mate de lengte van een persoon te modelleren is als een lineaire functie van de schoenmaat en de leeftijd van deze persoon Formulering van de onderzoeksvraag Formulering van het regressiemodel Uitwerken in Excel Is er een associatie (verband ) tussen kleur van haar en kleur van ogen van een persoon? Formulering van de onderzoeksvraag Formulering van het testprobleem Verwerking met SASEguide Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.1

18 1 Is het zo dat vrouwen gemiddeld meer budget uitgeven aan kledij dan mannen? 1.1 Formulering van de onderzoeksvraag Univariate analyse / opstellen van een model? : Univariate analyse Variabele die je wenst te bestuderen / Response variabele : budget aan kleding Techniek: two-sample t-test want er zijn twee groepen te vergelijken 1.2 Formulering van de hypothese: H 0 : µ 1 = µ 2 vs H 1 : µ 1 > µ 2 met µ 1 het gemiddelde budget aan kleding bij vrouwen en µ 2 het gemiddelde budget aan kleding bij mannen. =0.05 Onderstellingen bij two-sample t-test. 1. Indien de groepen groot genoeg zijn (beide > 25) dan kunnen we de Centrele Limietstelling gebruiken. Indien niet, moet normaliteit nagegaan worden van de gegevens in beide groepen. (hier onderstellen we even dat dit ok is, want is niet eenvoudig na te gaan in Excel) 2. Nagaan of er gelijke variantie is in beide groepen H 0 : ² 1 = ² 2 vs H 1 : ² 1 ² 2 met ² 1 de variantie van budget bij vrouwen en ² 2 de variantie van budget bij mannen. = Uitvoeren in Excel (i) Beschrijvende statistieken Gebruik de Filter bij Excel om de budget gegevens van mannen en vrouwen op te splitsen: Data > Filter > geslacht:1 (vrouwen) Copiëer de kleding gegevens van de vrouwen naar een afzonderlijke sheet. Doe dit ook voor de mannen. Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.2

19 Visualisatie: (gebeurde met SASEguide) Merk de outlier op bij de vrouwen (geslacht=1) Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.3

20 Use the statistical Data Analysis tool in Excel Data > Data Analysis > Descriptive Statistics (ii) Ga normaliteit na in beide groepen Niet eenvoudig in Excel. Shapiro Wilk test is niet beschikbaar. QQ plot moet je zelf construeren. We gaan er hier van uit dat dit in orde is. Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.4

21 (iii) Ga na of er homogeniteit is van de varianties Gelijke variantie in beide groepen H 0 : ² 1 = ² 2 vs H 1 : ² 1 ² 2 met ² 1 de variantie van budget bij vrouwen en ² 2 de variantie van budget bij mannen. =0.050 Data> Data Analysis > F test two sample for variances Excel geeft de éénzijdige p-waarde. Wij hebben de tweezijdige p-waarde nodig (=2*0.044=0.88). Deze p-waarde is groter dan 0.05, dus wordt H0 niet verworpen. Conclusie: er is homogeniteit van varianties. Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.5

22 (iv) t-test : two sample assuming equal variances Data > Data Analysis > t test two sample assuming equal variances H 0 : µ 1 = µ 2 vs H 1 : µ 1 > µ 2 Eenzijdige p-waarde is 0.06 > 0.05 (significance level) Algemeen Besluit: Bijgevolg wordt de H 0 niet verworpen. Op basis van deze steekproef (van studentengegevens) kunnen we dus niet zeggen dat vrouwen significant meer geld besteden aan kledij dan mannen. Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.6

23 2 We vragen ons af in welke mate de lengte van een persoon te modelleren is als een lineaire functie van de schoenmaat en de leeftijd van deze persoon Formulering van de onderzoeksvraag Univariate analyse / opstellen van een model? : Opstellen van een model Variabele die je wenst te bestuderen / Response variabele : lengte persoon Techniek: Regressie analyse 2.2 Formulering van het regressiemodel lengte = a + b 1 leeftijd + b 2 schoenmaat + ε Onderstellingen: 1. Er is een lineair verband tussen lengte en leeftijd en lengte en schoenmaat. 2. De residu s (ε) hebben een normale verdeling (met ε ~N(0, σ²)). 2.3 Uitwerken in Excel (Maak best een nieuw werkblad met drie variabelen: lengte, schoenmaat, leeftijd). a. Verkennende datagrafieken Maak scatterplots in Excel Data oplichten > Insert > scatter Datapunten in de plot oplichten > (rechtermuis ) add trendline > linear Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.7

24 b. Correlatie analyse (Pearson correlatie veronderstelt normaliteit van de gegevens). We zouden dus ook hier eerst normaliteit van de gegevens moeten nagaan (moeilijk in Excel). Data Analysis > Correlation De correlatie tussen lengte en schoenmaat is positief. De correlatie tussen lengte en leeftijd is zeer klein. Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.8

25 c. Geschat lineair model lengte = a + b 1 leeftijd + b 2 schoenmaat Data Analysis > Regression Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.9

26 Vermits leeftijd niet significant is (p-waarde = 0.39 > 0.05) wordt deze variabele uit het model gehaald. d. Nieuw model lengte = a + b 2 schoenmaat Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.10

27 Lengte= * schoenmaat Kwaliteit van de fit: R²=0.61 Dit is te interpreteren als: 61 % van de variabiliteit in lengte kan verklaard worden door dit lineaire model. Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.11

28 3 Is er een associatie (verband ) tussen kleur van haar en kleur van ogen van een persoon? 3.1 Formulering van de onderzoeksvraag Univariate analyse / opstellen van een model? Model opstellen Variabele die je wenst te bestuderen / Response variabele : Is hier niet specifiek duidelijk Techniek: Analyse van categorische data 3.2 Formulering van het testprobleem Testen van onafhankelijkheid : testen van geen associatie H 0 : er is geen associatie tussen kleur van haar en kleur van ogen Om dit na te gaan kunnen volgende grootheden worden gebruikt. Chi-kwadraat grootheid Likelihood ratio testgrootheid (indien er te weinig observaties zijn, kan het nodig zijn om exacte testen te gebruiken). Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.12

29 3.3 Verwerking met SASEguide Bestand: survey09_10 Tasks > Describe > Table Analysis... In de DATA selecteer je zowel Kleur_ogen als Haarkleur als table variabels In de tables panel, selecteer je haarkleur als kolomvariabele en kleur_ogen als rijvariabele Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.13

30 In deassociation panel kies je Chi-square test and Measures Run... Deze warning wijst erop dat we beter exacte testen kunnen gebruiken. Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.14

31 Vermits de p-waarde (=0.045) < 0.05, verwerpen we de H0. Er is een significante associatie tussen kleur van haar en kleur van ogen. Een detail of de afwijkingen van de H 0 kan soms verheldering brengen. We zien in de cel (kleur_ogen=3, haarkleur=4) een grote afwijking (cell chisquare =7.9). De combinatie (grijze ogen, rood haar ) komt blijkbaar veel vaker voor in deze (kleine ) groep dan kan verwacht worden onder de nullhypothese van onafhankelijkheid. Hoofdstuk 2: Uitwerken van enkele onderzoeksvragen 2.15

32 Oefeningen Deze oefeningen kun je maken op het bestand zomerschool. De bedoeling is om te experimenteren met de verschillende software: Excel en SASEguide. Jullie mogen eigen onderzoeksvragen bedenken op deze gegevens of analoog werken aan de onderzoeksvragen die werden behandeld in vorig deel. Mogelijke onderzoeksvragen: 1. Is het zo dat vrouwen gemiddeld meer budget uitgeven aan kledij dan mannen? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek: 2. Is het zo dat mannen gemiddelde meer pintjes drinken dan vrouwen? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek: 3. We vragen ons af in welke mate de lengte van een persoon afhankelijk is van de schoenmaat en de leeftijd van deze persoon Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek: 4. Is er een associatie (verband ) tussen kleur van haar en kleur van ogen van een persoon? Univariate analyse / opstellen van een model? Variabele die je wenst te bestuderen / Response variabele : Techniek: 1