G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Vergelijkbare documenten
G0N11C Statistiek & data-analyse Project tweede zittijd

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

9. Lineaire Regressie en Correlatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Populaties beschrijven met kansmodellen

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

Kansrekening en Statistiek

EXAMEN : Basisbegrippen statistiek. Examen 16 januari 2015

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Data analyse Inleiding statistiek

HOOFDSTUK II BIJZONDERE THEORETISCHE VERDELINGEN

4 Domein STATISTIEK - versie 1.2

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 10: Regressie

Feedback proefexamen Statistiek I

Les 1: de normale distributie

Examen G0N34 Statistiek

Toegepaste Statistiek, Week 6 1

Gegevensverwerving en verwerking

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Inleiding statistiek

SOCIALE STATISTIEK (deel 2)

Statistiek voor A.I. College 10. Donderdag 18 Oktober

statviewtoetsen 18/12/ Statview toets, 2K WE, 30 mei Fitness-campagne Dominantie bij muizen... 4

Examen Data Analyse II - Deel 2

Statistiek I Samenvatting. Prof. dr. Carette

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Kansrekening en Statistiek

Les 2: Toetsen van één gemiddelde

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Voorbeeldtentamen Statistiek voor Psychologie

Oefenvragen bij Statistics for Business and Economics van Newbold

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Oplossingen hoofdstuk 8

11. Multipele Regressie en Correlatie

Statistiek II. Sessie 5. Feedback Deel 5

Exponentiële Functie: Toepassingen

Wiskunde D Online uitwerking 4 VWO blok 5 les 3

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

2 Data en datasets verwerken

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Examen Statistiek I Feedback

Kansrekening en Statistiek

Kansrekening en Statistiek

Data analyse Inleiding statistiek

Kansrekening en Statistiek

College 4 Inspecteren van Data: Verdelingen

Hoofdstuk 2: Verbanden

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

S0A17D: Examen Sociale Statistiek (deel 2)

Examen G0N34 Statistiek

Onderzoek. B-cluster BBB-OND2B.2

Kansrekening en Statistiek

Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn.

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1

Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data

Beschrijvende statistiek

Statistiek ( ) eindtentamen

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

Grafieken Cirkeldiagram

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hoofdstuk 12: Eenweg ANOVA

Les 5: ANOVA. Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 28 november 2018

HOOFDSTUK VII REGRESSIE ANALYSE

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Statistiek: Stam-bladdiagram en boxplot 6/12/2013. dr. Brenda Casteleyn

Normale Verdeling Inleiding

Hoofdstuk 3 Statistiek: het toetsen

Examen Statistiek I Januari 2010 Feedback

OCBS Vereniging zonder winstoogmerk Ravensteinstraat 4 B 1000 BRUSSEL TRA 418 TOEPASSINGSREGLEMENT HERZIENING 1.

Statistiek voor A.I.

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009

d. Maak een spreidingsdiagram van de gegevens. Plaats de x-waarden op de x-as en de z-waarden op de y-as.

College 2 Enkelvoudige Lineaire Regressie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Herkansing eindtoets statistiek voor HBO

8. Analyseren van samenhang tussen categorische variabelen

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Data analyse Inleiding statistiek

Cursus Inleidende Statistiek

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet?

Les 5: ANOVA. Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 19 november 2018

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Modelexamen Statistiek

SPSS. Statistiek : SPSS

2.3 Frequentieverdelingen typeren

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

De normale verdeling

Les 7-8: Parameter- en Vergelijkingstoetsen

Transcriptie:

G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag te halen is het niet altijd noodzakelijk om alle elementen die in deze oplossing aangehaald worden te vermelden. 1 Dataset lengte 1. Bestudeer de verdeling van de variabele lengte voor enerzijds de mannen en anderzijds de vrouwen. (a) Numeriek mannen vrouwen gemiddelde 182.92 167.12 mediaan 182 167.5 modus 180 172 standaarddeviatie 9.14 7.13 IQR 11 9.5 Tabel 1: Numerieke kenmerken van de verdeling van de lengte. Uit Tabel 1 blijkt dat de gemiddelde lengte van de mannen 182.92 cm is, terwijl de mediaan 182 cm bedraagt. Als het gemiddelde en de mediaan dicht bij elkaar liggen, wijst dit op een symmetrische verdeling. Ook de modus (180 cm) ligt niet ver van het gemiddelde en de mediaan, wat het vermoeden van symmetrie alleen maar versterkt. Aangezien de normaalverdeling een symmetrische verdeling is, hebben we hier een eerste aanwijzing dat de lengte van de mannen wel eens normaal verdeeld zou kunnen zijn. Ook de spreidingsmaten geven informatie over de verdeling. De standaarddeviatie s voor de lengte van de mannen bedraagt 9.14 cm en de interkwartielafstand (IQR) 11 cm. Bij normaalverdeelde gegevens geldt de volgende eigenschap: IQR s 1.34. Voor de lengte van de mannen vinden we dat IQR = 11 = 1.20. Dit ligt niet s 9.14 zo heel ver af van 1.34, dus we kunnen zeker niet uitsluiten dat de lengte van 1

de mannen normaal verdeeld is op basis van de numerieke kenmerken van de gegevens. De gemiddelde lengte van de vrouwen is 167.12 cm, de mediaan 167.5 cm, en de modus 172 cm. Hoewel de modus nu iets meer afwijkt van de beide andere waarden, die wel heel dicht bij elkaar liggen, is dit nog geen indicatie voor het niet-symmetrisch zijn van de verdeling, en kan normaliteit van de gegevens dus niet uitgesloten worden. De standaarddeviatie van de lengte van de vrouwen is kleiner dan die van de lengte van de mannen, s is nu gelijk aan 7.13 cm. De IQR bedraagt 9.5 cm, zodat IQR = 9.5 = 1.33. Dit ligt heel dicht bij wat men zou verwachten als de s 7.13 gegevens normaal verdeeld zijn, dus net zoals bij de mannen kunnen we ook voor de vrouwen besluiten dat de numerieke eigenschappen van de variabele lengte zeker niet uitsluiten dat deze normaal verdeeld is. Grafisch Zowel op het histogram voor de lengte van de mannen (Figuur 1(a)) als het histogram voor de lengte van de vrouwen (Figuur 1) merken we symmetrie op. Ook de klokvorm die men zou verwachten bij normaliteit komt hier duidelijk naar voor. (a) Figuur 1: Histogram voor de lengte van de (a) mannen; vrouwen. De QQ-plot volgt zowel voor de mannen (Figuur 2(a)) als voor de vrouwen (Figuur 2) min of meer een rechte lijn. Dit is nog een aanwijzing dat de gegevens uit een normaalverdeling komen. Bij de mannen zien we een iets betere rechte verschijnen dan bij de vrouwen, een deel van de verklaring zou kunnen zijn dat er van de mannen 6 gegevens meer beschikbaar zijn dan van de vrouwen. Op beide boxplots (Figuur 3) zien we weer de eerder opgemerkte symmetrie terug: het gemiddelde en de mediaan liggen dicht bij elkaar en beide staarten zijn ongeveer even lang. Bij de mannen zijn er 3 waarnemingen die niet meer binnen de snorhaar van de boxplot vallen, maar deze kunnen zeker niet als extreme uitschieters beschouwd worden. 2

(a) Figuur 2: QQ-plot voor de lengte van de (a) mannen; vrouwen. Figuur 3: Boxplots voor de lengte van de mannen en de vrouwen. (c) Formeel: Shapiro-Wilk test We onderzoeken nu op een formele manier of de variabele lengte normaal verdeeld is, zowel voor de mannen als voor de vrouwen. Eerst wordt de test uitgevoerd voor de lengte van de mannen, dit wil zeggen dat de hypothese H 0 : De lengte van de mannen is normaal verdeeld versus H 1 : De lengte van de mannen is niet normaal verdeeld getest wordt. De teststatistiek die gebruikt wordt is T = X µ 0 S/ met S de steekproefstandaarddeviatie. Onder H 0 geldt dat T een student t-verdeling heeft n met 3

n 1 vrijheidsgraden. De bijbehorende P-waarde wordt berekend door 2P (T > t ) te berekenen, waarbij t de waarde van de teststatistiek is. De waarde van de teststatistiek t is hier 0.989571 met bijbehorende P-waarde 0.6435. Deze P-waarde is zeker niet kleiner dan het opgelegde significantieniveau α = 0.05, dus er is geen reden om H 0 te verwerpen op dit significantieniveau. We mogen dus uitgaan van de veronderstelling dat de lengte van de mannen normaal verdeeld is. Ook voor de vrouwen volgen we dezelfde aanpak. Nu onderzoeken we dus de volgende hypothese: H 0 : De lengte van de vrouwen is normaal verdeeld versus H 1 : De lengte van de vrouwen is niet normaal verdeeld. De teststatistiek heeft de waarde 0.989046 met bijbehorende P-waarde 0.6462. Ook hier is de P-waarde zeker niet kleiner dan het opgelegde significantieniveau α = 0.05, dus weerom is er geen reden om H 0 te verwerpen op dit significantieniveau. We mogen dus uitgaan van de veronderstelling dat de lengte van de vrouwen normaal verdeeld is. (d) Besluit De variabele lengte is zowel voor de mannen als voor de vrouwen normaal verdeeld op significantieniveau α = 0.05. Voor geen van beide groepen zitten er uitschieters in de data. 2. Is het aantal ondervraagden van een bepaald geslacht gerelateerd aan de studierichting van de ondervrager? We zoeken naar een verband tussen 2 discrete variabelen, namelijk geslacht en studierichting. De volgende hypothese wordt getest: H 0 : Er is geen verband tussen het geslacht van de ondervraagde en de studierichting van de ondervrager versus H 1 : Er is wel een verband tussen het geslacht van de ondervraagde en de studierichting van de ondervrager. De geobserveerde aantallen zijn gegeven in Tabel 2. Indien beide variabelen onafhankebiochemie biologie chemie geologie totaal mannelijk 31 15 22 30 98 vrouwelijk 29 15 18 30 92 totaal 60 30 40 60 190 Tabel 2: Tabel met geobserveerde aantallen. lijk zouden zijn, kan men berekenen welke waarden men zou verwachten. Deze getallen zijn terug te vinden in Tabel 3. 4

biochemie biologie chemie geologie totaal mannelijk 30.547 15.474 20.632 30.547 98 vrouwelijk 29.053 14.526 19.368 29.053 92 totaal 60 30 40 60 190 Tabel 3: Tabel met verwachte aantallen. Op het zicht zien we al dat de verwachte aantallen niet zo sterk afwijken van de geobserveerde. Formeel wordt dit bevestigd door het berekenen van het χ 2 -getal. χ 2 (geobserveerde waarde verwachte waarde) 2 -getal = = 0.2775. verwachte waarde alle cellen Uit de formule van het χ 2 -getal volgt dat hoe kleiner dit getal, hoe dichter de geobserveerde en verwachte waarden bij elkaar liggen. Het χ 2 -getal is hier behoorlijk klein, wat bevestigt wat we al zagen, namelijk dat er geen grote afwijkingen zijn tussen de geobserveerde en de verwachte waarden. De bijbehorende P-waarde is 0.9642, veel groter dan het vooropgestelde significantieniveau α = 0.05, dus kunnen we H 0 niet verwerpen op significantieniveau α = 0.05. Besluit: Het aantal ondervraagden van een bepaald geslacht is niet gerelateerd aan de studierichting van de ondervrager op significantieniveau α = 0.05. 3. Een recente studie stelt dat de gemiddelde lengte van de Vlaming 173.8 cm is. Je weet echter niet of in die studie enkel mannen, enkel vrouwen of beide geslachten onderzocht werden. Tracht hierop een antwoord te vinden aan de hand van je gegevens. We testen de volgende hypothese H 0 : µ 0 = 173.8 versus H 1 : µ 0 173.8 (1) met µ 0 de echte gemiddelde lengte van de populatie, waarbij de populatie in het eerste geval de Vlaamse mannen is, in het tweede geval de Vlaamse vrouwen en in het laatste geval alle Vlamingen. Als de gegevens normaal verdeeld zijn, kunnen we gebruik maken van de t-test zoals beschreven in deel 1 van deze vraag. Geval 1: We weten al dat de lengte voor de mannen normaal verdeeld is. We mogen dus de t-test zoals eerder beschreven uitvoeren. De waarde t van de teststatistiek bedraagt 9.88 en de bijbehorende P-waarde is < 0.0001. Dat betekent dat we H 0 moeten verwerpen op significantieniveau α = 0.05, de studie werd niet op enkel mannen uitgevoerd. Geval 2: We weten ook dat de lengte voor de vrouwen normaal verdeeld is. We mogen dus weer de t-test uitvoeren. De waarde t van de teststatistiek bedraagt -8.99 en de bijbehorende P-waarde is < 0.0001. Dat betekent dat we ook hier H 0 moeten verwerpen op significantieniveau α = 0.05, de studie werd niet op enkel vrouwen uitgevoerd. 5

(a) Figuur 4: (a) Histogram en boxplot voor de variabele lengte. Geval 3: Vooraleer we de hypothesetest mogen uitvoeren op de volledige dataset moeten we nagaan of de variabele lengte voor de mannen en de vrouwen samen normaal verdeeld is. Op het histogram in Figuur 4(a) zien de we dat de variabele lengte voor beide geslachten samen redelijk symmetrisch verdeeld is. Dit wordt ook bevestigd door de boxplot in Figuur 4. Bovendien zien we op de QQ-plot (Figuur 5) dat de gegevens uitgezet ten opzichte van standaardnormale kwantielen mooi op een rechte liggen. Op basis van deze grafieken lijkt het waarschijnlijk dat de variabele lengte voor beide geslachten samen normaal verdeeld is. Figuur 5: QQ-plot voor de lengte van de mannen en de vrouwen samen. Dit wordt bevestigd door de Shapiro-Wilk test. De waarde van de teststatistiek bedraagt 0.989805 en de bijbehorende P-waarde 0.1949, dus er is geen reden om de normaliteitsassumptie te verwerpen op significantieniveau α = 0.05. We kunnen dus hypothese (1) voor beide groepen samen testen met behulp van de t-test uit deel 1 van deze vraag. Als we de waarde van de teststatistiek berekenen, vinden we t = 1.78 en voor de bijbehorende P-waarde 0.0775. Dit is groter dan 6

het opgegeven significantieniveau α = 0.05, dus we mogen niet verwerpen dat er in de studie zowel mannen als vrouwen gebruikt werden. 2 Dataset eikel Kan je uit log(volume) de hoogte voorspellen? Als men de gegevens bekijkt, kan men opmerken dat er een uitschieter in de gegevens zit. Boom nummer 8 heeft een hoogte van 0.3 m, en een eikelvolume van 6.8 cm 3. Aangezien men van een boom van 30 cm hoog niet verwacht dat er eikels aan hangen, zou men deze waarneming beter als een uitschieter beschouwen. We vinden deze uitschieter ook terug rechts onderaan op de scatterplot in Figuur 6(a). Figuur 6 toont een scatterplot van de gegevens zonder de uitschieter. Op deze laatste scatterplot is er met wat goede wil een (a) Figuur 6: Scatterplot log(volume) versus hoogte (a) met en zonder uitschieter. licht stijgend verband tussen hoogte en log(volume) te zien. We verwachten dus dat we uit log(volume) de hoogte zullen kunnen voorspellen. Om dit te onderzoeken passen we lineaire regressie toe op de nieuwe dataset (zonder uitschieter): we fitten een lineair verband van hoogte in functie van log(volume). Het onderliggend model is dus hoogte i = a + b log(volume) i + ɛ i met ɛ i de onafhankelijke en normaal verdeelde foutentermen met gemiddelde 0 en constante variantie. De kleinstekwadratenmethode geeft als resultaat de rechte hoogte = 15.36915 + 3.31504 log(volume). We onderzoeken nu of de helling in deze rechte significant verschilt van 0. Dit doen we door de volgende hypothese te testen: H 0 : b = 0 versus H 1 : b 0. 7

We vinden voor de waarde van de teststatistiek t = ˆb = 2.56, met bijbehorende P- s.e.(ˆb) waarde 0.0147. Deze P-waarde is kleiner dan α = 0.05, zodat we H 0 kunnen verwerpen. We kunnen hieruit besluiten dat b 0 en het is in dit geval dus zinvol om een lineaire regressie uit te voeren. Dat ook aan de modelonderstellingen voor lineaire regressie voldaan is (de foutentermen ɛ i zijn onafhankelijk, normaal verdeeld en hebben dezelfde varianties), blijkt uit Figuur 7, waarin we de residuen beschouwen als een benadering voor de foutentermen. Op de scatter- (a) Figuur 7: (a) Scatterplot van de gestandaardiseerde residuen; QQ-plot van de residuen. plot van de residuen in Figuur 7(a) zien we dat de residuen mooi verspreid liggen, er valt geen patroon te ontdekken. Dat wijst erop dat de foutentermen onafhankelijk zijn van elkaar en dezelfde variantie hebben. Uit de QQ-plot van de residuen (Figuur 7) blijkt ook dat de punten min of meer op een rechte liggen zoals we verwachten. Met andere woorden, de modelonderstellingen zijn correct. We kunnen dus besluiten dat de variabele hoogte op een lineaire manier uit de variabele log(volume) kan voorspeld worden, en wel op de volgende manier: hoogte = 15.36915 + 3.31504 log(volume). Merk wel op dat het lineair verband niet zo sterk is, want R 2 = 0.1543 en dus redelijk klein. Dit wijst erop dat de punten erg verspreid liggen rond de rechte die het lineair verband uitdrukt, wat ook op de scatterplot in Figuur 6 te zien is. Men moet dus opletten met het maken van voorspellingen want ze zijn niet erg nauwkeurig. 8