G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Transcriptie

1 G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag te halen is het niet altijd noodzakelijk om alle elementen die in deze oplossing aangehaald worden te vermelden. 1 Dataset lengte 1. Bestudeer de verdeling van de variabele lengte voor enerzijds de mannen en anderzijds de vrouwen. (a) Numeriek mannen vrouwen gemiddelde mediaan modus standaarddeviatie IQR Tabel 1: Numerieke kenmerken van de verdeling van de lengte. Uit Tabel 1 blijkt dat de gemiddelde lengte van de mannen cm is, terwijl de mediaan 182 cm bedraagt. Als het gemiddelde en de mediaan dicht bij elkaar liggen, wijst dit op een symmetrische verdeling. Ook de modus (180 cm) ligt niet ver van het gemiddelde en de mediaan, wat het vermoeden van symmetrie alleen maar versterkt. Aangezien de normaalverdeling een symmetrische verdeling is, hebben we hier een eerste aanwijzing dat de lengte van de mannen wel eens normaal verdeeld zou kunnen zijn. Ook de spreidingsmaten geven informatie over de verdeling. De standaarddeviatie s voor de lengte van de mannen bedraagt 9.14 cm en de interkwartielafstand (IQR) 11 cm. Bij normaalverdeelde gegevens geldt de volgende eigenschap: IQR s Voor de lengte van de mannen vinden we dat IQR = 11 = Dit ligt niet s 9.14 zo heel ver af van 1.34, dus we kunnen zeker niet uitsluiten dat de lengte van 1

2 de mannen normaal verdeeld is op basis van de numerieke kenmerken van de gegevens. De gemiddelde lengte van de vrouwen is cm, de mediaan cm, en de modus 172 cm. Hoewel de modus nu iets meer afwijkt van de beide andere waarden, die wel heel dicht bij elkaar liggen, is dit nog geen indicatie voor het niet-symmetrisch zijn van de verdeling, en kan normaliteit van de gegevens dus niet uitgesloten worden. De standaarddeviatie van de lengte van de vrouwen is kleiner dan die van de lengte van de mannen, s is nu gelijk aan 7.13 cm. De IQR bedraagt 9.5 cm, zodat IQR = 9.5 = Dit ligt heel dicht bij wat men zou verwachten als de s 7.13 gegevens normaal verdeeld zijn, dus net zoals bij de mannen kunnen we ook voor de vrouwen besluiten dat de numerieke eigenschappen van de variabele lengte zeker niet uitsluiten dat deze normaal verdeeld is. Grafisch Zowel op het histogram voor de lengte van de mannen (Figuur 1(a)) als het histogram voor de lengte van de vrouwen (Figuur 1) merken we symmetrie op. Ook de klokvorm die men zou verwachten bij normaliteit komt hier duidelijk naar voor. (a) Figuur 1: Histogram voor de lengte van de (a) mannen; vrouwen. De QQ-plot volgt zowel voor de mannen (Figuur 2(a)) als voor de vrouwen (Figuur 2) min of meer een rechte lijn. Dit is nog een aanwijzing dat de gegevens uit een normaalverdeling komen. Bij de mannen zien we een iets betere rechte verschijnen dan bij de vrouwen, een deel van de verklaring zou kunnen zijn dat er van de mannen 6 gegevens meer beschikbaar zijn dan van de vrouwen. Op beide boxplots (Figuur 3) zien we weer de eerder opgemerkte symmetrie terug: het gemiddelde en de mediaan liggen dicht bij elkaar en beide staarten zijn ongeveer even lang. Bij de mannen zijn er 3 waarnemingen die niet meer binnen de snorhaar van de boxplot vallen, maar deze kunnen zeker niet als extreme uitschieters beschouwd worden. 2

3 (a) Figuur 2: QQ-plot voor de lengte van de (a) mannen; vrouwen. Figuur 3: Boxplots voor de lengte van de mannen en de vrouwen. (c) Formeel: Shapiro-Wilk test We onderzoeken nu op een formele manier of de variabele lengte normaal verdeeld is, zowel voor de mannen als voor de vrouwen. Eerst wordt de test uitgevoerd voor de lengte van de mannen, dit wil zeggen dat de hypothese H 0 : De lengte van de mannen is normaal verdeeld versus H 1 : De lengte van de mannen is niet normaal verdeeld getest wordt. De teststatistiek die gebruikt wordt is T = X µ 0 S/ met S de steekproefstandaarddeviatie. Onder H 0 geldt dat T een student t-verdeling heeft n met 3

4 n 1 vrijheidsgraden. De bijbehorende P-waarde wordt berekend door 2P (T > t ) te berekenen, waarbij t de waarde van de teststatistiek is. De waarde van de teststatistiek t is hier met bijbehorende P-waarde Deze P-waarde is zeker niet kleiner dan het opgelegde significantieniveau α = 0.05, dus er is geen reden om H 0 te verwerpen op dit significantieniveau. We mogen dus uitgaan van de veronderstelling dat de lengte van de mannen normaal verdeeld is. Ook voor de vrouwen volgen we dezelfde aanpak. Nu onderzoeken we dus de volgende hypothese: H 0 : De lengte van de vrouwen is normaal verdeeld versus H 1 : De lengte van de vrouwen is niet normaal verdeeld. De teststatistiek heeft de waarde met bijbehorende P-waarde Ook hier is de P-waarde zeker niet kleiner dan het opgelegde significantieniveau α = 0.05, dus weerom is er geen reden om H 0 te verwerpen op dit significantieniveau. We mogen dus uitgaan van de veronderstelling dat de lengte van de vrouwen normaal verdeeld is. (d) Besluit De variabele lengte is zowel voor de mannen als voor de vrouwen normaal verdeeld op significantieniveau α = Voor geen van beide groepen zitten er uitschieters in de data. 2. Is het aantal ondervraagden van een bepaald geslacht gerelateerd aan de studierichting van de ondervrager? We zoeken naar een verband tussen 2 discrete variabelen, namelijk geslacht en studierichting. De volgende hypothese wordt getest: H 0 : Er is geen verband tussen het geslacht van de ondervraagde en de studierichting van de ondervrager versus H 1 : Er is wel een verband tussen het geslacht van de ondervraagde en de studierichting van de ondervrager. De geobserveerde aantallen zijn gegeven in Tabel 2. Indien beide variabelen onafhankebiochemie biologie chemie geologie totaal mannelijk vrouwelijk totaal Tabel 2: Tabel met geobserveerde aantallen. lijk zouden zijn, kan men berekenen welke waarden men zou verwachten. Deze getallen zijn terug te vinden in Tabel 3. 4

5 biochemie biologie chemie geologie totaal mannelijk vrouwelijk totaal Tabel 3: Tabel met verwachte aantallen. Op het zicht zien we al dat de verwachte aantallen niet zo sterk afwijken van de geobserveerde. Formeel wordt dit bevestigd door het berekenen van het χ 2 -getal. χ 2 (geobserveerde waarde verwachte waarde) 2 -getal = = verwachte waarde alle cellen Uit de formule van het χ 2 -getal volgt dat hoe kleiner dit getal, hoe dichter de geobserveerde en verwachte waarden bij elkaar liggen. Het χ 2 -getal is hier behoorlijk klein, wat bevestigt wat we al zagen, namelijk dat er geen grote afwijkingen zijn tussen de geobserveerde en de verwachte waarden. De bijbehorende P-waarde is , veel groter dan het vooropgestelde significantieniveau α = 0.05, dus kunnen we H 0 niet verwerpen op significantieniveau α = Besluit: Het aantal ondervraagden van een bepaald geslacht is niet gerelateerd aan de studierichting van de ondervrager op significantieniveau α = Een recente studie stelt dat de gemiddelde lengte van de Vlaming cm is. Je weet echter niet of in die studie enkel mannen, enkel vrouwen of beide geslachten onderzocht werden. Tracht hierop een antwoord te vinden aan de hand van je gegevens. We testen de volgende hypothese H 0 : µ 0 = versus H 1 : µ (1) met µ 0 de echte gemiddelde lengte van de populatie, waarbij de populatie in het eerste geval de Vlaamse mannen is, in het tweede geval de Vlaamse vrouwen en in het laatste geval alle Vlamingen. Als de gegevens normaal verdeeld zijn, kunnen we gebruik maken van de t-test zoals beschreven in deel 1 van deze vraag. Geval 1: We weten al dat de lengte voor de mannen normaal verdeeld is. We mogen dus de t-test zoals eerder beschreven uitvoeren. De waarde t van de teststatistiek bedraagt 9.88 en de bijbehorende P-waarde is < Dat betekent dat we H 0 moeten verwerpen op significantieniveau α = 0.05, de studie werd niet op enkel mannen uitgevoerd. Geval 2: We weten ook dat de lengte voor de vrouwen normaal verdeeld is. We mogen dus weer de t-test uitvoeren. De waarde t van de teststatistiek bedraagt en de bijbehorende P-waarde is < Dat betekent dat we ook hier H 0 moeten verwerpen op significantieniveau α = 0.05, de studie werd niet op enkel vrouwen uitgevoerd. 5

6 (a) Figuur 4: (a) Histogram en boxplot voor de variabele lengte. Geval 3: Vooraleer we de hypothesetest mogen uitvoeren op de volledige dataset moeten we nagaan of de variabele lengte voor de mannen en de vrouwen samen normaal verdeeld is. Op het histogram in Figuur 4(a) zien de we dat de variabele lengte voor beide geslachten samen redelijk symmetrisch verdeeld is. Dit wordt ook bevestigd door de boxplot in Figuur 4. Bovendien zien we op de QQ-plot (Figuur 5) dat de gegevens uitgezet ten opzichte van standaardnormale kwantielen mooi op een rechte liggen. Op basis van deze grafieken lijkt het waarschijnlijk dat de variabele lengte voor beide geslachten samen normaal verdeeld is. Figuur 5: QQ-plot voor de lengte van de mannen en de vrouwen samen. Dit wordt bevestigd door de Shapiro-Wilk test. De waarde van de teststatistiek bedraagt en de bijbehorende P-waarde , dus er is geen reden om de normaliteitsassumptie te verwerpen op significantieniveau α = We kunnen dus hypothese (1) voor beide groepen samen testen met behulp van de t-test uit deel 1 van deze vraag. Als we de waarde van de teststatistiek berekenen, vinden we t = 1.78 en voor de bijbehorende P-waarde Dit is groter dan 6

7 het opgegeven significantieniveau α = 0.05, dus we mogen niet verwerpen dat er in de studie zowel mannen als vrouwen gebruikt werden. 2 Dataset eikel Kan je uit log(volume) de hoogte voorspellen? Als men de gegevens bekijkt, kan men opmerken dat er een uitschieter in de gegevens zit. Boom nummer 8 heeft een hoogte van 0.3 m, en een eikelvolume van 6.8 cm 3. Aangezien men van een boom van 30 cm hoog niet verwacht dat er eikels aan hangen, zou men deze waarneming beter als een uitschieter beschouwen. We vinden deze uitschieter ook terug rechts onderaan op de scatterplot in Figuur 6(a). Figuur 6 toont een scatterplot van de gegevens zonder de uitschieter. Op deze laatste scatterplot is er met wat goede wil een (a) Figuur 6: Scatterplot log(volume) versus hoogte (a) met en zonder uitschieter. licht stijgend verband tussen hoogte en log(volume) te zien. We verwachten dus dat we uit log(volume) de hoogte zullen kunnen voorspellen. Om dit te onderzoeken passen we lineaire regressie toe op de nieuwe dataset (zonder uitschieter): we fitten een lineair verband van hoogte in functie van log(volume). Het onderliggend model is dus hoogte i = a + b log(volume) i + ɛ i met ɛ i de onafhankelijke en normaal verdeelde foutentermen met gemiddelde 0 en constante variantie. De kleinstekwadratenmethode geeft als resultaat de rechte hoogte = log(volume). We onderzoeken nu of de helling in deze rechte significant verschilt van 0. Dit doen we door de volgende hypothese te testen: H 0 : b = 0 versus H 1 : b 0. 7

8 We vinden voor de waarde van de teststatistiek t = ˆb = 2.56, met bijbehorende P- s.e.(ˆb) waarde Deze P-waarde is kleiner dan α = 0.05, zodat we H 0 kunnen verwerpen. We kunnen hieruit besluiten dat b 0 en het is in dit geval dus zinvol om een lineaire regressie uit te voeren. Dat ook aan de modelonderstellingen voor lineaire regressie voldaan is (de foutentermen ɛ i zijn onafhankelijk, normaal verdeeld en hebben dezelfde varianties), blijkt uit Figuur 7, waarin we de residuen beschouwen als een benadering voor de foutentermen. Op de scatter- (a) Figuur 7: (a) Scatterplot van de gestandaardiseerde residuen; QQ-plot van de residuen. plot van de residuen in Figuur 7(a) zien we dat de residuen mooi verspreid liggen, er valt geen patroon te ontdekken. Dat wijst erop dat de foutentermen onafhankelijk zijn van elkaar en dezelfde variantie hebben. Uit de QQ-plot van de residuen (Figuur 7) blijkt ook dat de punten min of meer op een rechte liggen zoals we verwachten. Met andere woorden, de modelonderstellingen zijn correct. We kunnen dus besluiten dat de variabele hoogte op een lineaire manier uit de variabele log(volume) kan voorspeld worden, en wel op de volgende manier: hoogte = log(volume). Merk wel op dat het lineair verband niet zo sterk is, want R 2 = en dus redelijk klein. Dit wijst erop dat de punten erg verspreid liggen rond de rechte die het lineair verband uitdrukt, wat ook op de scatterplot in Figuur 6 te zien is. Men moet dus opletten met het maken van voorspellingen want ze zijn niet erg nauwkeurig. 8