G0N11C Statistiek & data-analyse Project tweede zittijd

Vergelijkbare documenten
G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Examen G0N34 Statistiek

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Statistiek in HBO scripties

Hoofdstuk 5 Een populatie: parametrische toetsen

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

gemiddelde politieke interesse van hoger opgeleide mensen)

Examen G0N34 Statistiek

Kansrekening en Statistiek

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Gebruik van Correlatiecoëfficiënt in onderzoek

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Kansrekening en Statistiek

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf.

Statistiek II. Sessie 2. Verzamelde vragen en feedback Deel 2

Vergelijken van twee groepen (SPSS)

Testen omtrent µ (normale populatie): BI. Testen omtrent µ (normale populatie): fouten. Testen omtrent µ (normale populatie): P-waarde

Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Data analyse Inleiding statistiek

Statistiek II. Sessie 4. Feedback Deel 4

Toetsen van Hypothesen. Het vaststellen van de hypothese

Extra Opgaven. 3. Van 10 personen meten we 100 keer de hartslag na het sporten. De gemiddelde hartslag van

Voorbeeldtentamen Statistiek voor Psychologie

Examen Data Analyse II - Deel 2

Statistiek voor A.I.

Hoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ?

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Les 2: Toetsen van één gemiddelde

S0A17D: Examen Sociale Statistiek (deel 2)

toetskeuze schema verschillen in gemiddelden

Antwoordvel Versie A

Kansrekening en Statistiek

4 Domein STATISTIEK - versie 1.2

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

EXAMEN : Basisbegrippen statistiek. Examen 16 januari 2015

9. Lineaire Regressie en Correlatie

Examen Statistiek I Feedback

Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Kansrekening en Statistiek

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Kengetal Antwoord Nee Nee Ja Nee Ja Ja Nee Toetsgrootheid 1,152 1,113 2,048 1,295 1,152 1,113 0,607

Cursus Statistiek 2. Fellowonderwijs Opleiding Intensive Care. UMC St Radboud, Nijmegen

Statistiek voor A.I. College 10. Donderdag 18 Oktober

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

TECHNISCHE UNIVERSITEIT EINDHOVEN

TECHNISCHE UNIVERSITEIT EINDHOVEN

Kansrekening en Statistiek

Vandaag. Onderzoeksmethoden: Statistiek 4. Recap: Hypothese toetsen. Recap: One-sample t-toets

Les 1: de normale distributie

11. Multipele Regressie en Correlatie

Fasen in het onderzoeksproces

a. Wanneer kan men in plaats van de Pearson correlatie coefficient beter de Spearman rangcorrelatie coefficient berekenen?

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Les 5: Analysis of variance

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Statistiek II. Sessie 5. Feedback Deel 5

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Faculteit der Wiskunde en Informatica

Cursus Statistiek Parametrische en non-parametrische testen. Fellowonderwijs Intensive Care UMC St Radboud

Hoofdstuk 6 Twee populaties: parametrische toetsen

Eindtoets Toegepaste Biostatistiek

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Niet-Parametrische Statistiek

Niet-parametrische Statistiek

SOCIALE STATISTIEK (deel 2)

Sheets K&S voor INF HC 10: Hoofdstuk 12

Modelexamen Statistiek

Verdelingsvrije statistiek

15.1 Beslissen op grond van een steekproef [1]

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Oplossingen hoofdstuk 9

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Sheets hoorcollege 1 (over paragraaf 7.1) Uitgewerkte opgaven week 6 Antwoorden uitgewerkte opgaven week 6

Data analyse Inleiding statistiek

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen.

Opgeloste Oefeningen Hoofdstuk 8: Het Toetsen van Hypothesen

Hoofdstuk 3 Statistiek: het toetsen

Kansrekening en Statistiek

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

Oefenvragen bij Statistics for Business and Economics van Newbold

Les 5: ANOVA. Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 28 november 2018

Grafieken Cirkeldiagram

Beknopte handleiding SPSS versie van 28

Hoofdstuk 12: Eenweg ANOVA

2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015,

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Transcriptie:

G0N11C Statistiek & data-analyse Project tweede zittijd 2014-2015 Naam : Raimondi Michael Studierichting : Biologie Gebruik deze Word-template om een antwoord te geven op onderstaande onderzoeksvragen. Houd je aan de plaats die in dit document voorzien is, zodat je ordelijk getypt rapport maximaal uit 6 pagina s bestaat (dit voorblad en bijlagen niet inbegrepen). In je bespreking mag je geen R output toevoegen, maar je moet in je tekst uiteraard wel de relevante waarden uit de output vermelden en bespreken. Noodzakelijke figuren (zoals een kwantielplot voor het nagaan van normaliteit) moeten wel in het rapport staan. In bijlage voeg je dan de volledige R output, zonder figuren, alsook je script toe. Het volledige rapport, inclusief deze bijlage, mag daardoor uit meer dan 7 pagina's bestaan. Gebruik een lettergrootte van 11pt voor het rapport. Het rapport moet in 1 exemplaar afgegeven worden bij de aanvang van het examen. Zorg ervoor dat het rapport samengebonden is (met een nietje) en voorzien van je naam en studierichting. Je hoeft het niet te laten inbinden of in een kaftje te steken! Iedereen moet ook (ten laatste voor de aanvang van het examen) een elektronische versie van dit rapport (als PDF of Word-document) op Toledo uploaden. Wie het project niet of te laat indient, behaalt 0/3. Verwijderde observaties: Tijdperk -4000 15 Tijdperk -3300 45 Tijdperk -1850 75 Tijdperk -200 105 Tijdperk 150 135 1

De onderzoeksvragen 1. Onderzoek aan de hand van een geschikte hypothesetest of er een verschil is tussen de breedte en de hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren. a. Formuleer een geschikte H 0 en H 1. Dit is gepaarde data want het gaat over verschillende variabelen, namelijk de hoogte en de breedte van de schedels van dezelfde groep mannelijke Egyptenaren. Omdat het gaat over gepaarde gegevens wordt er een toevalsvariabele ingevoerd. Waarbij V = X Y µ V = µ 1 µ 2 Zodat volgende hypotheses getest worden: H 0 : µ V = 0 De gemiddelde breedte is significant gelijk aan de gemiddelde hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren. H 1 : µ V 0 De gemiddelde breedte is significant verschillend van de gemiddelde hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren. b. Ga de nodige veronderstellingen na. Pas je gegevens en/of de hypothesetest aan indien nodig! Eerst wordt met behulp van een boxplot nagegaan of de gegevens van beide variabelen normaal verdeeld zijn. Zoals te zien op Figuur 1.1 is de normale verdeling zichtbaar op de boxplot van beide variabelen. De staarten zijn beide ongeveer even lang en de mediaan ligt ongeveer in het midden van de box. Bij de variabele BREEDTE zijn er wel 3 uitschieters zichtbaar (meting 4, 33 en 144), verdere grafische methodes zijn nodig om te beslissen als deze verwijderd moeten worden. Figuur 1. 1 Boxplot van de variabele 'HOOGTE1' links en een boxplot van de variabele 'BREEDTE' rechts. Er kan ook gekeken worden naar de histogrammen van beide variabelen. Als deze de Gaussische curve bij benadering volgen, zoals het geval is op Figuur 1.2 en Figuur 1.3, wordt het vermoeden sterker dat de gegevens normaal verdeeld zijn. De uitschieters van de variabele BREEDTE zijn hier niet op te merken. 2

Figuur 1.2 Histogram van de variabele HOOGTE1 Figuur 1.3 Histogram van de variabele 'BREEDTE' Grafisch kan een normale verdeling ook opgemerkt worden op een QQ-plot. Zoals te zien in Figuur 1.2 is er een duidelijke rechte doorheen de punten waarneembaar voor beide variabelen. Ook dit duidt op een normale verdeling. Op alle grafische methoden blijken de uitschieters geen invloed te hebben op de normale verdeling en deze worden dus niet verwijderd. Figuur 1. 2 QQ-plots van de variabelen 'HOOGTE1' links en 'BREEDTE' rechts. Er bestaat ook een formele test om de normaliteit van gegevens na te gaan, zo kan een Shapiro-Wilk test uitgevoerd worden. De uitvoer van een Shapiro-Wilk test geeft twee waarden. De w-waarde geeft aan als er een sterk lineair verband is tussen de waarden op de Q-Q-plot, als deze dicht bij 1 ligt, is er een sterk lineair verband. 3

Voor de variabele BREEDTE wordt volgende w-waarde bekomen: w = 0.9894 Dit betekent dat er een sterk lineair verband is tussen de waarden op de Q-Q-plot. De p-waarde geeft aan als de nulhypothese verworpen kan worden, dit is slechts als de p-waarde lager is dan het significantieniveau. De p-waarde die bekomen wordt voor de variabele BREEDTE is: p = 0.3387 Dit is hoger dan het significantieniveau α (0.05) en de normaliteit wordt aangenomen voor de breedte van de schedels van de mannelijke Egyptenaren op significantieniveau α. Voor de variabele HOOGTE1 wordt een w-waarde bekomen van: En een p-waarde van: w = 0.9851 p = 0.1188 Deze duiden respectievelijk op een lineair verband op de QQ-plot en op normaliteit op significantieniveau α. De normaliteit van de gegevens van de hoogte van de schedels van de mannelijke Egyptenaren wordt aangenomen op dit significantieniveau α. De tweede veronderstelling is dat de varianties constant zijn. Hierbij zijn de hypotheses: 2 2 H 0 : σ BREEDTE = σ HOOGTE1 De variantie van de breedte is gelijk aan de variantie van de hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren. 2 2 H 1 : σ BREEDTE σ HOOGTE1 De variantie van de breedte is niet gelijk aan de variantie van de hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren. Deze hypotheses worden getest met behulp van een F-test. De teststatistiek die hierbij hoort is: 2 2 F = S BREEDTE /S HOOGTE1 De testwaarde die bekomen wordt is: De P-waarde die bekomen wordt is: F = 0.9833 P = 0.9194 Deze P-waarde is groter dan het significantieniveau α, zodus kan de gelijkheid van varianties niet worden verworpen. Beide voorwaarden zijn nu voldaan om een gepaarde t-test uit te voeren. 4

c. Voer de hypothesetest uit en formuleer je besluit. Er wordt aangenomen dat de gegevens van beide variabelen normaal verdeeld en de varianties gelijk zijn. Dan kan de hypothese getest worden met behulp van volgende teststatistiek: Waarbij T = V, S V (n) S V 2 = 1 n 1 (V i V ) 2 De gepaarde t-test wordt uitgevoerd. De testwaarde die bekomen wordt is: Er wordt een p-waarde bekomen van: t = 2.5494 p = 0.01184 en dit is kleiner dan significantieniveau α (= 0.05). De nulhypothese wordt dus verworpen op significantieniveau α. Besluit: Er is een significant verschil tussen de breedte en de hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren op significantieniveau α. 2. Is er een verband tussen de breedte en de lengte van een schedel? Ga na met behulp van een hypothesetest. a. Formuleer een geschikte H 0 en H 1. H 0 : ρ = 0 Er is geen lineaire afhankelijkheid tussen de breedte en de lengte van de schedels van de mannelijke Egyptenaren. H 1 : ρ 0 Er is een mate van lineaire afhankelijkheid tussen de breedte en de lengte van de schedels van de mannelijke Egyptenaren. Met ρ de populatiecorrelatiecoëfficiënt die gedefinieerd is als: Cov(BREEDTE, LENGTE) ρ(breedte, LENGTE) = Var(BREEDTE)Var(LENGTE) en Cov(BREEDTE, LENGTE) = E ((BREEDTE E(BREEDTE))(LENGTE E(LENGTE))). b. Ga de nodige veronderstellingen na. Pas je gegevens en/of de hypothesetest aan indien nodig! Dit is gepaarde data want het gaat over verschillende variabelen, namelijk de lengte en de breedte van de schedels van dezelfde groep mannelijke Egyptenaren. 5

Een nodige strenge voorwaarde om deze hypothesetest te mogen uitvoeren, is dat de variabelen BREEDTE en LENGTE bivariaat verdeeld zijn. Hiervoor moet eerst nagegaan worden welke verdeling beide variabelen hebben. In de vorige vraag werd al geconcludeerd dat de variabele BREEDTE normaal verdeeld is op significantieniveau α. Om na te gaan als de variabele LENGTE normaal verdeeld is, wordt eerst gekeken naar de boxplot. Op Figuur 2.1 is er één uitschieter zichtbaar maar de boxplot lijkt normaal verdeeld. De Q-Q plot uit Figuur 2.2 geeft een lineair verband en doet het vermoeden van een normale verdeling stijgen. Figuur 2.1 QQ-plot van de variabele 'LENGTE'. Figuur 2.2 Boxplot van de variabele 'LENGTE'. Het histogram van de variabele LENGTE wordt weergegeven op Figuur 2.3. Ook hier is de normale verdeling zichtbaar doordat deze de Gaussische curve bij benadering volgt. Figuur 2.3 Histogram van de variabele 'LENGTE'. Nu kan er met een formele Shapiro-Wilk test aangetoond worden als de gegevens van de variabele LENGTE normaal verdeeld zijn. De w-waarde die bekomen wordt is: w = 0.9931 Deze ligt dicht bij 1 en duidt dus op een sterk lineair verband tussen de gegevens op de Q-Q plot. De p-waarde heeft een waarde van: p = 0.7078 6

Deze p-waarde is duidelijk hoger dan het significantieniveau α(= 0.05). De normaliteit kan dus aangenomen worden op significantieniveau α. Beide variabelen zijn normaal verdeeld op significantieniveau α en een scatterplot kan helpen om te zien of de bivariate normaliteit plausibel lijkt. Op Figuur 2.4 zijn de gegevens geplot en lijken een elliptische puntenwolk te vormen. De bivariate normaliteit tussen de variabele LENGTE en BREEDTE kan dus aangenomen worden op significantieniveau α. Figuur 2.4 Scatterplot van de lengte ten opzichte van de breedte van de schedels van de mannelijke Egyptenaren c. Voer de hypothesetest uit en formuleer je besluit. Na de Pearson correlatietest uitgevoerd te hebben, is de testwaarde: De Pearson correlatiecoëfficiënt is: De p-waarde die bekomen wordt is: t = 1.8463 r n = 0.1525841 p = 0.06692 En deze is hoger dan het significantieniveau α (0.05) waardoor de nulhypothese niet verworpen kan worden. Op significantieniveau α kan dus aangenomen worden dat er een lineair verband bestaat tussen de lengte en de breedte van de schedels van de mannelijke Egyptenaren. 3. We definiëren grote schedels als schedels waarvan de lengte groter of gelijk is aan 100. Kleine schedels hebben een lengte strikt kleiner dan 100. Ga nu met behulp van een hypothesetest na of een grote of kleine schedel kenmerkend is voor een bepaald tijdperk. Indien dit zo is, bespreek kort. a. Formuleer een geschikte H 0 en H 1. H 0 : µ lengte voor een bepaalde periode 100 De gemiddelde lengte van de schedels van een bepaalde periode van de mannelijke Egyptenaren is gemiddeld groter of gelijk aan 100. H 1 : µ lengte voor een bepaalde periode < 100 De gemiddelde lengte van de schedels van een bepaalde periode van de mannelijke Egyptenaren is gemiddeld kleiner dan 100. 7

De teststatistiek voor deze linkseenzijdige test wordt dan: T = LENGTE µ 0 S n b. Ga de nodige veronderstellingen na. Pas je gegevens en/of de hypothesetest aan indien nodig! Eerst wordt de dataset verdeeld in de verschillende periodes. Daarna wordt voor elke periode de nodige veronderstellingen nagegaan en wordt de hypothesetest uitgevoerd. De voorwaarde die nodig is voor deze hypothesetesten is dat de gegevens normaal verdeeld zijn. Eerst wordt er gekeken naar de boxplot van elke tijdsperiode. In Figuur 3.1 worden 5 boxplots weergegeven. Deze vertonen telkens een normale verdeling. Er worden wel in Tijdsperk 2, 4 en 5 een uitschieter opgemerkt (respectievelijk meting 24, 1 en 26). Verdere grafische methoden zullen uitmaken als deze verwijderd moeten worden. Figuur 3.1 Boxplots van tijdperk 1 t.e.m. 5 van de lengte van de schedels van de mannelijke Egyptenaren. Om verdere zekerheid te krijgen van de normaliteit wordt gekeken naar de Q-Q-plots in Figuur 3.2. Deze geven voor elke tijdsperiode een stijgende rechte wat ook duidt op normaliteit. Wel is de uitschieter uit Tijdsperk 4 ook hier zichtbaar afwijkend van de rest van de gegevens. Figuur 3.2 QQ-plots van de variabele 'LENGTE' van Tijdsperk 1 (links) en Tijdsperk 2 (rechts) 8

Figuur 3.3 QQ-plots van de lengte van de schedels van de mannelijke Egyptenaren uit Tijdsperk 3 (linksboven), Tijdsperk 4 (rechtsboven) en Tijdperk 5 (onder). Om verdere bevestiging te krijgen over de normale verdeling kan er gekeken worden naar de histogrammen. Deze zijn te zien op Figuur 3.4 en versterken het vermoeden dat de gegevens normaal verdeeld zijn voor Tijdperk 1, 2, 3 en 5. Voor Tijdperk 4 is het nu duidelijk dat de uitschieter verwijderd moet worden. Figuur 3.4 Histogrammen van de lengte van de schedels van de mannelijke Egyptenaren uit verschillende tijdsperken. 9

Na het verwijderen van de uitschieter is de normale verdeling beter zichtbaar op de boxplot en het histogram (Figuur 3.5) en de Q-Q-plot (Figuur 3.6). Figuur 3.5 Boxplot (links) en histogram (rechts) van de variabele lengte voor Tijdsperk 4 zonder uitschieter. Figuur 3.6 Q-Q-plot van de variabele lengte voor Tijdsperk 4 Nu wordt formeel getest of de gegevens normaal verdeeld zijn met behulp van een Shapiro- Wilk test. De testwaardes en p-waardes worden weergegeven in Tabel 3.1. De p-waardes zijn steeds groter dan het significantieniveau α (= 0.05). Voor elke periode kan nu de normaliteit aangenomen worden op significantieniveau α. Tijdsperiode w-waarde p-waarde 1 0.9734 0.654 2 0.9796 0.8269 3 0.981 0.8625 4 0.9701 0.5622 5 0.9796 0.8274 Tabel 3.1 w- en p-waarden van de Shapiro-Wilk tests van de variabele LENGTE uit 5 verschillende tijdsperioden. c. Voer de hypothesetest uit en formuleer je besluit. De gepaarde t-test kan nu uitgevoerd worden voor elke tijdsperiode. De testwaarden en p- waarden worden weergegeven in tabel 3.2. In tijdsperiode 1 en 2 zijn de p-waarden groter dan het significantieniveau α. In tijdsperiode 3, 4 en 5 zijn deze kleiner dan significantieniveau α. Dit betekent dat voor de eerste twee tijdsperiodes de schedels groter zijn dan 100, voor de 3 latere tijdsperiodes zijn deze kleiner dan 100. Tijdsperiode Testwaarde p-waarde 1-0.7755 0.22230 2-1.3753 0.08997 3-5.2237 7.523e-06 4-6.5893 1.903e-07 5-6.9224 7.952e-08 Tabel 3.2 test- en p-waarden van de gepaarde t-tests voor de variabele LENGTE voor elke tijdsperiode. 10

In tijdsperiode 1 en 2 is een grote schedel kenmerkend voor de mannelijke Egyptenaren. De mannelijke Egyptenaren uit tijdsperiode 3, 4 en 5 worden gekenmerkt door een kleine schedel. Bijlagen R-script # dataset importeren met header # vervolgens 5 waardes verwijderen uit elke periode schedels = schedels[-c(15,45,75,105,135),] # Eerste onderzoeksvraag # variabelen definiëren hoogte1 = schedels$hoogte1 breedte = schedels$breedte # normaliteit nagaan voor beide variabelen boxplot(breedte) hist(breedte) qqnorm(breedte) shapiro.test(breedte) library(car) Boxplot(breedte) boxplot(hoogte1) hist(hoogte1) qqnorm(hoogte1) shapiro.test(hoogte1) # nagaan of varianties constant zijn. var.test(breedte, hoogte1) # gepaarde t-test uitvoeren # nieuwe variabele 'verschil' invoeren verschil = breedte - hoogte1 t.test(verschil) t.test(breedte, hoogte1, paired=true) # Tweede Onderzoeksvraag # variabele 'lengte' invoeren lengte = schedels$lengte # normaliteit nagaan voor de variabele 'lengte' qqnorm(lengte) boxplot(lengte) hist(lengte) qqnorm(lengte) shapiro.test(lengte) # scatterplot maken plot(lengte, breedte) # correlatietest uitvoeren cor.test(lengte, breedte, method="pearson") # Onderzoeksvraag 3 # de data van de lengte wordt verdeeld in verschillende tijdperken tp1 = schedels$lengte[1:29] tp2 = schedels$lengte[30:58] 11

tp3 = schedels$lengte[59:87] tp4 = schedels$lengte[88:116] tp5 = schedels$lengte[117:145] # normaliteit nagaan voor elke periode boxplot(tp1, tp2, tp3, tp4, tp5) hist(tp1, main = "Tijdperk 1", xlab = "Lengte") hist(tp2, main = "Tijdperk 2", xlab = "Lengte") hist(tp3, main = "Tijdperk 3", xlab = "Lengte") hist(tp4, main = "Tijdperk 4", xlab = "Lengte") hist(tp5, main = "Tijdperk 5", xlab = "Lengte") library(car) Boxplot(tp2) Boxplot(tp4) Boxplot(tp5) boxplot(tp4[-c(1)]) hist(tp4[-c(1)], breaks=3, main="tijdperk 4 zonder uitschieter", xlab = "Lengte in cm") qqnorm(tp1, main = "Tijdperk 1") qqnorm(tp2, main = "Tijdperk 2") qqnorm(tp3, main = "Tijdperk 3") qqnorm(tp4, main = "Tijdperk 4") qqnorm(tp5, main = "Tijdperk 5") qqnorm(tp4[-c(1)]) qqline(tp4[-c(1)]) shapiro.test(tp1) shapiro.test(tp2) shapiro.test(tp3) shapiro.test(tp4) shapiro.test(tp5) # gepaarde t-test uitvoeren voor elke periode t.test(tp1, mu=100, alternative="less") t.test(tp2, mu=100, alternative="less") t.test(tp3, mu=100, alternative="less") t.test(tp4, mu=100, alternative="less") t.test(tp5, mu=100, alternative="less") R-Output > schedels <- read.csv("c:/users/gebruiker/downloads/schedels.csv") > View(schedels) > # dataset importeren met heading > # vervolgens 5 waardes verwijderen uit elke periode > schedels = schedels[-c(15,45,75,105,135),] > # Eerste onderzoeksvraag > # variabelen definiëren > hoogte1 = schedels$hoogte1 > breedte = schedels$breedte > # normaliteit nagaan voor beide variabelen > boxplot(breedte) > hist(breedte) > qqnorm(breedte) > shapiro.test(breedte) data: breedte W = 0.9894, p-value = 0.3387 > library(car) Warning message: package car was built under R version 3.1.3 > Boxplot(breedte) [1] 4 33 144 > boxplot(hoogte1) > qqnorm(hoogte1) > hist(hoogte1) 12

> shapiro.test(hoogte1) data: hoogte1 W = 0.9851, p-value = 0.1188 > # nagaan of varianties constant zijn. > var.test(breedte, hoogte1) F test to compare two variances data: breedte and hoogte1 F = 0.9833, num df = 144, denom df = 144, p-value = 0.9194 alternative hypothesis: true ratio of variances is not equal to 1 0.708331 1.364886 ratio of variances 0.9832555 > # gepaarde t-test uitvoeren > # nieuwe variabele 'verschil' invoeren > verschil = breedte - hoogte1 > t.test(verschil) One Sample t-test data: verschil t = 2.5494, df = 144, p-value = 0.01184 alternative hypothesis: true mean is not equal to 0 0.3393695 2.6813202 mean of x 1.510345 > t.test(breedte, hoogte1, paired=true) Paired t-test data: breedte and hoogte1 t = 2.5494, df = 144, p-value = 0.01184 alternative hypothesis: true difference in means is not equal to 0 0.3393695 2.6813202 mean of the differences 1.510345 > # Tweede Onderzoeksvraag > # variabele 'lengte' invoeren > lengte = schedels$lengte > # normaliteit nagaan voor de variabele 'lengte' > qqnorm(lengte) > boxplot(lengte) > hist(lengte) > shapiro.test(lengte) data: lengte W = 0.9931, p-value = 0.7078 > # scatterplot maken > plot(lengte, breedte) > # correlatietest uitvoeren > cor.test(lengte, breedte, method="pearson") Pearson's product-moment correlation data: lengte and breedte t = -1.8463, df = 143, p-value = 0.06692 alternative hypothesis: true correlation is not equal to 0-0.30793421 0.01069104 13

cor -0.1525841 > # Onderzoeksvraag 3 > # de data van de lengte wordt verdeeld in verschillende tijdperken > tp1 = schedels$lengte[1:29] > tp2 = schedels$lengte[30:58] > tp3 = schedels$lengte[59:87] > tp4 = schedels$lengte[88:116] > tp5 = schedels$lengte[117:145] > # normaliteit nagaan voor elke periode > boxplot(tp1, tp2, tp3, tp4, tp5) > hist(tp1, main = "Tijdperk 1", xlab = "Lengte") > hist(tp2, main = "Tijdperk 2", xlab = "Lengte") > hist(tp3, main = "Tijdperk 3", xlab = "Lengte") > hist(tp4, main = "Tijdperk 4", xlab = "Lengte") > hist(tp5, main = "Tijdperk 5", xlab = "Lengte") > library(car) > Boxplot(tp2) [1] 25 > Boxplot(tp4) [1] 1 > Boxplot(tp5) [1] 26 > boxplot(tp4[-c(1)]) > hist(tp4[-c(1)], breaks=3, main="tijdperk 4 zonder uitschieter", xlab = "Lengte i n cm") > qqnorm(tp1, main = "Tijdperk 1") > qqnorm(tp2, main = "Tijdperk 2") > qqnorm(tp3, main = "Tijdperk 3") > qqnorm(tp4, main = "Tijdperk 4") > qqnorm(tp5, main = "Tijdperk 5") > qqnorm(tp4[-c(1)]) > qqline(tp4[-c(1)]) > shapiro.test(tp1) data: tp1 W = 0.9734, p-value = 0.654 > shapiro.test(tp2) data: tp2 W = 0.9796, p-value = 0.8269 > shapiro.test(tp3) data: tp3 W = 0.981, p-value = 0.8625 > shapiro.test(tp4) data: tp4 W = 0.9701, p-value = 0.5622 > shapiro.test(tp5) data: tp5 W = 0.9796, p-value = 0.8274 > # gepaarde t-test uitvoeren voor elke periode > t.test(tp1, mu=100, alternative="less") One Sample t-test data: tp1 t = -0.7755, df = 28, p-value = 0.2223 alternative hypothesis: true mean is less than 100 14

-Inf 101.029 mean of x 99.13793 > t.test(tp2, mu=100, alternative="less") One Sample t-test data: tp2 t = -1.3753, df = 28, p-value = 0.08997 alternative hypothesis: true mean is less than 100 -Inf 100.2614 mean of x 98.89655 > t.test(tp3, mu=100, alternative="less") One Sample t-test data: tp3 t = -5.2237, df = 28, p-value = 7.523e-06 alternative hypothesis: true mean is less than 100 -Inf 97.13984 mean of x 95.75862 > t.test(tp4, mu=100, alternative="less") One Sample t-test data: tp4 t = -6.5893, df = 28, p-value = 1.903e-07 alternative hypothesis: true mean is less than 100 -Inf 95.83039 mean of x 94.37931 > t.test(tp5, mu=100, alternative="less") One Sample t-test data: tp5 t = -6.9224, df = 28, p-value = 7.952e-08 alternative hypothesis: true mean is less than 100 -Inf 95.0323 mean of x 93.41379 15