G0N11C Statistiek & data-analyse Project tweede zittijd 2014-2015 Naam : Raimondi Michael Studierichting : Biologie Gebruik deze Word-template om een antwoord te geven op onderstaande onderzoeksvragen. Houd je aan de plaats die in dit document voorzien is, zodat je ordelijk getypt rapport maximaal uit 6 pagina s bestaat (dit voorblad en bijlagen niet inbegrepen). In je bespreking mag je geen R output toevoegen, maar je moet in je tekst uiteraard wel de relevante waarden uit de output vermelden en bespreken. Noodzakelijke figuren (zoals een kwantielplot voor het nagaan van normaliteit) moeten wel in het rapport staan. In bijlage voeg je dan de volledige R output, zonder figuren, alsook je script toe. Het volledige rapport, inclusief deze bijlage, mag daardoor uit meer dan 7 pagina's bestaan. Gebruik een lettergrootte van 11pt voor het rapport. Het rapport moet in 1 exemplaar afgegeven worden bij de aanvang van het examen. Zorg ervoor dat het rapport samengebonden is (met een nietje) en voorzien van je naam en studierichting. Je hoeft het niet te laten inbinden of in een kaftje te steken! Iedereen moet ook (ten laatste voor de aanvang van het examen) een elektronische versie van dit rapport (als PDF of Word-document) op Toledo uploaden. Wie het project niet of te laat indient, behaalt 0/3. Verwijderde observaties: Tijdperk -4000 15 Tijdperk -3300 45 Tijdperk -1850 75 Tijdperk -200 105 Tijdperk 150 135 1
De onderzoeksvragen 1. Onderzoek aan de hand van een geschikte hypothesetest of er een verschil is tussen de breedte en de hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren. a. Formuleer een geschikte H 0 en H 1. Dit is gepaarde data want het gaat over verschillende variabelen, namelijk de hoogte en de breedte van de schedels van dezelfde groep mannelijke Egyptenaren. Omdat het gaat over gepaarde gegevens wordt er een toevalsvariabele ingevoerd. Waarbij V = X Y µ V = µ 1 µ 2 Zodat volgende hypotheses getest worden: H 0 : µ V = 0 De gemiddelde breedte is significant gelijk aan de gemiddelde hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren. H 1 : µ V 0 De gemiddelde breedte is significant verschillend van de gemiddelde hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren. b. Ga de nodige veronderstellingen na. Pas je gegevens en/of de hypothesetest aan indien nodig! Eerst wordt met behulp van een boxplot nagegaan of de gegevens van beide variabelen normaal verdeeld zijn. Zoals te zien op Figuur 1.1 is de normale verdeling zichtbaar op de boxplot van beide variabelen. De staarten zijn beide ongeveer even lang en de mediaan ligt ongeveer in het midden van de box. Bij de variabele BREEDTE zijn er wel 3 uitschieters zichtbaar (meting 4, 33 en 144), verdere grafische methodes zijn nodig om te beslissen als deze verwijderd moeten worden. Figuur 1. 1 Boxplot van de variabele 'HOOGTE1' links en een boxplot van de variabele 'BREEDTE' rechts. Er kan ook gekeken worden naar de histogrammen van beide variabelen. Als deze de Gaussische curve bij benadering volgen, zoals het geval is op Figuur 1.2 en Figuur 1.3, wordt het vermoeden sterker dat de gegevens normaal verdeeld zijn. De uitschieters van de variabele BREEDTE zijn hier niet op te merken. 2
Figuur 1.2 Histogram van de variabele HOOGTE1 Figuur 1.3 Histogram van de variabele 'BREEDTE' Grafisch kan een normale verdeling ook opgemerkt worden op een QQ-plot. Zoals te zien in Figuur 1.2 is er een duidelijke rechte doorheen de punten waarneembaar voor beide variabelen. Ook dit duidt op een normale verdeling. Op alle grafische methoden blijken de uitschieters geen invloed te hebben op de normale verdeling en deze worden dus niet verwijderd. Figuur 1. 2 QQ-plots van de variabelen 'HOOGTE1' links en 'BREEDTE' rechts. Er bestaat ook een formele test om de normaliteit van gegevens na te gaan, zo kan een Shapiro-Wilk test uitgevoerd worden. De uitvoer van een Shapiro-Wilk test geeft twee waarden. De w-waarde geeft aan als er een sterk lineair verband is tussen de waarden op de Q-Q-plot, als deze dicht bij 1 ligt, is er een sterk lineair verband. 3
Voor de variabele BREEDTE wordt volgende w-waarde bekomen: w = 0.9894 Dit betekent dat er een sterk lineair verband is tussen de waarden op de Q-Q-plot. De p-waarde geeft aan als de nulhypothese verworpen kan worden, dit is slechts als de p-waarde lager is dan het significantieniveau. De p-waarde die bekomen wordt voor de variabele BREEDTE is: p = 0.3387 Dit is hoger dan het significantieniveau α (0.05) en de normaliteit wordt aangenomen voor de breedte van de schedels van de mannelijke Egyptenaren op significantieniveau α. Voor de variabele HOOGTE1 wordt een w-waarde bekomen van: En een p-waarde van: w = 0.9851 p = 0.1188 Deze duiden respectievelijk op een lineair verband op de QQ-plot en op normaliteit op significantieniveau α. De normaliteit van de gegevens van de hoogte van de schedels van de mannelijke Egyptenaren wordt aangenomen op dit significantieniveau α. De tweede veronderstelling is dat de varianties constant zijn. Hierbij zijn de hypotheses: 2 2 H 0 : σ BREEDTE = σ HOOGTE1 De variantie van de breedte is gelijk aan de variantie van de hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren. 2 2 H 1 : σ BREEDTE σ HOOGTE1 De variantie van de breedte is niet gelijk aan de variantie van de hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren. Deze hypotheses worden getest met behulp van een F-test. De teststatistiek die hierbij hoort is: 2 2 F = S BREEDTE /S HOOGTE1 De testwaarde die bekomen wordt is: De P-waarde die bekomen wordt is: F = 0.9833 P = 0.9194 Deze P-waarde is groter dan het significantieniveau α, zodus kan de gelijkheid van varianties niet worden verworpen. Beide voorwaarden zijn nu voldaan om een gepaarde t-test uit te voeren. 4
c. Voer de hypothesetest uit en formuleer je besluit. Er wordt aangenomen dat de gegevens van beide variabelen normaal verdeeld en de varianties gelijk zijn. Dan kan de hypothese getest worden met behulp van volgende teststatistiek: Waarbij T = V, S V (n) S V 2 = 1 n 1 (V i V ) 2 De gepaarde t-test wordt uitgevoerd. De testwaarde die bekomen wordt is: Er wordt een p-waarde bekomen van: t = 2.5494 p = 0.01184 en dit is kleiner dan significantieniveau α (= 0.05). De nulhypothese wordt dus verworpen op significantieniveau α. Besluit: Er is een significant verschil tussen de breedte en de hoogte (achteraan gemeten) van de schedels van de mannelijke Egyptenaren op significantieniveau α. 2. Is er een verband tussen de breedte en de lengte van een schedel? Ga na met behulp van een hypothesetest. a. Formuleer een geschikte H 0 en H 1. H 0 : ρ = 0 Er is geen lineaire afhankelijkheid tussen de breedte en de lengte van de schedels van de mannelijke Egyptenaren. H 1 : ρ 0 Er is een mate van lineaire afhankelijkheid tussen de breedte en de lengte van de schedels van de mannelijke Egyptenaren. Met ρ de populatiecorrelatiecoëfficiënt die gedefinieerd is als: Cov(BREEDTE, LENGTE) ρ(breedte, LENGTE) = Var(BREEDTE)Var(LENGTE) en Cov(BREEDTE, LENGTE) = E ((BREEDTE E(BREEDTE))(LENGTE E(LENGTE))). b. Ga de nodige veronderstellingen na. Pas je gegevens en/of de hypothesetest aan indien nodig! Dit is gepaarde data want het gaat over verschillende variabelen, namelijk de lengte en de breedte van de schedels van dezelfde groep mannelijke Egyptenaren. 5
Een nodige strenge voorwaarde om deze hypothesetest te mogen uitvoeren, is dat de variabelen BREEDTE en LENGTE bivariaat verdeeld zijn. Hiervoor moet eerst nagegaan worden welke verdeling beide variabelen hebben. In de vorige vraag werd al geconcludeerd dat de variabele BREEDTE normaal verdeeld is op significantieniveau α. Om na te gaan als de variabele LENGTE normaal verdeeld is, wordt eerst gekeken naar de boxplot. Op Figuur 2.1 is er één uitschieter zichtbaar maar de boxplot lijkt normaal verdeeld. De Q-Q plot uit Figuur 2.2 geeft een lineair verband en doet het vermoeden van een normale verdeling stijgen. Figuur 2.1 QQ-plot van de variabele 'LENGTE'. Figuur 2.2 Boxplot van de variabele 'LENGTE'. Het histogram van de variabele LENGTE wordt weergegeven op Figuur 2.3. Ook hier is de normale verdeling zichtbaar doordat deze de Gaussische curve bij benadering volgt. Figuur 2.3 Histogram van de variabele 'LENGTE'. Nu kan er met een formele Shapiro-Wilk test aangetoond worden als de gegevens van de variabele LENGTE normaal verdeeld zijn. De w-waarde die bekomen wordt is: w = 0.9931 Deze ligt dicht bij 1 en duidt dus op een sterk lineair verband tussen de gegevens op de Q-Q plot. De p-waarde heeft een waarde van: p = 0.7078 6
Deze p-waarde is duidelijk hoger dan het significantieniveau α(= 0.05). De normaliteit kan dus aangenomen worden op significantieniveau α. Beide variabelen zijn normaal verdeeld op significantieniveau α en een scatterplot kan helpen om te zien of de bivariate normaliteit plausibel lijkt. Op Figuur 2.4 zijn de gegevens geplot en lijken een elliptische puntenwolk te vormen. De bivariate normaliteit tussen de variabele LENGTE en BREEDTE kan dus aangenomen worden op significantieniveau α. Figuur 2.4 Scatterplot van de lengte ten opzichte van de breedte van de schedels van de mannelijke Egyptenaren c. Voer de hypothesetest uit en formuleer je besluit. Na de Pearson correlatietest uitgevoerd te hebben, is de testwaarde: De Pearson correlatiecoëfficiënt is: De p-waarde die bekomen wordt is: t = 1.8463 r n = 0.1525841 p = 0.06692 En deze is hoger dan het significantieniveau α (0.05) waardoor de nulhypothese niet verworpen kan worden. Op significantieniveau α kan dus aangenomen worden dat er een lineair verband bestaat tussen de lengte en de breedte van de schedels van de mannelijke Egyptenaren. 3. We definiëren grote schedels als schedels waarvan de lengte groter of gelijk is aan 100. Kleine schedels hebben een lengte strikt kleiner dan 100. Ga nu met behulp van een hypothesetest na of een grote of kleine schedel kenmerkend is voor een bepaald tijdperk. Indien dit zo is, bespreek kort. a. Formuleer een geschikte H 0 en H 1. H 0 : µ lengte voor een bepaalde periode 100 De gemiddelde lengte van de schedels van een bepaalde periode van de mannelijke Egyptenaren is gemiddeld groter of gelijk aan 100. H 1 : µ lengte voor een bepaalde periode < 100 De gemiddelde lengte van de schedels van een bepaalde periode van de mannelijke Egyptenaren is gemiddeld kleiner dan 100. 7
De teststatistiek voor deze linkseenzijdige test wordt dan: T = LENGTE µ 0 S n b. Ga de nodige veronderstellingen na. Pas je gegevens en/of de hypothesetest aan indien nodig! Eerst wordt de dataset verdeeld in de verschillende periodes. Daarna wordt voor elke periode de nodige veronderstellingen nagegaan en wordt de hypothesetest uitgevoerd. De voorwaarde die nodig is voor deze hypothesetesten is dat de gegevens normaal verdeeld zijn. Eerst wordt er gekeken naar de boxplot van elke tijdsperiode. In Figuur 3.1 worden 5 boxplots weergegeven. Deze vertonen telkens een normale verdeling. Er worden wel in Tijdsperk 2, 4 en 5 een uitschieter opgemerkt (respectievelijk meting 24, 1 en 26). Verdere grafische methoden zullen uitmaken als deze verwijderd moeten worden. Figuur 3.1 Boxplots van tijdperk 1 t.e.m. 5 van de lengte van de schedels van de mannelijke Egyptenaren. Om verdere zekerheid te krijgen van de normaliteit wordt gekeken naar de Q-Q-plots in Figuur 3.2. Deze geven voor elke tijdsperiode een stijgende rechte wat ook duidt op normaliteit. Wel is de uitschieter uit Tijdsperk 4 ook hier zichtbaar afwijkend van de rest van de gegevens. Figuur 3.2 QQ-plots van de variabele 'LENGTE' van Tijdsperk 1 (links) en Tijdsperk 2 (rechts) 8
Figuur 3.3 QQ-plots van de lengte van de schedels van de mannelijke Egyptenaren uit Tijdsperk 3 (linksboven), Tijdsperk 4 (rechtsboven) en Tijdperk 5 (onder). Om verdere bevestiging te krijgen over de normale verdeling kan er gekeken worden naar de histogrammen. Deze zijn te zien op Figuur 3.4 en versterken het vermoeden dat de gegevens normaal verdeeld zijn voor Tijdperk 1, 2, 3 en 5. Voor Tijdperk 4 is het nu duidelijk dat de uitschieter verwijderd moet worden. Figuur 3.4 Histogrammen van de lengte van de schedels van de mannelijke Egyptenaren uit verschillende tijdsperken. 9
Na het verwijderen van de uitschieter is de normale verdeling beter zichtbaar op de boxplot en het histogram (Figuur 3.5) en de Q-Q-plot (Figuur 3.6). Figuur 3.5 Boxplot (links) en histogram (rechts) van de variabele lengte voor Tijdsperk 4 zonder uitschieter. Figuur 3.6 Q-Q-plot van de variabele lengte voor Tijdsperk 4 Nu wordt formeel getest of de gegevens normaal verdeeld zijn met behulp van een Shapiro- Wilk test. De testwaardes en p-waardes worden weergegeven in Tabel 3.1. De p-waardes zijn steeds groter dan het significantieniveau α (= 0.05). Voor elke periode kan nu de normaliteit aangenomen worden op significantieniveau α. Tijdsperiode w-waarde p-waarde 1 0.9734 0.654 2 0.9796 0.8269 3 0.981 0.8625 4 0.9701 0.5622 5 0.9796 0.8274 Tabel 3.1 w- en p-waarden van de Shapiro-Wilk tests van de variabele LENGTE uit 5 verschillende tijdsperioden. c. Voer de hypothesetest uit en formuleer je besluit. De gepaarde t-test kan nu uitgevoerd worden voor elke tijdsperiode. De testwaarden en p- waarden worden weergegeven in tabel 3.2. In tijdsperiode 1 en 2 zijn de p-waarden groter dan het significantieniveau α. In tijdsperiode 3, 4 en 5 zijn deze kleiner dan significantieniveau α. Dit betekent dat voor de eerste twee tijdsperiodes de schedels groter zijn dan 100, voor de 3 latere tijdsperiodes zijn deze kleiner dan 100. Tijdsperiode Testwaarde p-waarde 1-0.7755 0.22230 2-1.3753 0.08997 3-5.2237 7.523e-06 4-6.5893 1.903e-07 5-6.9224 7.952e-08 Tabel 3.2 test- en p-waarden van de gepaarde t-tests voor de variabele LENGTE voor elke tijdsperiode. 10
In tijdsperiode 1 en 2 is een grote schedel kenmerkend voor de mannelijke Egyptenaren. De mannelijke Egyptenaren uit tijdsperiode 3, 4 en 5 worden gekenmerkt door een kleine schedel. Bijlagen R-script # dataset importeren met header # vervolgens 5 waardes verwijderen uit elke periode schedels = schedels[-c(15,45,75,105,135),] # Eerste onderzoeksvraag # variabelen definiëren hoogte1 = schedels$hoogte1 breedte = schedels$breedte # normaliteit nagaan voor beide variabelen boxplot(breedte) hist(breedte) qqnorm(breedte) shapiro.test(breedte) library(car) Boxplot(breedte) boxplot(hoogte1) hist(hoogte1) qqnorm(hoogte1) shapiro.test(hoogte1) # nagaan of varianties constant zijn. var.test(breedte, hoogte1) # gepaarde t-test uitvoeren # nieuwe variabele 'verschil' invoeren verschil = breedte - hoogte1 t.test(verschil) t.test(breedte, hoogte1, paired=true) # Tweede Onderzoeksvraag # variabele 'lengte' invoeren lengte = schedels$lengte # normaliteit nagaan voor de variabele 'lengte' qqnorm(lengte) boxplot(lengte) hist(lengte) qqnorm(lengte) shapiro.test(lengte) # scatterplot maken plot(lengte, breedte) # correlatietest uitvoeren cor.test(lengte, breedte, method="pearson") # Onderzoeksvraag 3 # de data van de lengte wordt verdeeld in verschillende tijdperken tp1 = schedels$lengte[1:29] tp2 = schedels$lengte[30:58] 11
tp3 = schedels$lengte[59:87] tp4 = schedels$lengte[88:116] tp5 = schedels$lengte[117:145] # normaliteit nagaan voor elke periode boxplot(tp1, tp2, tp3, tp4, tp5) hist(tp1, main = "Tijdperk 1", xlab = "Lengte") hist(tp2, main = "Tijdperk 2", xlab = "Lengte") hist(tp3, main = "Tijdperk 3", xlab = "Lengte") hist(tp4, main = "Tijdperk 4", xlab = "Lengte") hist(tp5, main = "Tijdperk 5", xlab = "Lengte") library(car) Boxplot(tp2) Boxplot(tp4) Boxplot(tp5) boxplot(tp4[-c(1)]) hist(tp4[-c(1)], breaks=3, main="tijdperk 4 zonder uitschieter", xlab = "Lengte in cm") qqnorm(tp1, main = "Tijdperk 1") qqnorm(tp2, main = "Tijdperk 2") qqnorm(tp3, main = "Tijdperk 3") qqnorm(tp4, main = "Tijdperk 4") qqnorm(tp5, main = "Tijdperk 5") qqnorm(tp4[-c(1)]) qqline(tp4[-c(1)]) shapiro.test(tp1) shapiro.test(tp2) shapiro.test(tp3) shapiro.test(tp4) shapiro.test(tp5) # gepaarde t-test uitvoeren voor elke periode t.test(tp1, mu=100, alternative="less") t.test(tp2, mu=100, alternative="less") t.test(tp3, mu=100, alternative="less") t.test(tp4, mu=100, alternative="less") t.test(tp5, mu=100, alternative="less") R-Output > schedels <- read.csv("c:/users/gebruiker/downloads/schedels.csv") > View(schedels) > # dataset importeren met heading > # vervolgens 5 waardes verwijderen uit elke periode > schedels = schedels[-c(15,45,75,105,135),] > # Eerste onderzoeksvraag > # variabelen definiëren > hoogte1 = schedels$hoogte1 > breedte = schedels$breedte > # normaliteit nagaan voor beide variabelen > boxplot(breedte) > hist(breedte) > qqnorm(breedte) > shapiro.test(breedte) data: breedte W = 0.9894, p-value = 0.3387 > library(car) Warning message: package car was built under R version 3.1.3 > Boxplot(breedte) [1] 4 33 144 > boxplot(hoogte1) > qqnorm(hoogte1) > hist(hoogte1) 12
> shapiro.test(hoogte1) data: hoogte1 W = 0.9851, p-value = 0.1188 > # nagaan of varianties constant zijn. > var.test(breedte, hoogte1) F test to compare two variances data: breedte and hoogte1 F = 0.9833, num df = 144, denom df = 144, p-value = 0.9194 alternative hypothesis: true ratio of variances is not equal to 1 0.708331 1.364886 ratio of variances 0.9832555 > # gepaarde t-test uitvoeren > # nieuwe variabele 'verschil' invoeren > verschil = breedte - hoogte1 > t.test(verschil) One Sample t-test data: verschil t = 2.5494, df = 144, p-value = 0.01184 alternative hypothesis: true mean is not equal to 0 0.3393695 2.6813202 mean of x 1.510345 > t.test(breedte, hoogte1, paired=true) Paired t-test data: breedte and hoogte1 t = 2.5494, df = 144, p-value = 0.01184 alternative hypothesis: true difference in means is not equal to 0 0.3393695 2.6813202 mean of the differences 1.510345 > # Tweede Onderzoeksvraag > # variabele 'lengte' invoeren > lengte = schedels$lengte > # normaliteit nagaan voor de variabele 'lengte' > qqnorm(lengte) > boxplot(lengte) > hist(lengte) > shapiro.test(lengte) data: lengte W = 0.9931, p-value = 0.7078 > # scatterplot maken > plot(lengte, breedte) > # correlatietest uitvoeren > cor.test(lengte, breedte, method="pearson") Pearson's product-moment correlation data: lengte and breedte t = -1.8463, df = 143, p-value = 0.06692 alternative hypothesis: true correlation is not equal to 0-0.30793421 0.01069104 13
cor -0.1525841 > # Onderzoeksvraag 3 > # de data van de lengte wordt verdeeld in verschillende tijdperken > tp1 = schedels$lengte[1:29] > tp2 = schedels$lengte[30:58] > tp3 = schedels$lengte[59:87] > tp4 = schedels$lengte[88:116] > tp5 = schedels$lengte[117:145] > # normaliteit nagaan voor elke periode > boxplot(tp1, tp2, tp3, tp4, tp5) > hist(tp1, main = "Tijdperk 1", xlab = "Lengte") > hist(tp2, main = "Tijdperk 2", xlab = "Lengte") > hist(tp3, main = "Tijdperk 3", xlab = "Lengte") > hist(tp4, main = "Tijdperk 4", xlab = "Lengte") > hist(tp5, main = "Tijdperk 5", xlab = "Lengte") > library(car) > Boxplot(tp2) [1] 25 > Boxplot(tp4) [1] 1 > Boxplot(tp5) [1] 26 > boxplot(tp4[-c(1)]) > hist(tp4[-c(1)], breaks=3, main="tijdperk 4 zonder uitschieter", xlab = "Lengte i n cm") > qqnorm(tp1, main = "Tijdperk 1") > qqnorm(tp2, main = "Tijdperk 2") > qqnorm(tp3, main = "Tijdperk 3") > qqnorm(tp4, main = "Tijdperk 4") > qqnorm(tp5, main = "Tijdperk 5") > qqnorm(tp4[-c(1)]) > qqline(tp4[-c(1)]) > shapiro.test(tp1) data: tp1 W = 0.9734, p-value = 0.654 > shapiro.test(tp2) data: tp2 W = 0.9796, p-value = 0.8269 > shapiro.test(tp3) data: tp3 W = 0.981, p-value = 0.8625 > shapiro.test(tp4) data: tp4 W = 0.9701, p-value = 0.5622 > shapiro.test(tp5) data: tp5 W = 0.9796, p-value = 0.8274 > # gepaarde t-test uitvoeren voor elke periode > t.test(tp1, mu=100, alternative="less") One Sample t-test data: tp1 t = -0.7755, df = 28, p-value = 0.2223 alternative hypothesis: true mean is less than 100 14
-Inf 101.029 mean of x 99.13793 > t.test(tp2, mu=100, alternative="less") One Sample t-test data: tp2 t = -1.3753, df = 28, p-value = 0.08997 alternative hypothesis: true mean is less than 100 -Inf 100.2614 mean of x 98.89655 > t.test(tp3, mu=100, alternative="less") One Sample t-test data: tp3 t = -5.2237, df = 28, p-value = 7.523e-06 alternative hypothesis: true mean is less than 100 -Inf 97.13984 mean of x 95.75862 > t.test(tp4, mu=100, alternative="less") One Sample t-test data: tp4 t = -6.5893, df = 28, p-value = 1.903e-07 alternative hypothesis: true mean is less than 100 -Inf 95.83039 mean of x 94.37931 > t.test(tp5, mu=100, alternative="less") One Sample t-test data: tp5 t = -6.9224, df = 28, p-value = 7.952e-08 alternative hypothesis: true mean is less than 100 -Inf 95.0323 mean of x 93.41379 15