Residual Plot for Strength. predicted Strength



Vergelijkbare documenten
Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

Opgave 1: (zowel 2DM40 als 2S390)

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, uur

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

4 Meervoudige lineaire regressie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

2DM71: Eindtoets Biostatistiek, op dinsdag 20 Januari 2015,

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I

Bijlage 3: Multiple regressie analyse

Antwoordvel Versie A

Verband tussen twee variabelen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op maandag ,

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Enkelvoudige lineaire regressie

Interim Toegepaste Biostatistiek deel 1 14 december 2009 Versie A ANTWOORDEN

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

1 Meten en statistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Pilot vragenlijst communicatieve redzaamheid

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Beschrijvende statistieken

College 6 Eenweg Variantie-Analyse

Voorblad bij tentamen

Uitwerkingen tentamen Statistiek 2 voor TeMa Maandag

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

* de percentages goed per klas en volgorde van afnemen. sort cases by klas volgorde. split file by klas volgorde. des var=goedboekperc.

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

Hoofdstuk 12: Eenweg ANOVA

11. Multipele Regressie en Correlatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Statistische Bijlagen Consumentenonderzoek.

Twee en een half jaar Kwaliteitsmeting in de Fysiotherapie

Meervoudige variantieanalyse

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

Statistiek II. Sessie 4. Feedback Deel 4

TECHNISCHE UNIVERSITEIT EINDHOVEN

Extra Opgaven. 3. Van 10 personen meten we 100 keer de hartslag na het sporten. De gemiddelde hartslag van

mlw stroom 2.1: Statistisch modelleren


Hoofdstuk 8: Multipele regressie Vragen

Oplossingen hoofdstuk 8

Classification - Prediction

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid

3 Enkelvoudige lineaire regressie

College 2 Enkelvoudige Lineaire Regressie

Examen G0N34 Statistiek

Oplossingen hoofdstuk XI

Resultaten smaaksessie in kader van GOT-kit: bepalen concentratieniveaus

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

9. Lineaire Regressie en Correlatie

Voorbeeld regressie-analyse

Het ANCOVA model is een vorm van het general linear model (GLM), en kan als volgt geschreven worden qua populatie parameters:

Examenvragen KBM (herexamen)

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 3 februari 2012

College 3 Meervoudige Lineaire Regressie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

Toegepaste Biostatistiek CAST oefeningen 1

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

** VOORBEELD VAN CAUSALE ANALYSE MET CONFOUNDER EN MEDIATOR **.. GET FILE='u:\)Research\ISSP-NL\ISSP \Data\issp_2013_2014_NL_def.sav'.

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

!!! Help! Statistiek! Overzicht. Data, computers, statistiek. Statistische programma s. Excel: hoe is het mogelijk? Excel: hoeveel is 1+1?

Initiële Data Analyse. (Truuks en Flessenhalzen)

11. Meerdere gemiddelden vergelijken, ANOVA

toetskeuze schema verschillen in gemiddelden

Verdelingsvrije statistiek

De data worden ingevoerd in twee variabelen, omdat we te maken hebben met herhaalde metingen:

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2

1. Reductie van error variantie en dus verhogen van power op F-test

Statistiek in HBO scripties

Eindtoets Toegepaste Biostatistiek

TECHNISCHE UNIVERSITEIT EINDHOVEN

4 Domein STATISTIEK - versie 1.2

Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking

Transcriptie:

Uitwerking tentamen DS mei 4 Opgave Een uitwerking geven is hier niet mogelijk. Het is van belang het iteratieve optimaliseringsproces goed uit te voeren (zie ook de PowerPoint sheets): screening design (incl. centrumpunten) uitvoeren om steilste helling te bepalen indien uitkomsten niet meer stijgen/dalen, weer screening design uitvoeren met centrumpunten en lack-of-fit controleren of we bij een optimum zijn o indien kromming, CCD design uitvoeren om stationair punt te bepalen. Indien stationair punt goed is, accepteren. Indien niet, steilste helling gebruiken om verder te optimaliseren o indien geen kromming, steilste helling opnieuw bepalen en verder optimaliseren enz enz denk voortdurend aan standaardprincipes van proefopzetten zoals randomiseren controleer of het stationaire punt een gewenst optimum is en of het niet te ver weg is van de instellingen waarvoor metingen zijn verricht. Opgave a) Uit het strooidiagram zien we dat er methode C de hoogste waarden oplevert en dat er verschillen lijken te zijn in de gemiddelden, terwijl de spreiding constant lijkt te zijn. Om te onderzoek of deze verschillen significant zijn, voeren we een ANVOA uit. Er dient een multifactor ANOVA uitgevoerd te worden om de blokfactor dag mee te nemen. De interactie tussen dag en methode dient meegenomen te worden, omdat interacties met een blokfactor geen betekenis hebben. 7 Scatterplot by Level Code Strength 6 4 3 A B C Method Multifactor ANOVA - Strength Analysis Summary Dependent variable: Strength Factors: Day Method Number of complete cases: 6 Analysis of Variance for Strength - Type III Sums of Squares Source Sum of Squares Df Mean Square F-Ratio P-Value MAIN EFFECTS A:Day 69.9 69.9 3.7. B:Method.7.6 3.9.6 RESIDUAL 479. 6 6.4 TOTAL (CORRECTED) 94.9 9 All F-ratios are based on the mean square error. De p-waarde voor methode is kleiner dan,, dus er is een significant verschil tussen de methoden. We zien ook dat er een significant verschil tussen de dagen is. Het was dus onterecht geweest aan te nemen dat alle proeven onder gelijke omstandigheden uitgevoerd werden.

Om na te gaan welke methoden van elkaar verschillen, wordt een multiple range test uitgevoerd. De standaardkeuze in Statgraphics (LSD) is niet optimaal; de methoden van Tukey, Duncan, Newman- Keuls en Scheffé zijn duidelijk beter en verschillen niet veel van elkaar. We zien dat methoden A en B niet significant van elkaar verschillen, en methoden B en C ook niet. Multiple Range Tests for Strength by Method Method: 9, percent Tukey HSD Method Count LS Mean LS Sigma Homogeneous Groups A,,49 X B,7,49 XX C 4,4,49 X Contrast Difference +/- Limits A - B -,49 3,936 A - C *,4 3,936 B - C -,96 3,936 * denotes a statistically significant difference. Tenslotte voeren we een modelcontrole uit via residuenanalyse. Residual Plot for Strength -9-9 3 4 6 7 predicted Strength Residual Plot for Strength Density Trace for, -9-9 A B C Method density,6,4, 6 6 6

SnapStat: One Sample Analysis Data variable: Count = 6 Average =.E Median =.33333 Standard deviation =.69 Minimum = -3.67 Maximum =.6467 Stnd. skewness =.6 Stnd. kurtosis = 4.33 frequency 4 3 Histogram - - Box-and-Whisker Plot 9% confidence intervals Mean:.E +/-.9343 [-.9343,.9343] Sigma: [4.443,6.674] Diagnostics Shapiro-Wilks P-value =.47 Lag autocorrelation =.7669 +/-.33 6 6 6 6 6 6 Time Sequence Plot 3 4 6 Row percentage Normal Probability Plot 99.9 99 9. 6 6 6 Uit de residuenanalyse blijkt dat de data normaal verdeeld zijn en dat de varianties van de meetmethoden niet verschillen. Er zijn wel twee uitbijters ( in methode B en in methode C) die nader onderzocht dienen te worden b) De uitvoering van de experimenten kan op meerdere manieren verbeterd worden: randomiseren van de metingen: nu wordt steeds met A begonnen, daarna B en tenslotte C. Hierdoor kunnen opwarmproblemen of vermoeidheidsproblemen bij het personeel leiden tot meetverschillen die geïnterpreteerd gaan worden als verschillen tussen de metingen om de meetvariantie te reduceren zou de 3 methoden op dezelfde stukken plaat toegepast dienen te worden. In de huidige opzet kunnen we verschillen tussen platen niet onderscheiden en kunnen ze leiden tot meetverschillen die als verschil tussen de methoden wordt aangezien, maar eigenlijk te wijten zijn aan verschillen tussen platen. 3

Opgave 3 a) De proefopzet is een volledige 4 proefopzet met 4 centrumpunten. Door de 4 centrumpunten is het mogelijk een lack-of-fit toets uit te voeren (via rechtermuisknop optie kiezen binnen veld van de ANOVA tabel). Er blijkt dat het model significant is en dat er geen lack-of-fit is. Alle factoren behalve kleur zijn significant. De interacties zijn alle significant, behalve de interacties met kleur. Analyze Experiment - Aroma Analysis of Variance for Aroma Source Sum of Squares Df Mean Square F-Ratio P-Value A:Kleur,763,763 3,97 4 B:Koffie 343, 343, 36,97, C:SG 7, 7, 4,36, D:Diam 74,96 74,96 63,3, AB,463,463,6,97 AC,6,6,,974 AD,76,76,6 76 BC 334,77 334,77 73,, BD 39,77 39,77 37,9, CD 39, 39, 797,36, Lack-of-fit 7,439 6,39,,3 Pure error,37 3 4 Total (corr.) 43, 9 R-squared = 99,9637 percent R-squared (adjusted for d.f.) = 99,933 percent Standard Error of Est. =,667 Mean absolute error = Durbin-Watson statistic =,76 (P=) Lag autocorrelation = -,676 Het model gaat uit van onafhankelijke waarnemingen die normaal verdeeld zijn en allen dezelfde variantie hebben. Normaliteit onderzoeken we via de gestudentiseerde residuen middels een normal probability plot, een density trace en de toets van Shapiro-Wilks. Density Trace for S density,3,, -,3 -,3 -,3,7,7,7 S Normal Probability Plot for Residuals percentage 99,9 99 9, -, -,6 -,,9,4,9 s Shapiro-Wilks W statistic =,9339 P-Value = 379 Uit het bovenstaande volgt dat er slechts een geringe afwijking van normaliteit is (met name bij de negatieve residuen). Tenslotte bekijken we de residuen om overige afwijkingen op te sporen (met name ongelijke varianties): 4

,4,4,4 -,6,4 -,6 -,6 4 43 46 49,4 Kleur -,6 6,3 6,6 6,9 7, 7, 7,,4 Koffie,4 -,6,4 -,6 -,6 63 6 67 69 7 73 SG -,6 4 46 4 Diam,4,4 -,6 -,6 4 6 predicted Er lijkt een lichte kromming te zijn; de lack-of-fit toets geeft echter aan dat dit niet significant is. b) Aangezien er geen lack-of-fit is, is het niet zinvol om deze proef uit te breiden om ook kwadratische termen te kunnen schatten. Het is zinvoller om eerst m.b.v. de methode van de steilste helling via afzonderlijke metingen het aromagehalte met grote stappen te verhogen. Opgave 4 a) De proefopzet is een mengselexperiment en wel een simplex-centroid proefopzet met 3 toegevoegde mengsels (waarnemingen, 9 en ) in het inwendige van het experimenteergebied. b) Uit de ANOVA tabel is af te lezen dat het Special Cubic model goed voldoet en dat de kleinere modellen niet voldoen. In deze plot (studentized s) kunnen we zien dat het gekozen Speci-

al Cubic model de meetdata adequaat beschrijft. We zien een random patroon met potentiële uitbijter bij waarneming. Ook een density trace en een normal probability plot van de residuen geven hetzelfde aan. Aangezien de data set klein is moeten we niet teveel waarde hechten aan de afwijkingen van normaliteit. Density Trace for S density.4.3.. - - 3 S cumulative probability..6.4. Normal Distribution - - 3 S - 4 6 predicted -..4.6. MEK -..4.6. toluene Shapiro-Wilks W statistic =.9464 P-Value =.36 -..4.6. hexane Het gefitte model heet derde-orde, maar bevat geen termen A, B en/of C noodzakelijk om het echte optimum te berekenen. Om de echte optimale condities te leren kennen is deze proefopzet niet voldoende en moet uitgebreid worden met extra metingen. We vinden een goede eerste schatting voor de optimale oplosbaarheid van 7,9 bij instellingen MEK=.34, tolueen= en hexaan=.66. De contourplot laat zien dat deze gegevens met het gegeven model een globaal maximum is. Om de echte optimale condities te leren kennen moet deze proefopzet uitgebreid worden met extra metingen om het model uit te kunnen breiden met de kwadraattermen van MEK, tolueen en hexaan. 6

Optimize Response ----------------- Goal: maximize solubility Optimum value = 7.939 Factor Low High Optimum ---------------------------------------------------------------------- MEK...46 toluene...73 hexane...46347 6 4 toluene=. solubility Estimated Response Surface MEK=. solubility. 3. 4.. 6. 7.. 9.. hexane=.. Contours of Estimated Response Surface toluene=. hexane=. MEK=. MEK=. solubility. 3. 4.. toluene=. 6. 7.. 9... hexane=. 7