1 Inleiding spss; Aanwijzingen.



Vergelijkbare documenten
Verband tussen twee variabelen

Enkelvoudige lineaire regressie

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf.

b. Maak een histogram van de verdeling van het groeiseizoen. Kies eerst klassen en maak een geschikte frequentietabel.

a. Wanneer kan men in plaats van de Pearson correlatie coefficient beter de Spearman rangcorrelatie coefficient berekenen?

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

d. Maak een spreidingsdiagram van de gegevens. Plaats de x-waarden op de x-as en de z-waarden op de y-as.

SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I

Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens

Bij het maken van deze opgave worden de volgende vragen beantwoord:

Oplossingen hoofdstuk Het milieubesef

Opdracht 5a Kruistabellen

Deze menu-aansturingen zijn van toepassing op versies 14.0 en 15.0 van SPSS.

1. Introductie tot SPSS

Technische uitwerkingen voor het SPSS practicum Inleiding M&T.

Gemiddelde, mediaan, kwartielen, interkwartielafstand, minimum, maximum, variantie, standaardafwijking, boxdiagrammen

Spreidingsdiagram, kleinste-kwadraten regressielijn, correlatiecoefficient

feb 2013 Instituut CMI SPSS les 2

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

SPSS VOOR DUMMIES+ Werken met de NSE: enkele handige basisbeginselen. Gebaseerd op SPSS21.0 & Benchmarkbestand NSE 2014

Fasen in het onderzoeksproces

Beknopte handleiding SPSS versie van 28

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Technische uitwerkingen voor het SPSS practicum Toetsende Statistiek

Grafieken Cirkeldiagram

Basishandleiding SPSS

Menu aansturing van SPSS voorbeeld in hoofdstuk 7 over Kaplan-Meier en Cox regressie survival analyses van recidive bij meisjes

Wat zijn de verschillen tussen SPSS 9 en SPSS 10?

Handleiding SPSS tabellen en kruistabellen. In een paar stappen van spss data naar bruikbare informatie.

Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding.

mlw stroom 2.1: Statistisch modelleren

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

10. Moderatie, mediatie en nog meer regressie

Beschrijvende statistieken

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Meervoudige lineaire regressie

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

U ziet de progressie van de download aan de groene blokjes in het balkje helemaal onder aan de pagina.

Analyse van kruistabellen

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding.

SPSS. Statistiek : SPSS

Handleiding SPSS. 1) Maak je bestand

9. Lineaire Regressie en Correlatie

Voorbeeld regressie-analyse

[aanvullend hoofdstuk, behorend bij Grotenhuis, M. te & Matthijssen, A. (2006). Basiscursus SPSS, versie 10-14, Assen: Van Gorcum]

SPSS Opstarten & gegevens inlezen Gegevens verkennen Beschrijvende statistiek

tul Moleculaire Levenswetenschappen Stroom Statistisch modelleren Werkboek

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Onderzoek. B-cluster BBB-OND2B.2

Vergelijken van twee groepen (SPSS)

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Hoofdstuk 4. Beschrijvende statistiek. 4.1 Beschrijvende statistiek voor één variabele

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

1. CTRL- en SHIFT-knop gebruiken om meerdere variabelen te selecteren

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Beknopte handleiding SQ Vieuw software

Oplossingen hoofdstuk XI

Appendix B Computeranalyse van kwantitatieve data

** VOORBEELD VAN CAUSALE ANALYSE MET CONFOUNDER EN MEDIATOR **.. GET FILE='u:\)Research\ISSP-NL\ISSP \Data\issp_2013_2014_NL_def.sav'.

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Technische uitwerkingen voor het SPSS + R practicum Experimenteel en Correlationeel Onderzoek

Bijlage 3: Multiple regressie analyse

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling

Moleculaire LevensWetenschappen stroom 1.2

EmbroideryDesign Store

2. Wanneer moet ik een afbeelding verkleinen?

Het tsv-bestand gaan we nu inlezen in Coach. Open Coach; log in als docent; kies nieuwe activiteit ; meten. (Je hoeft geen meetpaneel te kiezen.

Deze opdracht lossen we eenvoudig op door in de vergelijking X1 en X2 te vervangen door de geobserveerde waarden van deze variabelen:

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

11. Multipele Regressie en Correlatie

6. Absolute en relatieve celadressering

1. Installatie DCElektro Studentversie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Workshop Qualtrics & SPSS

6. Reeksen

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Het csv bestand gaan we nu inlezen in Coach. Open Coach; log in als docent; kies nieuwe activiteit ; meten. (Je hoeft geen meetpaneel te kiezen.

Opgave 1: (zowel 2DM40 als 2S390)

8.9 Draaitabellen [Pivot tables]

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Verdelingsvrije statistiek

15. Tabellen. 1. wat rijen, kolommen en cellen zijn; 2. rijen en kolommen invoegen; 3. een tabel invoegen en weer verwijderen;

gemiddelde politieke interesse van hoger opgeleide mensen)

Handleiding gebruik dashboard ProMISe

Hoofdstuk 5 Een populatie: parametrische toetsen

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

Handleiding Excel. bij. hoofdstuk 18 Cijfers in Orde Wageningse Methode

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

Automatisering voor Financiële Dienstverleners. Werken met Queries en Merge Documenten. For more information visit our website at

Handleiding IrfanView. IrfanView is een applicatie om grafische bestanden te bekijken, te bewerken en opnieuw op te slaan.

Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze

MA!N Rapportages en Analyses

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Informatica 1rste BAC Biologie. Hoofdstuk 3 Grafieken. Universiteit Antwerpen

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

Betrouwbaarheid, validiteit en overeenstemming

Transcriptie:

1 INLEIDING SPSS; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. 1 Inleiding spss; Aanwijzingen. = Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor C$ op Client (V:) Selecteer de directory temp. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op Client (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. 1. Open het euros.sav spss gegevensbestand. Hierin staan lengte, gewicht en geslacht van eerdere cursisten, alsmede het bedrag aan euros dat ieder bij zich had. Tevens gaf een ieder een door hem of haar bedacht willekeurig getal van een tot tien: Random (Gefingeerde data). = Dubbelklikken op de map AIO lineaire regressie. Bestand euros.sav selecteren en knop Open aanklikken. 2. Bereken de gemiddelde waarden en de variantie van Lengte, Gewicht en Euros. = Kies Analyze/ Descriptive Statistics/ Descriptives Links de variabelen Lengte, Gewicht en Euros selecteren. (U kunt alle drie de variabelen tegelijkertijd selecteren door de Ctrl toets ingedrukt te houden terwijl u met de muis de variabelen selecteert.) Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. 1

24 april 2007: A.K. en M.d.L. 1 INLEIDING SPSS; AANWIJZINGEN. Als je de knop Options aanklikt kun je de descriptives aanvinken die je in je uitvoer wilt zien. Bekijk de output. 3. Maak een nieuwe variabele met de naam Quetelet en bereken die volgens de formule: (gewicht in kilo s) / ( (lengte in meters) in het kwadraat). = Minimize het output venster. Kies Transform/ Compute Vul linksboven onder Target Variable de naam quetelet in. Vul in het vak rechts boven onder Numeric Expression de formule gewicht/((lengte/100)**2) in. In de data editor zijn nu de waarden van de variabele Quetelet te zien. 4. Verdeel de uitkomsten van de variabele Gewicht in drie klassen in een nieuwe variabele gewklass. Gewklass krijgt de waarde 1 als het gewicht ligt in de range laagste waarde tot en met 60. Gewklass krijgt de waarde 2 als het gewicht ligt in de range 60 tot en met 67. Gewklass krijgt de waarde 3 als het gewicht ligt in de range 67 tot en met de hoogste waarde. = Kies Transform/ Recode/ Into Different Variables. (Verwijder indien nodig eventuele gegevens van een vorige recode uit het Numeric Variable Output Variable vak. Dit doe je door een regel aan te klikken. Dan wijst het kleine zwarte driehoekje tussen de vakken naar links. Als je dit pijltje aanklikt wordt de geselecteerde regel verwijderd. Herhaal dit tot het vak leeg is.) Selekteer nu links de variabele Gewicht. Nu wijst het kleine zwarte driehoekje(pijltje) tussen de vakken naar rechts. Klik het pijltje aan en de naam van de variabele wordt in het Numeric Variable Output Variable vak geplaatst. Vul nu rechts onder het kopje Output Variable de naam gewklass in voor de nieuwe categorische variabele. Klik op de knop Change. Klik op de knop Old en New Values. Nu verschijnt er een nieuw venstertje. 2

1 INLEIDING SPSS; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. (Verwijder eventuele gegevens van een vorige recode uit het Old New vak. Dit doe je door een regel aan te klikken en dan op de knop remove te klikken. Herhaal dit tot het vak leeg is.) Kies dan links het keuze rondje Range lowest through.. en vul daar de waarde 60 in. Kies rechts boven onder het kopje New Value het keuze rondje Value aan en vul de waarde 1 in. Klik dan op de knop Add. Kies links het keuze rondje Range... through... en vul 60 in en na through vul 67 in. Kies rechts boven onder het kopje New Value het keuze rondje Value aan en vul de waarde 2 in. Klik dan op de knop Add. Kies dan links het keuze rondje Range... through highest en vul daar de waarde 67 in. Kies rechts boven onder het kopje New Value het keuze rondje Value aan en vul de waarde 3 in. Klik dan op de knop Add. Klik op de knop Continue. Het venstertje sluit. Klik nu in het venster Recode into Different Variables op de knop OK. In de data editor is de nieuwe variabele te zien.! Je kunt ook de keuze maken Into Same Variables maar houd er rekening mee dat je dan je oorspronkelijke variabele kwijt bent. Voor deze opgaven is dat niet de juiste keuze. 5. Maak een kruistabel van Geslacht tegen Gewklass. = Analyze/ Descriptive Statistics/ Crosstabs Selekteer links de variabele Geslacht. Klik op het pijltje naast het vak Rows. Selekteer links de variabele Gewklass. 3

24 april 2007: A.K. en M.d.L. 1 INLEIDING SPSS; AANWIJZINGEN. Klik op het pijltje naast het vak Column(s). Bekijk wat er onder de knoppen Statistics, Cells en Format zit. Bekijk de output 6. Bereken de gemiddelde waarde van Lengte, Gewicht en Euros, voor mannen en vrouwen apart. = Minimize het output venster. Data/ Split File Selecteer een van de keuzen Compare groups of Organize output by groups afhankelijk van je wensen. Probeer met beide keuzen de opgave te maken. Selecteer de variabele volgens welke het bestand gesplitst moet worden, Geslacht in dit geval. Op het pijltje drukken zodat deze variabele in het vakje Groups Based on komt te staan. Denk er aan dat deze Split File blijft gelden tot het weer ongedaan is gemaakt. Verder als opgave 4. 7. Onderzoek de variabelen Gewicht, Lengte, Euros en Random met Descriptive Statistics/ Explore, voor mannen en vrouwen apart. Maak daarbij Boxplots, Stem and Leaf grafieken en Histogrammen. Is de verdeling van Gewicht en Lengte ongeveer normaal? Hebben mannen en vrouwen ongeveer dezelfde standaardafwijking? = Minimize het output venster. Kies Analyze/ Descriptive Statistics/ Explore Selecteer links de variabelen Lengte, Gewicht, Euros en Random. Klik het pijltje naast het vak Dependent List aan, zodat de variabelen in het vak verschijnen. Klik op de knop Plots. Vink in het vak Descriptives de vakjes voor Stem-andleaf en Histogram aan. Klik op de knop Continue. 4

1 INLEIDING SPSS; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. 8. Doe een t-toets om het gemiddelde Gewicht en Lengte van de mannen en vrouwen te vergelijken. Noteer het 95% BI voor het verschil tussen mannen en vrouwen. Hoe groot is de p-waarde van de t-toets? Stemt de conclusie met de p- waarde en de conlusie met het BI overeen? Is het verstandig om hier een t-toets te gebruiken? = Minimize het output venster. Nu eerst Split File uitzetten. Kies Analyze/ Compaire Means/ Independent Samples T Test Links de variabele Gewicht selecteren en klik het pijltje naast het vak Test Variables zodat die variabele in het vak verschijnt. Dan de variabele Geslacht selecteren en klik het pijltje naast het vakje Grouping Variable zodat de variabele in dat vakje verschijnt. Vervolgens op de knop Define Groups drukken. In het Define Groups venstertje achter Group 1 een 1 invullen en achter Group 2 een 2 invullen. Klik dan op de knop Continue. Klik dan op de knop OK in het venster Independent-Samples Test. 9. Doe dan de Mann-Whitney U test om de gemiddelden van Gewicht en Lengte van de mannen en vrouwen te vergelijken. Is het verschil significant? Is het verstandig om hier een rang-toets te gebruiken? = Minimize het output venster. Analyze/ Nonparametric tests/ 2 Independent Samples Links de variabele Euros selecteren en klik het pijltje naast het vak Test Variables zodat die variabele in het vak verschijnt. Dan de variabele Geslacht selecteren en klik het pijltje naast het vakje Grouping Variable zodat de variabele in dat vakje verschijnt. Vervolgens op de knop Define Groups drukken. In het Define Groups venstertje achter Group 1 een 1 invullen en achter Group 2 een 2 invullen. Klik dan op de knop Continue. Klik dan op de knop OK in het venster Two Independent-Samples Test. Bekijk de output. 10. Maak met spss een scatterplot van Gewicht tegen Lengte. Laat in deze puntenwolk de regressielijn van het totaal en van de mannen en vrouwen tekenen. 5

24 april 2007: A.K. en M.d.L. 1 INLEIDING SPSS; AANWIJZINGEN. = Minimize het output venster. Kies Graphs/ Scatter Selecteer het vakje Simple. Klik dan op de knop Define. Selecteer Lengte en klik op het pijltje naast het vakje X Axis. Selecteer Gewicht en klik op het pijltje naast het vakje Y Axis. Selecteer Geslacht en klik op het pijltje naast het vakje Set Markers by... Klik dan op de knop OK. Als de grafiek in het output venster is verschenen klik dan dubbel op de grafiek. Er verschijnt een nieuw venster met een ander menu en een andere iconenbalk. Kies Chart/ Options Selecteer in het venster Scatterplot Options in de groep Fit Line het vakje Total en Subgroups. Klik dan op de knop OK. Bekijk de output. 11. Bereken het aantal dagen tussen de geboortedatum (Gebdag, Gebmaand en Gebjaar) en de datum waarop de vragenlijst is ingevuld (idag, etc.). = Minimize het output venster. Kies Transform/ Compute Vul links boven onder Target Variable de naam dagen in. Vul in het vak rechts boven onder Numeric Expression de formule in. Maak hierbij gebruik van de functie YRMODA. Een omschrijving van een functie krijgt men te zien door op de betreffende funktie rechts te klikken. Als men links op de naam van de functie klikt wordt de functie in het Numeric Expression vak gezet. Op de plaats van de vraagtekens vult men de variabelen in. De formule wordt dus: YRMODA(ijaar,imaand,idag)-YRMODA(gebjaar,gebmaand,gebdag) In de data editor zijn nu de waarden van de variabele Dagen te zien. 12. Bereken de leeftijd (in voltooide jaren) die de invullers vandaag hebben. 6

1 INLEIDING SPSS; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. = Kies Transform/ Compute Vul in links boven onder Target Variable de naam jaren. Vul in het vak rechts boven onder Numeric Expression de formule in. Om de leeftijd in voltooide jaren te berekenen kun je in de eerste plaats het verschil van het huidige jaar en het geboorte jaar nemen. Vervolgens, als datum van de verjaardag nog niet geweest is, er één van af trekken. De formule ziet er dan zo uit: (2003 - gebjaar) - ((YRMOD(2003,gebmaand,gebdag) - YRMOD(2003,3,27)) < 0) De boolean expressie ((YRMOD(2003,gebmaand,gebdag) - YRMOD(2003,3,27)) < 0) levert 1 als hij waar is. In de data editor zijn nu de waarden van de variabele jaren te zien. 7

24 april 2007: A.K. en M.d.L. 2 CORRELATIE; AANWIJZINGEN. 2 Correlatie; Aanwijzingen. = Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor C$ op Client (V:) Selecteer de directory temp. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op Client (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Opgave 2.1 1. Bereken de Pearson en de Spearman correlaties in de systolische druk data van hoofdstuk 1, Colton6r.sav. = Kies Analyze/ Correlate/ Bivariate... Selecteer in het venstertje Bivariate Correlations de variabelen Leeftijd in jaren [leeftijd] en Systolische bloeddruk [syst]. Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. Zorg dat het vakje vóór Pearson en vóór Spearman aangevinkt zijn. Opgave 2.2 De data voor deze opgave moeten eerst worden ingelezen met behulp van File/ Read Text Data. De datafile is Bmol.dat, dat zijn de data bij het niet-parametrische correlatievoorbeeld. De kolommen in de data zijn resp. Aggr en Bmol. = Kies File/ Read Text Data Druk op het pijltje in het vakje Files of type: en kies All Files (*.*). 8

2 CORRELATIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. Selecteer, in de lijst bestanden die zichtbaar wordt, het bestand Bmol.dat. Klik de knop Open aan. Het venster Text Import Wizard step 1 of 6 wordt geopend. In het blok Does your text file match a predefined format? klik het keuzevakje No aan. Klik de knop Next> aan. Het venster Text Import Wizard step 2 of 6 wordt geopend. In het blok How are your variables arranged? klik het keuzevakje Delimited aan. In het blok Are variable names included at the top of your file? klik het keuzevakje No aan. Klik de knop Next> aan. Het venster Text Import Wizard step 3 of 6 wordt geopend. Verhoog het getal achter de vraag The first case of data begins on which line number? zodanig dat in het Data Preview vak de bovenste twee getallen 36.5 en 51.3 op regel 1 staan. Klik in het blok How are your cases represented? het keuzevakje voor Each line represents a case aan. Klik in het blok How many cases do you want to import? het keuzevakje voor All of the cases aan. Klik de knop Next> aan. Het venster Text Import Wizard step 4 of 6 wordt geopend. Zorg dat in het blok Which delimiters appear between variables? het keuzeblokje voor Space is aangevinkt. Klik de knop Next> aan. Het venster Text Import Wizard step 5 of 6 wordt geopend. Selecteer in het vak Data Preview de variabele naam V1. Vul in het vakje Variable name in aggr. Selecteer dan in het vak Data Preview de variabele naam V2. Vul in het vakje Variable name in bmol. Klik de knop Next> aan. Het venster Text Import Wizard step 6 of 6 wordt geopend. Vul nu de blokken in naar eigen wens. Klik de knop Finish aan. De data verschijnt in de spreadsheet. 1. Maak een plaatje van de data: plot de Bmol variabele tegen Aggr. = Kies Graphs/ Scatter... Selecteer Simple en klik de knop Define aan. Selecteer links de variabele bmol en druk op het pijltje naast het cvakje waar Y-Axis boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele aggr en druk op het pijltje naast het vakje waar X-Axis boven staat, zodat deze variabele in het vakje komt te staan. 9

24 april 2007: A.K. en M.d.L. 2 CORRELATIE; AANWIJZINGEN. 2. Bereken de Pearson en de Spearman correlaties. = Kies Analyze/ Correlate/ Bivariate... Selecteer in het venstertje Bivariate Correlations de variabelen aggr en bmol. Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. Zorg dat het vakje vóór Pearson en vóór Spearman aangevinkt zijn. 3. Laat zien dat de Pearson correlatie verandert als punt 4 (Aggr=54.5, Bmol=63.5) veranderd wordt zodat Bmol =85. = Verander in de spreadsheet de waarde 63.5 van Bmol in 85. Verricht verder dezelfde handelingen als bij de vorige opgave. 4. Laat zien dat de Spearman correlatie hetzelfde blijft bij deze verandering in Bmol. Hoe komt dat? = De Spearman correlatie wordt berekend door de Pearson correlatie te berekenen op de rangnummers van de variabelen. In dit geval veranderd het rangnummer van deze waarde niet, dus ook de Spearman correlatie niet. Opgave 2.3 Dit is een kleine inleiding in het simuleren van data, om te zien hoe variabel resultaten van data uit dezelfde bron kunnen zijn. spss heeft een ingebouwde willekeurigegetallen generator (random number generator) waarmee variabelen met bekende eigenschappen wat betreft gemiddelde en standaardafwijking kunnen worden gemaakt. In het transform/ compute menuutje vindt u deze functies als RV.NORMAL(<mean>,<SD>). Deze functie maakt (genereert) random getallen met door u te kiezen gemiddelde en standaardafwijking. Simuleren van data kan nuttig zijn om te zien hoe variabel bepaalde uitkomsten zouden kunnen zijn, bijvoorbeeld voor powerberekeningen, en simuleren van data is onvermijdelijk als u uw onderzoeksresultaten faken wilt (dit is strafbaar, en niet gemakkelijk zo te doen dat het niet aan het licht zal komen). Met behulp van de formules voor covarianties in 2.7.4 in de syllabus kunt u data genereren uit een verdeling met een door u te bepalen correlatiecoëfficiënt: Als X en Y onafhankelijke standaard normaal verdeelde variabelen zijn, en Z wordt berekend als Z = Y ρ + X 1 ρ 2 dan is de correlatiecoëfficiënt van Y en Z gelijk aan ρ en bovendien is de SD van Z gelijk aan 1. 10

2 CORRELATIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. Aanwijzing Als u met een leeg data-scherm begint weet spss niet hoeveel cases er zijn. Uw compute opdrachten hebben dan niet het gewenste effect. Wat wel werkt is de volgende truuk: Om 100 cases te krijgen gaat u naar regel 100 van de data-editor (dit kan met behulp van Go to Case in het Data menu). Dan typt u een 1 in de cel van de eerste variabele van die case. Nu heeft u 100 cases, waarbij de gewenste random variabelen kunnen worden gegenereerd. 1. (2.7.2 in syllabus) Genereer voor 100 cases onafhankelijke variabelen X1 en X2 met gemiddelde 10 en standaardafwijking 2. Bereken Xdif = X2 X1. Maak een plaatje van Xdif tegen X1. Bereken de correlatiecoëfficiënt van Xdif en X1. Constateer dat de correlatie vrij groot is, Xdif is groter voor kleine waarden van X1. Dit kan dus een artefact zijn veroorzaakt door toevallige variaties in X1. = Kies File/ New/ Data In het venstertje SPSS for Windows klik No. Kies Data/ Goto Case. Vul als Case Number in 100. vul een getal in en geef <enter>. Kies Transform/ Compute Vul in links boven onder Target Variable de naam x1. Vul in het vak rechts boven onder Numeric Expression de formule RV.NORMAL(10,2) in. In de data editor zijn nu de waarden van de variabele x1 te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam x2. Vul in het vak rechts boven onder Numeric Expression de formule RV.NORMAL(10,2) in. In de data editor zijn nu de waarden van de variabele x2 te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam xdif. Vul in het vak rechts boven onder Numeric Expression de formule x2 - x1 in. In de data editor zijn nu de waarden van de variabele xdif te zien. Kies Analyze/ Correlate/ Bivariate... Selecteer in het venstertje Bivariate Correlations de variabelen xdif en x1. Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. Zorg dat het vakje vóór Pearson aangevinkt is. 11

24 april 2007: A.K. en M.d.L. 2 CORRELATIE; AANWIJZINGEN. 2. (2.7.6 in syllabus) Genereer voor 100 cases onafhankelijke variabelen X, Y en Z, met gemiddelde 10 en standaardafwijking 2. Bereken per variabele hoeveel procent het is van de som X + Y + Z, dit geeft variabelen px, py en pz. Laat zien dat de correlaties van px, py en pz negatief zijn. = Begin met een leeg datasheet door te kiezen File/ New/ Data. Bereid de datasheet voor zoals in de vorige opdracht is omschreven. Kies Transform/ Compute. Vul in links boven onder Target Variable de naam x. Vul in het vak rechts boven onder Numeric Expression de formule RV.NORMAL(10,2) in. In de data editor zijn nu de waarden van de variabele x te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam y. Vul in het vak rechts boven onder Numeric Expression de formule RV.NORMAL(10,2) in. In de data editor zijn nu de waarden van de variabele y te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam z. Vul in het vak rechts boven onder Numeric Expression de formule RV.NORMAL(10,2) in. In de data editor zijn nu de waarden van de variabele z te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam px. Vul in het vak rechts boven onder Numeric Expression de formule 100 * x / (x + y + z) in. In de data editor zijn nu de waarden van de variabele px te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam py. Vul in het vak rechts boven onder Numeric Expression de formule 100 * y / (x + y + z) in. In de data editor zijn nu de waarden van de variabele py te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam pz. Vul in het vak rechts boven onder Numeric Expression 12

2 CORRELATIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. de formule 100 * z / (x + y + z) in. In de data editor zijn nu de waarden van de variabele pz te zien. Kies Analyze/ Correlate/ Bivariate... Selecteer in het venstertje Bivariate Correlations de variabelen px, py en pz. Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. Zorg dat het vakje vóór Pearson aangevinkt is. 3. Genereer X, Y en Z met ρ(y, Z) = 0.5 voor 100 cases en bereken de Pearson correlatie van Y en Z. Waarom is deze niet precies gelijk aan 0.5? = Kies Transform/ Compute Vul in links boven onder Target Variable de naam x. Vul in het vak rechts boven onder Numeric Expression de formule RV.NORMAL(0,1) in. In de data editor zijn nu de waarden van de variabele x te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam y. Vul in het vak rechts boven onder Numeric Expression de formule RV.NORMAL(0,1) in. In de data editor zijn nu de waarden van de variabele y te zien. Kies Transform/ Compute Vul in links boven onder Target Variable de naam z. Vul in het vak rechts boven onder Numeric Expression de formule 0.5 * y + SQRT(1-0.5 * 0.5)* x in. In de data editor zijn nu de waarden van de variabele z te zien. Kies Analyze/ Correlate/ Bivariate... Selecteer in het venstertje Bivariate Correlations de variabelen y en z Op het pijltje drukken zodat deze variabelen in het vakje variable(s) komen te staan. Zorg dat het vakje vóór Pearson aangevinkt is. 4. Herhaal opdracht 1 een aantal keer en zie hoe veel de correlatie varieert. Noteer telkens de correlatiecoëfficiënt. 5. Doe hetzelfde met veel minder (10) of veel meer data (1000) en zie wat dat uitmaakt. 13

24 april 2007: A.K. en M.d.L. 3 ENKELVOUDIGE REGRESSIE; AANWIJZINGEN. 3 Enkelvoudige regressie; Aanwijzingen. = Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor C$ op Client (V:) Selecteer de directory temp. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op Client (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Enkelvoudige lineaire regressie vindt u in het spss menu onder Analyse/ Regression/ Linear. Het invulscherm wijst zichzelf, in eerste instantie vult u een afhankelijke variabele (dependent) en een onafhankelijke variabele (independent) in. Opgave 3.1 Gebruik de data van hoofdstuk 1 over de leeftijd en de systolische bloeddruk. Datafile: Colton6r.sav. 1. Bereken de regressielijn voor de systolische druk afhankelijk van de leeftijd. = Kies Analyze/ Regression/ Linear. Selecteer links de variabele Systolische bloeddruk (syst) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele Leeftijd in jaren (leeftijd) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. 14

3 ENKELVOUDIGE REGRESSIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. 2. Zoek op in de uitvoer: de geschatte regressiecoëfficiënten, de bijbehorende standaardfouten, t-waarden en p-waarden. = De geschatte regressiecoëfficiënten vind je in de tabel Coefficients in de kolom waar B boven staat. De bijbehorende standaardfouten staan in de kolom rechts hiervan waar Std. Error boven staat. De t-waarden staan weer twee kolommen verder naar rechts in de kolom waar t boven staat. De p-waarden staan in de kolom rechts hiervan waar Sig. boven staat. 3. Hoe groot is de residuele kwadratensom? = De residuele kwadratensom vind je in de tabel ANOVA in de kolom Sum of Squares en in de rij Residual. Minimize het Output venster. Opgave 3.2 (Vervolg) 1. Bereken met behulp van de geschatte coëfficiënten voor iedere subject de voorspelde waarde van de systolische druk, en het bijbehorende residu. Gebruik hiervoor compute opdrachten. = Kies Transform/ Compute. Vul in links boven onder Target Variable de naam resid. Vul in het vak rechtsboven onder Numeric Expression de formule (syst-(81.517+1.222*leeftijd)) in. In de data editor zijn nu de waarden van de variabele resid te zien. 2. Kwadrateer de residuen en tel ze op (compute opdracht en descriptives opdracht). Controleer dat de som gelijk is aan de hierboven uit de SPSS uitvoer gezochte kwadratensom. = Kies Transform/ Compute. Vul in links boven onder Target Variable de naam residsq. Vul in het vak rechtsboven onder Numeric Expression de formule resid ** 2 in. 15

24 april 2007: A.K. en M.d.L. 3 ENKELVOUDIGE REGRESSIE; AANWIJZINGEN. In de data editor zijn nu de waarden van de variabele residsq te zien. Kies Analyze/ Descripive Statistics/ Descriptives... Selecteer links de variabele residsq en druk op het pijltje, zodat deze variabele in het vakje komt te staan. Klik de knop Options... aan. Vink het keuzevakje Sum aan. Maak evt. andere keuzevakjes leeg. Klik de knop Continue aan. Bekijk de output. Minimize het outputvenster. 3. Laat zien dat voor andere waarden van de coëfficiënten de residuele kwadratensom groter is. Verklaar. Hint Dit gaat gemakkelijk in het syntax scherm waarin u de compute opdrachten en de descriptives opdracht heeft gezet. U hoeft voor elke keuze van coëfficiënten deze steeds alleen in de berekening van de voorspelde waarde te veranderen. = Verricht de handelingen als in punt 1 en 2 van deze opgave besproken maar klik steeds de knop Paste aan in plaats van OK. Vervang een aantal keren de waarden 81.517 en of 1.222 in het syntax venster door andere waarden en kies Run/ All. De laatste waarde van sumresid zal steeds groter zijn dan 10769.71 Opgave 3.3 Bereken een nieuwe variabele lft50 = Leeftijd 50. Bereken de regressielijn van de systolische druk op lft50. Vraag ook om betrouwbaarheidsintervallen van de coëfficiënten. Vergelijk de uitkomsten met die van opgave 3.1. Verklaar de verschillen. Wat is de interpretatie van de constante in het regressiemodel? Hoe interpreteert u het betrouwbaarheidsinterval van de constante? = Kies Transform/ Compute. Vul in links boven onder Target Variable de naam lft50. Vul in het vak rechtsboven onder Numeric Expression de formule leeftijd - 50 in. In de data editor zijn nu de waarden van de variabele lft50 te zien. Kies Analyze/ Regression/ Linear... Selecteer links de variabele Systolische bloeddruk (syst) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele lft50 en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. 16

3 ENKELVOUDIGE REGRESSIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. Bekijk de output en probeer de vragen te beantwoorden. Opgave 3.4 Gebruik weer de data van Colton over leeftijd en systolische druk. 1. Voer de regressie-analyse uit van Syst als functie van Leeftijd, en bepaal voor iedere subject de Cook afstand. Zoek op wie de hoogste Cook afstand heeft. Hint: Sorteer de data op Cook afstand. = Kies Analyze/ Regression/ Linear... Selecteer links de variabele Systolische bloeddruk (syst) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele Leeftijd in jaren (leeftijd) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Klik de knop Save, het venster Linear Regression: Save opent. Selecteer in het blok Distances het vakje Cook s aan. Haal alle andere vinkjes weg. Klik de knop Continue aan. In je Data Editor zie je de Cook s distances. Als je de colom coo 1 selecteert en met de rechtermuisknop op coo 1 klikt kun je in het menu kiezen hoe je de kolom wilt sorteren. 2. Herhaal de regressie-analyse met weglaten van de persoon met de hoogste Cook afstand. Hoeveel veranderen de coëfficiënten? Verandert de kwalitatieve conclusie van de analyse? = Kies Data/ Select Cases... Selecteer het keuzevakje if condition is satisfied. Klik op de knop if... Selecteer links de variabele Cook s Distance (coo 1) en druk op het pijltje zodat de variabele in het vakje komt te staan. Tik hier achter <.5. Klik de knop Continue aan. Kies Analyze/ Regression/ Linear... Selecteer links de variabele Systolische bloeddruk (syst) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele Leeftijd in jaren (leeftijd) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. 17

24 april 2007: A.K. en M.d.L. 3 ENKELVOUDIGE REGRESSIE; AANWIJZINGEN. Bekijk de output en probeer de vragen te beantwoorden. Voor je verder gaat zorg dat alle cases weer meedoen. Kies Data/ Select Cases... Selecteer het keuzevakje All cases Opgave 3.5 (Vervolg) Maak een plaatje met een scatterplot, de regressielijn en de betrouwbaarheidsgrenzen voor de geschatte lijn. Stappen hierin zijn: 1. In het regressiemenu, kies Save, en bewaar de predicted value en de ci(mean). U krijgt er variabelen bij in uw data-file. Kijk hoe ze heten. = Kies Analyze/ Regression/ Linear... Selecteer links de variabele Systolische bloeddruk (syst) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele Leeftijd in jaren (leeftijd) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Klik de knop Save, het venster Linear Regression: Save opent. Selecteer in het blok Predicted Values het vakje Unstandardized aan. Selecteer in het blok Predicted Intervals het vakje Means aan en controleer of in het vakje Confidence Interval 95% staat vermeld. Klik de knop Continue aan. Bekijk de uitvoer. Minimize het Output venster. 2. Zoek bij een subject van 50 jaar oud het betrouwbaarheidsinterval op in de data en vergelijk dat met het betrouwbaarheidsinterval voor de constante in opgave 3.3. 3. Nu moet hiervan nog een plaatje gemaakt worden: In het Graphs/ Scatter menu kiest u de Overlay knop. U kiest als eerste variabele van het te plotten paar Syst, de voorspelde waarden en de grenzen van het interval. Dan telkens als tweede variabele leeftijd. Gebruik de Swap Pair knop om de volgorde te veranderen. = Kies Graphs/ Scatter Selecteer nu de Overlay knop. 18

3 ENKELVOUDIGE REGRESSIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. Klik de Define knop. Dan moet u drie paren variabelen kiezen. Eerst selecteert u leeftijd en de Unstandardized Predicted Value(pre 1). Dan klikt u op het pijltje naast het vakje waar Y-X Pairs boven staat, zodat deze variabelen in het vakje komen te staan. De variabele leeftijd moet logischerwijs op de X-as komen te staan dus als tweede van het paar staan. Als dat niet het geval is druk op de knop Swap Pair. Vervolgens selecteert u leeftijd en de 95% L CI for SYST mean(lmci 1). Dan klikt u weer op het pijltje naast het vakje waar Y-X Pairs boven staat, zodat deze variabelen in het vakje komen te staan. Pas weer de volgorde aan zodat leeftijd weer als tweede staat. Daarna selecteert u leeftijd en de 95% U CI for SYST mean(umci 1). Dan klikt u weer op het pijltje naast het vakje waar Y-X Pairs boven staat, zodat deze variabelen in het vakje komen te staan. Pas weer de volgorde aan zodat leeftijd weer als tweede staat. Tenslotte selecteert u leeftijd en de Systolische bloeddruk(syst). Dan klikt u weer op het pijltje naast het vakje waar Y-X Pairs boven staat, zodat deze variabelen in het vakje komen te staan. Pas weer de volgorde aan zodat leeftijd weer als tweede staat. 4. Het vervelende van bovenstaande methode is dat u met spss geen fatsoenlijke lijntjes door de predicted en de intervalgrenzen kunt krijgen. Het kan wel, maar dan moet u de hiervoor in spss ingebakken methode gebruiken: Maak een simple scatterplot van syst tegen leeftijd, dan op het plaatje dubbelklikken, en op het passer knopje (Chart/ Options) drukken. Kies vervolgens Fit Line/ Total en Fit Options/ Linear, Mean. 5. Maak net zo n plaatje met het voorspellingsinterval voor individuele waarnemingen. = Als bij 3, maar ipv. keuzeblokje Mean, Individual aanvinken. 19

24 april 2007: A.K. en M.d.L. 4 MEERVOUDIGE REGRESSIE; AANWIJZINGEN. 4 Meervoudige regressie; Aanwijzingen. = Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor C$ op Client (V:) Selecteer de directory temp. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op Client (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Opgave 4.1 Gebruik de data van de vis-trial, vis.sav. 1. Gebruik de t-toets om de eindbloedingstijd van groepen makreel en controle met elkaar te vergelijken. Bereken ook het 95%-betrouwbaarheidsinterval voor het verschil in eindbloedingstijd. = Kies Analyze/ Compare Means/ Independent-Samples T Test. Het venster Independent-Samples T Test verschijnt. Selecteer in het linker vak de variabele Bloedingstijd na 6 weken in minuten(bt0). Klik op het pijltje links van het vak Test Variable(s): zodat deze variabele in het vakje Variable(s) komt te staan Selecteer dan in het linker vak de variabele Vis Klik op het pijltje links van het vak Grouping Variable: zodat deze variabele in het vakje Grouping Variable: komt te staan. Klik de knop Define Groups... aan. Het venstertje Define Groups... verschijnt. Achter Group 1 een 0 invullen en achter Group 2 een 1 invullen. 20

4 MEERVOUDIGE REGRESSIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. Klik dan op de knop Continue. Klik vervolgens op de knop OK in het venser Independent-Samples T Test. Bekijk de output in minimize daarna het output venster. 2. Doe hetzelfde door middel van lineaire regressie en vergelijk de resultaten. Waarom is het resultaat van de ongelijke varianties t-toets afwijkend? = Kies Analyze/ Regression/ Linear. Selecteer links de variablele Bloedingstijd na 6 weken in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Opgave 4.2 Nu vergelijken we de bovenstaande analyse met die van de verschillen t.o.v. de nulmeting en met een covariantie-analyse. 1. Bereken voor iedere deelnemer het verschil in bloedingstijd tussen aanvang en einde, en doe een t-toets (op de regressie-manier) om te zien of ze in de makreel groep verschillen van die in de controlegroep. = Kies Transform/ Compute. Vul links boven onder Target Variable de naam btdiff in. Vul in het vak rechts boven onder Numeric Expression de formule bt6 - bt0 in. In de data editor zijn nu de waarden van de variabele btdiff te zien. Kies Analyze/ Regression/ Linear. Selecteer links de variabele btdiff en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan.. 2. Doe nu de covariantie-analyse om het verschil in eindbloedingstijd te toetsen met correctie voor aanvangswaarde. Merk op dat de residuele variantie hierbij kleiner is dan bij beide eerdere analyses. 21

24 april 2007: A.K. en M.d.L. 4 MEERVOUDIGE REGRESSIE; AANWIJZINGEN. = Kies Analyze/ Regression/ Linear. Selecteer links de variabele Bloedingstijd bij aanvang in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis en Bloedingstijd bij aanvang in minuten (bt0) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan.. 3. In de eerste opgave van dit hoofdstuk toetsten we Bt6, en in item 1 van deze opgave Bt6 Bt0 met een t-toets. De covariantie-analyse kan ook zo beschouwd worden: we toetsen dan Bt6 b 2 Bt0, waarin b 2 de coëfficiënt van Bt0 in de covariantie-analyse is. Laat met een t-toets zien dat dit klopt bijna, de vrijheidsgraden van de t-toets houden er geen rekening mee dat b 2 uit de data geschat is. = Kies Transform/ Compute. Vul linksboven onder Target Variable de naam btstar in. Vul in het vak rechtsboven onder Numeric Expression de formule bt6 -.554 * bt0 in. In de data editor zijn nu de waarden van de variabele btstar te zien. Kies Analyze/ Regression/ Linear. Selecteer links de variabele btstar en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Opgave 4.3 Nu gaan we het volledige model onderzoeken, waarin ook met Centrum rekening gehouden wordt. 1. Analyseer het behandelingseffect m.b.v. model 3.8 uit de syllabus. = Kies Analyze/ Regression/ Linear. Selecteer links de variabele Bloedingstijd bij aanvang in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis, bt0, trom en zeis en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje 22

4 MEERVOUDIGE REGRESSIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. komt te staan.. 2. Definieer een nieuwe dummy Maas die één is als de proefpersoon in Maastricht aan het onderzoek meedeed, en nul anders. = Kies Transform/ Compute. Vul linksboven onder Target Variable de naam maas in. Vul in het vak rechtsboven onder Numeric Expression de formule centrum = 4 in. In de data editor zijn nu de waarden van de variabele maas te zien. 3. Wat gebeurt er als u die dummy toevoegt aan de analyse van item 1 en waarom? = Kies Analyze/ Regression/ Linear. Selecteer links de variabele Bloedingstijd bij aanvang in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis, bt0, trom, zeis en maas en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan.. 4. Herhaal de analyse van item 1 met Maas en Trom als dummy s voor Centrum. Verklaar de waarden van de coëfficiënten. = Kies Analyze/ Regression/ Linear. Selecteer links de variabele Bloedingstijd bij aanvang in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis, bt0, maas en trom en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan.. Opgave 4.4 Nu gaan we de modelvoorwaarden controleren. 1. Analyseer het behandelingseffect m.b.v. model 3.8 uit de syllabus. Controleer hierbij de modelvoorwaarden door middel van een residuenplot en een normal quantiles plot. Hiervoor moet u in uw regressie-opdracht de residuen en de voorspelde waarden laten bewaren in de data-file (in het menu onder de Save knop, de quantielen plot vindt u in het Graphs menu). 23

24 april 2007: A.K. en M.d.L. 4 MEERVOUDIGE REGRESSIE; AANWIJZINGEN. = Kies Analyze/ Regression/ Linear. Selecteer links de variabele Bloedingstijd bij aanvang in minuten (bt6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabele vis, bt0, maas en trom en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabele in het vakje komt te staan. Klik op de knop Save. Het venster Linear Regression: Save opent. Klik in het blok Predicted Values het keuzevakje unstandardized aan Klik in het blok Residuals het keuzevakje unstandardized aan. Klik op de knop Continue. Kies Graphs/ Scatter Selecteer het vakje Simple. Klik dan op de knop Define. Selecteer pre 1 en klik op het pijltje naast het vakje X Axis. Selecteer res 1 en klik op het pijltje naast het vakje Y Axis. Kies Graphs/ Q-Q... Selekteer Unstandardized Residual(res 1)en druk op het pijltje naast het vakje waar Variables: boven staat, zodat deze variabele in het vakje komt te staan. Opmerkingen: Onder de Plots knop in het regressie scherm heeft u de mogelijkheid om gestandaardiseerde residuen tegen gestandaardiseerde voorspelde waarden te plotten. Dat is equivalent aan de bovengevraagde residuenplot. De normal probability plot in het Plots menu is echter minder geschikt voor het beoordelen van normaliteit van de residuen. Opgave 4.5 In bovenstaande opgave kunt u concluderen dat de residuen geen constante variantie hebben. We proberen enkele mogelijke transformaties: 1. Maak plotjes als boven van de analyse van de log, de wortel en de inverse van de uitkomstvariabele Bt6. Hierbij is het netjes (maar niet per se noodzakelijk) ook de aanvangswaarde overeenkomstig te transformeren. Opmerking De inverse transformatie keert de volgorde van de data om, dat kan verwarring geven bij het lezen van de uitvoer. U kunt dit voorkomen door de inverse te definiëren als 1 1/X. 2. Constateer dat de wortel-transformatie niet veel helpt, en de inverse misschien wel té veel. 24

4 MEERVOUDIGE REGRESSIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. = Uitwerking als boven. Opgave 4.6 Ga verder met het model voor de log-getransformeerde bloedingstijden. Interpretatie. 1. Hoe groot is het geschatte verschil in log(bloedingstijd) op grond van deze analyse? 2. Geef een interpretatie van dit verschil in termen van de ongetransformeerde gegevens. 3. In het model waarin behalve de eindbloedingstijd ook de aanvangsbloedingstijd log-getransformeerd is, geef een interpretatie van de coëfficiënt van ln(bt0). 4. (vervolg) Herhaal het vorige item, maar gebruik nu niet de natuurlijke logaritme ln(bt0) maar de log met grondtal 2 om Bt0 te transformeren. Aanwijzing: 2 log(x) = ln(x)/ ln(2). = Uitwerking als boven. 25

24 april 2007: A.K. en M.d.L. 5 VERVOLG MEERVOUDIGE REGRESSIE; AANWIJZINGEN. 5 Vervolg meervoudige regressie; Aanwijzingen. = Start Windows Internet Explorer op. Ga naar www.stat.unimaas.nl. Klik op education. Klik op Statistics for Ph D students. Klik op Statistics part II - regression analysis and SPSS. Klik op SPSS DATA-file in zip format. Een file download venster opent. Klik op de knop Open. Een Winzip venster opent. Klik op het extract icoon. Een extract venster opent. Klik op het + teken voor C$ op Client (V:) Selecteer de directory temp. Controleer of het keuze rondje voor all files is geselecteert. Klik op de knop Extract. Sluit het Winzip venster. Sluit Windows Internet Explorer. Alle benodigde data staan nu op V:/temp. Start SPSS 11.5 for Windows via Start/ Programs. Kies File/ Open/ Data. Klik op het pijltje naast SPSS11. Er verschijnt een drop down list waarin je op C$ op Client (V:) klikt Dan dubbelklikken op de directory temp, en vervolgens kun je het gewenste bestand kiezen. Opgave 5.1 Onderzoek gelijkheid van regressiehellingen. Gebruik hiervoor de data van het tenniselleboog onderzoek data2002.sav. In dat onderzoek zijn ruim 100 patiënten met een tenniselleboog in twee groepen behandeld, groepsvariabele: Therapie. De eerste groep kreeg de gebruikelijke therapie, fysiotherapie volgens Cyriax. De tweede groep kreeg corticosteroïden-injecties. Na zes weken is o.a. de knijpkracht van de zieke arm gemeten, variabele Kna6 (in kilo s). Vooraf is ook de knijpkracht van beide handen gemeten, variabelen Kna0 en Knc0 voor de aangedane en de andere (controle) arm. Leeftijd, geslacht, het hebben van nachtpijn en de pijnintensiteit werden als belangrijke covariaten beschouwd. 1. Maak een scatterplot van eindknijpkracht tegen aanvangsknijpkracht. Kijk of er rare waarden inzitten en laat die weg uit alle volgende analyses. = Kies Graphs/ Scatter... Selecteer Simple en klik de knop Define aan. Selecteer links de variabele Knijpkracht aanged. arm na zes weken (Kna6) en druk op het pijltje naast het cvakje waar Y-Axis boven staat, zodat deze variabele in het vakje komt te staan. 26

5 VERVOLG MEERVOUDIGE REGRESSIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. Selecteer links de variabele Knijpkracht aanged. arm bij aanvang (Kna0) en druk op het pijltje naast het vakje waar X-Axis boven staat, zodat deze variabele in het vakje komt te staan. Opmerking De getallen 99 die u ziet voor de knijpkrachten zijn in feite de code van een ontbrekende meting, missing. Een aantal patiënten had geen eindmeting, daar is 99.00 voor ingevuld. U moet deze waarde aanduiden als missing : Druk in het datascherm op variable view en dan in het vakje Missing bij variabele Kna6. Er verschijnt een blokje met drie puntjes erop, druk daarop. Het scherm Missing Values verschijnt. Vul bij Discrete Missing Values de waarde 99.0 in. Druk op OK. Ga terug naar Data View. Om te controleren dat de waarde 99.0 inderdaad als missing wordt beschouwd kunt u een gemiddelde uitrekenen voor deze variabele (Desriptives). Maak de scatterplot opnieuw. 2. Maak een eenvoudige data-samenvatting, waarin per groep het gemiddelde, standaardafwijking en minimum en maximum van de begin- en eindknijpkracht staan. = Dit kan op vele manieren, het gemakkelijkst gaat het met Analyze/ Compare means/ Means Het venster :Means verschijnt. Vul de knijpkracht-variabelen in de Dependent List in, en de groepsvariabele Therapie in de Independent List. Onder de knop Options het maximum en minimum aan de lijst van gevraagde Cell Statistics toevoegen. Klik op de knop Continue. U ziet nu in de kolom voor de aanvangsknijpkracht van de controle-arm Knc0 een maximum van 99.00 staan. Oei, daar zitten dus ook missings in. Zet ook voor deze variabele de waarde 99 op missing, zoals boven voor Kna6 gedaan is. 3. Analyseer het interventie-effect op de eindknijpkracht met correctie voor de aanvangsknijpkracht Kna0. Hoe groot is het interventie-effect in kilo s? Wat is het betrouwbaarheidsinterval? Let hierbij op de codering van de interventievariabele Therapie. = Kies Analyze/ Regression/ Linear. Het venstertje Linear Regression verschijnt. 27

24 april 2007: A.K. en M.d.L. 5 VERVOLG MEERVOUDIGE REGRESSIE; AANWIJZINGEN. Selecteer links de variabele knijpkracht aang. arm na zes weken (Kna6) en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabelen Therapie en knijpkr in kg aang. arm bij aanvang (Kna0) en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabelen in het vakje komen te staan. Voor het betrouwbaarheidsinterval moet u in het regressie-menu onder de knop Statistics nog het vakje Confidence intervals aanvinken. 4. Maak nu een plotje van eindknijpkracht tegen aanvangswaarde, met verschillende symbolen voor de groepen (Set markers by). Door dubbelklikken op het plaatje komt u in de SPSS chart editor, waar met Chart/ Options het Scatterplot Options venster aangeroepen kan worden. Hierin kunnen, in de Fit Line box, lijnen per groep worden aangevraagd. = Kies Graphs/ Scatter Selecteer het vakje Simple. Klik dan op de knop Define. Selecteer Knijpkr. in kg. aang. arm bij aanvang(kna0) en klik op het pijltje naast het vakje X Axis. Selecteer Knijpkr aang. arm na zes weken(kna6) en klik op het pijltje naast het vakje Y Axis. Selecteer therapie en klik op het pijltje naast het vakje Set Markers by:. Dubbelklik in de output in het plaatje. Nu opent de SPSS chart editor. Kies /Chart/ Options. Het Scatterplot Options venster opent. In de Fit Line box zet een vinkje voor Subgroups. Kijk, door op de Fit Options knop te klikken, of als Fit Method voor Linear Regression gekozen is. Klik op de knop Continue. 5. Onderzoek in het bovenstaande regressiemodel of de regressiehellingen per groep hetzelfde zijn. = U moet aan het regressiemodel een interactievariabele toevoegen. Deze moet eerst worden aangemaakt: Kies Transform/ Compute Vul in links boven onder Target Variable de naam ThexKna0. 28

5 VERVOLG MEERVOUDIGE REGRESSIE; AANWIJZINGEN. 24 april 2007: A.K. en M.d.L. Vul in het vak rechts boven onder Numeric Expression de formule therapie * kna0 in. In de data editor zijn nu de waarden van de variabele ThexKna0 te zien. Kies Analyze/ Regression/ Linear. Het venstertje Linear Regression verschijnt. Selecteer links de variabele kna6 en druk op het pijltje naast het vakje waar Dependent: boven staat, zodat deze variabele in het vakje komt te staan. Selecteer links de variabelen Therapie, kna0 en ThexKna0 en druk op het pijltje naast het vakje waar Independent(s): boven staat, zodat deze variabelen in het vakje komen te staan. 6. Bereken ook voor elke groep apart de regressielijn. Kloppen die lijnen met die uit het vorige item? = Door middel van split file kunnen we de regressielijn per groep berekenen: Kies Data/ Split File. Het :Split File venster verschijnt. Kies Organise output by groups en vul Therapie in het vakje Groups based on in. Kies ook Sort file by grouping variables. Druk op OK. Kies nu Analyze/ Regression/ Linear, en vul de knijpkracht na zes weken bij Dependent in en de aanvangsknijpkracht Kna0 bij Independent. Controleer dat dit dezelfde hellingen en intercepten geeft als de analyse van item 4. Let hierbij op de codering van Therapie. 7. Uitgaande van een regressiemodel waarin de helling van beide lijnen verschillend is, bereken een betrouwbaarheidsinterval voor het therapie-effect bij aanvangswaarde Kna0 = 20 (kilo). = Hier moeten we een betrouwbaarheidsinterval uitrekenen voor de coëfficiënt van Therapie plus 20 maal de coëfficiënt van ThexKna0. Dat is nogal een gedoe, zie formule 5.25 in de syllabus. Gelukkig is er een slimmere manier: De truuk is erop gebaseerd dat de coëfficiënt van Therapie geïnterpreteerd wordt als het therapie-effect bij een aanvangsknijpkracht nul. We gaan het nulpunt van de aanvangsknijpkracht verschuiven naar 20: Kies Transform/ Compute. Vul linksboven onder Target Variable de naam kna0m20 in. Vul in het vak 29