Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze

Maat: px
Weergave met pagina beginnen:

Download "Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze"

Transcriptie

1 Regressie-analyse Regressie-analyse is gericht op het voorspellen van één (numerieke) afhankelijke variabele met behulp van een of meerdere onafhankelijke variabelen (numerieke en/of dummy-variabelen). Wanneer de afhankelijke variabele voorspeld wordt op basis van één onafhankelijke variabele is er sprake van enkelvoudige regressie-analyse. Wanneer er meerdere onafhankelijke variabelen gebruikt worden om de afhankelijke variabele te voorspellen, spreken we van multipele regressie-analyse. Zo kunnen wij bijvoorbeeld de Arbeidssatisfactie van werknemers voorspellen op basis van Werkdruk. In dit geval is er sprake van enkelvoudige regressie. Bij de voorspelling van Arbeidssatisfactie op basis van Werkdruk, Opleiding en Inspraak, is er sprake van drie onafhankelijke variabelen en dus van multipele regressie-analyse. Van de regressieprocedure wordt hieronder het doel aangeduid, hoe de betreffende procedure wordt aangeroepen met behulp van het menu, waar de specifieke hulp gevonden kan worden, hoe de globale werkwijze is en enkele aandachtspunten die belangrijk zijn voor het gebruik. Doel: het zo goed mogelijk voorspellen van de scores op de afhankelijke variabele met behulp van de scores op een of meer onafhankelijke variabelen d.m.v. een lineair model. De afhankelijke variabele dient van interval- of rationiveau (scale) te zijn. De onafhankelijke variabelen zijn vaak van interval- of rationiveau, maar kunnen ook nominaal zijn (zgn. dummy variabelen). Zie daarvoor aandachtspunt 4. In een multipele regressie-analyse kunnen ook interacties opgenomen worden (zie aandachtspunt 4). Zelfs bepaalde niet-lineaire verbanden kunnen geanalyseerd worden (zie aandachtspunt 5). Voor de uitvoering in SPSS: Kies in het menu <Statistics> <Regression> <Linear > Informatie over de procedure kan in SPSS verkregen worden m.b.v. <Help, Topics, Contents, Regression, Linear Regression> ofwel <Help> in het venster "Linear Regression" (na kiezen van de procedure m.b.v. menu). Missing Values worden in de berekening buiten beschouwing gelaten, mits correct gedefinieerd of open gelaten (system missing). Met <Options...> kan aangegeven worden hoe de missing values behandeld moeten worden: "exclude cases listwise" (dit is de standaard instelling), "exclude cases pairwise" ofwel "replace with mean". In dit laatste geval worden de missing values van een variabele vervangen door het gemiddelde van de non-missing values. Globale werkwijze Om een (multipele) regressie-analyse uit te voeren moet een afhankelijke variabele worden geselecteerd: "Dependent" en tevens een of meerdere onafhankelijke variabelen: "Independent". Met behulp van de methode Enter worden de geselecteerde onafhankelijke variabelen alle tegelijkertijd in de analyse opgenomen. De overige methoden (Stepwise, Remove, Backward en Forward) worden hier niet behandeld. Ook het zgn. "gewogen kleinste-kwadraten model" dat d.m.v. "WLS>>" kan worden gekozen, wordt hier niet behandeld. Zie hiervoor de Helpfunctie in SPSS. Van: <Statistics>, <Plots>, <Save> en <Options> worden hieronder slechts de mogelijkheden toegelicht die een functie hebben in de standaard regressie-analyse.

2 Statistics Klik op <Statistics> om een keuze te kunnen maken uit de uitvoermogelijkheden. "Estimates" staat standaard ingesteld en omvat de uitvoer van de regressiecoëfficiënten en daarmee samenhangende grootheden: regressiecoëfficiënten (B), de standard error van de B's (SE B), de gestandaardiseerde regressiecoëfficiënten (Beta), de toetsingsgrootheid t (T) en de overschrijdingskans daarvan (Sig T). Vermeld moet worden dat de waarden van deze grootheden afhankelijk zijn van de keuze van de onafhankelijke variabelen. Door toevoeging of weglating van variabelen kunnen de waarden zeer sterk veranderen. Bijzonderheden over het toetsen van regressiemodellen zijn te vinden onder aandachtspunt 2. Ook "Model fit" is standaard aangekruist. Tot de uitvoer behoort: de multipele correlatiecoëfficiënt (Multiple R), het kwadraat daarvan (R Square), de gecorrigeerde waarde van R 2 (Adjusted R Square) en de standard error. In aandachtspunt 3 wordt nadere informatie gegeven over de gecorrigeerde waarde van R 2. Bovendien wordt in de uitvoer een variantieanalysetabel gepresenteerd met kwadratensommen, vrijheidsgraden (DF), variantieschattingen (Mean Squares), de toetsingsgrootheid F en de overschrijdingskans van de gevonden F- waarde (Signif F). Met behulp van deze variantie-analysetabel kan de berekende R 2 op significantie worden getoetst. Verdere bijzonderheden over het toetsen van regressiemodellen zijn te vinden onder aandachtspunt 2. Door "Descriptives" aan te kruisen, worden van de geselecteerde variabelen (inclusief de afhankelijke variabele) de gemiddelden, de standaarddeviaties en de onderlinge correlaties berekend en gepresenteerd. Plots Enkele mogelijkheden van "Plots" worden beschreven bij de achterliggende theorie. "Plots" wordt met name gebruikt om de assumpties van lineariteit, normaliteit en homoscedasticiteit van het regressiemodel te controleren. Save Tijdens de uitvoering van een multipele regressie-analyse worden enkele "nieuwe" variabelen berekend, die normaliter niet in de datamatrix worden opgeslagen. Het gaat bijvoorbeeld om de voorspelde scores (Unstandardized Predicted Values), de voorspelde scores in standaardvorm (Standardized Predicted Values = voorspelde scores als z-scores), de residuen (Unstandardized Residuals) en de residuen in de vorm van z-scores (Standardized Residuals). Door de betreffende hokjes aan te kruisen, worden de bijbehorende variabelen wel in de datamatrix opgenomen, zodat ze voor later gebruik beschikbaar blijven (mits de datamatrix ook wordt bewaard!). SPSS zorgt zelf voor de naamgeving van deze variabelen. In de uitvoer worden de naam en inhoud van deze variabelen gepresenteerd. De achterliggende theorie Het regressiemodel Het regressiemodel voor de populatie in termen van de variabelen kan als volgt worden geschreven: Y = + 1X 1 + 2X mx m +

3 Op het niveau van de individuele onderzoekseenheden kan dit model als volgt worden geschreven: Y i = + 1X 1i + 2X 2i mx mi + i De parameters, 1, 2,... zijn de regressiecoëfficiënten in de populatie. Voor iedere onderzoekseenheid zijn het dezelfde waarden. De variabelen X zijn de onafhankelijke variabelen. In totaal zijn er m onafhankelijke variabelen. Y is de afhankelijke variabele. De (hypothetische) variabele (met de bijbehorende scores i) is de zgn. toevalsfactor of errorterm. De score op de afhankelijke variabele wordt voor iedere onderzoekseenheid op dezelfde wijze bepaald door de scores op de onafhankelijke variabelen, plus of min een bepaalde waarde ( i ) die specifiek is voor iedere onderzoekseenheid. De bovenstaande regressievergelijking wordt in het algemeen door middel van een (aselecte en representatieve) steekproef geschat: Y = a + b 1 X 1 + b 2 X b m X m + e Y i = a + b 1 X 1i + b 2 X 2i b m X mi + e i (niveau van de variabelen) (niveau van de onderzoekseenheden) Vaak schrijft men: Y' = a + b 1 X 1 + b 2 X b m X m Y' i = a + b 1 X 1i + b 2 X 2i b m X mi (niveau van de variabelen) (niveau van de onderzoekseenheden) waarbij Y' i de voorspelde score voorstelt. De modellen kunnen ook nog geschreven worden in termen van gestandaardiseerde variabelen: Z y = 1 Z Z m Z m + (populatie) Z y = B 1 Z 1 + B 2 Z B m Z m + (steekproef) De waarden van en B zijn de gestandaardiseerde regressiecoëfficiënten voor resp. de populatie en de steekproef. Met behulp van de gestandaardiseerde regressiecoëfficiënten kan worden bepaald welke onafhankelijke variabele het meeste gewicht in de schaal legt bij de voorspelling van de afhankelijke variabele. Voorwaarden om een regressie-analyse uit te voeren Om op een correcte wijze te kunnen generaliseren van steekproef naar populatie, dient aan een aantal assumpties voldaan te zijn. De gangbare statistische toetsing in de regressie-analyse kan gevoelig zijn voor schending van een of meer van de hieronder vermelde assumpties. Regressie-analyses uitvoeren zonder dat men zich om de voorwaarden bekommert, kan gemakkelijk aanleiding geven tot moeilijk interpreteerbare resultaten. Het is daarom verstandig de residuen zorgvuldig te analyseren om eventuele schendingen van de assumpties op te sporen. We bespreken hieronder de assumpties en manieren om die te onderzoeken.

4 Assumptie 1: Lineariteit van de regressievergelijking De regressievergelijking in de populatie is in werkelijkheid lineair (zie boven). Controle op lineariteit en homoscedasticiteit Maak m.b.v. <Plots> een plot van de gestandaardiseerde residuen (*ZRESID) op de Y-as tegen de gestandaardiseerde voorspelde waarden (*ZPRED) op de X-as. Als aan de assumpties van lineariteit en homoscedasticiteit is voldaan, zullen de punten in deze plot volstrekt willekeurig verdeeld zijn. De aanwezigheid van een bepaald patroon is een aanwijzing voor niet-lineaire regressie, voor heteroscedasticiteit of voor beide. NB: Door het opnemen van kwadratische termen (en eventueel termen met een nog hogere macht) kunnen sommige vormen van niet-lineaire regressie worden geanalyseerd. Met behulp van COMPUTE opdrachten worden "nieuwe" variabelen X 2, X 3, enz. gemaakt, die vervolgens als onafhankelijke variabelen in de regressie-analyse worden opgenomen. Door geschikte transformaties is het soms mogelijk om verschillende vormen van nietlineariteit te "lineariseren". Bekend zijn logaritmische, reciproke en vierkantsworteltransformaties. Assumptie 2: Normaliteit, gemiddelde en variantie van de errortermen Voor elke subgroep van onderzoekseenheden, gekenmerkt door een specifieke combinatie van scores op de onafhankelijke variabelen X, is de verdeling van de -scores een normale verdeling met gemiddelde 0 en constante variantie (homoscedasticiteit). Het gemiddelde van de residuen in de steekproef (e) is altijd exact gelijk aan 0 als gevolg van de schattingsprocedure. Controle op normaliteit Met behulp van <Plots> kan een histogram verkregen worden van de gestandaardiseerde residuen door het betreffende hokje aan te kruisen. In het histogram is de theoretische normale verdeling ingetekend. Sterke afwijkingen van de geobserveerde frequencies (kolommen) en de theoretische normale verdeling zijn een aanwijzing voor non-normaliteit van de errortermen, misspecificatie van het model (b.v. er zijn relevante onafhankelijke variabelen vergeten) of heteroscedasticiteit. Assumptie 3: Onafhankelijkheid van de errortermen De waarden die aanneemt voor de diverse onderzoekseenheden zijn onafhankelijk van elkaar. Een voorbeeld van duidelijk afhankelijke errortermen (dan is dus aan de voorwaarde van onafhankelijkheid niet voldaan) wordt gevormd door zgn. repeated measurements (herhaalde metingen bij dezelfde onderzoekseenheden). Dit is bijvoorbeeld bij tijdreeksen het geval. Assumptie 4: Onafhankelijkheid van error en onafhankelijke variabelen De (hypothetische) toevalsfactor ( ) dient ongecorreleerd te zijn met de onafhankelijke variabelen X. Of aan deze voorwaarde is voldaan, is in de praktijk moeilijk te beoordelen. De steekproefcorrelatie tussen de onafhankelijke variabelen en de residuen is exact gelijk aan 0, als gevolg van de schattingsprocedure. Deze correlatiecoëfficiënten zeggen niets over de populatiewaarden ervan.

5 Localiseren van extreme waarden Hoewel dit niets te maken heeft met de schending van de assumpties, kan voor de interpretatie van een regressie-analyse het opsporen van extreem grote residuen van belang zijn. Het gaat daarbij immers om slecht voorspelbare scores op de afhankelijke variabele. Na het commando <Plots> kan het keuzehokje "Casewise plot" aangekruist worden. Kies daarna voor "Outliers outside 3 std. deviations". In een tabel worden de cases vermeld waarvan het gestandaardiseerde residu groter is dan 3 of kleiner dan -3. Zoals bekend zijn z-scores (onder de assumptie van een normale verdeling) met een absolute waarde van 3 of meer uiterst zeldzaam. Deze kun je beter uit je analyse laten door de waarde te definiëren als een missing value of weg te halen. Toetsen regressieparameters en regressiemodellen Met behulp van de t-toetsen in de uitvoer van SPSS kan worden nagegaan of de betreffende onafhankelijke variabele een significante extra bijdrage levert aan de verklaring van Y boven op de bijdrage van alle overige onafhankelijke variabelen samen. Het komt echter regelmatig voor dat er bij die overige onafhankelijke variabelen, variabelen voorkomen die zelf geen significante bijdrage leveren aan de verklaring van Y. In een dergelijke situatie heeft een individuele t-toets weinig waarde. De t-waarden en de bijbehorende overschrijdingskansen zijn niet geschikt om de onafhankelijke variabelen te selecteren die een significante bijdrage leveren aan de verklaring van de afhankelijke variabele. Een belangrijke toets in de regressie-analyse is de zgn. modeltoets (F-toets voor proportie verklaarde variantie). Hiermee wordt getoetst of het gehele regressiemodel een significante proportie variantie verklaart. De toets kent de volgende nulhypothese: H 0 : R 2 =0 met H 1 : R 2 >0. In de uitvoer van SPSS worden de resultaten van deze F-toets in de tabel ANOVA weergegeven. Een andere belangrijke toets is de F-toets voor modelvergelijking (niet te verwarren met de vorige F-toets!). Met deze toets kan worden nagegaan of het toevoegen, resp. weglaten van onafhankelijke variabelen leidt tot een significante verbetering, resp. verslechtering van het regressiemodel. Stel, in regressie-analyse 1 (met N onderzoekseenheden) zijn p onafhankelijke variabelen opgenomen. Het kwadraat van de multipele correlatiecoëfficiënt wordt voorgesteld door R 2 1. In regressie-analyse 2 (met dezelfde N onderzoekseenheden) zijn dezelfde p onafhankelijke variabelen opgenomen en bovendien nog q andere (nog niet gebruikte) onafhankelijke variabelen. Het kwadraat van de multipele correlatiecoëfficiënt wordt nu voorgesteld door R 2 2. Uiteraard geldt dat R 2 2 R 2 1. In SPSS kan de F-toets voor modelvergelijking worden uitgevoerd door te werken met Blocks. Specificeer eerst het kleine regressiemodel. Door bij Block 1 of 1 op <Next> te klikken, wordt een nieuw Block gemaakt. Het is nu mogelijk om het grote model te specificeren. SPSS zal nu beide regressie-analyses (zowel voor het kleine als het grote regressiemodel) in 1x uitvoeren. Via <Statistics> <R squared change> worden de gegevens m.b.t. de F-toets voor modelvergelijking verkregen.

6 Dummy-variabelen Nominale (en dus ook ordinale) variabelen kunnen heel goed als onafhankelijke variabelen in een regressie-analyse worden opgenomen, mits zij getransformeerd zijn tot zgn. dummyvariabelen. Een nominale variabele met k elkaar uitsluitende categorieën wordt met behulp van COMPUTE en COMPUTE IF commando's omgezet in (k-1) dummy-variabelen. Elke categorie kan worden herkend aan het unieke patronen van nullen en enen op de k-1 dummy-variabelen. Een categorie heeft een patroon van allemaal nullen; deze categorie wordt de referentiecategorie genoemd. Je mag zelf bepalen welke categorie je kiest als referentiecategorie. Voorbeeld: kwalitatieve variabele met 3 categorieën (A,B,C) kun je met (3-1) dummies (D1 en D2 representeren. Categorie D 1 D 2 A 1 0 B 0 1 C 0 0 Hier: categorie C is de referentiecategorie. Stel dat de variabele VOOROPL bestaat uit drie categorieën, resp. L(ager), M(iddelbaar) en H(oger) met bijbehorende scores 1, 2 en 3. De variabele VOOROPL is kwalitatief en wordt dus niet zonder meer als onafhankelijke variabele in de regressie-analyse opgenomen. Eerst worden (met behulp van 2 COMPUTE en 2 COMPUTE IF commando's) de volgende datatransformaties uitgevoerd. We maken twee nieuwe variabelen: de variabele MO (middelbare opleiding) en de variabele HO (hogere opleiding). MO heeft de waarde 0 als VOOROPL=1 of 3 (d.w.z niet middelbaar) en de waarde 1 als VOOROPL=2 (d.w.z. middelbaar). HO heeft de waarde 0 als VOOROPL=1 of 2 (d.w.z. niet hoger) en de waarde 1 als VOOROPL=3 (d.w.z. hoger). Merk op dat er geen variabele LO nodig is! MO en HO zijn zgn. dummy-variabelen. Zij worden beide in de regressie-analyse opgenomen. Zij vertegenwoordigen resp. het extra effect van de middelbare en hogere vooropleiding. Nogmaals: VOOROPL wordt niet als onafhankelijke variabele opgenomen, MO en HO wel en er is geen dummy-variabele LO. Lager opgeleiden vormen de referentiecategorie, te herkennen aan hun scorepatroon met nullen op zowel MO als HO. Het opnemen van dummy-variabelen in de regressie-analyse op de hierboven omschreven manier heeft alleen zin als er geen sprake is van interacties. Anders geformuleerd: als afzonderlijke regressie-analyses (bijvoorbeeld uitgevoerd na het commando SPLIT FILE) voor de verschillende categorieën van de nominale onafhankelijke variabele (ongeveer) dezelfde regressie-coëfficiënten b (slope) opleveren, maar verschillende a's (intercepts), is het werken met dummy-variabelen gerechtvaardigd. Er is dan geen sprake van interactie. Als echter blijkt dat de b's in de afzonderlijke regressie-analyses voor de verschillende categorieën van de nominale onafhankelijke variabele duidelijk (significant) verschillend zijn, moeten niet alleen dummy-variabelen worden opgenomen, maar ook product-variabelen (=interactie tussen dummy en andere predictor). Door de toevoeging van product-variabelen wordt het model meestal aanzienlijk gecompliceerder; nu kunnen de regressie-coëfficienten verschillen voor de verschillende categorieën van de nominale variabele.

7 Selecteren predictoren Bij het selecteren van predictoren wordt vaak ten onrechte gedachte dat meer predictoren zullen leiden tot een betere voorspelling van de afhankelijke variabele. Dit is een onjuiste veronderstelling. Meestal zal na het opnemen van 5 à 6 predictoren de verklaarde variantie niet veel meer verbeteren. Verder is het van belang dat het aantal proefpersonen in een goede verhouding staat tot het aantal variabelen dat wordt meegenomen in de regressievergelijking. Stevens (1992) noemt als vuistregel dat in het algemeen minimaal 15 proefpersonen per predictor nodig zijn voor betrouwbare schattingen van de regressievergelijkingen. Let bij het selecteren van variabelen op de onderlinge samenhang tussen predictoren en de samenhang tussen individuele predictoren en de afhankelijke variabele. Het beste is om predictoren te selecteren die onderling laag correleren, maar die elk wel hoog correleren met de afhankelijke variabele. Deze predictoren zullen ieder een uniek stukje variantie in Y verklaren. Tevens wordt op deze manier multicollineariteit voorkomen; de situatie waarin de geschatte regressiecoëfficiënten onbetrouwbaar zijn (dit uit zich in gestandaardiseerde regressiecoëfficiënten groter dan 1 of kleiner dan 1). In geval van multicollineariteit kunnen variabelen die onderling hoog correleren beter worden samengevoegd. Ook kan er voor gekozen worden om slechts één van de twee hoog correlerende predictoren op te nemen in het regressiemodel. Tot slot is het mogelijk, wanneer er veel predictoren zijn, om eerst een datareductie toe te passen (principale componenten analyse) en de verkregen componenten op te nemen als predictoren in het regressiemodel. Inspectie van de correlatiematrix waarin alle correlaties tussen predictoren onderling en correlaties tussen de predictoren en de afhankelijke variabele zijn opgenomen geeft een indicatie of het verstandig is variabelen samen te voegen, niet in de analyse op te nemen of datareductie toe te passen. SPSS heeft verder onder de optie <Statistics> binnen <Linear Regression> de optie <Collinearity Diagnostics>. De zogenaamde Tolerance en VIF = Variance Inflation Factor, zijn daarbij indicatoren voor multicollineariteit. Meer informatie over deze diagnostics staat in de Help-functie van SPSS wanneer je zoekt naar de term collinearity.

10. Verantwoord prioriteiten stellen: een oplossing voor onbetrouwbare belangscores

10. Verantwoord prioriteiten stellen: een oplossing voor onbetrouwbare belangscores 10. Verantwoord prioriteiten stellen: een oplossing voor onbetrouwbare belangscores E. DE VRIES-VAN KETEL, C. TCHAOUSSOGLOU en R. VAN OSSENBRUGGEN SAMENVATTING Managers moeten hoofd- en bijzaken onderscheiden

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

Handboek Hydrobiologie

Handboek Hydrobiologie Handboek Hydrobiologie I 6: Data-analyse en -presentatie - 1 I Handboek Hydrobiologie Hoofdstuk 6 Data-analyse en -presentatie Het lijkt simpeler dan het is: waterkwaliteitsgegevens verzamelen en analyseren.

Nadere informatie

Statistiek in de Praktijk - samenvatting

Statistiek in de Praktijk - samenvatting Statistiek in de Praktijk - samenvatting Wim Muskee 11 maart 2005 Vrij naar het boek van Moore & McCabe Inhoudsopgave 1 kijken naar gegevens - verdelingen 4 1.1 weergeven van verdelingen met grafieken.......................

Nadere informatie

5 Niet-lineaire regressie

5 Niet-lineaire regressie 5 Niet-lineaire regressie Als laatste van de soorten regressie zullen we in dit hoofdstuk de niet-lineaire regressie bespreken. Dit zijn modellen waarin de modelparameters(meestal aangegeven met β i )

Nadere informatie

9. Multipele imputatie van ontbrekende scores

9. Multipele imputatie van ontbrekende scores 9. Multipele imputatie van ontbrekende scores M. Huisman Samenvatting Multipele imputatie is een techniek die al een aantal jaren bekend is, maar pas de laatste jaren voor een breder publiek van toegepaste

Nadere informatie

EEN STAPSGEWIJZE HANDLEIDING

EEN STAPSGEWIJZE HANDLEIDING F5 LISREL VOOR DUMMIES EEN STAPSGEWIJZE HANDLEIDING Versie 0.1 Harry B.G. Ganzeboom Vrije Universiteit Amsterdam 23 maart 2009 LISREL VOOR DUMMIES: STAPJE VOOR STAPJE Stap 1: Schrijf het conceptueel (causaal)

Nadere informatie

De interpretatie van interactieeffecten in regressiemodellen. Jan Pickery

De interpretatie van interactieeffecten in regressiemodellen. Jan Pickery De interpretatie van interactieeffecten in regressiemodellen Jan Pickery Samenstelling Diensten voor het Algemeen Regeringsbeleid Studiedienst van de Vlaamse Regering Jan Pickery Verantwoordelijke uitgever

Nadere informatie

ELEMENTAIRE INLEIDING SPSS-SYNTAX

ELEMENTAIRE INLEIDING SPSS-SYNTAX ELEMENTAIRE INLEIDING SPSS-SYNTAX Ten behoeve van studenten Sociale Wetenschappen Vrije Universiteit Harry B.G. Ganzeboom Versie 5, 30 december 2014 Inhoud Verkeerde en goede gewoonten Waarom SPSS syntax

Nadere informatie

HANDLEIDING DATA-ANALYSE

HANDLEIDING DATA-ANALYSE HANDLEIDING DATA-ANALYSE bij het gebruik van randomized response Capaciteitsgroep Methodenleer & Statistiek Faculteit der Sociale Wetenschappen Universiteit Utrecht September 2003 ii Voorwoord Het Expertisecentrum

Nadere informatie

1. Inleiding... 3. 6. Constructie van nieuwe variabelen... 9 6.1. Bereken nieuwe variabelen: Compute... 9 6.2. Maak nieuwe categorieën: recode...

1. Inleiding... 3. 6. Constructie van nieuwe variabelen... 9 6.1. Bereken nieuwe variabelen: Compute... 9 6.2. Maak nieuwe categorieën: recode... SPSS handleiding Geschreven door: Saskia le Cessie Klinische Epidemiologie/Medische Statistiek LUMC November 2012 1. Inleiding... 3 2. Invoeren gegevens... 3 2.1. Definitie van de variabelen... 4 2.2.

Nadere informatie

Basisboek Statistiek met Excel

Basisboek Statistiek met Excel Basisboek Statistiek met Excel Handleiding voor het verwerken en analyseren van en rapporteren over (onderzoeks)gegevens Ben Baarda René van Vianen Eerste druk Noordhoff Uitgevers Groningen/Houten Ontwerp

Nadere informatie

Levende Statistiek. Een module voor Wiskunde D VWO. Jacob van Eeghen en Liesbeth de Wreede

Levende Statistiek. Een module voor Wiskunde D VWO. Jacob van Eeghen en Liesbeth de Wreede Levende Statistiek Een module voor Wiskunde D VWO Jacob van Eeghen en Liesbeth de Wreede Jacob van Eeghen en Liesbeth de Wreede, Leiden 2010 ctwo, Utrecht 2010 Dit lesmateriaal kan gebruikt worden voor

Nadere informatie

Wegen als correctie ctie voor non-respons0o

Wegen als correctie ctie voor non-respons0o 07 Wegen als correctie ctie voor non-respons0o s Jelke Bethlehem Statistische Methoden (08005) Voorburg/Heerlen, 2008 Verklaring van tekens. = gegevens ontbreken * = voorlopig cijfer x = geheim = nihil

Nadere informatie

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen ALGEMENE STATISTIEK A.W. van der Vaart en anderen VOORWOORD Dit collegedictaat omvat de stof van het college Algemene Statistiek, zowel de versie voor Econometrie en Wiskunde studenten, als de versie voor

Nadere informatie

Hoe persoonlijk zijn werkwaarden?

Hoe persoonlijk zijn werkwaarden? Departement Toegepaste psychologie Hoe persoonlijk zijn werkwaarden? Een exploratief onderzoek. Daniëlle Bruyninckx Bachelorproef voorgedragen tot het bekomen van het diploma van Bachelor in de toegepaste

Nadere informatie

Open en gesloten vragen naar beroep toegepast in statusverwervingsonderzoek

Open en gesloten vragen naar beroep toegepast in statusverwervingsonderzoek Hoe meet ik beroep? Open en gesloten vragen naar beroep toegepast in statusverwervingsonderzoek Jannes de Vries en Harry B.G. Ganzeboom[1] How to measure occupation? Open and closed question formats on

Nadere informatie

leerling met Downsyndroom,

leerling met Downsyndroom, Uit recent eigen onderzoek naar een representatieve steekproef van enkele honderden kinderen met Downsyndroom mag worden geconcludeerd dat reguliere schoolplaatsing direct bijdraagt aan een betere ontwikkeling

Nadere informatie

DATA-ANALYSE I OEFENINGEN ACADEMIEJAAR 2000 2001. Feedback Praktische Proef

DATA-ANALYSE I OEFENINGEN ACADEMIEJAAR 2000 2001. Feedback Praktische Proef DATA-ANALYSE I OEFENINGEN ACADEMIEJAAR 2000 2001 Feedback Praktische Proef 1 Vooraf Het is onbegonnen werk om voor elke versie van de praktische proef een volledig uitgeschreven rapport te presenteren.

Nadere informatie

statistiek voor de psychologie deel 2: toetsen voor twee gemiddelden en toetsingstheorie

statistiek voor de psychologie deel 2: toetsen voor twee gemiddelden en toetsingstheorie statistiek voor de psychologie deel 2: toetsen voor twee gemiddelden en toetsingstheorie Statistiek voor de psychologie Deel 2: Toetsen voor twee gemiddelden en toetsingstheorie Jules L. Ellis Derde druk

Nadere informatie

http://www.arietwigt.wordpress.com/ Spreadsheets analyseren met Open Source Software: R en OpenOffice.org Calc

http://www.arietwigt.wordpress.com/ Spreadsheets analyseren met Open Source Software: R en OpenOffice.org Calc Spreadsheets analyseren met Open Source Software: R en OpenOffice.org Calc 1 Door: Arie Twigt 2 Inleiding In deze handleiding wordt u geleerd hoe u spreadsheets en andere data kunt analyseren met open

Nadere informatie

Opinion Leadership binnen de online community

Opinion Leadership binnen de online community MGO 3 Bachelor Eindproject Opinion Leadership binnen de online community Juli 2006 Wouter Dr inkwaar d Edwin Hubers Wouter Jansen Inhoudsopgave Inhoudsopgave tabellen en figuren... 3 Inleiding... 4 Opinion

Nadere informatie

Basishandleiding SPSS

Basishandleiding SPSS Basishandleiding SPSS Elvira Folmer & Marieke ten Voorde SLO, Juli 2008 Deze handleiding is gebaseerd op SPSS 16.0 for Windows Inhoud 1 Het maken van een gegevensbestand in de Variable View... 4 2 Het

Nadere informatie

SPSS. Statistiek : SPSS

SPSS. Statistiek : SPSS SPSS - hoofdstuk 1 : 1.4. fase 4 : verrichten van metingen en / of verzamelen van gegevens Gegevens gevonden bij een onderzoek worden systematisch weergegeven in een datamatrix bij SPSS De datamatrix Gebruik

Nadere informatie

Basisboek Statistiek met SPSS

Basisboek Statistiek met SPSS Basisboek Statistiek met SPSS Ben Baarda Martijn de Goede Cor van Dijkum Vierde geheel herziene druk Noordhoff Uitgevers Groningen/Houten Ontwerp omslag: Studio Frank en Lisa, Groningen Omslagillustratie:

Nadere informatie

2 Een geneste structuur

2 Een geneste structuur 2 Een geneste structuur 2.1 Inleiding Om verschillen in prestaties van leerlingen te verklaren zijn kenmerken op verschillende niveaus nodig. Deze verschillende niveaus worden in dit onderzoek in een geneste

Nadere informatie

Statistisch Analyse Plan: deelstudie pasgeborenen

Statistisch Analyse Plan: deelstudie pasgeborenen Vlaams Humaan Biomonitoringsprogramma Milieu & Gezondheid (2002-2006) Monitoring voor actie Statistisch Analyse Plan: deelstudie pasgeborenen Het Vlaams Humaan Biomonitoringsprogramma wordt uitgevoerd

Nadere informatie

[PROFESSIONEEL HANDELEN & ONDERZOEK]

[PROFESSIONEEL HANDELEN & ONDERZOEK] 2012-2013 Hogeschool Arnhem en Nijmegen Robert-jan Greup [PROFESSIONEEL HANDELEN & ONDERZOEK] Samenvatting van onderzoeksmethode voor sportstudies. Inhoud Wat is onderzoek?... 2 De definitie van onderzoek...

Nadere informatie

Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens

Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens Hieronder wordt uitgelegd hoe alle analyses besproken in paragraaf 6.5 van

Nadere informatie

Gezondheid en tevredenheid in energiedichte woningen

Gezondheid en tevredenheid in energiedichte woningen Nederlandse Organisatie voor toegepast-natuurwetenschappelijk onderzoek / Netherlands Organisation for Applied Scientific Research TNO-rapport 2002.042 Gezondheid en tevredenheid in energiedichte woningen

Nadere informatie