Selectiebias en zelfselectie in sociaal-wetenschappelijk onderzoek

Maat: px
Weergave met pagina beginnen:

Download "Selectiebias en zelfselectie in sociaal-wetenschappelijk onderzoek"

Transcriptie

1 Selectiebias en zelfselectie in sociaal-wetenschappelijk onderzoek Jeroen Smits Universiteit van Amsterdam Werkdocument, september 1999 Scholar Project Economische Faculteit Universiteit van Amsterdam Roetersstraat WB Amsterdam Nederland Homepage:

2 1 Selectiebias en zelfselectie in sociaal-wetenschappelijk onderzoek 1. Inleiding Sociaal-wetenschappelijke onderzoekers worden regelmatig geconfronteerd met het probleem van selectiebias of zelfselectie in hun gegevens. Dit probleem, dat in de Engelstalige literatuur onder namen als selection bias, sample selection bias, self-selection, en self-selectivity bekend staat, kan optreden als de verdeling van respondenten over de groepen waar een onderzoek zich op richt niet random plaats heeft gevonden. Onderzoekers die geïnteresseerd zijn in de verschillen tussen die groepen weten dan niet of het om echte verschillen tussen de groepen gaat, of om verschillen die veroorzaakt worden door het toewijzingsproces. Bovendien kunnen analyses die op slechts één van de groepen betrekking hebben sterk vertekende resultaten opleveren. In de sociaal-wetenschappelijke onderzoeksliteratuur wordt slechts weinig aandacht aan dit probleem besteed. Als het aan bod komt, dan is het meestal bij de bespreking van de (gevolgen van) selectieve nonrespons bij steekproeftrekking. De meeste onderzoekers weten daardoor wel dat de weigering van (potentiële) respondenten om aan een enquête mee te doen, of om op bepaalde vragen antwoord te geven, de resultaten van een onderzoek kan vertekenen. Dat selectiebias een veel breder voorkomend probleem is, dat ook kan optreden als er representatieve gegevens van deelpopulaties of zelfs van de complete populatie gebruikt worden, is echter minder bekend. Een veel voorkomend misverstand is bijvoorbeeld dat het ontbreken (of niet gebruiken) van gegevens voor een deel van de populatie geen problemen oplevert als de uitspraken die op basis van het onderzoek gedaan worden beperkt blijven tot het deel van de populatie waarvoor wel representatieve gegevens beschikbaar zijn. Deze opvatting is echter onjuist.

3 2 Ook als gewerkt wordt met een representatieve steekproef van een deelpopulatie kan er sprake zijn van selectieve over- of ondervertegenwoordiging van bepaalde groepen, waardoor de onderzoeksresultaten die betrekking hebben op die deelpopulatie vertekend worden. Zo zullen in een random steekproef van werklozen de kansrijke werklozen ondervertegenwoordigd zijn omdat zij sneller een baan vinden. Ook zal er bij een random steekproef van gehuwde personen sprake zijn van een oververtegenwoordiging van de stabiele relaties omdat de minder stabiele relaties vaker in scheiding eindigen. In dit artikel wordt een eenvoudige beschrijving van het selectiebias probleem gegeven en wordt een methode aangereikt waarmee in een aantal gevallen dit probleem kan worden aangepakt. In de volgende paragrafen wordt nader uitgelegd wat selectiebias inhoudt. In paragraaf 2 en 3 gebeurt dat in eenvoudige bewoordingen en in paragraaf 4 op meer formele wijze. Daarbij wordt een onderscheid gemaakt tussen twee verschillende vormen van selectiebias. Dit onderscheid is gebaseerd op de mate waarin er gegevens beschikbaar zijn over de afhankelijke variabele waar het onderzoek zich op richt. Bij de vorm van selectiebias die het eerst wordt besproken, is deze afhankelijke variabele slechts voor een deel van de respondenten bekend. Daarom zal ik voor deze vorm de term partiële informatie bias gebruiken. Bij de andere vorm van selectiebias is de afhankelijke variabele voor alle respondenten bekend. Deze vorm zal ik complete informatie bias noemen. Bij beide vormen wordt aangenomen dat de onafhankelijke variabelen - behoudens incidentele missing values - voor alle respondenten bekend zijn. Op de zogenaamde truncated samples, waarbij voor een deel van de potentiële respondenten in het geheel geen gegevens bekend zijn, wordt in dit artikel niet ingegaan. Een verdere beperking is dat alleen aandacht wordt besteed aan de gevolgen van selectiebias bij de toepassing van multivariate analysetechnieken als lineaire regressieanalyse, logit- en probitanalyse. Na de bespreking van de twee vormen van selectiebias wordt in paragraaf 4 ingegaan op een veelgebruikte oplossing van het selectiebias probleem: de Heckman twee-staps procedure. In paragraaf 5 wordt de toepassing van deze methode gedemonstreerd aan de hand van twee voorbeelden. Daarbij wordt zowel gebruik gemaakt van een gespecialiseerd econometrisch programma (LIMDEP) als van een SPSS procedure die eenvoudig zelf te schrijven is.

4 3 2. Partiële informatie bias Zoals hierboven werd vermeld, kunnen er twee vormen van selectiebias worden onderscheiden. Bij beide vormen is er sprake van een selectieproces waarbij gekozen wordt tussen twee (of meer) alternatieven. Bij de vorm van selectiebias die in deze paragraaf wordt besproken, de partiële informatie bias, is slechts voor één van die alternatieven volledige informatie over de afhankelijke variabele beschikbaar. Het (zelf)selectie mechanisme waar het hier om gaat is het proces dat er voor zorgt dat de afhankelijke variabele wel of niet waargenomen wordt. De centrale vraag bij deze vorm van selectiebias is of en in hoeverre de personen waarvoor de afhankelijke variabele wel is waargenomen verschillen van de personen waarbij dat niet het geval is. Als de respondenten waarvoor de afhankelijke variabele bekend is qua relevante kenmerken verschillen van de respondenten waarvoor deze variabele niet bekend is, dan kunnen analyses die zich beperken tot de respondenten waarvoor de afhankelijke variabele bekend is tot vertekende resultaten leiden. Een veel gebruikt voorbeeld van partiële informatie bias betreft het onderzoek naar de inkomens van werkende vrouwen (zie bijvoorbeeld Heckman, 1980). Omdat lang niet alle vrouwen betaalde arbeid verrichten, heeft een dergelijk onderzoek noodgedwongen slechts betrekking op een deel van de vrouwen. Dit is problematisch omdat er tussen werkende en niet-werkende vrouwen verschillen kunnen bestaan die met hun verdienvermogen kunnen samenhangen. Zo is het mogelijk dat vooral vrouwen die een hoog inkomen kunnen verwerven er voor kiezen om betaalde arbeid te verrichten. Een analyse die alleen betrekking heeft op deze werkende vrouwen kan dan tot foutieve conclusies komen over bijvoorbeeld het verband tussen opleiding en inkomen Figuur 1 ongeveer hier Om dit te verduidelijken wordt in figuur 1 voor een (fictieve) steekproef van vrouwen het verband tussen opleiding en inkomen weergegeven. In deze figuur geven de vierkantjes het inkomen van de werkende vrouwen met een bepaald opleidingsniveau weer. De rondjes doen hetzelfde voor potentiële inkomen van de niet-werkende vrouwen. Omdat verondersteld wordt dat vrouwen met een hoger verdienvermogen vaker betaalde arbeid verrichten, zijn in het bovenste deel van de figuur de vierkantjes oververtegenwoordigd en

5 4 in het onderste deel de rondjes. De gestippelde lijn geeft de regressierechte weer zoals die geweest zou zijn als het inkomen van alle vrouwen zou zijn waargenomen. De doorlopende lijn geeft de regressierechte weer zoals die wordt waargenomen bij de werkende vrouwen. Figuur 1 laat zien dat de regressielijn zoals die wordt waargenomen bij de werkende vrouwen verschilt van de regressielijn voor alle vrouwen. Door het lagere potentiële inkomen van de niet-werkende vrouwen is het waargenomen verband tussen opleiding en inkomen zwakker dan het in werkelijkheid is. Een oververtegenwoordiging van vrouwen met een hoger verdienvermogen onder de werkenden leidt zodoende tot een onderschatting van het effect van opleiding op inkomen. Bij dit voorbeeld is het ontbreken van gegevens voor een deel van de populatie inherent aan het te onderzoeken probleem. Niet alle vrouwen hebben een baan en dus is er niet voor alle vrouwen een inkomen bekend. Het optreden van partiële informatie bias beperkt zich echter niet tot dit soort situaties. Het ontbreken van gegevens is binnen het sociaal wetenschappelijk onderzoek een wijd verbreid probleem waar de meeste kwantitatieve onderzoekers wel eens mee geconfronteerd worden. In de inleiding werd reeds het probleem van de nonrespons bij dataverzameling genoemd. Als deze nonrespons hoog is en de personen waarvoor geen gegevens bekend zijn voor wat betreft de afhankelijke variabele verschillen van degenen waarvoor dat wel het geval is, dan zullen analyses die op basis van het wel beschikbare materiaal verricht worden onder partiële informatie bias te lijden kunnen hebben. Andere voorbeelden van onderzoeksproblemen waarbij deze vorm van selectiebias een rol kan spelen zijn onderzoek naar stemgedrag (personen die niet gaan stemmen kunnen qua partijvoorkeur verschillen van degenen die dat wel doen), onderzoek naar gescheiden personen (die in allerlei opzichten van niet-gescheiden personen kunnen verschillen), onderzoek met een telepanel (ouderen of personen met een lage opleiding hebben misschien meer problemen met het gebruik van een computer), en onderzoek naar de effecten van risicofactoren als roken of slecht eten op de gezondheid (ongezonde personen sterven eerder en zijn dus ondervertegenwoordigd in de populatie).

6 5 3. Complete informatie bias Ook bij de tweede vorm van selectiebias - die door economen wel endogeniteitsbias genoemd wordt - is er sprake van een (zelf)selectieproces waarbij een keuze wordt gemaakt tussen twee (of meer) alternatieven. Bij deze vorm is er echter voor ieder van de alternatieven volledige informatie over de afhankelijke variabele beschikbaar. De vraag waar het in deze situatie om gaat is of en in hoeverre een verschil tussen personen die een bepaalde keuze wel maken en personen die dat niet doen een gevolg is van verschillen die al van te voren tussen de betreffende personen bestonden. Als we bijvoorbeeld willen nagaan of verhuizen over lange afstand van invloed is op het inkomen dat iemand verdient, dan is het niet voldoende om de inkomens van personen die verhuisd zijn te vergelijken met de inkomens van personen die niet verhuisd zijn. Het is namelijk goed mogelijk dat de personen die er voor kiezen om te verhuizen al voor de verhuizing in bepaalde opzichten verschillen van degenen die daar niet voor kiezen. Als het bij deze verschillen om kenmerken gaat die ook van invloed zijn op het inkomen, dan kunnen de resultaten van een inkomensvergelijking tussen beide groepen vertekend worden. Verschillen in inkomen tussen verhuizers en niet-verhuizers die al voor de verhuizing bestonden, kunnen dan ten onrechte als een gevolg van de verhuizing beschouwd worden. De kern van het probleem is dat twee verschillende processen - het er al of niet voor kiezen om te verhuizen en het verwerven van een inkomen - aan dezelfde invloeden blootgesteld zijn. Zo is het mogelijk dat persoonskenmerken als intelligentie of motivatie zowel van invloed zijn op de beslissing om te verhuizen als op het bereikte inkomen. Hierdoor kan er een verband tussen het al of niet verhuizen en het inkomen ontstaan, zelfs als verhuizen op zich geen invloed op het inkomen heeft. Bij de bepaling van het effect van verhuizen op het inkomen dient met deze samenhang rekening gehouden te worden. Als dit niet gebeurt dan kan ze ten onrechte aan de verhuisvariabele worden toegeschreven. Het geschatte verband tussen verhuizen en het inkomen valt dan hoger of lager uit dan het in werkelijkheid is. Het risico op complete informatie bias is hoog bij allerlei vormen van evaluatieonderzoek; als groepen met elkaar worden vergeleken waaraan de respondenten niet random zijn toegewezen. Personen kiezen zelf of ze in een bepaalde regio gaan wonen, of ze een bepaalde cursus gaan volgen, naar welk type school ze gaan, of ze lid worden van

7 6 een vakbond, of ze een huis kopen of huren, of ze trouwen of gaan samenwonen, enzovoort. In al deze gevallen is het mogelijk dat (ongemeten) factoren die mede bepalen welk van de alternatieven gekozen wordt, ook van invloed zijn op de afhankelijke variabele waar het bij het betreffende onderzoek om gaat. 4. Formele specificatie van het probleem In de voorgaande paragrafen werd aangegeven dat selectiebias problemen kan opleveren bij analyses die betrekking hebben op deelpopulaties (partiële informatie bias) en bij het bepalen van verschillen tussen groepen (complete informatie bias). Gangbare analysetechnieken als ordinary least squares (OLS) regressieanalyse en logit- en probitanalyse leveren bij het optreden van selectiebias vertekende resultaten op. In deze paragraaf zal ik dat demonstreren aan de hand van het OLS-regressiemodel. Aangezien deze demonstratie het makkelijkst te volgen is bij de variant waarbij gegevens voor alle respondenten beschikbaar zijn (complete informatie bias), zal ik daarmee beginnen. 4.1 Complete informatie bias Als voorbeeld neem ik weer het effect van verhuizen op het inkomen. Dit probleem kan worden weergegeven met de volgende regressievergelijking: (1) In deze vergelijking staat voor het voorspelde inkomen van respondent i, voor een vector met de bekende kenmerken van de respondent, en voor een vector met de regressiecoëfficiënten die bij deze kenmerken horen. Verder is een dummy variabele die aangeeft of de respondent wel (1) of niet (0) recentelijk verhuisd is en staat voor de bij deze dummy behorende regressiecoëfficiënt. Tenslotte is een storingsterm die aangeeft in hoeverre het door het model voorspelde inkomen van het werkelijke inkomen van de respondent afwijkt. De vertegenwoordigen alle effecten op het inkomen die niet door de bekende kenmerken gevangen worden. Bij OLS-regressieanalyse wordt in het algemeen van de aangenomen dat ze een verwachte waarde van nul hebben, dat ze niet met elkaar gecorreleerd zijn en dat ze een voor iedere respondent gelijke variantie hebben.

8 7 Verder wordt aangenomen dat de met geen van de onafhankelijke variabelen gecorreleerd zijn. Vergelijking 1 is een normaal OLS regressiemodel. Het probleem zit hem echter in het feit dat de verdeling van de respondenten over de twee categorieën van niet random heeft plaatsgevonden maar tot stand is gekomen via zelfselectie. Ongemeten kenmerken van de respondent die van invloed zijn op de verhuisbeslissing kunnen ook van invloed zijn op het inkomen. Als dat zo is, dan komen ze in vergelijking 1 in de storingsterm terecht. Het gaat immers om ongemeten kenmerken, die niet als regressor opgenomen kunnen worden. Omdat deze kenmerken ook van invloed zijn op de verhuisbeslissing, leidt dit tot een correlatie tussen de storingsterm en de verhuisdummy. Het gemiddelde van de binnen de twee categorieën van is dan niet meer gelijk aan nul. Zo zal bij een positief effect van de ongemeten kenmerken op zowel de verhuisbeslissing als het inkomen het gemiddelde van de bij de verhuizers groter dan nul zijn en bij de niet-verhuizers kleiner dan nul. Zou de migratiedummy niet in vergelijking 1 aanwezig zijn, dan zouden deze afwijkingen van de tegen elkaar wegmiddelen en zou het gemiddelde van de wel nul zijn. Deze dummy is echter wel aanwezig en bij dit onderzoek is ze zelfs de variabele waar het om gaat. Vanwege het verband tussen de en zal OLS-regressieanalyse tot onjuiste schattingen leiden van de coëfficiënt weergeeft. die het effect van verhuizen op het inkomen 4.2 Partiële informatie bias Bij de versie van het selectiebias probleem waarbij de afhankelijke variabele slechts voor een deel van de respondenten bekend is (de partiële informatie bias), ziet het model er als volgt uit: (2) De betekenis van de termen in deze vergelijking is hetzelfde als bij vergelijking 1. Ook dit model is op zich een gewoon OLS regressiemodel. Het selectiebias probleem zit hem hier in het gegeven dat de afhankelijke variabele slechts voor een deel van de respondenten bekend is. Bij het voorbeeldprobleem gaat het er om, dat het inkomen van vrouwen alleen bekend is voor degenen onder hen met een betaalde baan. Stel nu dat vooral de vrouwen die een hoog inkomen kunnen verwerven ervoor kiezen om betaalde arbeid te

9 8 verrichten. Dan zullen de vrouwen met een laag opleidingsniveau en dus met een laag verdienvermogen onder de werkenden ondervertegenwoordigd zijn. De vrouwen met een laag opleidingsniveau die wel een baan hebben zullen dan waarschijnlijk vooral degenen zijn die vanwege andere kenmerken een relatief hoog verdienvermogen hebben, dus bijvoorbeeld de meer initiatiefrijken en ambitieuzen onder hen. Als dit zo is, dan zullen onder de werkende vrouwen degenen met een laag opleidingsniveau in doorsnee initiatiefrijker en ambitieuzer zijn dan degenen met een hoog opleidingsniveau. Er bestaat dan onder de werkenden een verband tussen opleidingsniveau en de mate van initiatief en ambitie. Als nu initiatief en ambitie ongemeten kenmerken zijn, die dus in de storingsterm terecht komen, dan heeft dit tot gevolg dat er een verband tussen opleidingsniveau en de storingsterm ontstaat. Hierdoor wordt de OLS assumptie dat verklarende variabelen niet met de storingsterm gecorreleerd mogen zijn geschonden en levert toepassing van OLS regressieanalyse onjuiste schattingen van de regressiecoëfficiënt van het opleidingsniveau op. 4.3 Overeenkomsten Uit het voorgaande volgt dat er bij beide vormen van selectiebias sprake is van een verband tussen de storingsterm van de regressievergelijking en één of meerdere van de onafhankelijke variabelen. Bij complete informatie bias gaat het om de dummy variabele die aangeeft tot welke van de twee groepen de respondent behoort en bij partiële informatie bias gaat het om de verklarende variabele(n) die binnen de geselecteerde groep samenhangen met ongemeten kenmerken die van invloed op de afhankelijke variabele zijn. Uit het voorgaande blijkt verder dat beide versies van het probleem sterk op elkaar lijken. In beide gevallen is er sprake van twee groepen die van elkaar verschillen in ongemeten kenmerken die op de afhankelijke variabelen van invloed zijn. Bij het verhuisprobleem zijn deze groepen de verhuizers en de niet-verhuizers. Bij het participatieprobleem betreft het de werkende en de niet-werkende vrouwen. Als bij het voorbeeld van het verhuizen de inkomensanalyse alleen zou worden uitgevoerd op het deel van de respondenten dat verhuisd is, dan zou dit vraagstuk hierdoor in de andere versie van het selectiebias probleem zijn omgezet.

10 9 5. Heckman s twee-stap procedure Het gemeenschappelijke in beide versies van het selectiebias probleem - het feit dat er in beide gevallen sprake is van een storingsterm waarvan het gemiddelde binnen de groepen van nul afwijkt - geeft tevens een mogelijkheid aan om dit probleem op te lossen. Dit kan namelijk gebeuren, door aan de regressievergelijking een correctiefactor toe te voegen, die voor iedere respondent een zodanige waarde heeft, dat het conditionele gemiddelde van storingsterm terug naar nul wordt gebracht. Deze oplossing is onder meer door Heckman (1976, 1979) voorgesteld. Heckman laat zien dat er bij het optreden van selectiebias in feite een verklarende variabele aan het regressiemodel ontbreekt en dat dit probleem dus kan worden opgelost door die ontbrekende variabele aan het regressiemodel toe te voegen. Heckman s aanpak, die bekend staat als de Heckman twee-staps procedure, zal in dit paper nader worden uitgewerkt. Sinds haar introductie aan het einde van de zeventiger jaren is ze veelvuldig gebruikt in het sociaal-wetenschappelijk onderzoek. Het is bovendien een oplossing die in de praktijk vrij makkelijk is toe te passen. Zoals haar naam al zegt, bestaat ze uit twee onafhankelijke stappen. In de eerste stap wordt op basis van een analyse van het selectieproces voor iedere respondent een correctiefactor berekend, die als een extra variabele aan het databestand wordt toegevoegd. Bij de tweede stap, waarin de analyse wordt uitgevoerd waar het eigenlijk om gaat, wordt deze correctiefactor als een extra verklarende variabele meegenomen. Als er sprake is van selectiebias dan levert OLS regressieanalyse na toevoeging van deze correctiefactor (en als aan een aantal voorwaarden is voldaan) betere parameterschattingen op dan zonder deze factor. 5.1 De correctiefactor Om de waarde van de correctiefactor te bepalen dient het (zelf)selectiemechanisme dat de selectiebias veroorzaakt bij de analyse te worden betrokken. Dit selectiemechanisme kan worden weergegeven met de volgende vergelijking: (3) Dit model gaat uit van de veronderstelling dat er sprake is van een continue onderliggende variabele die aangeeft in hoeverre een respondent geneigd is om te verhuizen of (bij de vrouwen) te participeren in betaalde arbeid. Deze variabele wordt echter niet

11 10 waargenomen. We zien alleen dat sommige respondenten verhuisd zijn c.q. participeren en andere niet. In het eerste geval heeft de waarde 1' en in het tweede geval de waarde 0'. In vergelijking 3 staat voor een vector met verklarende variabelen die geacht worden van invloed te zijn op de verhuis/participatiebeslissing en voor de vector met de bijbehorende regressiecoëfficiënten. Verder is een storingsterm die aangeeft in hoeverre de voorspelde waarde van van de werkelijke waarde afwijkt. Omdat vergelijking 3 het mechanisme weergeeft dat bepaalt of een respondent al of niet verhuist/participeert wordt ze de selectievergelijking genoemd. De vergelijkingen 1 en 2, waar het bij de analyses eigenlijk om gaat, worden substantiële vergelijking genoemd. Het feit dat er bij selectiebias sprake is van ongemeten variabelen die zowel het inkomen als de verhuis/participatiebeslissing beïnvloeden, maakt dat bij het optreden van selectiebias de storingstermen en van de selectie- en de substantiële vergelijking gecorreleerd zijn. De sterkte van deze correlatie geeft aan hoe ernstig de selectiebias is. Is de correlatie gelijk aan nul, dan is er geen sprake van selectiebias. Wijkt ze substantieel van nul af, dan is er wel sprake van selectiebias en bestaan er verschillen tussen verhuizers en niet-verhuizers of tussen participerende en niet-participerende vrouwen in kenmerken die met het inkomen samenhangen. Bij het creëren van de correctiefactor speelt de storingsterm van de selectievergelijking een centrale rol. Deze storingsterm geeft voor iedere respondent aan wat het verschil is tussen de op basis van het selectiemodel voorspelde kans om te verhuizen/participeren en het waargenomen verhuis/participatiegedrag. Ze bevat het effect van alle factoren die op het verhuis/participatiegedrag van invloed zijn maar die niet in model 3 zijn opgenomen. Bij respondenten waarvan het gedrag sterk door deze ongemeten factoren beïnvloed wordt, kan een grote afwijking tussen gedrag en voorspelling - en dus een grote waarde van de - verwacht worden. Respondenten die weinig door de ongemeten factoren beïnvloed worden, zullen daarentegen kleine vertonen. Vanwege deze eigenschap kan op basis van de een variabele geconstrueerd worden die de effecten van de ongemeten factoren weergeeft, ontdaan van de invloeden van de in het selectiemodel opgenomen factoren. Als deze variabele in de substantiële vergelijking wordt opgenomen - en als de storingstermen van de selectie- en substantiële vergelijking bivariaat normaal verdeeld zijn - dan zal de bijbehorende regressiecoëfficiënt het effect van de ongemeten variabelen op het inkomen weergeven. Het deel van de variatie in de ongemeten factoren dat niet met het inkomen

12 11 samenhangt, komt in de storingsterm van de substantiële vergelijking terecht. In de praktijk komt het bepalen van de correctiefactor er bij de in dit paper gebruikte voorbeelden op neer dat in eerste instantie voor iedere respondent de kans op verhuizen c.q. participeren geschat wordt. Dit komt overeen met de kans dat in vergelijking 3. Om deze kans te bepalen wordt meestal een probitanalyse (Aldrich & Nelson, 1984) uitgevoerd. Deze techniek heeft het voordeel dat ze voldoet aan de eis van normaliteit van de storingsterm. De kans dat wordt bij een probitanalyse als volgt weergegeven: (4) Hierbij is of kortweg de distributiefunctie van de standaard normaal verdeling geëvalueerd op het punt. De bijbehorende standaardnormale dichtheidsfunctie geëvalueerd op hetzelfde punt wordt genoemd. Op basis van de distributie- en dichtheidsfunctie wordt de selectiebias correctiefactor geconstrueerd, die ook wel de omgekeerde Mill s ratio genoemd wordt. Ze komt overeen met de hazard rate. De score van de respondenten op deze correctiefactor geeft aan in welke mate hun werkelijke verhuisc.q. participatiegedrag afwijkt van het door het selectiemodel voorspelde gedrag. En dus in welke mate hun gedrag beïnvloed zou kunnen zijn door de onbekende factoren. Bij partiële informatie bias hoeft alleen berekend te worden voor de respondenten in de groep met. Voor deze groep is gelijk aan. Als er sprake is van complete informatie bias, dan moet ook berekend worden voor de respondenten in de groep met. Voor deze groep is gelijk aan. Door dit verschil in berekening krijgen verhuizers en niet-verhuizers -waarden met een tegengesteld teken. Dat is noodzakelijk omdat de afwijkingen van de storingstermen die gecorrigeerd moeten worden bij de ene groep positief en bij de andere groep negatief zijn. 5.2 De substantiële analyse Bij de tweede stap van de procedure wordt toegevoegd aan de substantiële vergelijking. Het model voor het effect van verhuizen met deze correctiefactor toegevoegd ziet er dan als volgt uit: (5)

13 12 In deze vergelijking is de regressiecoefficiënt van de correctiefactor. Ze geeft het effect weer van de ongemeten factoren op het inkomen. Deze coëfficiënt komt overeen met (Breen, 1996), waarbij staat voor de correlatie tussen de storingstermen van de selectie- en de substantiële vergelijking, voor de variantie van de storingsterm van de selectievergelijking en voor de variantie van de storingsterm van de substantiële vergelijking. Omdat bij de probitanalyse wordt aangenomen dat gelijk is aan 1.0, komt overeen met de covariantie tussen de beide storingstermen. Als er geen sprake is van selectiebias dan is de correlatie tussen de storingstermen gelijk aan nul. De term verdwijnt dan uit vergelijking 5 en we krijgen een gewoon OLS regressiemodel. Als voldaan wordt aan de eis dat de storingstermen van de selectie- en de substantiële vergelijking bivariaat normaal verdeeld zijn, dan levert de twee-staps procedure consistente schattingen van de parameters van het regressiemodel op (Heckman, 1979). Dat wil zeggen, dat de verdelingen van de schattingen zich meer concentreren rond de werkelijke waarden in de populatie, naarmate de steekproef groter wordt. De standaardfouten berekend op basis van het OLS-regressiemodel met correctiefactor wijken echter wat af van hun werkelijke waarde. Heckman (1979) en Greene (1981) geven aan hoe een gecorrigeerde asymptotische covariantiemaxtrix kan worden berekend. Behalve via de twee-staps procedure kan de correctie voor selectiebias ook op basis van een maximum likelihood procedure uitgevoerd worden, waarbij de selectievergelijking en de substantiële vergelijking simultaan worden geschat. Deze methode wordt onder meer door Breen (1996) beschreven. Volgens Breen levert ze wat betere parameterschattingen op dan de twee-staps procedure. Een nadeel is echter dat deze methode een stuk complexer is dan de twee-staps procedure en dat er een gespecialiseerd programma voor nodig is. In het geval van complete informatie bias is het ook mogelijk om voor selectiebias te controleren met methoden die gebruik maken van instrumentele variabelen, zoals two-stage least squares (2SLS). Hierbij kunnen de op basis van het selectiemodel bepaalde probitscores als instrumentele variabele gebruikt worden (zie bijv. Greene, 1993; Heckman, 1997). Binnen het kader van dit paper kan op deze alternatieven echter niet worden ingegaan. Verdere informatie over de toepassing ervan kan bij de genoemde auteurs gevonden worden. 5.3 Uitbreidingen

14 13 Sinds haar introductie in de loop van de zeventiger jaren zijn er een aantal uitbreidingen van de twee-staps procedure ontwikkeld. Zo wordt door Lee (1983; zie ook Maddala, 1983) een flexibele methode gepresenteerd om voor het selectiemodel ook andere analysetechnieken dan probitanalyse te kunnen gebruiken. Voor probitanalyse werd meestal gekozen vanwege de eis dat de storingstermen van het selectiemodel normaal verdeeld moeten zijn. Probitanalyse voldoet aan deze eis, maar logitanalyse bijvoorbeeld niet. De methode van Lee komt er op neer dat het selectiemodel geschat wordt op basis van wat voor assumpties er ook over de verdeling van de storingsterm gemaakt worden. De uitkomsten van deze schatting worden gebruikt om voor alle respondenten de voorspelde kansen te berekenen. Deze voorspelde kansen worden vervolgens doormiddel van een probittransformatie (op basis van de omgekeerde cumulatieve distributiefunctie van de standaard normaalverdeling) omgezet in de vorm die ze gehad zouden hebben als ze met een probitanalyse geschat zouden zijn. Met de aldus verkregen pseudo probitscores kan dan op de gebruikelijke wijze de correctiefactor berekend worden. Deze methode van Lee breidt de mogelijkheden van de twee-staps procedure sterk uit. Zo kan nu ook een multinomiaal logitmodel of een discreet keuzemodel als selectiemodel gebruikt worden. Hierdoor kan de procedure ook worden toegepast in situaties met meer dan twee selectie-alternatieven, bijvoorbeeld als er gekozen kan worden uit een aantal verschillende woonlokaties of tussen verschillende typen school. Een tweede generalisatie betreft de uitbreiding van de twee-staps procedure naar de situatie waar de afhankelijke variabele in de substantiële vergelijking dichotoom is. Deze situatie treedt bijvoorbeeld op als wordt onderzocht wat het effect van verhuizen op de arbeidsparticipatie is. Vanwege de assumptie van bivariaat normaal verdeelde storingstermen ligt het voor de hand om in deze situatie ook voor de substantiële vergelijking een probitmodel te gebruiken. Dit gebeurt in de praktijk dan ook meestal. Het complete model met de selectie- en substantiële vergelijkingen vormt dan een bivariaat probitmodel met selectiebias, dat door een gespecialiseerd programma als LIMDEP via een maximum likelihood procedure in een keer geschat kan worden. Het is ook mogelijk om voor zowel het selectiemodel als het substantiële model logitanalyse toe te passen. Nadere informatie over bivariate probit- en logitmodellen is te vinden in Dubin en Rivers (1990). Een uitbreiding van de twee-staps methode naar de situatie waarin er sprake is van meerdere selectieregels wordt besproken door Tunali (1986). De door Tunali beschreven methode wordt onder meer toegepast door Tienda en Wilson (1992), die bij hun onderzoek

15 14 naar de effecten van verhuizen op het inkomen zowel voor zelfselectie bij de verhuisbeslissing als voor zelfselectie bij de arbeidsparticipatiebeslissing controleren. 5.4 Identificatie Een belangrijke voorwaarde voor de toepassing van de Heckman procedure is dat het model voldoende geïdentificeerd is. Hiertoe dient de selectievergelijking op zijn minst één variabele te bevatten die niet in de substantiële vergelijking voorkomt. Zouden alle variabelen in de selectievergelijking ook in de uitkomstvergelijking voorkomen dan zou, bij een lineaire selectievergelijking, de schatting van een lineaire functie van (een subset van) de X-variabelen in de substantiële vergelijking zijn. De probit selectievergelijking is weliswaar niet lineair, zodat theoretisch gezien het model ook met dezelfde variabelen in beide vergelijkingen geïdentificeerd is. Maar in de praktijk kan vertrouwen op deze nonlineariteit om identificatie te bewerkstelligen tot aanzienlijke multicollineariteit en onstabiele parameterschattingen te leiden (Winship & Mare, 1992; Breen, 1996). Als de selectievergelijking weinig van de variatie in het selectieproces verklaart, dan kan er bovendien er ook collineariteit tussen de en het intercept van de substantiële vergelijking optreden (Berk en Ray, 1982). Het identificatieprobleem geeft aan waar de grenzen van de Heckman twee-staps procedure liggen: ze kan alleen worden toegepast als er voldoende informatie beschikbaar is om het selectieproces en de substantiële processen waarin we geïnteresseerd zijn van elkaar te scheiden. Er dient minstens één variabele beschikbaar te zijn die wel van invloed is op het selectieproces maar die niet van invloed is op de afhankelijke variabele waar het bij de substantiële analyse om gaat. Volgens Breen (1996) is het niet zo moeilijk om te bepalen of de methode in een bepaalde situatie wel of niet gebruikt kan worden. Er zijn in het verleden verschillende Monte Carlo studies uitgevoerd naar de effectiviteit en de mate van bias van de twee-staps procedure onder verschillende omstandigheden. Nelson (1984) vindt bijvoorbeeld dat als aan de assumptie voldaan is dat de storingstermen van de selectie- en de substantiële vergelijking bivariaat normaal verdeeld zijn, de effectiviteit vooral bepaald wordt door twee zaken: (1) de sterkte van de correlatie tussen de storingstermen in de beide vergelijkingen, en (2) de sterkte van de correlatie tussen de verklarende variabelen in de selectie- en de substantiële vergelijking. De correlatie tussen de storingstermen van de beide vergelijkingen geeft aan in hoeverre

16 15 er sprake is van selectiebias. Bij een substantiële correlatie tussen deze storingstermen is dat het geval en leveren zowel de twee-staps procedure als ML in het algemeen efficiëntere schattingen op dan OLS. Bij toename van het verband tussen de storingstermen blijft de effectiviteit van de twee-staps procedure redelijk stabiel en neemt de effectiviteit van de MLschatters toe. Aan de correlatie tussen de verklarende variabelen in de beide vergelijkingen valt af te lezen of er sprake is van multicollineariteit. Naarmate deze correlatie hoger wordt, neemt de effectiviteit van zowel de twee-staps procedure als van de ML-schattingen af. Deze afname van de effectiviteit is bij de twee-staps procedure echter sterker dan bij ML. Met name bij zeer hoge correlaties tussen de verklarende variabelen in de beide vergelijkingen (0.90 of hoger) is ML veel efficiënter dan de twee-staps procedure. Om na te gaan of de twee-staps procedure in een concrete situatie kan worden gebruikt is het daarom zinvol om deze correlatie te bepalen. Nelson raadt aan om hiertoe de verklaarde variantie R 2 te bepalen van een regressie-analyse met de correctiefactor als afhankelijke variabele en de verklarende variabelen uit de substantiële vergelijking als onafhankelijke variabelen. Als de waarde van deze R 2 erg laag is, verdient het de aanbeveling om OLS te gebruiken, omdat de selectiebias gering is. Is de waarde van R 2 erg hoog (bijvoorbeeld groter dan 0.80 à 0.90), dan dient ML gebruikt te worden. In het tussengebied met middelmatig sterke correlaties, kan de twee-staps procedure gebruikt worden. Voor het gebruik van de twee-staps procedure dient de steekproef ook niet te klein te zijn. De procedure levert consistente schattingen op en consistentie is een eigenschap die pas in grote steekproeven naar voren komt. Bij een Monte Carlo studie van Nawata (1994) werden redelijke resultaten verkregen met steekproeven van 200 cases. Bij een dergelijk aantal kan de procedure dus al wel gebruikt worden. Een belangrijk punt is verder de bivariate normaliteit van de storingstermen. Volgens Breen (1996) zijn zowel de twee-staps procedure als ML gevoelig voor afwijkingen van de normaliteit. Het is daarom zinvol om bij toepassing van de methode te controleren of aan deze assumptie voldaan is. Vooral de normaliteit van de storingsterm van de selectievergelijking zou van belang zijn. Cherish en Irish (1987) bespreken tests die gebruikt kunnen worden om de normaliteit van storingstermen te controleren. In het kader van dit paper voert het echter te ver om daar op in te gaan.

17 16 6. Voorbeelden In deze paragraaf wordt de toepassing van de Heckman twee-staps procedure geïllustreerd aan de hand van twee empirische voorbeelden. Ter illustratie van de toepassing bij de partiële informatie bias, wordt het voorbeeld van de participatieselectie bij de verklaring van het inkomen van vrouwen nader uitgewerkt. En ter illustratie van de toepassing bij complete informatie bias wordt een nadere uitwerking gegeven van het verhuisvoorbeeld uit dit paper. In beide gevallen wordt eerst een selectiemodel geschat. Op basis van de resultaten van deze selectie-analyses wordt de zelfselectie correctiefactor bepaald. Daarna wordt als substantiële analyse een OLS regressieanalyse uitgevoerd met de correctiefactor als extra verklarende variabele. Omdat de bij deze analyse berekende standaardfouten niet kloppen vanwege heteroscedasticiteit, worden vervolgens nog enige berekeningen uitgevoerd om de standaardfouten te corrigeren. De analyses worden zowel met een zelfgeschreven SPSS procedure (zie appendix A) als met het econometrisch programma LIMDEP uitgevoerd. Bovendien wordt zowel een probit- als een logit-selectiemodel gebruikt. Bij de logitanalyse wordt de door Lee (1983) voorgestelde transformatie toegepast, waarbij de op basis van deze analyse berekende individuele verhuiskansen worden omgezet in pseudo-probitscores (zie par. 5.3). Bij de analyses wordt gebruik gemaakt van Nederlandse gegevens afkomstig van het Woningbehoefte Onderzoek (WBO) uit Voor de duidelijkheid worden bij deze voorbeeldanalyses vereenvoudigde modellen gebruikt met slechts enkele verklarende variabelen. Inhoudelijke conclusies kunnen op basis van de resultaten dan ook niet getrokken worden. Een meer complete uitwerking van het verhuisvoorbeeld is in Smits (1998) te vinden. Tabel 1 presenteert de variabelen die bij de voorbeeldanalyses worden gebruikt. In beide gevallen bevat het selectiemodel als identificerende variabelen twee dummies voor de aanwezigheid en leeftijd van kinderen in het huishouden. Bij het participatiemodel is de veronderstelling dat kinderen de kans op participatie van de vrouw verminderen en bij het verhuismodel dat huishoudens met kinderen minder verhuizen. In beide gevallen wordt verondersteld dat de aanwezigheid en leeftijd van kinderen niet van invloed is op het inkomen. 6.1 Participatieselectie bij de analyse van het inkomen van vrouwen

18 17 Ter controle voor partiële informatie bias bij de verklaring van het uurloon van vrouwen wordt eerst een selectiemodel geschat. Tabel 2 presenteert de parameters van de probiten logitanalyses met de participatiedummy (PART) als afhankelijke variabele. De parameterschattingen en standaardfouten van deze analyses verschillen niet tussen SPSS en LIMDEP zodat ze slechts eenmaal gepresenteerd hoeven te worden. Het verschil in parameterwaarden tussen de probit- en logitanalyses is het gevolg van een schaalfactor van ongeveer 1.8 (zie Aldrich & Nelson, 1984). Uit tabel 1 blijkt dat alle verklarende variabelen op de participatiebeslissing van invloed zijn Tabel 2 ongeveer hier Op basis van de modellen in tabel 2 worden twee zelfselectie correctiefactoren geconstrueerd, één op basis van de probitanalyse en één op basis van de logitanalyse. Dit gebeurt bij de LIMDEP-procedure SELECT automatisch. In SPSS moeten hiertoe wat berekeningen worden uitgevoerd. In Appendix A wordt aangegeven hoe dit kan worden gedaan. Het meest bewerkelijk is de output van de SPSS-procedure PROBIT. Hierbij moeten de berekende parameters met de hand in een formule worden ingetypt om de individuele probitscores te berekenen. Het is daarom makkelijker om een logitanalyse uit te voeren met de SPSS-procedure LOGISTIC REGRESSION. Deze procedure levert de individuele voorspelde kansen in de vorm van een variabele die rechtstreeks bij de volgende berekeningen gebruikt kan worden. Om na te gaan of de twee-staps procedure kan worden toegepast, wordt de in par. 5.4 besproken testanalyse uitgevoerd. Hierbij wordt de op basis van de probit-analyse berekende geregresseerd op de verklarende variabelen van de substantiële vergelijking. De verklaarde variantie R 2 bij deze analyse is Deze waarde ligt in het gebied waarbinnen de twee-staps procedure gebruikt kan worden. De op basis van de probit- en logitanalyses berekende s worden als verklarende variabele toegevoegd aan het OLS-regressiemodel ter verklaring van het (log)uurloon van de vrouwen. Tabel 3 presenteert de resultaten van drie verschillende OLS-analyses: (1) zonder correctiefactor, (2) met correctiefactor berekend op basis van de probitanalyse, en (3) met correctiefactor berekend op basis van de logitanalyse. De coëfficiënt RHO, onderin de tabel, geeft de geschatte waarde van de correlatie tussen de storingstermen van de selectie- en de substantiële vergelijking weer. Deze correlatie geeft aan hoe sterk de

19 18 selectiebias is. Voor de gecorrigeerde modellen wordt daarnaast ook de geschatte standaardfout van de storingsterm weergegeven. Tenslotte wordt voor ieder model de verklaarde variantie R 2 gepresenteerd. Tabel 3 laat zien dat - in dit geval - toevoeging van aan de substantiële vergelijking slechts tot zeer geringe veranderingen van de coëfficiënten van de verklarende variabelen leidt. De coëfficiënt van is ook niet significant. Het lijkt er dus op dat er niet of nauwelijks sprake is van selectiebias. Dit blijkt ook uit de waarde van de coëfficiënt RHO onder in tabel 3. De correlatie tussen de storingstermen van de selectie- en de substantiële vergelijking is praktisch nul. Op grond van deze bevindingen kan geconcludeerd worden dat er geen sprake is van selectiebias ten gevolge van ongemeten verschillen in verdienvermogen tussen de werkende en de niet-werkende vrouwen. Het gebruik van OLS regressie zonder controlefactor voor selectie bias verdient daarom in dit geval de voorkeur Het effect van verhuizen op het inkomen van mannen Om na te gaan of en in hoeverre personen die ten behoeve van hun carrière verhuizen een gunstiger carrièreverloop hebben dan personen die dit niet doen, worden de uurlonen van mannen die recentelijk over lange afstand verhuisd zijn vergeleken met de uurlonen van gehuwde mannen die niet, of over korte afstand, verhuisd zijn. Dit gebeurt door een dummyvariabele die aangeeft of men al (1) of niet (0) recentelijk verhuisd is toe te voegen aan een regressievergelijking ter verklaring van het (log)uurloon van werkende mannen. Zoals in paragraaf 3 werd aangegeven, kunnen de resultaten van een dergelijke regressieanalyse vertekend worden door complete informatie bias. Ter controle hiervoor wordt ook in dit geval de Heckman twee-staps procedure toegepast Tabel 4 ongeveer hier Begonnen wordt met de analyse van de verhuisbeslissing. Tabel 4 presenteert de parameters van de probit- en logitanalyses met de verhuisdummy (VERH) als afhankelijke variabele. Op basis van de resultaten van deze analyse wordt de zelfselectie correctiefactor berekend. In appendix A is te zien dat deze berekening bij complete informatie bias wat complexer is dan bij partiële informatie bias. De correctiefactor moet voor de verhuizers en de niet-verhuizers afzonderlijk berekend worden met een verschillende formule

20 19 Tabel 5 ongeveer hier De aldus berekende wordt als verklarende variabele toegevoegd aan het OLSregressiemodel ter verklaring van het (log)uurloon van de mannen. De resultaten van de substantiële analyses worden in tabel 5 gepresenteerd. We zien dat in dit geval het toevoegen van de correctiefactor aan het OLS model wel veel uitmaakt. In de vergelijking zonder is de coëfficiënt van de verhuisvariabele ( Recentelijk verhuisd ) significant positief, wat duidt op een positief effect van verhuizen op het inkomen. In alle vergelijkingen met is de coëfficiënt van de verhuisvariabele echter significant negatief. Na controle voor zelfselectie blijken personen die verhuisd zijn dus een lager uurloon te hebben. Aangezien niet verwacht kan worden dat personen over lange afstand verhuizen zonder er op vooruit te gaan, zou dit kunnen betekenen dat het bij de verhuizers vooral gaat om personen die voor de verhuizing in een relatief slechte arbeidsmarktpositie verkeerden. De coëfficiënt van geeft informatie over de aard van de zelfselectie. Deze coëfficiënt is significant positief, wat aangeeft dat de er een positief verband bestaat tussen de storingstermen van de selectie- en de substantiële vergelijking. Dit geeft aan dat personen die verhuizen meer dan de niet-verhuizers over ongemeten kenmerken beschikken die hun verdienvermogen verhogen. Ze zouden bijvoorbeeld initiatiefrijker kunnen zijn of meer doorzettingsvermogen kunnen hebben dan de niet-verhuizers; eigenschappen die ook als ze niet verhuisd waren tot een hoger inkomen hadden kunnen leiden. De parameters van de regressieanalyses uitgevoerd met SPSS en LIMDEP blijken ook bij dit voorbeeld nauwelijks van elkaar te verschillen. Tussen de parameters op basis van het probit selectiemodel en de parameters op basis van het logit selectiemodel komen bij de verhuisvariabele en bij wel wat verschillen voor. Deze verschillen zijn echter gering en leiden niet tot substantieel andere conclusies. Literatuur Aldrich, J. H., and Nelson, F. D. (1984). Linear Probability, Logit and Probit Models. Beverly Hills, CA: Sage. Berk, Richard A., and Subhash C. Ray (1982). Selection Bias in Sociological Data. Social

21 20 Science Research, 11: Bowden, Roger J., en Darrell A.Turkington (1984). Instrumental Variables. Cambridge: Cambridge University press. Breen, Richard (1996). Regression Models: Censored, Sample Selected, or Truncated Data. Sage University Paper no Thousand Oaks: Sage. Chesher, Andrew, and Irish, Margaret (1987). Residual Analysis in the Grouped and Censored Linear Model. Journal of Econometrics, 34: Dubin, Jeffrey A., en Douglas Rivers ( 1990). Selection Bias in Linear Regression, Logit and Probit Models. Pp in Modern Methods of data Analysis, edited by J. Fox and J. Scott Long. Newbury Park: Sage. Greene, William H. (1981). Sample Selection Bias as a Specification Error: A Comment. Econometrica, 49: Greene, William H. (1993). Econometric Analysis. 2d ed. New York: Macmillan. Heckman, James J. (1976). The Common Structure of Statistical Models of Truncation, Sample Selection and Limited Dependent Variables and a Simple Estimator for Such Models. Annals of Economic and Social Measurement, 5: Heckman, James J. (1979). Sample Selection Bias as a Specification Error. Econometrica, 47: Heckman, James J (1980). Sample Selection Bias as a Specification Error. Pp in Female Labor Supply, edited by J. P. Smith. Princeton, NJ: Princeton University Press. Heckman, James J. (1997). Instrumental Variables: A Study of Implicit Behavioral Assumptions Used in Making Program Evaluations. Journal of Human Resources, 32: Lee, Lung-Fei (1983). Generalized Econometric Models With Selectivity. Econometrica, 51: Little, Roderick J. A., and Nathaniel Schenker (1995). Missing Data. Pp in Handbook of Statistical Modeling for the Social and Behavioral Sciences, edited by Gerhard Arminger, Clifford C. Clogg, en Michael E. Sobel. New York: Plenum Press. Maddala, G. S. (1983). Limited Dependent and Qualitative Variables in Econometrics. Cambridge: Cambridge University Press. Nawata, Kazumitsu (1994). Estimation of Sample Selection Bias Models by the Maximum Likelihood Estimator and Heckman s Two-Step Estimator. Economics Letters, 45:

22 21 Nelson, Forrest D. (1984). Efficiency of the Two-Step Estimator For Models With Endogenous Sample Selection. Journal of Econometrics, 24: Smits Jeroen (1998). Gevolgen van Verhuizingen Over Lange Afstand voor het Inkomen van Gehuwde Mannen en Vrouwen in nederland, Tijdschrift Voor Arbeidsvraagstukken, 14. Tunali, Insan (1986). A General Structure For Models of Double-Selection and an Application to a Joint Migration/Earnings Process With Remigration. Research in Labor Economics, 8, Part B: Winship, Christopher, and Robert D. Mare (1992). Models For Sample Selection Bias. Annual Review of Sociology, 18:327-50

23 Appendix A. Toepassing van de Heckman twee-staps procedure met SPSS 22 Om de Heckman twee-staps procedure toe te passen kunnen gespecialiseerde econometrische softwarepakketten zoals LIMDEP of STATA (alleen voor partiële informatie bias) worden gebruikt. Met enig rekenwerk is het echter ook mogelijk om de procedure toe te passen met het onder sociale wetenschappers meer gangbare pakket SPSS. In deze bijlage geef ik aan de hand van de in dit paper gebruikte voorbeelden weer hoe dit op basis van de procedures PROBIT, LOGISTIC REGRESSION en REGRESSION van SPSS kan gebeuren. A1. De participatiebeslissing A1.1 Berekening van LAMBDA met SPSS PROBIT De aansturing van het selectiemodel gaat als volgt: compute SUBJ=1. probit PART of SUBJ with LFTV OPLV KIND1 KIND2 /log=none /print=none. In de output van deze procedure worden de parameterschattingen met hun standaardfouten gegeven. Op basis van deze parameterschattingen dient voor iedere respondent de door het model voorspelde probitscore bepaald te worden. Helaas is het niet mogelijk om deze probitscores door de procedure PROBIT te laten uitrekenen. Er moet daarom een extra tussenstap worden ingelast, waarin wat handwerk verricht moet worden. De door PROBIT berekende parameterschattingen (zie tabel 2) moeten in de volgende formule worden ingevuld: compute IPS = *LFTV *OPLV *KIND *KIND2. Met dit COMPUTE commando worden de individuele probitscores (IPS) berekend en aan het (tijdelijke) databestand toegevoegd. Deze probitscores worden nu gebruikt om LAMBDA te berekenen: compute lambda = ((1/sqrt(2* ))*(exp(-ips*ips*0.5)))/cdfnorm(ips). Voor het vervolg van de twee-staps procedure dienen respondenten die missing values hebben op de bij de substantiële analyse betrokken variabelen uit de active file weggefilterd worden, zodat alle volgende berekeningen op basis van dezelfde groep respondenten plaatsvinden. Bijvoorbeeld: select if (inkv>0 and oplv ne -9 and...). Nu dient de hulp- en controlefactor DELTA berekend te worden: compute delta = -lambda*ips-lambda*lambda. De waarde van DELTA dient tussen -1 en 0 te liggen. Dit biedt de mogelijkheid om te testen of LAMBDA goed is berekend: descr delta /statistics = min max.

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

Voorbeeld regressie-analyse

Voorbeeld regressie-analyse Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

Hoe het werkt met kinderen

Hoe het werkt met kinderen Hoe het werkt met kinderen Moeders over kinderopvang en werk Bilage Verklaringsmodellen Wil Portegis Mariëlle Cloïn Evelien Eggink Ingrid Ooms Inhoud: De verklaringsmodellen van Hoe het werkt met kinderen...

Nadere informatie

Oplossingen hoofdstuk XI

Oplossingen hoofdstuk XI Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Veranderingen in arbeidsparticipatie van gescheiden moeders

Veranderingen in arbeidsparticipatie van gescheiden moeders Veranderingen in arbeidsparticipatie van gescheiden moeders Suzanne Peek Gescheiden moeders stoppen twee keer zo vaak met werken dan niet gescheiden moeders. Ook beginnen ze vaker met werken. Wanneer er

Nadere informatie

College 3 Meervoudige Lineaire Regressie

College 3 Meervoudige Lineaire Regressie College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013 'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

Nadere informatie

variantie: achtergronden en berekening

variantie: achtergronden en berekening variantie: achtergronden en berekening Hugo Quené opleiding Taalwetenschap Universiteit Utrecht 8 sept 1995 aangepast 8 mei 007 1 berekening variantie Als je de variantie met de hand moet uitrekenen, is

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA Masterclass: advanced statistics Bianca de Greef Sander van Kuijk Afdeling KEMTA Inhoud Masterclass Deel 1 (theorie): Achtergrond regressie Deel 2 (voorbeeld): Keuzes Output Model Model Dependent variable

Nadere informatie

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek Hoofdstuk 19 Voorspellende analyse bij marktonderzoek Voorspellen begrijpen Voorspelling: een uitspraak over wat er naar verwachting in de toekomst zal gebeuren op basis van ervaringen uit het verleden

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

Samenvatting Nederlands

Samenvatting Nederlands Samenvatting Nederlands 178 Samenvatting Mis het niet! Incomplete data kan waardevolle informatie bevatten In epidemiologisch onderzoek wordt veel gebruik gemaakt van vragenlijsten om data te verzamelen.

Nadere informatie

Heeft u uw keuze al gemaakt? Ontwikkelingen in keuzemodellen. Gerard de Jong Significance, ITS Leeds en NEA

Heeft u uw keuze al gemaakt? Ontwikkelingen in keuzemodellen. Gerard de Jong Significance, ITS Leeds en NEA Heeft u uw keuze al gemaakt? Ontwikkelingen in keuzemodellen Gerard de Jong Significance, ITS Leeds en NEA Inhoud 1. Keuzemodellen in soorten en maten 2. RUM (random utility model) 3. GEV (generalised

Nadere informatie

Tentamen Biostatistiek 2 voor BMT (2DM50), op dinsdag 5 april 2011 9.00-12.00 uur

Tentamen Biostatistiek 2 voor BMT (2DM50), op dinsdag 5 april 2011 9.00-12.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 2 voor BMT (2DM50), op dinsdag 5 april 2011 9.00-12.00 uur Bij het tentamen mag alleen gebruik worden gemaakt van een zakrekenmachine. Het gebruik

Nadere informatie

MULTIPELE IMPUTATIE IN VOGELVLUCHT

MULTIPELE IMPUTATIE IN VOGELVLUCHT MULTIPELE IMPUTATIE IN VOGELVLUCHT Stef van Buuren We hebben het er liever niet over, maar allemaal worden we geplaagd door ontbrekende gegevens. Het liefst moffelen we problemen veroorzaakt door ontbrekende

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Verbanden tussen demografische kenmerken, gezondheidsindicatoren en gebruik van logopedie

Verbanden tussen demografische kenmerken, gezondheidsindicatoren en gebruik van logopedie Notitie De vraag naar logopedie datum 24 mei 2016 aan van Marliek Schulte (NVLF) Robert Scholte en Lucy Kok (SEO Economisch Onderzoek) Rapport-nummer 2015-15 Kunnen ontwikkelingen in de samenstelling en

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Summary in Dutch 179

Summary in Dutch 179 Samenvatting Een belangrijke reden voor het uitvoeren van marktonderzoek is het proberen te achterhalen wat de wensen en ideeën van consumenten zijn met betrekking tot een produkt. De conjuncte analyse

Nadere informatie

Causale modellen: Confounding en mediatie. Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016

Causale modellen: Confounding en mediatie. Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016 Causale modellen: Confounding en mediatie Harry Ganzeboom Kwantitatieve Methoden voor PMC-BCO College 2: 25 april 2016 Correlatie en causatie Een standaard wijsheid in methodologie is dat correlatie (samenhang)

Nadere informatie

College 2 Enkelvoudige Lineaire Regressie

College 2 Enkelvoudige Lineaire Regressie College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

INLEIDING EEN OVERZICHT VAN CORRECTIEMETHODEN

INLEIDING EEN OVERZICHT VAN CORRECTIEMETHODEN INLEIDING Als je geïnteresseerd bent in de vraag welke van twee behandelingen of geneesmiddelen het beste werkt, zijn er grofweg twee manieren om dat te onderzoeken: experimenteel en observationeel. Bij

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 6 mei 2010 1 1 Introductie De Energiekamer

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

MISSING DATA van gatenkaas naar valide uitkomsten

MISSING DATA van gatenkaas naar valide uitkomsten MISSING DATA van gatenkaas naar valide uitkomsten Sander M.J. van Kuijk Afdeling Klinische Epidemiologie en Medical Technology Assessment sander.van.kuijk@mumc.nl Inhoud Masterclass Theorie over missing

Nadere informatie

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen. Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

Statistische variabelen. formuleblad

Statistische variabelen. formuleblad Statistische variabelen formuleblad 0. voorkennis Soorten variabelen Discreet of continu Bij kwantitatieve gegevens gaat het om meetbare gegeven, zoals temperatuur, snelheid of gewicht. Bij een discrete

Nadere informatie

Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens

Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens Hieronder wordt uitgelegd hoe alle analyses besproken in paragraaf 6.5 van

Nadere informatie

Summary & Samenvatting. Samenvatting

Summary & Samenvatting. Samenvatting Samenvatting De meeste studies na rampen richten zich op de psychische problemen van getroffenen zoals post-traumatische stress stoornis (PTSS), depressie en angst. Naast deze gezondheidsgevolgen van psychische

Nadere informatie

Hoofdstuk 8: Multipele regressie Vragen

Hoofdstuk 8: Multipele regressie Vragen Hoofdstuk 8: Multipele regressie Vragen 1. Wat is het verschil tussen de pearson correlatie en de multipele correlatie R? 2. Voor twee modellen berekenen we de adjusted R2 : Model 1 heeft een adjusted

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

Verdringing op de Nederlandse arbeidsmarkt: sector- en sekseverschillen

Verdringing op de Nederlandse arbeidsmarkt: sector- en sekseverschillen 1 Verdringing op de Nederlandse arbeidsmarkt: sector- en sekseverschillen Peter van der Meer Samenvatting In dit onderzoek is geprobeerd antwoord te geven op de vraag in hoeverre het mogelijk is verschillen

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

Behorend bij de Macro Economische Verkenning 2014

Behorend bij de Macro Economische Verkenning 2014 CPB Achtergronddocument Schatting effect btw-verhoging op inflatie Behorend bij de Macro Economische Verkenning 4 7 september Martin Mellens Centraal Planbureau M.C.Mellens@cpb.nl Jonneke Dijkstra Centraal

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

4 BEPALEN VAN GEWICHTEN

4 BEPALEN VAN GEWICHTEN 4 BEPALEN VAN GEWICHTEN Van het totaal aantal huishoudens die uit het Rijksregister geselecteerd waren (zgn. bruto-steekproef), hebben er een aantal niet meegewerkt aan de enquête. Zulke non-respons veroorzaakt

Nadere informatie

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA 16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

Wetenschappelijk Instituut Volksgezondheid

Wetenschappelijk Instituut Volksgezondheid Wetenschappelijk Instituut Volksgezondheid Dienst Kwaliteit van medische laboratoria Een 3-stapsmethode om bepaling in verschillende stalen globaal te evalueren Datum van bijwerking: 16/12/2013 INHOUDSTABEL

Nadere informatie

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages. MARGES EN SIGNIFICANTIE BIJ STEEKPROEFRESULTATEN. De marges van percentages Metingen via een steekproef leveren een schatting van de werkelijkheid. Het toevalskarakter van de steekproef heeft als consequentie,

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

Bijlagen A tot en met E

Bijlagen A tot en met E Bijlagen A tot en met E Werken en weldoen Kiezen voor betaalde en onbetaalde arbeid Ingrid Ooms Jedid-Jah Jonker Ab van der Torre Bijlage A Aanvullende analyses hoofdstuk 3... 2 Bijlage B Technische specificatie

Nadere informatie

gegevens analyseren Welk onderzoekmodel gebruik je? Quasiexperiment ( 5.5) zonder controle achtergronden

gegevens analyseren Welk onderzoekmodel gebruik je? Quasiexperiment ( 5.5) zonder controle achtergronden een handreiking 71 hoofdstuk 8 gegevens analyseren Door middel van analyse vat je de verzamelde gegevens samen, zodat een overzichtelijk beeld van het geheel ontstaat. Richt de analyse in de eerste plaats

Nadere informatie

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 22 april uur

Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 22 april uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 2 voor BMT (2DM50), op woensdag 22 april 2009 9.00-12.00 uur Bij het tentamen mag alleen gebruik worden gemaakt van een zakrekenmachine. Het

Nadere informatie

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Dat economie in essentie geen experimentele wetenschap is maakt de econometrie tot een onmisbaar

Nadere informatie

Ouderen op de arbeidsmarkt: 60+ ers en 40+ ers

Ouderen op de arbeidsmarkt: 60+ ers en 40+ ers Ouderen op de arbeidsmarkt: 60+ ers en 40+ ers Rapport van ILC Zorg voor later, Stichting Loonwijzer/WageIndicator, en Universiteit van Amsterdam/Amsterdams Instituut voor Arbeids Studies (AIAS) Inhoudsopgave

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 ANOVA in SPSS Hugo Quené hugo.quene@let.uu.nl opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 1 vooraf In dit voorbeeld gebruik ik fictieve gegevens, ontleend aan

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Hoofdstuk 2: Verbanden

Hoofdstuk 2: Verbanden Hoofdstuk 2: Verbanden Inleiding In het gebruik van statistiek komen we vaak relaties tussen variabelen tegen. De focus van dit hoofdstuk ligt op het leren hoe deze relaties op grafische en numerieke wijze

Nadere informatie

DEEL 1 Probleemstelling 1

DEEL 1 Probleemstelling 1 DEEL 1 Probleemstelling 1 Hoofdstuk 1 Van Probleem naar Analyse 1.1 Notatie 4 1.1.1 Types variabelen 4 1.1.2 Types samenhang 5 1.2 Sociaalwetenschappelijke probleemstellingen en hun basisformat 6 1.2.1

Nadere informatie

Bijlage bij hoofdstuk 15 van het Sociaal en Cultureel Rapport 2010

Bijlage bij hoofdstuk 15 van het Sociaal en Cultureel Rapport 2010 Bijlage bij hoofdstuk 15 van het Sociaal en Cultureel Rapport 2010 In deze bijlage wordt achtereenvolgens kort ingegaan op de verrichte analyses en de gebruikte bestanden en worden enige aanvullende resultaten

Nadere informatie

(slope in het Engels) en het snijpunt met de y-as, b 0

(slope in het Engels) en het snijpunt met de y-as, b 0 8. Regressie Een introductie Al vaak is genoemd dat statistische modellen allemaal neerkomen op uitkomst = model + error. Dit model kun je ook gebruiken om de uitkomst te voorspellen, met een correlatie

Nadere informatie

Citation for published version (APA): van der Ploeg, J. (1997). Instrumental variable estimation and group-asymptotics Groningen: s.n.

Citation for published version (APA): van der Ploeg, J. (1997). Instrumental variable estimation and group-asymptotics Groningen: s.n. University of Groningen Instrumental variable estimation and group-asymptotics van der Ploeg, J. IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

nederlandse samenvatting Dutch summary

nederlandse samenvatting Dutch summary Dutch summary 211 dutch summary De onderzoeken beschreven in dit proefschrift zijn onderdeel van een grootschalig onderzoek naar individuele verschillen in algemene cognitieve vaardigheden. Algemene cognitieve

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Verband tussen twee variabelen

Verband tussen twee variabelen Verband tussen twee variabelen Inleiding Dit practicum sluit aan op hoofdstuk I-3 van het statistiekboek en geeft uitleg over het maken van kruistabellen, het berekenen van de correlatiecoëfficiënt en

Nadere informatie

Analyse van confounders en mediatoren. Cursus Bachelor Project 2 B&O College 3 Harry B.G. Ganzeboom

Analyse van confounders en mediatoren. Cursus Bachelor Project 2 B&O College 3 Harry B.G. Ganzeboom Analyse van confounders en mediatoren Cursus Bachelor Project 2 B&O College 3 Harry B.G. Ganzeboom 1 AGENDA Nabespreking Practicum 2. Terug naar College 2: regressie met dummyvariabelen. Confounding en

Nadere informatie

1. CTRL- en SHIFT-knop gebruiken om meerdere variabelen te selecteren

1. CTRL- en SHIFT-knop gebruiken om meerdere variabelen te selecteren SPSS: Wist je dat (1) je bij het invoeren van de variabelen in het menu door de CTRL-knop ingedrukt te houden, meerdere variabelen kunt selecteren die niet precies onder elkaar staan? Met de SHIFT-knop

Nadere informatie

Welke bijstandsontvangers willen aan het werk?

Welke bijstandsontvangers willen aan het werk? Welke bijstandsontvangers willen aan het werk? Maaike Hersevoort en Mariëtte Goedhuys Van alle bijstandsontvangers van 15 tot en met 64 jaar is het grootste deel alleenstaand. Het gaat daarbij voor een

Nadere informatie

Bijlagen Werkloos toezien?

Bijlagen Werkloos toezien? Bijlagen Werkloos toezien? Gevolgen van de crisis voor emancipatie en welbevinden Ans Merens Edith Josten Bijlage A Data en methode 2 A.1 Arbeidsduur en arbeidsdeelname van partners van werklozen 2 A.2

Nadere informatie

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2S390) op maandag 19-11-2001, 14.00-17.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan

Nadere informatie

Meerdere keren zonder werk

Meerdere keren zonder werk Meerdere keren zonder werk Antoinette van Poeijer Ontvangers van een - of bijstandsuikering en ers worden gestimuleerd (weer) aan de slag te gaan. In veel gevallen is dat succesvol. Er zijn echter ook

Nadere informatie

Checklist voor peilingen Jelke Bethlehem

Checklist voor peilingen Jelke Bethlehem Checklist voor peilingen Jelke Bethlehem Versie 2.0 (6 juli 2010) Een checklist voor peilingen Inleiding Er wordt in Nederland heel veel gepeild. Dat is vooral te merken in de periode voor de Tweede Kamerverkiezingen.

Nadere informatie

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren: INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 4 1. Toets met behulp van SPSS de hypothese van Evelien in verband met de baardlengte van metalfans. Ga na of je dezelfde conclusies

Nadere informatie

Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen.

Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen. Oplossingen hoofdstuk IX 1. Bestaat er een verband tussen het geslacht en het voorkomen van dyslexie? Uit een aselecte steekproef van 00 leerlingen (waarvan 50% jongens en 50% meisjes) uit het basisonderwijs

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

3 Werkwijze Voordat een CQI meetinstrument mag worden ingezet voor reguliere metingen moet het meetinstrument in twee fases getest worden.

3 Werkwijze Voordat een CQI meetinstrument mag worden ingezet voor reguliere metingen moet het meetinstrument in twee fases getest worden. Procedure Psychometrische en discriminerend vermogen testfase Versie: 1.0 Datum: 01-04-2014 Code: PRO 04 Eigenaar: 1 Inleiding De richtlijnen en aanbevelingen voor de test naar de psychometrische en onderscheidende

Nadere informatie

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek cursus 23 mei 2012 werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen onderzoek streeft naar inzicht in relatie tussen variabelen bv. tussen onafhankelijke

Nadere informatie

CPB Notitie 20 december Arbeidsparticipatie. Bijlage. Uitgevoerd op verzoek van het ministerie van Sociale Zaken en Werkgelegenheid

CPB Notitie 20 december Arbeidsparticipatie. Bijlage. Uitgevoerd op verzoek van het ministerie van Sociale Zaken en Werkgelegenheid CPB Notitie 20 december 2018 Arbeidsparticipatie Bijlage Uitgevoerd op verzoek van het ministerie van Sociale Zaken en Werkgelegenheid Appendix bij CPB Notitie Arbeidsparticipatie Aanvullende figuren

Nadere informatie

Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze

Regressie-analyse doel menu hulp globale werkwijze aandachtspunten Doel: Voor de uitvoering in SPSS: Missing Values Globale werkwijze Regressie-analyse Regressie-analyse is gericht op het voorspellen van één (numerieke) afhankelijke variabele met behulp van een of meerdere onafhankelijke variabelen (numerieke en/of dummy-variabelen).

Nadere informatie

Toelichting Ankeronderzoek met Ankersets. Ankeronderzoek. Beschrijving ankeronderzoek

Toelichting Ankeronderzoek met Ankersets. Ankeronderzoek. Beschrijving ankeronderzoek Toelichting Ankeronderzoek met Ankersets Onderstaande tekst is een aangepaste versie van het document Toelichting Ankeronderzoek met Referentiesets, geschreven door Saskia Wools & Anton Béguin (2014).

Nadere informatie

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items

1. Gegeven zijn de itemsores van 8 personen op een test van 3 items 1. Gegeven zijn de itemsores van 8 personen op een test van 3 items item Persoon 1 2 3 1 1 0 0 2 1 1 0 3 1 0 0 4 0 1 1 5 1 0 1 6 1 1 1 7 0 0 0 8 1 1 0 Er geldt: (a) de p-waarden van item 1 en item 2 zijn

Nadere informatie

Onderzoek heeft aangetoond dat een hoge mate van herstelbehoefte een voorspellende factor is voor ziekteverzuim. Daarom is in de NL-SH ook de relatie

Onderzoek heeft aangetoond dat een hoge mate van herstelbehoefte een voorspellende factor is voor ziekteverzuim. Daarom is in de NL-SH ook de relatie Samenvatting Gehoor en de relatie met psychosociale gezondheid, werkgerelateerde variabelen en zorggebruik. De Nationale Longitudinale Studie naar Horen Slechthorendheid is een veelvoorkomende chronische

Nadere informatie

laboratory for industrial mathematics eindhoven Endinet Regressie-analyse Energiekamer

laboratory for industrial mathematics eindhoven Endinet Regressie-analyse Energiekamer Endinet Regressie-analyse Energiekamer Laboratory for Industrial Mathematics Eindhoven Postbus 513 5600 MB Eindhoven tel.: 040 247 4875 fax: 040 244 2489 e-mail: lime@tue.nl WWW: http://www.lime.tue.nl

Nadere informatie

Toelichting Ankeronderzoek met Referentiesets. Ankeronderzoek. Beschrijving ankeronderzoek. Saskia Wools & Anton Béguin, Cito 2014

Toelichting Ankeronderzoek met Referentiesets. Ankeronderzoek. Beschrijving ankeronderzoek. Saskia Wools & Anton Béguin, Cito 2014 Toelichting Saskia Wools & Anton Béguin, Cito 2014 Ankeronderzoek Deze handleiding bevat een korte beschrijving van ankeronderzoeken. In het algemeen geldt dat meer informatie te vinden is in het boek

Nadere informatie

KOSTENEFFECTIVITEIT RE-INTEGRATIETRAJECTEN

KOSTENEFFECTIVITEIT RE-INTEGRATIETRAJECTEN Gepubliceerd in: Maandblad Reïntegratie nr. 9, 2007, p. 6-10 KOSTENEFFECTIVITEIT RE-INTEGRATIETRAJECTEN Drs. Maikel Groenewoud 2007 Regioplan Beleidsonderzoek Nieuwezijds Voorburgwal 35 1012 RD Amsterdam

Nadere informatie

Rapport. Rapportage Bijzondere Bijstand 2013

Rapport. Rapportage Bijzondere Bijstand 2013 w Rapport Rapportage Bijzondere Bijstand 2013 T.J. Slager en J. Weidum 14 november 2014 Samenvatting In 2013 is er in totaal 374 miljoen euro door gemeenten uitgegeven aan bijzondere bijstand. Het gaat

Nadere informatie

Uitwisseling tussen teamleden in sociale teams cruciaal voor prestatie

Uitwisseling tussen teamleden in sociale teams cruciaal voor prestatie Uitwisseling tussen teamleden in sociale teams cruciaal voor prestatie Voorlopige resultaten van het onderzoek naar de perceptie van medewerkers in sociale (wijk)teams bij gemeenten - Yvonne Zuidgeest

Nadere informatie

FinQ Monitor van financieel bewustzijn en financiële vaardigheden van Nederlanders. Auteurs Jorn Lingsma Lisa Jager

FinQ Monitor van financieel bewustzijn en financiële vaardigheden van Nederlanders. Auteurs Jorn Lingsma Lisa Jager FinQ 2018 Monitor van financieel bewustzijn en financiële vaardigheden van Nederlanders Auteurs Jorn Lingsma Lisa Jager 14-1-2019 Projectnummer B3433 Achtergrond van de FinQ monitor Nederlanders in staat

Nadere informatie

Nederlandse samenvatting

Nederlandse samenvatting Kort samengevat is het doel van dit proefschrift het verbeteren van de kwaliteit van officiële statistieken. Kwaliteit van statistische informatie heeft meerdere facetten. Dit werk richt zich op twee van

Nadere informatie

Veranderingen in arbeidsparticipatie en zorggebruik. Een beschrijving van ontwikkelingen van 1997 tot 2008

Veranderingen in arbeidsparticipatie en zorggebruik. Een beschrijving van ontwikkelingen van 1997 tot 2008 Veranderingen in arbeidsparticipatie en zorggebruik. Een beschrijving van ontwikkelingen van 1997 tot 2008 Niels Schenk en Pearl Dykstra Erasmus Universiteit Rotterdam Mei 2013 INTRODUCTIE Onderzoek naar

Nadere informatie

10. Moderatie, mediatie en nog meer regressie

10. Moderatie, mediatie en nog meer regressie 10. Moderatie, mediatie en nog meer regressie Voordat je moderatie en mediatie analyses gaat uitvoeren in, kun je het best een extra dialog box installeren, PROCESS. Volg hiervoor de stappen op pagina

Nadere informatie

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018 Statistiek in de alfa en gamma studies Aansluiting wiskunde VWO-WO 16 april 2018 Wie ben ik? Marieke Westeneng Docent bij afdeling Methoden en Statistiek Faculteit Sociale Wetenschappen Universiteit Utrecht

Nadere informatie

College 3 Interne consistentie; Beschrijvend onderzoek

College 3 Interne consistentie; Beschrijvend onderzoek College 3 Interne consistentie; Beschrijvend onderzoek Inleiding M&T 2012 2013 Hemmo Smit Overzicht van dit college Kwaliteit van een meetinstrument (herhaling) Interne consistentie: Cronbach s alpha Voorbeeld:

Nadere informatie

Tentamen Biostatistiek 3 / Biomedische wiskunde

Tentamen Biostatistiek 3 / Biomedische wiskunde Tentamen Biostatistiek 3 / Biomedische wiskunde 25 maart 2014; 12:00-14:00 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau. Het

Nadere informatie